2011年5月9日月曜日

Wikipedia のダンプデータの利用

Wikipedia からダンプデータをダウンロード
jawiki-latest-pages-articles.xml.bz2

ダウンロードしたファイルの解凍
cygwin を利用

解凍したファイルからダンプファイルを作成
xml2sql-0.5を利用

<redirect>がエラーを起こすため、sedで置換
bunzip2 -c jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect>//' | xml2sql -v 

MediaWiki をインストールしておく
そのままインポートすると異常に時間が掛る
 maintenance/tables.sql を書き換えると相当早くなるようでした。
 更新しないならばUNIQUE INDEXを削除と、テーブルをMyISAM指定にします。
 1:tables.sqlを開く
 2:UNIQUE INDEX で検索し、その行を全て削除
 3:"/*$wgDBTableOptions*/" を "ENGINE = MyISAM" に一括置換
 (おまけ:page, revision, text 以外使わないなら、それ以外のCREATE TABLE文を削る)
これでトータル数十分ぐらいになりました

ダンプデータのインポート
mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u ユーザ名 -p -d -L DB名 text.txt

参考ページ
http://chamu.org/blog/?p=412
http://www.zubapita.jp/2009/03/02/build_wikipedia_db/

0 件のコメント:

コメントを投稿