Wikipedia からダンプデータをダウンロード
jawiki-latest-pages-articles.xml.bz2
ダウンロードしたファイルの解凍
cygwin を利用
解凍したファイルからダンプファイルを作成
xml2sql-0.5を利用
<redirect>がエラーを起こすため、sedで置換
bunzip2 -c jawiki-latest-pages-articles.xml.bz2 | sed -e 's/<redirect>//' | xml2sql -v
MediaWiki をインストールしておく
そのままインポートすると異常に時間が掛る
maintenance/tables.sql を書き換えると相当早くなるようでした。
更新しないならばUNIQUE INDEXを削除と、テーブルをMyISAM指定にします。
1:tables.sqlを開く
2:UNIQUE INDEX で検索し、その行を全て削除
3:"/*$wgDBTableOptions*/" を "ENGINE = MyISAM" に一括置換
(おまけ:page, revision, text 以外使わないなら、それ以外のCREATE TABLE文を削る)
これでトータル数十分ぐらいになりました
ダンプデータのインポート
mysqlimport --fields-terminated-by='\t' --default-character-set=utf8 -u ユーザ名 -p -d -L DB名 text.txt
参考ページ
http://chamu.org/blog/?p=412
http://www.zubapita.jp/2009/03/02/build_wikipedia_db/
0 件のコメント:
コメントを投稿