今さらかもですが、AppStoreで
EBPocket free for iPhone/iPod touchを発見!
小躍りしながらインストール。おぉ、動く動く!!
大喜びした勢いで、以前作ったオフラインWikipediaを再作成することにしました。基本的な手順は以前書いた
オフラインでWikiPedia検索http://bird-memo.seesaa.net/article/88022281.htmlと大きく変わりませんが、私の使ってるディストリビューションが
Gentooから
ubuntuに代わり、使用させていただくツール類もバージョンが上がっていたので、未来の自分のために改めてメモ。以前の記事で触れた部分は適当に端折って書いてしまうのでご注意下さい>未来の自分。
−重要な追記:2009/06/25−ubuntu 9.04のperlは64bit整数型(
USE_64_BIT_INT)がサポートされていないため、変換作業の最後の方で処理が異常終了してしまいます。perlをセルフビルドしない限り解決策はなさそうです…残念。
ウィキペディアの辞書化 その2 - はけの徒然日記http://d.hatena.ne.jp/hake/20090516/p1−重要な追記:ここまで−まずは下準備として必要なパッケージを導入しておきましょう。今現在の私の環境で追加が必要だったのは
zlib1g-dev /
perlmagick /
mimetex の3つ(とその関連パッケージ)でした。後者2つは数式を含めない設定にすれば必要ないはずです。
sudo apt-get install zlib1g-dev perlmagick mimetex
ビルド環境が整ってない場合はそれも整えておきましょう。(導入するのって
build-essential でしたっけ?)
続いてツールの準備。まずは変換ツールである
wikipedia-fpwを導入します。現時点で最新版のファイル名は
wikipedia-fpw-20090428-src.tar.gzでした。ダウンロードして、適当な場所に展開します。(私は
/workにしました)
cd /work
wget http://ikazuhiro.g.ribbon.to/dic/files/wikipedia-fpw-20090428-src.tar.gz
tar zxvf wikipedia-fpw-20090428-src.tar.gz
ツールのディレクトリとして
wikipedia-fpw-20090428が出来上がります。中に
wikipedia-fpw.conf という設定ファイルがあるので、必要に応じて修正します。私が変えたのは以下の2箇所です。
'mimetex' => 'mimetex',
'math_black' => 0,
それ以外の場所はお好みでどうぞ。
続いてJIS X 4081 形式の書籍データ生成ツールである
FreePWINGを導入します。現時点での最新バージョンは
1.6でした。以前の手順では
wikipedia-fpwの作者様が作成したパッチ適用版を使用させていただいておりましたが、該当パッチは全て本家
FreePWINGにマージされたそうです。
導入は普通のビルド手順どおりなので一気に行きます。
cd /work
wget ftp://ftp.sra.co.jp/pub/misc/freepwing/freepwing-1.6.tar.bz2
tar jxvf freepwing-1.6.tar.bz2
cd freepwing-1.6
./configure
make
sudo make install
最後に辞書の圧縮ツールとして
EB Libraryを導入します。現時点での最新バージョンは
4.4.1でした。
導入はこれまたお作法通り。
cd /work
wget ftp://ftp.sra.co.jp/pub/misc/eb/eb-4.4.1.tar.lzma
tar xvf eb-4.4.1.tar.lzma --lzma
cd eb-4.4.1
./configure
make
sudo make install
これで準備完了。いよいよデータの入手と変換に入ります。
まずは
データベースダウンロードのページから最新版のデータを入手します。必要なのは
jawiki-latest-pages-articles.xml.bz2というファイルになります。
これを書いている時点でのファイルサイズは938.3MBととっても巨大です。覚悟してダウンロードしましょう。あとダウンロードするファイル、変換するための中間ファイル、最後に出来る辞書ファイルで10GB前後のディスクを消費します。それなりの空きスペースを確保しておきましょう。
ダウンロードして展開し、先ほど準備した
wikipedia-fpwのディレクトリに移動します。その際ファイル名は
wikipedia.xml に変更しておく必要があります。
cd /work
wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
bzip2 -d jawiki-latest-pages-articles.xml.bz2
mv jawiki-latest-pages-articles.xml wikipedia-fpw-20090428/wikipedia.xml
では変換作業に入ります。
wikipedia-fpwのディレクトリに移動し、以下のコマンドを実行します。
cd /work/wikipedia-fpw-20090428
fpwmake
fpwmake catalogs
fpwmake package
変換にはかなりの時間がかかります。環境にもよりますが、4時間とか5時間とか。慌てず騒がずのんびり待ちましょう。カタログ作成は一瞬、パッケージの作成は最後のZIP圧縮に結構時間がかかります。ただZIP書庫はどうせあとで解凍するので、ZIP書庫作成の段階に入ったらCtrl+cで処理を止めちゃってもOKです。
さて、辞書ファイルが完成したら辞書の圧縮を行います。ZIP書庫が完成してしまった方はあらかじめ解凍しておいてください。ここまでの作業でカレントディレクトリに
WIKIPというディレクトリが出来ていると思いますが、これが辞書ファイルの格納先です。ここに移動して、辞書の圧縮を実施します。
mkdir /work/wiki-ebzip
cd WIKIP
ebzip --level 5 --output-directory /work/wiki-ebzip
これでお終い。
作業自体は簡単ですが、とにかく待ち時間が長いです。出来るだけ時間に余裕があるときに実施されることをお勧めします。変換作業などは夜にスタートしてそのまま寝ちゃうくらいでいいかもしれません。
ツール作者の方々に感謝いたします。ありがとうございました。