mecabを使用した形態素解析導入メモ

さくらインターネットのレンタルサーバでmecabを使うメモ
もともとインストールされているが文字コードがeuc-jpの辞書のみ、php-mecabもなし。
使用方法は
% echo “mecabを試す” | mecab
% cat test.txt | mecab
などなど。
ターミナルとテキストファイル、辞書の文字コードに注意する必要あり。
辞書を切り替えるには
% echo “mecabを試す” | mecab -d dic_dir
辞書を比較できるサービス
http://www.mwsoft.jp/programming/munou/mecab_dic_perform.html

mecab-ipadic(UTF-8辞書)をインストールするのに参考にしたサイト。とても参考になりました。
http://nymemo.com/sakura/258/

% wget http://sourceforge.net/projects/mecab/files/mecab-ipadic/2.7.0-20070801/mecab-ipadic-2.7.0-20070801.tar.gz
% cd mecab-ipadic-2.7.0-20070801
% foreach f ( *csv )
nkf -w –overwrite $f
end
% foreach f ( *def )
nkf -w –overwrite $f
end
% vi dicrc
(旧)config-charset = EUC-JP
(新)config-charset = UTF-8
% mkdir -p ~/local/mecab-dic/ipadic-utf8
% ./configure –with-charset=utf8 –with-dicdir=~/local/mecab-dic/ipadic-utf8
% make
% make install

$ mecab -P | grep config-charset
config-charset: UTF-8
//config-charset: EUC-JPだと失敗

試してみる
% echo “mecabを試す” | mecab -d ~/local/mecab-dic/ipadic-utf8

デフォルト辞書を変更するのに参考にしたサイト
http://webcache.googleusercontent.com/search?q=cache:1QfjGoDSCFIJ:kane.meta-scheme.jp/article/37183101.html+&cd=1&hl=ja&ct=clnk&gl=jp

mecabrcをコピーして属性を変えたのちに編集
% cp -i /usr/local/etc/mecabrc ${HOME}/.mecabrc
% chmod u+w ${HOME}/.mecabrc
% vi ${HOME}/.mecabrc
(旧)dicdir = /usr/local/lib/mecab/dic/ipadic
(新)dicdir = /home/username/local/mecab-dic/ipadic-utf8
→絶対パスで指定

php-mecabをインストールするのに参考にしたサイト
http://www.konnect-kollect.info/%E3%81%95%E3%81%8F%E3%82%89%E3%82%A4%E3%83%B3%E3%82%BF%E3%83%BC%E3%83%8D%E3%83%83%E3%83%88%E3%81%A7mecabphp%E3%82%92%E4%BD%BF%E3%81%86.html

% wget –no-check-certificate https://github.com/downloads/rsky/php-mecab/php-mecab-0.5.0.tgz
% tar xvfz php-mecab-0.5.0.tgz
% cd php-mecab-0.5.0
% phpize
% ./configure -with-mecab=/usr/local/bin/mecab-config -with-php-config=/usr/local/php/5.4/bin/php-config -prefix=$HOME/local
% make
% vi Makefile
(旧)#EXTENSION_DIR = /usr/local/php/5.4/lib/php/extensions/no-debug-non-zts-20100525
(新)EXTENSION_DIR = $(HOME)/local/lib/php/extensions/no-debug-non-zts-20100525
% make install
% cd $HOME/local/lib/php/extensions/
% mv no-debug-non-zts-20100525/mecab.so ./
% vi ~/www/php.ini
(追記)extension_dir=”/home/さくらインターネットID/local/lib/php/extensions”
(追記)extension=mecab.so
(追記)mecab.default_dicdic=/home/さくらインターネットID/local/mecab-dic/ipadic-utf8″

読み込まれているかの確認。下記ファイルphpinfo.phpを作成してブラウザで確認。

  • このエントリーをはてなブックマークに追加
コメントの入力は終了しました。