概要
みなさんこんにちはcandleです。形態素解析エンジンmecabをmacに入れてみましょう。
mecabは日本語を分析し、名刺や形容詞などの種類に分けたりできる便利なソフトです。
よく使われる例ではtwitterと連動して、つぶやきの傾向を解析したり、自然言語を話せるAIの作成など、幅広い分野で使われます。
前提
- MacPortsが予め入っている事
- Linuxコマンドが最低限使える
MacPortsでmecabを探す
次のコマンドをうって、macportsにmecabのパッケージがあるか確認しましょう。
port search mecab
様々なmecabに関するパッケージが現れます。その中に、mecabと堂々と書いてあるものがあります。それをインストールします。
mecabをインストールする
sudoコマンドとmacportsのインストールコマンドを掛け合わせたコマンドを打ち込みます。
sudoは権限を与えて実行するという意味です。特に、macのシステムに関わるときはこれを入れておくと無難に動きます。
sudo port install mecab
問題なくインストールできたでしょうか?
mecabの辞書を探す
もしも、あなたのターミナルがeucの文字エンコーディングを使っているなら、直ぐにmecabが使えます。最後まで飛んでください。しかし、多くのターミナルはutf8を使っていると思います。もしも、utf-8を使っているならばこの作業を行ってください。
次に、辞書をインストールします。mecabは辞書を参照して、解析をしているので、辞書がなければなりまんせん。初期設定ではeucの文字エンコーディングの辞書が入っていますが、utf-8の文字エンコーディングの方が使用率が高いので、utf-8対応の辞書をインストールします。先ほどと同じように、
port search mecab
と打ち込むと、様々なmecabのライブラリがでてきます。その中に、
mecab-ipadic-utf8 @2.7.0-20070801 (textproc, japanese) ipadic of utf8 encoding for MeCab
があります。
utf-8のパッケージがあるのを確認しました。
mecabの辞書mecab-ipadic-utf8をインストール
mecabを入れた要領で、
sudo port install mecab-ipadic-utf8
インストールします。
mecabの設定フィアルを探す
utf8の辞書をインストールしても、設定しない限りはeucの辞書のままです。
mecabが使う辞書を mecab-ipadic-utf8に変更します。
変更するにはmecabrcファイルを編集します。もしも、OSがlionの場合はおそらくルートディレクトリのoptディレクトリ以下に保存されていと思います。
mecabrcをfindコマンドで探してみよう。一般的にファイルを探すときは下のコマンドを打ちます。
find 探したいディレクトリ名 -name "ファイルのキーワード"
optディレクトリ内にあると予想して mecabrcを探すには
find /opt/ -name "mecabrc"
になります。
図を見て分かるようにopt以下にmecabrcがあることがわかります。
もしも見つからない場合は、探すフォルダをoptではなくusrかetc、varで検索してみましょう。
見つけたらmecabrcがあるディレクトリに移動します。
cd /opt/local/etc/
mecabrcの編集
それではmecabrcのファイルを編集します。
私はemacsを使っていますがエディタは何でも平気です。
sudo emacs mecabrc
設定ファイルを見ると辞書のパスがsysdicになっています。
ipadic-utf8に変更します。
dicdir = /opt/local/lib/mecab/dic/sysdic
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓
dicdir = /opt/local/lib/mecab/dic/ipadic-utf8
mecabrcファイルを保存します。
mecabを使ってみる
以上で設定は終わりです。
ターミナルにmecabと打ち込みます。
mecab
mecabと打ち込んだら、続けて日本語の文書を書き込みましょう。
試しに「私は今朝コーヒーを飲んだ」と打ち込みましょう。
無事に日本語が解析されれば成功です。
まとめ
macにmecabを入れてみました。mecabは様々な使い方ができる面白いソフトなので、色々調べて使っていくと良いと思います。このサイトでも今後紹介できればと思っています。