自然言語処理、個人的な環境構築メモ
苦痛
いきなりですが、Windows環境でPython3で自然言語処理、というかMeCabをインストールするのは本当に苦痛です。というか、苦痛でした。超辛かった。
でまぁ、具体的に色々と問題点を書いてみるとですね。
Pycharmの2バイト文字出力が酷い
2015-06-14現在のアーリーアクセスプログラム版でも、実行して出てくるコンソールの出力がUTF-8にならない。文字化けする。普通に使っているぶんにはなんの問題もないのだけれど、日本語の自然言語処理を行う際にこれは致命的だと思う。
MeCabをWindowsにインストールするのが大変
形態素解析用のMeCabというものがあるんだけど、こいつのPythonバインディングを準備するのが苦痛。インストールされているPythonをビルドしたコンパイラと同じバージョンのVC++コンパイラがインストールされていないと、MeCabのPythonバインディングをビルドできない。
「Unable to find vcvarsall.bat」の対処法 | Regen Techlog
解決策
- Vagrant環境のLinux(Ubuntu14.04)にMeCabその他インストール
- Vagrant側とファイル共有をして、コーディングはWindows環境のPycharmで行う
- デバッグ作業はPycharmで行う。日本語で実行結果を確認したいときは、Windows側のSSHクライアントからvagrantへ接続して実行する。
- てかPycharmにこだわりがないなら普通に仮想環境内でVim使ったほうがいいと思う。
正直これが最適解とは思えないのですが、まぁその辺はお好みで。
結論
Ubuntu側でした作業
だいたいここまでやればNLTKのチュートリアルが普通に動くぐらいにはなる。
おまけメモ:覚えておくと便利なお話
Vagrant init, Vagrant upがプロジェクト内でそのままできちゃうし、VagrantとつながったSSHコンソールがワンクリックで出てくる。強い。
rlcompleter – インタラクティブインタープリタへタブ補完を追加する - Python Module of the Week
インタラクティブシェルでTabキー押すと保管してくれる設定。一旦設定するとこれなしで使える気がしない。
- 作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明
- 出版社/メーカー: オライリージャパン
- 発売日: 2010/11/11
- メディア: 大型本
- 購入: 20人 クリック: 639回
- この商品を含むブログ (44件) を見る
- 作者: 高村大也,奥村学
- 出版社/メーカー: コロナ社
- 発売日: 2010/07
- メディア: 単行本
- 購入: 13人 クリック: 235回
- この商品を含むブログ (41件) を見る