2009年1月14日

Javaで形態素解析:Senを使う

Javaで形態素解析したいなーと思って、その後色々調べてみました。
とりあえずSenを使ったプログラムを組んでみようと思う。いきなり辞書構築でつまづきました。

Senについて参考にしたサイト
- 「Sen - 日本語形態素解析」
- 「形態素解析 Javaでゲーム作りますがなにか?」
大体このふたつを見れば何やれば良いか解ります...が。
落とし穴として、どちらもしれっと
UNIXシステム上へのインストールの方法を紹介してます。

UNIXシステム用意するのも、Cygwin用意するのも面倒くさいんじゃー!
というWindowsユーザも、インストールする方法があります。

- 「WindowsにSenをインストール」
CLASS_PATHの設定やらなにやら面倒くさいですが、この方法でいけます。
一応具体的に...。

1) ActivePerl (Windows上でPerlを動作させるもの)をダウンロードして、インストール

2) Apache Ant をダウンロードして、解凍。programfilesに置くと駄目らしいので
 フォルダの名前をantに変えて、C:\java\ant みたいなパスを用意して配置しました。

3) Sen をダウンロードして、解凍。 C:\java\sen に配置。

4) 環境変数の操作
 コントロールパネル>システム>システムの詳細設定>詳細設定タブ>環境変数 を選択
 システム環境変数に新規で
 ANT_HOME: C:\java\ant
 JAVA_HOME: C:\Program Files\Java\jdk*.*.* (jdkを配置しているパスを選択)
 を作成し、あと元々あると思われるPathという変数に
 C:\java\ant\bin を追加しておきます。

5) 再起動 (必要ないかも)
 PCを再起動します。なんか僕はこれやらないと上手くいきませんでした。

6) コマンドプロンプトで、C:\java\sen\dicまで移動して...
 C:\java\ant\bin\ant -Dperl.bin=C:\Perl\bin\perl.exe
 と打ってエンター。なにやらがしゃがしゃ辞書構築始めます。
 (インターネットに接続されている必要があります。)
 これでdicフォルダの中に、dic.csvみたいな辞書ファイルができているはず。めちゃ重い。

とりあえず今日はここまでー。

トラックバックURL

このエントリーのトラックバックURL:
http://hau.sakura.ne.jp/mt/mt-tb.cgi/51

コメントする