Senの辞書

ちょうどいいところにこんな記事が
MeCabの辞書にはてなキーワードを追加しよう - 不可視点
http://d.hatena.ne.jp/code46/20090531/p1

NAIST Japanese Dictionary: 概要 - SourceForge.JP
http://sourceforge.jp/projects/naist-jdic/

これがいいらしい
.dicファイルなのでそのまま使える
中身を除いてみると

(品詞 (動詞 自立)) *1 (読み シネル) (発音 シネル) (活用型 一段) )

こんな日本語かどうか怪しいものまで登録されている

こいつはただものじゃなさそうだ

これとWikipediaはてなカブトボーグの辞書で十分でしょ

カブトボーグの辞書以外は登録完了〜

と思って実行したら

Tokenizer Class: net.java.sen.ja.JapaneseTokenizer is invalid.

形態素解析ライブラリSenのエラーと原因究明方法 - プログラマはサイコロを振らない
http://d.hatena.ne.jp/Kappuccino/20080912/1221191026

単語登録が多すぎて実行時のヒープも足りなくなったみたい -Xmx512Mとして無事稼働

Naist-jdicで英語が読めない twitterがt_w_i_t_t_e_rとして認識

[ヅラド] Senで使う複合語辞書
http://www.nilab.info/zurazure2/000494.html

こういうことらしい半角アウト!全角OK!さっそく英語を全角にするコードを書こう
と思ったら関係なっかった・・・なんなんだー
どうやらnaist-jdicの辞書を追加すると駄目みたい
unidic辞書もMecabcsv登録しようとするとエラーでちゃうしなぁ
IPADIC+Wikipedia+hatenaで安定かな
IPADIC2.7.0でてるらしい builder.xmlのバージョン書き換えるだけでOK
ポドや: 日本語形態素解析器Senを導入する
http://aquapodo.blogspot.com/2009/05/sen.html
2.7.0も追加エラー・・・Senもう少しまともなものだったらなぁ

とりあえずIPADIC2.6.0 hatena wikipediaで決定

完成
あとはロイドの台詞をDBに詰め込む
カツジの(ry
時間があったらカブトボーグ辞書作る

英単語が文字ごとに分割される問題解決、辞書にアルファベットが1つずつ登録されていた!
該当箇所をすべて削除してNaist-jdicを追加

カブトボーグ辞書を少しだけ作って追加
カツジのBOTテストで接続したらDBのエラー
こういうことらしい
Apache Derby - いがっちの日記
http://d.hatena.ne.jp/ryo_1114/20081118/1227007765

DB設定し直さなきゃ
javadbのサーバが動かないからLinuxMySQLインストール
データベースサーバー構築(MySQL) - CentOS自宅サーバー構築
http://centossrv.com/mysql.shtml
JavaHello World JDBC(MySQL)編
http://www.hellohiro.com/jdbcmysql.htm

結構簡単にできた とりあえずカツジBOTも完成

*1:見出し語 (死ねる 2982