Senの辞書
ちょうどいいところにこんな記事が
MeCabの辞書にはてなキーワードを追加しよう - 不可視点
http://d.hatena.ne.jp/code46/20090531/p1
NAIST Japanese Dictionary: 概要 - SourceForge.JP
http://sourceforge.jp/projects/naist-jdic/
これがいいらしい
.dicファイルなのでそのまま使える
中身を除いてみると
(品詞 (動詞 自立)) *1 (読み シネル) (発音 シネル) (活用型 一段) )
こんな日本語かどうか怪しいものまで登録されている
こいつはただものじゃなさそうだ
これとWikipedia、はてな、カブトボーグの辞書で十分でしょ
カブトボーグの辞書以外は登録完了〜
と思って実行したら
Tokenizer Class: net.java.sen.ja.JapaneseTokenizer is invalid.
形態素解析ライブラリSenのエラーと原因究明方法 - プログラマはサイコロを振らない
http://d.hatena.ne.jp/Kappuccino/20080912/1221191026
単語登録が多すぎて実行時のヒープも足りなくなったみたい -Xmx512Mとして無事稼働
Naist-jdicで英語が読めない twitterがt_w_i_t_t_e_rとして認識
[ヅラド] Senで使う複合語辞書
http://www.nilab.info/zurazure2/000494.html
こういうことらしい半角アウト!全角OK!さっそく英語を全角にするコードを書こう
と思ったら関係なっかった・・・なんなんだー
どうやらnaist-jdicの辞書を追加すると駄目みたい
unidic辞書もMecabのcsv登録しようとするとエラーでちゃうしなぁ
IPADIC+Wikipedia+hatenaで安定かな
IPADIC2.7.0でてるらしい builder.xmlのバージョン書き換えるだけでOK
ポドや: 日本語形態素解析器Senを導入する
http://aquapodo.blogspot.com/2009/05/sen.html
2.7.0も追加エラー・・・Senもう少しまともなものだったらなぁ
とりあえずIPADIC2.6.0 hatena wikipediaで決定
完成
あとはロイドの台詞をDBに詰め込む
カツジの(ry
時間があったらカブトボーグ辞書作る
英単語が文字ごとに分割される問題解決、辞書にアルファベットが1つずつ登録されていた!
該当箇所をすべて削除してNaist-jdicを追加
カブトボーグ辞書を少しだけ作って追加
カツジのBOTテストで接続したらDBのエラー
こういうことらしい
Apache Derby - いがっちの日記
http://d.hatena.ne.jp/ryo_1114/20081118/1227007765
DB設定し直さなきゃ
javadbのサーバが動かないからLinuxにMySQLインストール
データベースサーバー構築(MySQL) - CentOSで自宅サーバー構築
http://centossrv.com/mysql.shtml
JavaでHello World JDBC(MySQL)編
http://www.hellohiro.com/jdbcmysql.htm
結構簡単にできた とりあえずカツジBOTも完成
*1:見出し語 (死ねる 2982