環境構築 - カブトボーグを写経するblog

現在はJava 1.6インスコして、Eclipse Pleiades All in Oneインスコして、Twitter4jをインスコして、EclipseからTwitter4j外部JARとして登録して、せこせこコードを書いています。

Twitter4J - A Java library for the Twitter API
http://yusuke.homeip.net/twitter4j/ja/index.html#introduction

TwitterにPOSTするソースを書いてみた - regtan’s TechNote
http://d.hatena.ne.jp/celitan/20080701/1214924011

これで一応動く物にはなっているのだけど、もう少し凝った物を作ろうと思い、Java DBをインスコして軽くテストをしてみました。

Eclipse GanymedeでJava DBを利用する - ［Javaプログラミング］All About
http://allabout.co.jp/internet/java/closeup/CU20080911A/

あとはDBに「うざい」「ｳｻﾞｲ？ロイドｳｻﾞｸﾅｰｲ」などを対応させて登録して、friendsのPOSTを形態素解析して「うざい」などの単語をプライマリキーとして検索して、該当するならそれに対応した「ｳｻﾞｲ？ロイドｳｻﾞｸﾅｰｲ」を表示　ということをやってみようと思います。
SQL文のdeleteとupdateが成功しないと思ったらシングルクォーテーションじゃなきゃいけなかったとは・・・

DELETE FROM LOID where WORD = 'test';

Javaの形態素解析Senのインストールのメモ
rough justice: Javaでのわかち書き - senライブラリ
http://www.esco-sb.jp/blog/roughjustice/archives/2007/03/java_sen.php

基本的な使い方
形態素解析エンジンSenを使う - 不可視点
http://d.hatena.ne.jp/code46/20070510/p1

senで形態素解析するとき、口語にうまく反応してくれないみたい
辞書は追加できるみたい

口語対応の辞書
https://www.tokuteicorpus.jp/dist/modules/cabinet/admin/cabinet.php?block_id=859&parent_folder_id=200#859

辞書の書式が違うから変換する必要あり
めんどくさかったけど完了
それでも完璧とは言えないから、自分で辞書作る必要ありそう
とりあえずカブトボーグ用は必要かな

追加してテストしたけど妙に単語を細かく細分化する・・・
元々入っているIPA辞書外したらいい感じになってきた

senの辞書にWikipediaの項目名を追加した(詳細版) - nodchipの日記
http://d.hatena.ne.jp/nodchip/20090309/1236615706

wikipediaの一覧を追加して辞書の再生成をするとException in thread "main" java.lang.OutOfMemoryError: Java heap spaceが起きるので、sen\dic\build.xmlのmaxmemoryを適当に増やす

アンサイクロペディアのページタイトルも辞書に登録したいけど、タイトル一覧どこかにないかな
丸ごとダンプしたものはここにあるみたい（タイトルあるといいなー
http://download.uncyclopedia.info/
↑なさそうなので半分あきらめてる

とりあえずtwitterのpostをSenで形態素解析したListを取得するところまで完成したー
↓みたいな感じに「_(アンダーバー)」で区切ったところで分割できてる。
「し_た_ー」みたいなのを「した_ー」としてくれるといいんだけど

snkken:とりあえず twitter の post を Sen で形態素解析した List として取得するところまで完成したー
とりあえず_twitter_の_post_を_Sen_で_形態素_解析_し_た_List_として_取得_する_ところ_まで_完成_し_た_ー_

あとはその形態素解析された、文字列をDBのプライマリキーとして検索して、対応するメッセージをリプライすれば完成かな？

とりあえず完成
今から過去と同じデータを入力する作業を始める