今度こそLucene+Senを動かす
LuceneのjavadocはDLして解凍したフォルダのlucene-2.4.1/docs/api/index.htmlにある。
とりあえずはよさげなサンプル探しだ
サンプルの通り下記のようにやると、使用すべきではありませんと言われる。
IndexWriter writer = new IndexWriter(index, new JapaneseAnalyzer(), create);
どのサンプルもIndexWriterをnewしてるんだけど・・・
最新のdoc読んでみよう
どうも引数の問題らしい
たぶんIndexWriterのコンストラクタが多すぎるから最低限にしてあとはcommitっていうメソッドを使う方針になったみたい。それでも8種類もある・・・
とりあえずここを参考にしてやってみよう
2009年更新だからきっと問題ないはず
軽くコードを追ってみてだいたいわかった。
StandardAnalyzer()を使っているので日本語に対応している、JapaneseAnalyzer()を使うように修正してみよう。
うまくいかない
駄目もとでTwitterにStreaming API使わせてよ!メールを出してみた。
Luceneのdemoフォルダにある.javaを動かしてみよう
lucene-jaのサンプルで集めたtxtからindexを作成して、文字列を入力して検索して結果を表示するところまではできた
indexを作るためのユーザのtweetを収集するプログラムを修正。固有名詞だけにした
あとサンプルが古いようでかなりWarnningが出るので以下を参考に、SearchJFiles.javaを修正する予定
あとは今は単語から検索してるけどユーザー名を入力して、そのユーザーのTweetのログから検索するようにすれば基本は完成かな
一番肝心な検索方法は要検討
Tweet収集はほぼ完成したけどやっぱりfollow()メソッドじゃ情報量が少なすぎる