今度こそLucene+Senを動かす

LucenejavadocはDLして解凍したフォルダのlucene-2.4.1/docs/api/index.htmlにある。

とりあえずはよさげなサンプル探しだ

サンプルの通り下記のようにやると、使用すべきではありませんと言われる。

IndexWriter writer = new IndexWriter(index, new JapaneseAnalyzer(), create);

どのサンプルもIndexWriterをnewしてるんだけど・・・
最新のdoc読んでみよう

どうも引数の問題らしい
たぶんIndexWriterのコンストラクタが多すぎるから最低限にしてあとはcommitっていうメソッドを使う方針になったみたい。それでも8種類もある・・・


とりあえずここを参考にしてやってみよう

2009年更新だからきっと問題ないはず

軽くコードを追ってみてだいたいわかった。
StandardAnalyzer()を使っているので日本語に対応している、JapaneseAnalyzer()を使うように修正してみよう。

うまくいかない

駄目もとでTwitterにStreaming API使わせてよ!メールを出してみた。


Luceneのdemoフォルダにある.javaを動かしてみよう
lucene-jaのサンプルで集めたtxtからindexを作成して、文字列を入力して検索して結果を表示するところまではできた

indexを作るためのユーザのtweetを収集するプログラムを修正。固有名詞だけにした

あとサンプルが古いようでかなりWarnningが出るので以下を参考に、SearchJFiles.javaを修正する予定

あとは今は単語から検索してるけどユーザー名を入力して、そのユーザーのTweetのログから検索するようにすれば基本は完成かな
一番肝心な検索方法は要検討

Tweet収集はほぼ完成したけどやっぱりfollow()メソッドじゃ情報量が少なすぎる