Lucene + Senを動かしてみる - カブトボーグを写経するblog

今日の目標はLucene + Senを動かしてみること
Senは単独で動作しているので、とりあえずはLucene単独で動かすことを目指そう。
Luceneのjavadoc

org.apache.lucene.index (Lucene 2008-12-20_02-04-42 API)
- http://hudson.zones.apache.org/hudson/job/Lucene-trunk/javadoc/org/apache/lucene/index/package-summary.html

なんかいいサンプルがない
古いドキュメントばっかりだな〜
DB使うつもりだったけど、ファイル単位で登録する例ばっかりだ
ユーザーのTweetの保存はtxtにするかな

こんな感じで

cat snkken.txt
あいうおえ
うわー
test

となるとLucene動かすにもテストデータが必要だからTwitterからデータ集めてtxtに出力するプログラム作っちゃおうかな
集める方法はTwitter4jの作者様の山本裕介さんに教えて頂いた方法で、pushでstreamを使おう。
firehoseを使えるのがベストと思ったけど、大手サービスのfavotterでさえ調査しているユーザーは限定してたはず
となるとbirddogがベストか

Twitterの全自動まとめサイトもどきの『ふぁぼったー』を作ったよ！ - 小野マトペの業務日誌(アニメ制作してない篇)
- http://d.hatena.ne.jp/ono_matope/20071121/1195669233

本当は、収集結果の豊かさを確保するために何千人くらいの規模でfavoをサンプリングしたかったんだけど、APIの発行数に限界があるので、アクティブユーザーを中心に採取した5500人の母集団の中から、fav数の多い上位250人をサンプルとしてます。でも下限の人のfav数は230くらいなので、積極的にfavしてる人は大体入ってる筈。この250人も固定ではなく、数日掛けて少しずつ入れ替わっていくと思います。
250人ではいかにも少ない、と思われるかもですが、5500人のサンプルで統計を取った結果、favoriteを使っている人は50%程度だったりしたので、そんなものかもしれません。もちろん、サンプルは多ければ多いほど収集結果は豊かになると思うので、色々サンプルを増やす仕組みは考えていこうと思っています。
余談ですが、このサービスを作るにあたって、Twitterの運営に、「こういうサービスを作りたいからAPI規制を解除してくれ」とメールを出したら、「今規制値を引き上げる方法を考えてるから、ちょっとまってね」と言われてしまいました。ドキュメントには相談してくれって書いてあったのに…！

Twitetr APIの日本語訳
- http://watcher.moe-nifty.com/memo/docs/twitterAPI.txt

とりあえずは誰でも使えるbirddogの機能制限版のshadowでサービス動かして、こんなの作ったからbirddog使わせてくれろ！って言えばいいか
結局制限解除してくれそうにないけどそれはしょうがない

長くなりそうなので分離