Lucene + Senを動かしてみる

今日の目標はLucene + Senを動かしてみること
Senは単独で動作しているので、とりあえずはLucene単独で動かすことを目指そう。
Lucenejavadoc

なんかいいサンプルがない
古いドキュメントばっかりだな〜
DB使うつもりだったけど、ファイル単位で登録する例ばっかりだ
ユーザーのTweetの保存はtxtにするかな

こんな感じで

cat snkken.txt
あいうおえ
うわー
test

となるとLucene動かすにもテストデータが必要だからTwitterからデータ集めてtxtに出力するプログラム作っちゃおうかな
集める方法はTwitter4jの作者様の山本裕介さんに教えて頂いた方法で、pushでstreamを使おう。
firehoseを使えるのがベストと思ったけど、大手サービスのfavotterでさえ調査しているユーザーは限定してたはず
となるとbirddogがベストか

本当は、収集結果の豊かさを確保するために何千人くらいの規模でfavoをサンプリングしたかったんだけど、APIの発行数に限界があるので、アクティブユーザーを中心に採取した5500人の母集団の中から、fav数の多い上位250人をサンプルとしてます。でも下限の人のfav数は230くらいなので、積極的にfavしてる人は大体入ってる筈。この250人も固定ではなく、数日掛けて少しずつ入れ替わっていくと思います。

250人ではいかにも少ない、と思われるかもですが、5500人のサンプルで統計を取った結果、favoriteを使っている人は50%程度だったりしたので、そんなものかもしれません。もちろん、サンプルは多ければ多いほど収集結果は豊かになると思うので、色々サンプルを増やす仕組みは考えていこうと思っています。

余談ですが、このサービスを作るにあたって、Twitterの運営に、「こういうサービスを作りたいからAPI規制を解除してくれ」とメールを出したら、「今規制値を引き上げる方法を考えてるから、ちょっとまってね」と言われてしまいました。ドキュメントには相談してくれって書いてあったのに…!

とりあえずは誰でも使えるbirddogの機能制限版のshadowでサービス動かして、こんなの作ったからbirddog使わせてくれろ!って言えばいいか
結局制限解除してくれそうにないけどそれはしょうがない


長くなりそうなので分離