類似発言

Twitterで自分と似たようなPOSTをしているようなユーザーを探すサービスを作ろうと思う。(軽く調べた限り同じサービスはなし?

POSTさえ集められればそこまで難しくないはず!(類似度の精度は別として

一番の問題は最低1日のPOSTを集めてDBに突っ込むこと
どうやって1日丸ごとのPOSTを集めればいいんだろう

#PS
1日ごとの似ているユーザーじゃなくて、情報を集めてから今までで類推するシステムは難しくないかも
けど1時間で100回しかpublictimeline取得できないのかー、日本語ユーザーだけ取得するならいいけど、外人も含むとなるとすぐにAPI制限かかりそうだ
日本語ユーザーだけ指定とか無理だろうから、pulicTimeline取得して、POSTに全角文字列が含まれていたらDBに追加とかそんな感じかな
(最悪なパターンはpublictimeline取得! 外人ユーザーしかいないpublictimeline取得!外人ゆーz(ry

どこか参考にできる情報残してくれてるサービスはないのかーーーー
日本語public_timeline - twitter検索
http://pcod.no-ip.org/yats/public_timeline
このサービスのRSSを解析して使えば便利かな?
解析とかよくわからないけど
http://pcod.no-ip.org/yats/public_timeline?rss

これならAPIも引っかからないし1ページが大きい?
問題は1度取得したあと、その次からどうやって取得するか
twitter4jならsetSinceId()があるから簡単なのに
どうやらRSSで投稿した時間を分単位で取得できるみたいだから、最後に取得した時間+1から取得すればいいか

とりあえずこれで作ってみようかな
設計としては、ユーザー1つのDB作って新しいユーザーを見つけたらユーザー名のテーブルを作成、ついでにそのPOSTを登録。
既にいるユーザーならテープルを新しく作らずそのテープルにPOSTを登録。
これだけ?
テープルのあるなしの判断はどうやるんだろう? 見つけた
tk-engineering.com Technical blog | テーブルの存在確認
http://blog.tk-engineering.com/?eid=531179

RSS取得できた
【ハウツー】JavaAtomRSS等のフィードを扱うならこれ! - ROME (2) 使ってみよう | エンタープライズ | マイコミジャーナル
http://journal.mycom.co.jp/articles/2007/04/28/rome/001.html
ユーザー、時間、本文のURLは取得できたから、そのURLからPOSTを抽出すればいけそう
頑張ったけど諦めて方針変更

#PS 6/20
と思ったけどできた!
entry.getDescription().getValue()で本文抽出成功

普通にpublictimelineからマルチバイトを取得する作戦へ
とらえず6秒間隔でpublictimelineを取得して、全角を含んでいたら表示は完成
これでどれほど日本語ユーザーが取得できるかテスト
全角だと日本語以外のユーザーも入っちゃう
しょうがないか

1秒サイクルでも1回のpublictimeline取得で1つ日本語のpostがあるかどうかだ・・・
これもだめかぁ
いったいこういうサービスを開発している人はどうやって日本語ユーザー取得しているんだろう
日本語public_timeline - twitter検索
http://pcod.no-ip.org/yats/public_timeline
りんくはったー - ついったーランキング (Twitter Ranking)
http://twitty.jp/