Twitter4jでFollowerのscreen_nameを取得したい

Twitter4jでscreen_nameを取得したい getFollowersStatusでUserを取得して、user.getScreenName()だと getFollowersStatus*ページ数のAPIを使用するのがつらい getFollowersIDs()なら1度の実行で5000件のIDを取得できるが、screen_nameを取得するには、userS…

2009-07-01

SolrによるDBからのindex作成　DataImportHandler

サービス開発日誌

2009-03-02 - ぼうずの日常的雑感 http://d.hatena.ne.jp/bowez/20090302 メモリリークするらしい 1.4使ったほうがいいのかなメモ solrとかの実験 - メインページ - myfinder -redMine- http://repos.myfinder.jp/wiki/hadoop-and-lucene

2009-06-29

MySQLに追加する際のエラー

サービス開発日誌

たまにこんなエラーが発生する文字コードとかの問題かな？ org.seasar.framework.exception.SQLRuntimeException: [ESSR0072]SQLで例外(SQL=[insert into TWEETS (STATUS_ID, URL, IMAGE, CONTENT, USER, CREATED_AT) values (?, ?, ?, ?, ?, ?)], Message=…

2009-06-29

JSONからjavaにデータを読み込む方法

サービス開発日誌

前回挫折したけど再度挑戦日本語PublicTweetにはアイコンの画像データが配信されていないためにJSONで取得に切り替え JSONICは使い方わからなかったので、別の物を使ってみる FlaCode: del.icio.usをJSONのAPIを通してJavaから利用する http://flacode.sees…

2009-06-28

NgramTokenizerの問題点

サービス開発日誌

IndexReader reader = IndexReader.open(dir,true); IndexSearcher searcher = new IndexSearcher(reader); Analyzer analyzer = new NGramAnalyzer(); QueryParser parser = new QueryParser("contents", analyzer); String target ="石川遼"; target = tar…

2009-06-28

またまたシステム構成変更

サービス開発日誌

書いてる途中とりあえずsolrとDB使うことにする EclipseプラグインのDB ViewerとAmaterasERDを導入http://amateras.sourceforge.jp/まず最初にAmaterasERDから離れて、MySQLに今回利用するユーザーとパスワードを作成しよう。できた（というか前に作ったの…

2009-06-27

IndexWriterクラスのupdateDocumentメソッド

サービス開発日誌

IndexWriterのJavadocの日本語訳 | 関口宏司のLuceneブログ http://lucene.jugem.jp/?eid=185 indexを作成するクラスが、deleteしてaddDocumentしているからupdateDocumentに修正してみようと思う。こんな感じにしたけどうまくいかないファイルを更新する…

2009-06-27

マルチスレッドでインデックスの作成と検索

サービス開発日誌

Lucene入門に書いてあったけど、マルチスレッドで作成すると10倍ほど早いことがあるらしい、土曜日で作成と検索を完成させたいインデックスの作成では今回の環境においてあまり意味がないので辞めたインデックスの検索では意味があるけど難しくてわからな…

2009-06-26

Luceneスコアの表示

サービス開発日誌

Hitsクラスを使わないでTopDocsクラスとScoreDocクラスを使った場合 System.out.println("Searching for: " + query.toString("contents")); TopDocs docs = searcher.search(query, 10); for (ScoreDoc scoreDoc : docs.scoreDocs) { int docId = scoreDoc.…

2009-06-26

何もいじってないはずのMoreLikeThisが動かなくなった

サービス開発日誌

なぜだあああああああああああクエリーを生成するドキュメントが少ないからだった

2009-06-25

Luceneのインデックスをバックアップ

サービス開発日誌

IndexDeletionPolicyとSnapshotDeletionPolicy | 関口宏司のLuceneブログ http://lucene.jugem.jp/?eid=179 よくわからない普通にコピーでバックアップでいいかな週1くらいで十分

2009-06-25

インデックスの作成方法

サービス開発日誌

その1 日本語のPublicTimeLineをいろいろな情報と共にDBに追加その中のTweetをSenで形態素解析して、またDBに追加そのDBからDataImportHandlerを使いインデックスに追加その2 日本語のPublicTimeLineをいろいろな情報と共にDBに追加その中のTweetをSenで…

2009-06-25

MySQLのバックアップ

サービス開発日誌

［MySQLウォッチ］第23回押さえておきたいバックアップとリストアのポイント：ITpro http://itpro.nikkeibp.co.jp/article/COLUMN/20060122/227654/ bk-mysql http://d.tir.jp/pw?bk-mysql#H-1skp6fu mysqldump --user=root -x -F --all-databases > db.dmp…

2009-06-25

Apache Lucne入門を買った

サービス開発日誌

Apache Lucne入門を買った買って良かった Index周りだいぶ適当にやってたからそこらへんを綺麗に書けば速度上げられそうただところどころ古いのが残念 Hitsクラスとか使ってたりしちゃう

2009-06-25

オリジナルのアナライザ

サービス開発日誌

↓で話したEdgeNGramTokenFilterを利用したオリジナルのanalyzerを作ってみたサービスの検索システムの変更 - カブトボーグを写経するblog http://d.hatena.ne.jp/snkken/20090624/1245806883/ まず1行目でreaderを正規化します。具体的には、半角カタカナ…

2009-06-24

サービスの検索システムの変更

サービス開発日誌

前から悩んでいる検索時にJapaneseAnalyzerを使うと処理が遅いということ検索で結果が帰ってくるのに5秒かかったら誰でも嫌気がさすということで検索はCJKもしくはNgramの拡張ですることに決定 NGramTokenizerとEdgeNGramTokenFilter | 関口宏司のLuceneブ…

2009-06-24

Solrで検索するときにトーカナイザーを指定する方法

せっかくanalysisでjapaneseAnalyzerで形態素解析できるようになっても、どうやらデフォルトでは検索するときはstandardで行われている模様qf=textみたいにしてフィールドを選択するのかな？と思ったけどエラーなんか文字化けしてる・・・普通に検索する文…

2009-06-24

analyzer-sen.xmlを使ってSenの設定

サービス開発日誌

analyzer-sen.xmlはEclipseのsrcフォルダ直下に入れて下記のように書けば設定が反映されます。 System.setProperty("org.apache.lucene.ja.config.file", "analyzer-sen.xml"); 今回の検索システムでは自立語以外はできる限り除去したいので、品詞で必要なさ…

2009-06-23

solrJでMoreLikeThisを使う

サービス開発日誌

MoreLikeThisParams (Solr-j nightly API) http://lucene.apache.org/solr/api/solrj/org/apache/solr/common/params/MoreLikeThisParams.html MoreLikeThisParams.TermStyle (Solr-j nightly API) http://lucene.apache.org/solr/api/solrj/org/apache/solr…

2009-06-23

Lucene + Senで検索する度に

サービス開発日誌

log4j:WARN No appenders could be found for logger (net.java.sen.Dictionary). log4j:WARN Please initialize the log4j system properly. と表示されて妙に時間がかかる。JapaneseAnalyzerで時間がかかってる、CJKAnalyzerならあっという間に結果がでたa…

2009-06-23

Twitterフォント風のロゴを作成してくれるサービス

サービス開発日誌

Generate Your Own Twitter Logo | Twitlogo http://www.twitlogo.com/ サービス稼動できたら是非使わせていただこうｗ

2009-06-23

本稼働に向けての構成を考えよう

サービス開発日誌

システム要件 Webサーバデータベース Twitetr日本語PublicTimelineクローラ収集した情報からインデックスを作成する検索するページに表示こんなところかなとりあえずはマシン1台で、無理があるなら機能別に分離予定ハードウェアは余ってる自作PCのAthl…

2009-06-23

Solrメモ

サービス開発日誌

solr1.2-seminar-rel1.0.pdf :: handsOut.jp http://handsout.jp/slide/1406?variety=2 ここによると検索結果をXML以外でも返せるようで、個人的にはRSSで返してくれると嬉しいなさそうだけどどうやらjsonかxmlのどちらかになりそう。RSSはないみたいだ So…

2009-06-23

SolrJを使って検索

サービス開発日誌

SolrJというものがAPIとしてSolrに同封されているらしい新・たけぞう瀕死の日記 http://www3.vis.ne.jp/~asaki/p_diary/diary.cgi?Date=20090601#2009060101 Javaで普通にLuceneを使って検索するよりもだいぶ簡単にコードを記述できるようだ。結果の取得も…

2009-06-23

solrの検索結果のxmlを整形して表示するには？

サービス開発日誌

solrの検索結果のxmlを整形して表示するにはどうしたらいいんだろう？ユーザーから直接solrにクエリーを投げてもらうのではなく、サーバがクエリーを受けて、そのクエリーでサーバがsolrから検索、その結果のxmlをサーバのjavaで取得して、整形したhtmlかな…

2009-06-22

LuceneでMoreLikeThisを使う

サービス開発日誌

LuceneでMoreLikeThisがうまくいかない(いった) - カブトボーグを写経するblog http://d.hatena.ne.jp/snkken/20090620/1245510568 ここの通りうまくいったどうもここで妙に時間がかかっている Query query = mlt.like(new BufferedReader(new InputStreamRe…

2009-06-22

SolrでMoreLikeThisクラスを使って検索

サービス開発日誌

solr-rubyメモ - 山羊の頭の日記 http://d.hatena.ne.jp/tolerance/20080802#p1 MoreLikeThis - Solr Wiki http://wiki.apache.org/solr/MoreLikeThis こちらを見る限りできるらしいおまけ MoreLikeThisComponent と Solr スキーマMLT では、フィールドが保…

2009-06-21

Solrインストール手順まとめ

Windows環境におけるSolrのインストール手順をまとめてみる Cygwinのコマンドをところどころ使ってます。 Tomcatのダウンロード、インストール set LUCENE_HOME=C:\Lucene mkdir %LUCENE_HOME% cd %LUCENE_HOME% wget http://ftp.riken.jp/net/apache/tomcat…

2009-06-21

Solrインストール

サービス開発日誌

Tomcatのダウンロード C:\Lucene\tomcatとして展開 Solrのダウンロード http://lucene.apache.org/solr/ apache-solr-1.3.0\example\webapps\solr.warを C:\Lucene\tomcat\webapps\solrとして展開 apache-solr-1.3.0\example\solr\bin と apache-solr-1.3.0\…

2009-06-20

SearchJFiles.javaの修正

下記を参考に開始 2009年06月11日の記事 | 関口宏司のLuceneブログ http://lucene.jugem.jp/?day=20090611 恐らく一番の肝はHitsクラスを使わないでTopDocsクラスを使うところとりあえずjavadocを読む修正完了 30行くらい短くなってWarnningが消えたこんな…

2009-01-01から1年間の記事一覧