2009-01-01から1年間の記事一覧

Twitter4jでFollowerのscreen_nameを取得したい

Twitter4jでscreen_nameを取得したい getFollowersStatusでUserを取得して、user.getScreenName()だと getFollowersStatus*ページ数のAPIを使用するのがつらい getFollowersIDs()なら1度の実行で5000件のIDを取得できるが、screen_nameを取得するには、userS…

SolrによるDBからのindex作成 DataImportHandler

2009-03-02 - ぼうずの日常的雑感 http://d.hatena.ne.jp/bowez/20090302 メモリリークするらしい 1.4使ったほうがいいのかなメモ solrとかの実験 - メインページ - myfinder -redMine- http://repos.myfinder.jp/wiki/hadoop-and-lucene

MySQLに追加する際のエラー

たまにこんなエラーが発生する 文字コードとかの問題かな? org.seasar.framework.exception.SQLRuntimeException: [ESSR0072]SQLで例外(SQL=[insert into TWEETS (STATUS_ID, URL, IMAGE, CONTENT, USER, CREATED_AT) values (?, ?, ?, ?, ?, ?)], Message=…

JSONからjavaにデータを読み込む方法

前回挫折したけど再度挑戦 日本語PublicTweetにはアイコンの画像データが配信されていないためにJSONで取得に切り替え JSONICは使い方わからなかったので、別の物を使ってみる FlaCode: del.icio.usをJSONのAPIを通してJavaから利用する http://flacode.sees…

NgramTokenizerの問題点

IndexReader reader = IndexReader.open(dir,true); IndexSearcher searcher = new IndexSearcher(reader); Analyzer analyzer = new NGramAnalyzer(); QueryParser parser = new QueryParser("contents", analyzer); String target ="石川遼"; target = tar…

またまたシステム構成変更

書いてる途中とりあえずsolrとDB使うことにする EclipseプラグインのDB ViewerとAmaterasERDを導入http://amateras.sourceforge.jp/まず最初にAmaterasERDから離れて、MySQLに今回利用するユーザーとパスワードを作成しよう。 できた(というか前に作ったの…

IndexWriterクラスのupdateDocumentメソッド

IndexWriterのJavadocの日本語訳 | 関口宏司のLuceneブログ http://lucene.jugem.jp/?eid=185 indexを作成するクラスが、deleteしてaddDocumentしているからupdateDocumentに修正してみようと思う。 こんな感じにしたけどうまくいかない ファイルを更新する…

マルチスレッドでインデックスの作成と検索

Lucene入門に書いてあったけど、マルチスレッドで作成すると10倍ほど早いことがあるらしい、土曜日で作成と検索を完成させたい インデックスの作成では今回の環境においてあまり意味がないので辞めた インデックスの検索では意味があるけど難しくてわからな…

Luceneスコアの表示

Hitsクラスを使わないでTopDocsクラスとScoreDocクラスを使った場合 System.out.println("Searching for: " + query.toString("contents")); TopDocs docs = searcher.search(query, 10); for (ScoreDoc scoreDoc : docs.scoreDocs) { int docId = scoreDoc.…

何もいじってないはずのMoreLikeThisが動かなくなった

なぜだあああああああああああ クエリーを生成するドキュメントが少ないからだった

Luceneのインデックスをバックアップ

IndexDeletionPolicyとSnapshotDeletionPolicy | 関口宏司のLuceneブログ http://lucene.jugem.jp/?eid=179 よくわからない 普通にコピーでバックアップでいいかな 週1くらいで十分

インデックスの作成方法

その1 日本語のPublicTimeLineをいろいろな情報と共にDBに追加 その中のTweetをSenで形態素解析して、またDBに追加 そのDBからDataImportHandlerを使いインデックスに追加 その2 日本語のPublicTimeLineをいろいろな情報と共にDBに追加 その中のTweetをSenで…

MySQLのバックアップ

[MySQLウォッチ]第23回 押さえておきたいバックアップとリストアのポイント:ITpro http://itpro.nikkeibp.co.jp/article/COLUMN/20060122/227654/ bk-mysql http://d.tir.jp/pw?bk-mysql#H-1skp6fu mysqldump --user=root -x -F --all-databases > db.dmp…

Apache Lucne入門を買った

Apache Lucne入門を買った 買って良かった Index周りだいぶ適当にやってたからそこらへんを綺麗に書けば速度上げられそう ただところどころ古いのが残念 Hitsクラスとか使ってたりしちゃう

オリジナルのアナライザ

↓で話したEdgeNGramTokenFilterを利用したオリジナルのanalyzerを作ってみた サービスの検索システムの変更 - カブトボーグを写経するblog http://d.hatena.ne.jp/snkken/20090624/1245806883/ まず1行目でreaderを正規化します。 具体的には、半角カタカナ…

サービスの検索システムの変更

前から悩んでいる検索時にJapaneseAnalyzerを使うと処理が遅いということ 検索で結果が帰ってくるのに5秒かかったら誰でも嫌気がさすということで検索はCJKもしくはNgramの拡張ですることに決定 NGramTokenizerとEdgeNGramTokenFilter | 関口宏司のLuceneブ…

Solrで検索するときにトーカナイザーを指定する方法

せっかくanalysisでjapaneseAnalyzerで形態素解析できるようになっても、どうやらデフォルトでは検索するときはstandardで行われている模様qf=textみたいにしてフィールドを選択するのかな?と思ったけどエラー なんか文字化けしてる・・・ 普通に検索する文…

analyzer-sen.xmlを使ってSenの設定

analyzer-sen.xmlはEclipseのsrcフォルダ直下に入れて下記のように書けば設定が反映されます。 System.setProperty("org.apache.lucene.ja.config.file", "analyzer-sen.xml"); 今回の検索システムでは自立語以外はできる限り除去したいので、品詞で必要なさ…

solrJでMoreLikeThisを使う

MoreLikeThisParams (Solr-j nightly API) http://lucene.apache.org/solr/api/solrj/org/apache/solr/common/params/MoreLikeThisParams.html MoreLikeThisParams.TermStyle (Solr-j nightly API) http://lucene.apache.org/solr/api/solrj/org/apache/solr…

Lucene + Senで検索する度に

log4j:WARN No appenders could be found for logger (net.java.sen.Dictionary). log4j:WARN Please initialize the log4j system properly. と表示されて妙に時間がかかる。JapaneseAnalyzerで時間がかかってる、CJKAnalyzerならあっという間に結果がでたa…

Twitterフォント風のロゴを作成してくれるサービス

Generate Your Own Twitter Logo | Twitlogo http://www.twitlogo.com/ サービス稼動できたら是非使わせていただこうw

本稼働に向けての構成を考えよう

システム要件 Webサーバ データベース Twitetr日本語PublicTimelineクローラ 収集した情報からインデックスを作成する 検索する ページに表示 こんなところかなとりあえずはマシン1台で、無理があるなら機能別に分離予定 ハードウェアは余ってる自作PCのAthl…

Solrメモ

solr1.2-seminar-rel1.0.pdf :: handsOut.jp http://handsout.jp/slide/1406?variety=2 ここによると検索結果をXML以外でも返せるようで、個人的にはRSSで返してくれると嬉しい なさそうだけど どうやらjsonかxmlのどちらかになりそう。RSSはないみたいだ So…

SolrJを使って検索

SolrJというものがAPIとしてSolrに同封されているらしい 新・たけぞう瀕死の日記 http://www3.vis.ne.jp/~asaki/p_diary/diary.cgi?Date=20090601#2009060101 Javaで普通にLuceneを使って検索するよりもだいぶ簡単にコードを記述できるようだ。 結果の取得も…

solrの検索結果のxmlを整形して表示するには?

solrの検索結果のxmlを整形して表示するにはどうしたらいいんだろう?ユーザーから直接solrにクエリーを投げてもらうのではなく、サーバがクエリーを受けて、そのクエリーでサーバがsolrから検索、その結果のxmlをサーバのjavaで取得して、整形したhtmlかな…

LuceneでMoreLikeThisを使う

LuceneでMoreLikeThisがうまくいかない(いった) - カブトボーグを写経するblog http://d.hatena.ne.jp/snkken/20090620/1245510568 ここの通りうまくいったどうもここで妙に時間がかかっている Query query = mlt.like(new BufferedReader(new InputStreamRe…

SolrでMoreLikeThisクラスを使って検索

solr-rubyメモ - 山羊の頭の日記 http://d.hatena.ne.jp/tolerance/20080802#p1 MoreLikeThis - Solr Wiki http://wiki.apache.org/solr/MoreLikeThis こちらを見る限りできるらしい おまけ MoreLikeThisComponent と Solr スキーマMLT では、フィールドが保…

Solrインストール手順まとめ

Windows環境におけるSolrのインストール手順をまとめてみる Cygwinのコマンドをところどころ使ってます。 Tomcatのダウンロード、インストール set LUCENE_HOME=C:\Lucene mkdir %LUCENE_HOME% cd %LUCENE_HOME% wget http://ftp.riken.jp/net/apache/tomcat…

Solrインストール

Tomcatのダウンロード C:\Lucene\tomcatとして展開 Solrのダウンロード http://lucene.apache.org/solr/ apache-solr-1.3.0\example\webapps\solr.warを C:\Lucene\tomcat\webapps\solrとして展開 apache-solr-1.3.0\example\solr\bin と apache-solr-1.3.0\…

SearchJFiles.javaの修正

下記を参考に開始 2009年06月11日の記事 | 関口宏司のLuceneブログ http://lucene.jugem.jp/?day=20090611 恐らく一番の肝はHitsクラスを使わないでTopDocsクラスを使うところ とりあえずjavadocを読む修正完了 30行くらい短くなってWarnningが消えたこんな…