【Lucene Revolution便り】Big Dataテクノロジーは(多くの場合)過剰設備

Lucene Revolutionの2日目です。


2日目のキーノートは米国のリサーチ会社Redmonk社のStephan氏による”All Data Big and Small”という講演。Redmonkは大昔にこのブログでも触れたと思いますが、リサーチレポートはCreative Commnsベースで無料で提供し、カスタムリサーチやコンサルティングで収益を上げるというビジネスモデルのブティック系リサーチ会社です(テックバイザーもこのモデルを真似たいのですが全然できてません)。このプレゼンテーション資料(ちょっと高橋メソッド入ってます)もRedmonkのサイトでCCベースで公開されています。

内容としては、今まではRDBMSで何でもやろうとしてたけどこれからは複数ツールの使い分けになるよというよく聞くお話しですがよくまとまっているなあという感じ。ただ、Big Data系のテクノロジーが大量に生まれている最近の状況を指して「非リレーショナル・テクノロジーのカンブリア爆発」とたとえたのはちょっと面白かったです(会場でもウケてました)。もうひとつ注目すべきが「Big Data系のテクノロジーが必要なほどのデータを抱えている企業はそれほど多くない、ほとんどの企業にとってNoSQLなどのBig Dataテクノロジーはoverkill(やり過ぎ、過剰設備)である」という見解です。米国企業は日本企業と比べて多くのデータを所有する傾向があると言われていますが、それでも大多数の企業がNoSQLデータストアやHadoopを必要とするようなレベルまではまだ至っていないというのが実情のようです(もちろん近い将来にこの状況が変わることは十分予測されます)。


キーノートの次のパネルはLuceneのコミッターによるパネル。正直自分には全然わかりませんでした(笑)。さすがにコード書いてないと付いていくのは困難。Luceneのコミッターの多くはLucid Imagination社の人(その典型はSolrの創始者であるYonik Seeley氏)ですが、それ以外の組織に属している人も結構いるようです。


Lucid Imagination社のCEO、Eric Gries氏と単独インタビューしました(内容は別エントリーで書きます)。しかし、自分は寝癖ひどすぎますね(笑)。


ミクシィの伊藤敬彦氏によるサーチにおける「もしかして機能」の実装のお話し。なかなか興味深かったです。ログをHadoopでブルートフォースに分析して変換間違い/入力間違いの変換表を作るというやり方なんですね。


ウチダスペクトラムのRahul Agarwalla氏によるサーチアプリケーションサーバSMART/Insightの紹介。以前はFAST ESPをサーチエンジンとして使っていたのですが、MicrosoftによるFASTの買収等に伴いLuceneを中心にする方向性に転換したそうです。FASTと比較してLuceneは半分のコストで5倍の性能、つまり、価格性能比が一桁違うそうです。もうサーチエンジンのコア部分はOSSで必要にして十分じゃないかという見解の根拠のひとつになるのではと思います。


イベント最後のパネルはPostgreSQLコミッター、Luceneコミッター、The Guardianの中の人による”Search for Tomorrow (RDBMS for Yesterday)”というパネル。タイトルは刺激的ですが、まあ、結局は使い分けですよねえみたいな感じでした。ここでも、再度、「NoSQLは多くの場合overkillだよねえ」みたいな話が出ていたのが興味深かったです。

次回のエントリーでは個別のインタビューに関して書きます。

カテゴリー: IT タグ: , パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です