ZDNetで「ビッグデータ」に関する連載を始めました。週1ペースで全9回くらいの連載になるかと思います。また、ソフトバンクビジネス+ITのサイトで携帯特許戦争について連載する予定です(こちらは、まだ入稿できてません、どうもすみません)。これ以外にもタイアップサイトでインフラ系の連載が始まるかもしれません。最近ちょっとコンサル/調査系の仕事が暇になってきた(苦笑)ので、執筆ものに力を入れていく予定です。(あと、翻訳ものの超大型案件が入ってますがこれはまだ発表できる段階ではありません)。
さて、上記連載記事でもちょっと触れましたが、他のIT関連キーワードと同様に「ビッグデータ」の定義も揺れています。
もちろん、「大量データ」という意味を含むのは当然なのですが、「非定型データ」(数値、文字列以外のデータ)という条件もないと「ビッグデータ」とは呼ばない説、さらに「リアルタイム性」という条件も必要という説もあり、様々です。まとめてみると以下の表の中でどこからどこまでを「ビッグデータ」と呼ぶかということになります(「大量」のコラムは意味ないですがわかりやすくするために入れてみました)。
大量 | 非定型/定型 | リアルタイム | 例 | |
1 | ○ | 非定型 | ○ | Webログ |
2 | ○ | 定型 | ○ | 大規模データウェアハウス(オペレーショナル) |
3 | ○ | 非定型 | × | マルチメディアアーカイブ |
4 | ○ | 定型 | × | 大規模データウェアハウス(バッチロード) |
今まで自分は、1と3、つまり、大量+非定型というデータタイプを「ビッグデータ」と呼んでました理由は、たとえば、WikipediaにおけるBig Dataの定義などを見ると「従来型のDBMSでは処理しにくい量のデータ」となっているからです。大量+定型データであればTeradataなどの従来型並列DBMSでペタバイト級以上でも処理できてしまう(現実の事例多数)なのでこの定義に当てはまらないからであります。また、Wikipediaのエントリーで「ビッグデータ」の例として挙げられているデータがWebログ、RFID、センサー、ソーシャル。ネット、CDR、医療情報等々とすべて非定型データなのもこの定義の妥当性を裏付けています。
しかし、最近の文献を見ると、上記の1?4まで全部合わせて「ビッグデータ」と言ってしまうケースが多いようです。たとえば、マッキンゼー・グローバル・インスティテュート(MGI)のレポート“Big data: The next frontier for innovation, competition, and productivity”では、「ビッグデータ」をかなり広くとらえており、その経済効果も、たとえば、小売業におけるトランザクション分析(Walmartのデータウェアハウスなどの話)なども含めて算定しています。ベンダー的には市場規模が大きく見える方が好ましいので、できるだけ広い定義を採用したいでしょうね。
余談ですが、MGIはコンサル会社マッキンゼーの調査部門で、定期的にレポートを発行しています。結構ITよりのレポートも多いですし、特に、テクノロジーのメガトレンドだとかITのビジネスへのインパクトのような内容が多いので参考になります。何よりも無料ですし、引用する場合にもマッキンゼーのブランドによる「箔付け」効果はかなり高いので便利です。そういえば、昔は有料だった(自分も金払って購読してました)マッキンゼーの論文集”McKinsey Quaertly”も、今はWebで無料に読めるようになったのでありがたいことです。
さて、「ビッグデータ」の定義の話に戻りますが、当面は広義には「大量データ」、狭義には「大量+非定型データ」と考えておくのが無難かと思います(リアルタイムという条件は二義的だと思います。)