「ビッグデータ」とは何なのか?
現時点におけるIT業界の最重要キーワードのひとつが「ビッグデータ」であることに異論は少ないだろう。そして、あらゆるIT 業界のキーワードと同様に「ビッグデータ」の定義は人により様々である。単に大容量のデータを「ビッグデータ」と呼ぶことも多い。さらには、さほど大容量のデータを扱っていなくても、とにかくデータ中心型のアプリケーションであれば「ビッグデータ」と呼んでしまうというケースすらあるので注意が必要だ。
本記事では、「大量、多様、かつ、リアルタイム性が高いデータ」という最も一般的と考えられる「ビッグデータ」の定義に基づいて議論を進めたい。つまり、Volume、Variety、Velocity という「3 つのV」の特性を持つデータを「ビッグデータ」と呼ぶということだ(図1)。なお、単なる大量データという意味ではないことからカッコ付で「ビッグデータ」と表記することにしたい。
本来的には、「ビッグデータ」の応用は、データ分析だけに限定すべきではなく、データ配信(典型的にはメディア・ストリーミング)やデータ保存(典型的にはコンテンツ管理)も「ビッグデータ」の応用に含めて考えるべきだ。とはいえ、本記事では誌面の都合上、データ分析を中心として議論を進めていきたい。