企業の扱うBig dataはRDBMSの中にすでにある
「Hadoopをビジネスで利用する際の1つの問題は、HadoopがOSの上のアプリケーションだということです。Hadoopで利用するファイルシステムであるHDFSもまた、アプリケーションの中にあります」
日本アイ・ビー・エム株式会社 ソフトウェア事業 インフォメーション・マネジメント事業部 ワールドワイド・ビッグデータ・タイガーの土屋 敦氏は、Big dataを扱うための方法として注目を集めているHadoopを活用するには、とにかく一旦Hadoopというソフトウェアを経由しHDFSにデータを格納しなければならず、そこからデータを取り出す際にも必ずHadoop経由でHDFSにアクセスしなければならないと語る。
これは、当たり前と言えば当たり前のこと。とはいえ、すでに扱いたいデータがRDBMSの中に格納されている場合もある。その際にHadoopで処理したければ、RDBMSからHDFSにデータを移動させなければならないのだ。データ量が少なければ問題にならないかもしれないが、大量にデータがあれば手間と時間は無視できるものではない。
企業が扱うBig dataは、なにも新たに取得する非構造化データだけではない。これまでもずっと活用してきたトランザクショナルなデータも、大量に存在する。それらは当然ながらRDBMSに格納されており、Big dataに対しなんらかの分析を行いたければ、それを含め処理ができなければならない。
「IBMでは、Big dataは分析の対象と捉えています。現状ではそれに注力しており、そのためにはRDBMSもHadoopも両方扱えなければなりません。Hadoopをうまく使えるだけでは、企業がBig dataを活用するには不十分」
こう指摘するのは、ソフトウェア事業 インフォメーション・マネジメント事業部 マーケティング・マネージャーの中林紀彦氏。同氏によれば、Big data活用のためには、Hadoopと既存RDBMSを連携させる仕組みが必須になるという。