オラクルがビッグデータ市場に参入したのは突然のように思えるかもしれないが、そうではない。ベースとなるポートフォリオは以前からもっていたし、はじめから戦略発表の時期をOOWに設定していたので、唐突に見えるだけ - 10月25日、東京・ザ・プリンスパークタワーにて開催された「Oracle Database / Exadata Summit」の基調講演前の挨拶で、日本オラクル 代表執行役社長 最高経営責任者 遠藤隆雄氏はこう言った。決してブームに乗じてビッグデータ製品を発表したのではなく、これまでのラインナップから発展させた戦略的製品を、Oracle OpenWorldという最もインパクトをもって市場に訴求できる時期に発表したのだと強調する(もっとも、不幸にも重なってしまったSteve Jobs氏逝去のニュースが、その"インパクト"のほとんどをかき消してしまったも言えるが…)。
ビッグデータのライフサイクルとオラクルのソリューション
メンデルソン氏は「ビッグデータという言葉の定義は、実はまだ固まっていない」としながらも、人々がなぜビッグデータに強い関心を見せるのかについては「そこから新しいお金の動きが生まれる可能性が高いから」と言う。これまでは思いもよらなかったビジネスチャンスがビッグデータから得られるのでは、と期待を寄せる人は少なくない。
ここでメンデルソン氏は、ビッグデータの性質を表す"4つのV"として、次を挙げる。
・Volume … データの量
・Velocity … データの高速性
・Variety … データの多様性
・Value … データの価値
さまざまなソースから取得した、あらゆる形式の膨大なデータ、そのほとんどは無価値であり、必要とする情報はほんの一握り。ビッグデータの中から価値ある洞察を得ることは、例えて言えば「複雑に絡みあった巨大な藁の山に埋もれた1本の細くて小さな針を見つけ出す」(日本オラクル 専務執行役員 三澤智光氏)ようなものなのかもしれない。ここでポイントとなるのは、大量で価値が不明なデータを高速処理し、高い精度で分析するには、アプリケーションの頻繁な変更が必要になるという点だ。つまりスケールしやすい分析環境が求められることになる。そしてそれを可能にするのがオラクルのオファリングだとする。
オラクルのビッグデータ関連製品は、(ビッグデータの)取得→体系化→分析→意思決定というライフサイクルに沿って構成されている。
まずデータの取得に関して。ビッグデータはその大半が従来のRDBMSに格納できない非構造化データだとされている。したがって従来と同じアプローチだとスキーマの扱いがうまくいかなくなるケースが多い。これを解決するのがスキーマレスなキーバリュー(Key/Value)型のNoSQLデータベースだ。キー(key)を指定して値(value)を取得するしくみで、もっと言えばキー以外を指定してデータを得ることはできない。RDBMSと異なりインデックスがない(そのためインデックス作成/変更の負荷から解放される)。データはキー順に並んでおり、分割しやすい(ノード分散させやすい)点も特徴だ。リニアにスケールしやすく、パフォーマンスも一定に保てるため、ビッグデータを扱うためのデータベースアーキテクチャとしてここ1、2年、大きく注目されている。
オラクルは2006年にSleepycat Softwareを買収し、「Berkeley DB」というSQLをもたない組み込み型データベースを取得している。これが現在の「Oracle NoSQL Database」のベースとなっており、10月24日(米国時間)から評価版の無償ダウンロードが開始されている。
次に体系化に関して。ここでは
・Oracle Enereprise Manager
・Oracle Data Integrator Application Adapter for Hadoop
・Oracle Loader for Hadoop
という3つの製品がラインナップされている。
Oracle Enterprise ManagerはすでにOracle DWHを使っているユーザ向けで、ビッグデータの分析/活用を行いたいがDWHのSLAには影響を与えたくないといったケースで有効だ。膨大なビッグデータから有効な情報だけを取り出す際、「わずか10分」でサンドボックスを構築することができる。
Oracle Data Integrator(ODI) Application Adapter for HadoopはODIのHadoop用のアダプタである。周知の通り、ビッグデータの分散処理システムとしてHadoopに対しての注目度が急速に高まっているが、実際にはHadoop、とくにMap/Reduceに精通したすぐれた技術者は世界的に見てもそれほど多くない。プラットフォームのすばらしさと技術者の少なさというギャップを埋めるのがODIで、ダイレクトにMap/Reduceを取り込むことでHadoopとOracle DBの統合を容易にし、Oracle DWHへの迅速なロードを可能にする。
Oracle Loader for Hadoopは、Oracle Database 11gに最適化されたデータセットをHadoopのMap/Reduce処理を利用して作成することができる。
そして分析について。講演では日本初公開となった「Oracle R Enterprise」のデモが行われた。Rは統計解析用の言語であり、OSSということもあって世界中に多くのユーザを擁している。ただし、ノートPCなどのシングルサーバ環境で動作させるにはセキュリティとパフォーマンスの面から問題があった。オラクルはOracle 11gとRを統合し、Rアプリケーションを直接実行し、メモリに格納する前にテラバイト級の非構造化データを分析することを可能にしている。OSSのR言語とも100%互換を実現している。なお、Oracle R EnterpriseはOracle Databse 11gのオプション機能として提供される。
最後の意思決定について。ここでOOWで発表されたハードウェア一体型のOracle Exalyticsが登場する。実物が展示されていなかったので詳細は不明だが、2U程度の筐体に、同社のインメモリソフトウェア「TimesTen」が搭載されたBIマシンという触れ込みだ。"Exa"の名を冠しているだけあって、ハードとソフトを最適にエンジニアリングしたことによる超高速性が最大の特徴とされている。「良い決断とは迅速な決断のこと」とよく言われるが、超高速な分析が迅速な意思決定を支援するというわけだ。