ハイブリッドデータをハイブリッドなクラウドで活用できるようにする
Q:現在のアナリティクスは、どういうものと捉えていますか?
イートン氏:機械学習やデータサイエンスの技術が実現され、それらを使えば今は未来を予測できます。この実現には機械学習なりの技術が、たくさんのデータとつながる必要があります。AIや機械学習の技術とデータを連携させるためにIBMでは、「Hybrid Data Management」の技術が中核にあると考えています。加えて、我々が「Unified」と呼ぶデータのガバナンスを確保する仕組みがあります。Unifiedで法令を遵守するだけでなく、企業の全ての人が安心してデータを使える環境を提供できるようになります。
もう1つ重要なのが「Data Analytics」と「Visualization」の技術です。IBMではこれらについては、オープンソースの技術を積極的に活用しています。HadoopやSparkなどを支えるオープンソースのコミュニティがあり、コミュニティが活性化することで、アナリティクスを実現するための技術が迅速に進化します。
Q:IBM Hybrid Data Managementとは、具体的にはどのようなものですか?
イートン氏:世の中には構造化、非構造化、準構造化といったハイブリッドデータがあります。それらをパブリック、プライベートさらにはオンプレミスのどこでも管理できるようにするのがHybrid Data Managementです。さらにこれでは、トランザクションデータもストリーミングデータも扱えるものになります。
OLTPのシステムや従来のデータウェアハウスには、構造化されたデータが蓄積されています。最近ではNoSQLデータベースなどに、JSON形式のデータも蓄積されるようになりました。これらはデータレコードとして見れば構造はありますが、コンテンツそのものには構造がないものになり、準構造化データと呼んでいます。IBMでは、CMSの中などにある全く構造がないデータを非構造化データとして、分けて考えています。
企業は普通、目的ごとにアプリケーションを構築しており、その結果サイロ化したアプリケーション群を持ています。これらは単体ではきちんと機能しますが、アプリケーションを横断した形でデータの分析を行おうとすると上手くいきません。全てのアプリケーションのデータを1つにしないと分析で意味のある結果が得られないのに、サイロ化されていてそれが上手くいかないのです。
この課題に対しIBMのHybrid Data Managementでは、集約できるものは集約し、そうでないものは集約せずにアクセスできるようにして解決しています。全てのデータをHadoopに集約するようなデータレイク、あるいは全てのビジネスデータを1カ所に集約するエンタープライズ・データウェアハウスなどは、コンセプトは良くても実際に構築するのは難しい。そこで全てを集めるのではなく、集められないものは抽象化レイヤを作りそこを経由してアクセスできるようにするのです。
この実現のために、IBM Hybrid Data Managementでは「IBM Common Analytics Engine」を提供します。これを使うことで、データがどこに展開されていても、同じSQLでアクセスできるようになります。この共通のエンジンを通すことで、パブリッククラウドのdashDBでも、オンプレミスのDB2、Hadoop、Sparkでもアクセスできるようになります。IBM以外の商用データベースも、IBM以外のクラウド上のデータベースサービスにも同じようにアクセスできます。
顧客にとって重要なのは、クラウドにあってもオンプレミスにあっても同じワークロードが実行できることです。将来的には全てのワークロードがクラウドに移行するかもしれません。しかしそれがいつかは分かりません。法律の制限でクラウドに行けないものもあるでしょう。なので全てがクラウドに行くまではハイブリッドクラウドの形で利用することになり、IBM Hybrid Data Managementではハイブリッドクラウドに焦点を当てています。
Hybrid Data Managementでは、オンプレミスからクラウドへ迅速かつセキュアにワークロードを移行できます。この時にデータにガバナンスをかけ、どのデータがどこで動いているどんなデータベースからやって来たかを詳細にトラッキングすることができます。この部分は、大きな強味の1つでもあります。