Shoeisha Technology Media

EnterpriseZine(エンタープライズジン)

EnterpriseZine(エンタープライズジン)

テーマ別に探す

IBMアナリティクスの土台となるWatson Data Platformの正体とは?

2017/01/19 06:00

 2016年10月、米国ラスベガスで開催されたIBM Watsonのための初めてのカンファレンスイベント「World of Watson」。ここでIBMは、Watsonでデータを扱うためのプラットフォーム「Watson Data Platform」、パートナーとのエコシステムである「Watson Ecosystem」、そしてデータを扱うための手法「DataFirst Method」という3つを紹介した。ここ数年IBMは、アナリティクス領域に大きな投資を行っている。IBMがこれら3つの要素を活用しどのようにアナリティクスの領域に取り組んでいるのか、さらには最新のアナリティクス、コグニティブを活用する環境とは一体どのようなものになるのか。米IBMのDataFirst リードアーキテクトで、あらゆる種類のデータを統合し、AI技術なども活用して意思決定を行うクラウド型のデータ統合、分析プラットフォーム「Project IBM Watson Data Platform」を担当するポール・クリステンセン氏に話を訊いた。

 ポール・クリステンセン氏

米IBM ポール・クリステンセン氏

Q:現状のアナリティクスを取り巻く環境の変化を、IBMはどのように捉えていますか?

クリステンセン:アナリティクスを取り巻く大きく世界は変化しています。変化の1つが、オープンソース・ソフトウェア(OSS)の活用に期待がかかっていることです。またアナリティクスの機能を、クラウドから利用したいとの要望もあります。クラウドから提供するには、セキュリティ性が確保されたプリビルドのものが求められます。

 こういった変化の中、IBMではここ数年、アナリティクス分野に相当な投資をしています。しかし、投資をしたからと言って、アナリティクス製品を簡単に市場投入できるものでもありません。簡単ではない中で努力を続けており、結果としてIBMのアナリティクス製品はアナリスト・チャートのすべてでリーダーに位置づけられています。

 市場のOSSへの期待については、IBMではLinuxやJavaなどに長い間貢献してきました。そしてアナリティクスでは2年前に、OSSのSparkのサポートを始めると発表したことが大きなニュースになりました。Sparkについては、世界中にスキルの高いIBMのメンバーがいて、各地でさまざまなトレーニングなども提供しています。さらにSparkテクノロジーセンターを開設し、IBMのイノベーションをSparkのコミュニティにフィードバックもしています。

 また、IBMには優秀なサイエンティストや数学者がいて、彼らの活動の成果である機械学習のプラットフォーム、自然言語処理の機能などもコミュニティに提供しています。IBMにはそれらに加えてWatsonのコグニティブ技術があります。コグニティブは、いくつかのAI技術を組み合わせたものです。

 これらアナリティクス、コグニティブの機能を、クラウドから提供できるようにしています。クラウドはパブリックだけでなくプライベートでも良いです。あるいはオンプレミスでも利用でき、ハイブリッド環境でも使えるようにIBMではしています。

Q:アナリティクスの新たな要求に応えるプラットフォームとは、一体どのようなものになるのでしょうか?

クリステンセン:アナリティクスの1つの課題は、個人がデータを分析できればいいという状況から、チームで協業できるようにすることがあります。専門家が1人で分析するのではなく、チームのメンバーから学びながら分析するのです。

 またデータソースとして、ソーシャルネットワークのつぶやき、気候データのようなオープンデータ、マシンデータやIoTから得られるデータなど、さまざまなデータソースを使いたいとの要望もあります。多様なデータソースから個人で必要なものを集め活用できるようにするのは、かなり難しいものがあります。

 これらの課題を解決するのは、従来型の大規模なデータウェアハウスではありません。しかし論理的なデータウェアハウスに価値がないわけではありません。今後もデータウェアハウスは使い続けられるでしょう。

 新たな要望に応えるものとして期待されたのが、Hadoopです。4年前には私もHadoopが解決策になると考えていました。実際、Hadoopは一部のアナリティクスの処理を行うには優れています。とはいえ、データウェアハウスでできても、Hadoopではできないこともあります。

 目的ごとにデータウェアハウスやHadoopを使い分ける必要があります。ワークロードによってはリレーショナルデータベースが適しているものがあり、それ以外はHadoopのほうがいい場合もあります。さらにはOSSのNoSQLデータベースなどを活用したほうが便利な時もあります。MongoDBなどもそのような選択肢の1つでしょう。またグラフデータベースなども登場しており、それらを目的ごとに選択する必要があるのです。

 しかしながら、目的に合ったデータベースがあればそれで課題が解決できるわけではありません。データを格納できるだけではだめなのです。複数のデータベースがあるだけでは、それぞれが相互連携できません。これを解決するのがWatson Data Platformなのです。

 Watson Data Platformは次世代のアナリティクスのためのプラットフォームで、クラウド、あるいはクラウド以外の環境でも利用できます。Watson Data Platformの中では、OSSをうまく活用しています。加えてIBMのユニークな知見も詰まっており、機械学習なども簡単に利用できます。自動化したデータディスカバリ機能、AI、コグニティブといった機能を組み合わせることができます。これでデータ分析の敷居を下げており、ユーザーが使いやすいプラットフォームです。

 Watson Data Platformを使えば、ユーザーがセルフサービスでデータ分析を行えます。共通のプラットフォームで、目的に合ったデータベースを利用し、データの永続性も確保できます。APIエコノミーの機能でBluemixからも簡単に使うことができます。

 その上でセキュリティが確保され、信用できるものになっています。これにより、データ分析のための強固な土台ができます。一度ルールを設定すれば、継続的にコンプライアンスに準拠した分析環境を利用できます。セキュリティを確保するためにユーザーのアクセスを拒否するのではなく、ユーザーがよりデータを活用できるようにするプラットフォームになっています。

 Watson Data Platformには、データ永続性のあるdashDBがあります。これはスケーラブルなリレーショナルデータベース技術で、インメモリのカラム指向技術が入っています。またNoSQLデータベースとしてはCloudantがあり、JSON形式のデータを簡単に扱えます。他にもMongoDBの機能の活用もできます。Hadoopについては、IBM BigInsightsを利用できます。またグラフデータについては、IBM Graphがあります。これらは、必要なものを選んで組み合わせて使えます。ユーザーからは共通のフレームワークとなっていて、さまざまなデータベースにあるデータを一元的に利用できます。

 またWatson Data PlatformにはETLの機能もあります。これはかつてはData Worksと呼んでいたもので、今ではIBM Data Connectと呼んでいます。

Q:Watson Data Platformを活用することでデータサイエンティストの仕事はどのように変化しますか?

クリステンセン:データサイエンティストの経験が変わります。データサイエンティストがチームとして協業しやすくなるのです。そのための使いやすいユーザーインターフェイスも提供されます。新しい拡張性のあるデータ分析のモデルを作り、それを他のサイエンティストも利用できます。

 実際にデータなどを共有する際には、ガバナンスやセキュリティ性も確保できます。チームでデータを扱いやすくでき、共通のストレージがあり、共通の分析エンジンがあり、Sparkの技術も入っています。またストリーミングデータ処理のエンジンも含まれています。これらはすべて、実験的な利用や研究開発目的ではなく、本番のビジネスのためのシステムとして使えます。

Q:Watson Data PlatformをWorld of Watsonのタイミングで発表したのには、どのような意味があったのでしょうか?

クリステンセン:Watson Data Platformが、Watsonのコグニティブの土台となるからです。データが良くなければコグニティブはだめです。セキュリティやガバナンスが確保されたデータの土台があることで、AIや機械学習などの技術を活用するセルフディスカバリが実現できるのです。

 もちろん、すべてのデータをWatson Data Platformに集めなければならないわけではありません。1つの物理的な領域にデータを入れなければ実現できないわけではないのです。そもそもすべてを集めることは不可能です。それを実現しようとすれば高いコストが発生します。集めるためにソースデータを変換するのにもかなりのリソースがいるます。

 データレイクという言葉で、魔法のようにすべてをHadoopに入れれば良いという話もあります。データの形式も気にせずとにかく集めておく。データのフォーマット変換の問題は、あとから考えればいいとも言われます。実際は、すべてのデータを集めるような大規模なHadoopクラスターの環境を構築すれば、そのコストはかなり高くなります。さらに集めたからと言って、サイエンティストが必要なデータをすぐに取り出せるわけではありません。

 Watson Data Platformでは、集めるのではなくデータインテグレーションをデータソースの近いところで実現しています。そうすることで機械学習でも予測分析のモデルでも、データソースのそばで実行できるのです。データを集め中央で制御する必要はありません。

Q:実際にWatson Data Platformで高度で継続的なデータ活用をしたい場合は、具体的にどのようにすれば良いのでしょうか?

クリステンセン:それを実現するのが、DataFirst Methodです。Watson Data Platformは、データ分析の道のりの起点になるものです。この旅路は持続的なものです。新しいものをいち早く提供でき、今までと異なるものが出てきても柔軟に取り込めます。

 IBMの提供するMethodは、技術ではなく課題から入ります。そこにはIBMのノウハウが入っており、さらにはパートナーのノウハウも利用できます。そして一度うまくいったものを再利用することも簡単です。

 Methodがあるので、データを論理的に見ることが簡単にできます。データ分析を、技術やストレージの能力から入るのではなく、問題をロジカルに見るようにできる。その際にデータアーキテクチャがどうなっているのか、セキュリティが確保されているのかなども簡単に把握できます。そして結果を共有するのか、デプロイするのかも容易に行えます。

 このアプローチは、都市計画のようなものです。似たようなものはなるべく1カ所に集め効率化します。その上で、それぞれの性能や特長を見極めます。さらにユースケースを参考にしどうするかを考え、将来を見据え判断します。

Q:これからのアナリティクスにおいて、クラウドはどのような役割を果たしますか?

クリステンセン:クラウドファーストで提供することで、新しい技術を提供しやすくなります。またオープンデータのようなものも利用しやすくなるでしょう。またアジャイル的なユーザー要求にも応えやすくなります。クラウドファーストでやることで、デーや活用がワクワクするものになるはずです。

Q:Watson Analyticsがあることは、どのようなメリットになりますか?

クリステンセン:Watson Analyticsを使えば、データディスカバリツールが、自動的に必要なデータを探し出してくれます。ある質問に答えるために必要なデータは何か、そのためにはどのようなデータソースがあれば良いかをコグニティブの技術で迅速に明らかにしてくれます。さらに、そのデータが他のデータとどのような関連性を持っているのかも見せてくれます。

 これらは、本来データサイエンティストが行いたいことです。迅速に必要なデータを見られるようになり、そこからすぐにそのデータにアクセスして分析できるのです。最終的には”System of Engagement”のところで、データ分析の結果を使えるようにします。それが、ユーザーのインタラクションにつながります。データとシステムが連携し、ビジネスで利用したいところにデータ分析の結果が入っていくことになります。



著者プロフィール

  • 谷川 耕一(タニカワ コウイチ)

    EnterpriseZine/DB Online チーフキュレーター ブレインハーツ取締役。AI、エキスパートシステムが流行っていたころに開発エンジニアに、その後雑誌の編集者を経て、外資系ソフトウェアベンダの製品マーケティング、広告、広報などを経験。現在は、オープンシステム開発を主なターゲットにし...

  • DB Online編集部(ディービーオンライン ヘンシュウブ)

    DB Online編集部 翔泳社 EnterpriseZine(EZ)が提供するデータベース/データテクノロジー専門メディア「DB Online」編集部です。皆様からの情報お待ちしています。 Twitter : https://twitter.com/db_online Fac...

バックナンバー

連載:DB Press

もっと読む

この記事もオススメ

All contents copyright © 2007-2017 Shoeisha Co., Ltd. All rights reserved. ver.1.5