IBMのデータプラットフォーム基盤 データ整備の鍵はEnterprise Catalog
先述した「AI Ready」(データ活用)の実現に必要なプロセスにおいて、要点を抜き出すと4つ。最初にデータを「収集」し、そのデータを「整備」し、そのデータを「分析」できるようにして、最終的には「AI」でよりよい洞察を得られるようにする。IBMの強みはこれらのプロセスを網羅するように、幅広い製品やツールを扱えるというところにある。
例えばデータの「収集」ではあらゆるデータソースから収集することになる。必要なデータは構造化データから非構造化データなど、様々なシステムに格納されている可能性があるためだ。IBM Db2や他社リレーショナルデータベース、さらにNoSQLやHadoopなど、幅広く扱える必要がある。
またデータの「分析」を行うのはデータサイエンティストとは限らない。アプリ開発者、業務の専門家、ビジネスアナリストなど、さまざまな立場がそれぞれの目的に応じてデータ分析を行う。立場や目的により、R Studio、Jupyter Notebook、SPSSなど使うツールが異なるのが実状だ。
三澤氏は「IBMはあらゆるデータファイル・システムを扱えるように注力しており、またあらゆるデータ分析ツールを使えるようにお手伝いしています」と話し、カバー範囲が広いことを強調する。
さらに重要なのがデータのガバナンスだ。元の目的、つまりデータやAI活用を考えると、すぐに分析に使えるように整備されたデータが必要になる。三澤氏は「IBMにはデータカタログというソリューションがあります。IBMが大きく差別化できるところです」と胸を張る。
データカタログとはあらゆるデータソースから収集したデータをAIで自動分類し、メタデータ管理だけではなく、マシンラーニングで使うような学習データや学習モデルの生成も行い、それらをカタログ化するもの。カタログ化することでデータの検索や共有からガバナンスまで行えるようにする。これらを統合的に行うのがIBMの「Enterprise Catalog」だ。あらゆるデータソース、データ分析ツール、AIを網羅できるようなデータ整備基盤を目指している。
この「Enterprise Catalog」が行うデータ管理の特徴は3つある。1つめはデータ利用者が分かる言葉、つまりビジネス用語を用いていること。2つめはどのようなデータソースからどのようにデータが生成されたか、来歴(リネージュ)を管理していること。3つめはデータ構造を理解してメタデータを管理していることだ。これらは「Enterprise Catalog」の統合UIから確認できる。
システム環境に目を向けよう。データソースはオンプレミスからクラウドまで分散している可能性があり、データプラットフォームは俊敏性と移行性が高いことが望ましい。そこでデータ整備基盤にはコンテナ(Docker)やKubernetesを用いることでデータとアプリケーションは場所を選ばず配置し、移動も可能にしている。
IBMの統合データプラットフォーム基盤をIBM Cloud(パブリッククラウド)で実現するのが「IBM Watson Studio」、オンプレミスや各種クラウドを組み合わせたハイブリッドクラウドで実現するのが「IBM Cloud Private for Data(ICP for Data)」だ。違いは場所(オンプレミスか、いずれかのクラウドか)と管理者権限だ。前者の「IBM Watson Studio」ならフルマネージドになる。実現できることはほぼ同じ。