企業のデータですぐに分析可能な「AI Ready」はわずか30%
今年(2018年)9月、経済産業省のデジタルトランスフォーメーションに向けた研究会は「DXレポート ~ITシステム『2025年の崖』の克服とDXの本格的な展開」を発表した。これによると、新たなデジタル技術を活用して新たなビジネスモデルを創出または柔軟に改変するデジタルトランスフォーメーション(DX)を実行できないと、2025年以降、年間で最大12兆円の経済損失が生じる可能性があるという。
日本アイ・ビー・エム株式会社 取締役専務執行役員 IBMクラウド事業本部長 三澤智光氏も「洋の東西を問わず、業種によらず、DXをどのように実現するのかが喫緊の課題になっています」と指摘する。
DX実現でまず欠かせないのがデータ活用で、そこからAI活用へと発展していく。三澤氏は「IBMには早くからWatsonがあり、現在国内で本番系で稼働しているAI活用事例の多くにはWatsonが関与しているかと思います」と話す。一例として農業用ハウスの暖房機器を手がけるネポンがある。IoTでリアルタイムでデータを収集し、クラウド上でAIを活用して栽培に最適な温度や湿度をレコメンデーションするシステムを導入した。最近では大企業ではなくとも、こうした事例が見られるようになってきた。
ただし現状は「まだ最初のステップで踏みとどまっている企業が多い」と三澤氏は指摘する。IBMの分析によると、多くの企業はまだ「データから現状を紐解く」という最初のステップからその次のステップに移ろうとしている段階だという。問題はAIに使える状態の「データがない」こと。次の「洞察を導き出す」段階では統計やAIを活用していくため、データが不可欠になる。AIや分析に使える「データがない」ことで次に進めないでいる。
IBMがWatson導入プロジェクトを通じて企業が保有するデータを調査したところ、「すぐに利用できたデータは30%以下」だという。それ以外は利用可能だが取得に手間が掛かる、あるいはデータの取得方法から検討が必要であるなど、そのままでは使えないデータということだ。理由はプロジェクト毎に分析基盤や分析ツールが別であるとか、データがAIで使える状態になっていないなどだ。
では「AI Ready」を実現するには何が必要か。三澤氏は「プロセス」と「データプラットフォーム」だと指摘する。IBMでは「AI Ready」を実現するためとして、6つのプロセスと要件を挙げている。それが「集める、繋げる、データにアクセス」、「データの検索」、「分析のためのデータの理解・準備」、「データの定義と規定 予測モデルの作成」、「モデルの管理と配備」、「AIへのデータ活用アプリの作成」。
続けて三澤氏はそれぞれの段階に対応する製品も提示した。IBM製品からオープンソースソフトウェアまで幅広くあり、「IBMはこれらの製品でそれぞれのステップのお手伝いをさせていただいています」と述べる。加えて三澤氏はガートナーのマジッククワドラントで見ると、IBMはデータ管理や分析に関する5分野で「リーダー」に位置づけられていることにも触れた。単一の分野だけではなく、幅広い分野で高い評価を得ていることは先述したプロセス全体で見た評価が高いと言える。
IBMのデータプラットフォーム基盤 データ整備の鍵はEnterprise Catalog
先述した「AI Ready」(データ活用)の実現に必要なプロセスにおいて、要点を抜き出すと4つ。最初にデータを「収集」し、そのデータを「整備」し、そのデータを「分析」できるようにして、最終的には「AI」でよりよい洞察を得られるようにする。IBMの強みはこれらのプロセスを網羅するように、幅広い製品やツールを扱えるというところにある。
例えばデータの「収集」ではあらゆるデータソースから収集することになる。必要なデータは構造化データから非構造化データなど、様々なシステムに格納されている可能性があるためだ。IBM Db2や他社リレーショナルデータベース、さらにNoSQLやHadoopなど、幅広く扱える必要がある。
またデータの「分析」を行うのはデータサイエンティストとは限らない。アプリ開発者、業務の専門家、ビジネスアナリストなど、さまざまな立場がそれぞれの目的に応じてデータ分析を行う。立場や目的により、R Studio、Jupyter Notebook、SPSSなど使うツールが異なるのが実状だ。
三澤氏は「IBMはあらゆるデータファイル・システムを扱えるように注力しており、またあらゆるデータ分析ツールを使えるようにお手伝いしています」と話し、カバー範囲が広いことを強調する。
さらに重要なのがデータのガバナンスだ。元の目的、つまりデータやAI活用を考えると、すぐに分析に使えるように整備されたデータが必要になる。三澤氏は「IBMにはデータカタログというソリューションがあります。IBMが大きく差別化できるところです」と胸を張る。
データカタログとはあらゆるデータソースから収集したデータをAIで自動分類し、メタデータ管理だけではなく、マシンラーニングで使うような学習データや学習モデルの生成も行い、それらをカタログ化するもの。カタログ化することでデータの検索や共有からガバナンスまで行えるようにする。これらを統合的に行うのがIBMの「Enterprise Catalog」だ。あらゆるデータソース、データ分析ツール、AIを網羅できるようなデータ整備基盤を目指している。
この「Enterprise Catalog」が行うデータ管理の特徴は3つある。1つめはデータ利用者が分かる言葉、つまりビジネス用語を用いていること。2つめはどのようなデータソースからどのようにデータが生成されたか、来歴(リネージュ)を管理していること。3つめはデータ構造を理解してメタデータを管理していることだ。これらは「Enterprise Catalog」の統合UIから確認できる。
システム環境に目を向けよう。データソースはオンプレミスからクラウドまで分散している可能性があり、データプラットフォームは俊敏性と移行性が高いことが望ましい。そこでデータ整備基盤にはコンテナ(Docker)やKubernetesを用いることでデータとアプリケーションは場所を選ばず配置し、移動も可能にしている。
IBMの統合データプラットフォーム基盤をIBM Cloud(パブリッククラウド)で実現するのが「IBM Watson Studio」、オンプレミスや各種クラウドを組み合わせたハイブリッドクラウドで実現するのが「IBM Cloud Private for Data(ICP for Data)」だ。違いは場所(オンプレミスか、いずれかのクラウドか)と管理者権限だ。前者の「IBM Watson Studio」ならフルマネージドになる。実現できることはほぼ同じ。
これからはWatsonがますます身近に 次の課題解決に向けてAIのマネージも
最後に三澤氏はIBM Watsonに関する最新情報についても発表した。まずは日本のデータセンターの強化。IBMは9月17日から関東近郊に3つのデータセンターをオープンした。三澤氏は「全く異なる地層に配置しているため、よほど大きな大地震でも耐えられるようにしています。スーパー・ハイアベイラビリティを実現するクラウド基盤が強化されました」と話す。
これからはWatsonがより身近で稼働できるようになる。これまでWatsonのインスタンスはIBMの海外データセンターにあったが、16のうち13のWatsonサービスは日本のデータセンターでも稼働し選択できるようになったという。またWatsonをプライベート環境で利用できる「Watson on ICP」も順次展開しているという。WatsonのAPIをコンテナ化し、オンプレミスのICPにWatsonを乗せることが可能なのだ。このように、ICPを要として、オンプレミスでもパブリッククラウドでも、そしてマルチクラウド環境でも、AIやデータそして企業のアプリケーションを動かすことができる選択肢を提供しようとしているのがIBMのアプローチだ。
現状のAI活用の課題はデータ整備とされているが、次の課題と目されているのが「AIバイアスの極小化」だ。AIの普及につれ、AIが提示した結果についての信頼性、公平性、透明性、説明可能性、倫理性など、「AIバイアス」が問題視されつつある。そこでIBMではAIそのものを管理するために「AI OpenScale」を提供している。これはIBM Cloudライトアカウントでフリーミアム(無料から)利用できる。
IBM CloudライトアカウントはDb2やWatson Studioなど30以上のサービスが利用できるため、スモールスタートで試すには有効だ。なかでも「Db2 on Cloud」は3分でデプロイ完了できるため、これまでオンプレで利用していたなら簡便さに感激するかもしれない。
最後に三澤氏はこう述べて講演を締めた。「今年大きな投資をクラウド事業に行いました。ハイアベイラビリティを実現するパブリッククラウドとしてはナンバーワンのファンクションを提供できるようになってきたと思います。IBMはクラウド、オンプレミスを問わず、皆様のDX実現をお手伝いするためのサービスや製品拡充に力を入れていきたいと思います」