データ整備の課題を解決するには「IBM InfoSphere Information Server」
AI花盛りである。大きな期待を抱いて導入に踏み出す企業もいる。意気揚々と「うちには膨大なデータがある。だからAIを導入したら、すぐにでもビジネスは一変し、ライバルに大きな差をつけられるだろう」と見込んだものの、多くの企業は「ある壁」に直面する。それは「すぐに使えるデータがない」ということだ。
AIは最初から頭脳明晰ではない。学習して徐々に賢くなっていく。賢くなるにはデータが必要だ。AIにとってデータとは人間の成長に必要な栄養のようなもの。データがなければAIは学習できず、正しい回答を出せなければAIは無用の長物になってしまう。
IBMがこれまで手がけた数多くのWatsonプロジェクトを振り返り調査したところ、企業が持つデータのうち、すぐに利用できたデータは30%以下だったという。そのためAI活用の現実を考えるなら、まずはデータ整備を万全にする必要がある。
なぜ多くの企業がデータ整備に苦労してしまうのか。IBMが顧客にヒアリングしたところ、データ整備で苦労するポイントは大きく次の3つに集約されるという。
まず「データの所在がわからない」。例えば顧客分析をしようとして、データ分析者が購買履歴や商品一覧を入手しようとしても、どこにあるか分からずに誰かに聞いて回らなくてはならない。データの所在が属人的でタイムリーにデータが入手できないということが起きる。
次に「データが正確ではない」。日付なら12時間制と24時間制など異なる表記が混在している、あるいは欠損している、逆にデータが古くて除外する必要があるものなどが混じっているなどだ。そして「データの加工に時間がかかる」ことも。データソースからデータを切り出した段階では項目が不足していて、複数のデータを組み合わせて加工する必要があるものだ。どれも「このままでは使えない」となる。
IBMにはこうした問題を解決する次世代データプラットフォーム「IBM InfoSphere Information Server」がある。「データの所在がわからない」に対しては所在地と透明性を管理することができる。この製品ではデータをカタログ化できるため、検索すれば必要なデータがどのデータベースのどのカラムにあり、誰がそのデータを管理しているのかが分かる。加工されたデータなら、どのデータソースからどのような加工を経ているのか履歴を把握できるデータ・リネージュ機能があり、データの透明性を確保できる。
「データが正確ではない」に対しては、不揃いなデータを修正するための提案をしたり、データの品質をスコア付けして可視化する機能がある。「データ加工に時間がかかる」に対しては、GUIのETLツールがある。ブラウザからドラッグ&ドロップでコンポーネントを配置し、データフローを定義できるなど生産性が高い。実はIBMで20年以上の実績を持ち国内シェアも高いデータ統合ツールからなる。
このようなデータ整備機能はオンプレミス(ハイブリッドクラウド)の「IBM Cloud Private for Data(ICP for Data)」や「InfoSphere Information Server」、パブリッククラウドの「IBM Watson Studio」のいずれからも利用可能だ。
ハイパフォーマンスでインメモリカラムナのDb2をクラウドで「IBM Db2 Warehouse on Cloud」
データに関する課題はまだある。単にデータといっても構造化や非構造化、テキスト以外の音声や画像など、データには多種多様な形式がある。また格納されている場所もオンプレミスからクラウドまで幅広い。データストアがどれだけ柔軟かつ幅広く対応できるかも重要だ。四元氏はIBMが提供するデータストア(下図)を挙げ、その幅広さを示した。
続けて四元氏が「実はこんなものもあります」と話すのがSQL QueryとIBM Analytics Engine。前者はクラウドのオブジェクトストレージにSQLを投げてデータ分析するサービスだ。大ざっぱに言えばAmazon Web ServicesのAthenaをイメージすればいい。実はIBMのクラウドにも同等の機能がある。後者はHadoopとSparkをSaaSで利用するサービス。「ハードウェア管理などをすることなく、使うことだけに専念できます」と四元氏は言う。
なかでも四元氏イチオシなのが「IBM Db2 Warehouse on Cloud」。ハイパフォーマンスなインメモリカラムナのDWHがクラウドサービスで利用できる。元データが大きくても必要なデータだけメモリ上で圧縮したまま処理ができるため、高いパフォーマンスを実現できている。
運用面から見ると、クラウドサービスなので管理者があれこれ運用管理やチューニングする必要がないところがメリットだ。運用はIBMに任せておけばいい。ダウンタイムなしにリソースの拡大や縮小ができるのもクラウドならではだ。「今年、他社が似たようなサービスをリリースしましたが、IBMは15年前から運用自動化に投資しており、IBMはすでに2~3年前からお客様にクラウドサービスとしても提供している実績があるのです」(四元氏)
四元氏はAWS Redshiftとの比較も示した。AWSのサイトで示された作業項目と比べると、IBM Db2 Warehouse on Cloudでは多くの保守作業が不要となる。「AWS Redshiftでは最低でも1人の運用担当者(DBA)が必要ですが、IBM Db2 Warehouse on CloudではDBAの負担が軽減され運用コストが削減できます」と話す。またデータ分析を始めるまでのステップ数で比較すると、IBM Db2 Warehouse on Cloudでは4ステップですむため「3倍簡単で迅速」だと四元氏はデモを交えて主張した。
統計処理や機械学習をする上でのメリットもある。一般的に統計処理や機械学習をするには、データストアからデータベースサーバーの間で大量のデータ移動を行う必要があり、そこに多くの時間を必要とされてきた。一方、Db2ではSQLやライブラリをデータベース内に組み込んでいるデータベースエンジンでもあるため、データ移動にかかる時間を排除できる。
IBMの強みは「なんでもござれ」 本当にビジネスに即したAI活用とは
IBM Db2はメインフレームの時代から数えると35年の実績がある。製品には長い歴史で培われたナレッジが刻まれており、今でも強力なデータベースエンジンだ。これをそのまま各種クラウドからアプライアンスまで様々な稼働環境に展開できているのも特徴だ。さらに稼働する環境(クラウド)によりライセンス体系が変わらないこともIBM Db2のメリットであると四元氏は強調した。
データを幅広くとらえて活用しようとすると、異なるシステムアーキテクチャが混在することもある。例えば構造化データからなるSoR(System of Record)と非構造化データも混じるSoE(System of Engagement)だ。これらはデータ形式が異なるだけではなく、データストアの場所や使うツールも異なる。扱うエンジニアのスキルセットも違う。四元氏は「実はIBMは全てできる唯一のベンダーだと思っています」と言う。
どういうことか。四元氏はこう説明する。「Oracle DatabaseからIBM Db2に、AWSからIBM Cloudに乗り変えてほしい……とは、本音では思っていますが、実際に使い始めているなら、移行するには様々な準備が必要なことも事実です。IBMとしては、いまお使いの環境はそのままで、足りないところを補うとか、Oracle DatabaseとAWSの連携とか、そういうところでお役に立てると思っています。例えばWatsonにしても、IBM Cloud以外にあるデータも活用できます。IBMはいろんなところ、いろんな組み合わせで製品が使えるようにという戦略を持っているベンダーなのです」。幅広くカバーできることや、歴史に裏付けられた実績などがIBMの強みということだ。
最後に四元氏はこう述べて講演を締めくくった。「IBMはAIだけではなく、活用前のデータ整備や周辺のプラットフォームまできちんとプランを立てることができます。そうすることで本当にビジネスに即したAIの活用ができるのです」