データ整備の課題を解決するには「IBM InfoSphere Information Server」
AI花盛りである。大きな期待を抱いて導入に踏み出す企業もいる。意気揚々と「うちには膨大なデータがある。だからAIを導入したら、すぐにでもビジネスは一変し、ライバルに大きな差をつけられるだろう」と見込んだものの、多くの企業は「ある壁」に直面する。それは「すぐに使えるデータがない」ということだ。
AIは最初から頭脳明晰ではない。学習して徐々に賢くなっていく。賢くなるにはデータが必要だ。AIにとってデータとは人間の成長に必要な栄養のようなもの。データがなければAIは学習できず、正しい回答を出せなければAIは無用の長物になってしまう。
IBMがこれまで手がけた数多くのWatsonプロジェクトを振り返り調査したところ、企業が持つデータのうち、すぐに利用できたデータは30%以下だったという。そのためAI活用の現実を考えるなら、まずはデータ整備を万全にする必要がある。
なぜ多くの企業がデータ整備に苦労してしまうのか。IBMが顧客にヒアリングしたところ、データ整備で苦労するポイントは大きく次の3つに集約されるという。
まず「データの所在がわからない」。例えば顧客分析をしようとして、データ分析者が購買履歴や商品一覧を入手しようとしても、どこにあるか分からずに誰かに聞いて回らなくてはならない。データの所在が属人的でタイムリーにデータが入手できないということが起きる。
次に「データが正確ではない」。日付なら12時間制と24時間制など異なる表記が混在している、あるいは欠損している、逆にデータが古くて除外する必要があるものなどが混じっているなどだ。そして「データの加工に時間がかかる」ことも。データソースからデータを切り出した段階では項目が不足していて、複数のデータを組み合わせて加工する必要があるものだ。どれも「このままでは使えない」となる。
IBMにはこうした問題を解決する次世代データプラットフォーム「IBM InfoSphere Information Server」がある。「データの所在がわからない」に対しては所在地と透明性を管理することができる。この製品ではデータをカタログ化できるため、検索すれば必要なデータがどのデータベースのどのカラムにあり、誰がそのデータを管理しているのかが分かる。加工されたデータなら、どのデータソースからどのような加工を経ているのか履歴を把握できるデータ・リネージュ機能があり、データの透明性を確保できる。
「データが正確ではない」に対しては、不揃いなデータを修正するための提案をしたり、データの品質をスコア付けして可視化する機能がある。「データ加工に時間がかかる」に対しては、GUIのETLツールがある。ブラウザからドラッグ&ドロップでコンポーネントを配置し、データフローを定義できるなど生産性が高い。実はIBMで20年以上の実績を持ち国内シェアも高いデータ統合ツールからなる。
このようなデータ整備機能はオンプレミス(ハイブリッドクラウド)の「IBM Cloud Private for Data(ICP for Data)」や「InfoSphere Information Server」、パブリッククラウドの「IBM Watson Studio」のいずれからも利用可能だ。