DB Online Day 2018 Powered by IBM（AD）

社長に「明日からAIを入れろ」と言われたが「使えるデータがない」問題をどうするか

2018/12/25 06:00

通知

　毎日どこかで「AI」を目にするほど、AIの普及は著しい。IBMは早くからWatsonを手がけ、AIでは先駆者だ。今ではIBMはAI実現だけにとどまらず、準備段階となるデータ整備からAIを業務に生かすまで、トータルでサポートできるベンダーだ。いまIBMが提供するソリューションについて日本IBM 四元菜つみ氏が解説する。

通知

データ整備の課題を解決するには「IBM InfoSphere Information Server」

　AI花盛りである。大きな期待を抱いて導入に踏み出す企業もいる。意気揚々と「うちには膨大なデータがある。だからAIを導入したら、すぐにでもビジネスは一変し、ライバルに大きな差をつけられるだろう」と見込んだものの、多くの企業は「ある壁」に直面する。それは「すぐに使えるデータがない」ということだ。

　AIは最初から頭脳明晰ではない。学習して徐々に賢くなっていく。賢くなるにはデータが必要だ。AIにとってデータとは人間の成長に必要な栄養のようなもの。データがなければAIは学習できず、正しい回答を出せなければAIは無用の長物になってしまう。

　IBMがこれまで手がけた数多くのWatsonプロジェクトを振り返り調査したところ、企業が持つデータのうち、すぐに利用できたデータは30％以下だったという。そのためAI活用の現実を考えるなら、まずはデータ整備を万全にする必要がある。

　なぜ多くの企業がデータ整備に苦労してしまうのか。IBMが顧客にヒアリングしたところ、データ整備で苦労するポイントは大きく次の3つに集約されるという。

　まず「データの所在がわからない」。例えば顧客分析をしようとして、データ分析者が購買履歴や商品一覧を入手しようとしても、どこにあるか分からずに誰かに聞いて回らなくてはならない。データの所在が属人的でタイムリーにデータが入手できないということが起きる。

　次に「データが正確ではない」。日付なら12時間制と24時間制など異なる表記が混在している、あるいは欠損している、逆にデータが古くて除外する必要があるものなどが混じっているなどだ。そして「データの加工に時間がかかる」ことも。データソースからデータを切り出した段階では項目が不足していて、複数のデータを組み合わせて加工する必要があるものだ。どれも「このままでは使えない」となる。

　IBMにはこうした問題を解決する次世代データプラットフォーム「IBM InfoSphere Information Server」がある。「データの所在がわからない」に対しては所在地と透明性を管理することができる。この製品ではデータをカタログ化できるため、検索すれば必要なデータがどのデータベースのどのカラムにあり、誰がそのデータを管理しているのかが分かる。加工されたデータなら、どのデータソースからどのような加工を経ているのか履歴を把握できるデータ・リネージュ機能があり、データの透明性を確保できる。

スライド12枚目：データの透明性が分かるデータ・リネージュ機能 — データの透明性が分かるデータ・リネージュ機能

　「データが正確ではない」に対しては、不揃いなデータを修正するための提案をしたり、データの品質をスコア付けして可視化する機能がある。「データ加工に時間がかかる」に対しては、GUIのETLツールがある。ブラウザからドラッグ＆ドロップでコンポーネントを配置し、データフローを定義できるなど生産性が高い。実はIBMで20年以上の実績を持ち国内シェアも高いデータ統合ツールからなる。

　このようなデータ整備機能はオンプレミス（ハイブリッドクラウド）の「IBM Cloud Private for Data（ICP for Data）」や「InfoSphere Information Server」、パブリッククラウドの「IBM Watson Studio」のいずれからも利用可能だ。

スライド15枚目：次世代データプラットフォーム — 次世代データプラットフォーム

次のページ
ハイパフォーマンスでインメモリカラムナのDb2をクラウドで「IBM Db2 Warehouse on Cloud」

この記事は参考になりましたか？

印刷用を表示

DB Online Day 2018 Powered by IBM連載記事一覧: 「AI活用の壁」をどう乗り越えるか？――成功から失敗までを知りつくす3人が語る！

社長に「明日からAIを入れろ」と言われたが「使えるデータがない」問題をどうするか

「AI Ready」な企業データはどのようにして作るか？

もっと読む

この記事の著者: 加山恵美（カヤマエミ）

EnterpriseZine/Security Online キュレーターフリーランスライター。茨城大学理学部卒。金融機関のシステム子会社でシステムエンジニアを経験した後にIT系のライターとして独立。エンジニア視点で記事を提供していきたい。EnterpriseZine/DB Online の取材・記事も担当しています。Webサイト：https://emiekayama.net

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事