「企業でAIにすぐ使えるデータはまだ30%しかない」の現実味
谷川:DB Onlineチーフキュレーターの谷川です。企画、取材、執筆などしています。今日は現場を取材した話などを紹介できると思っています。まずはパネラーのお二人、自己紹介をお願いします。
平井:BI構築から企業データ分析などに関わってきました。他にもコンサルタントやアナリスト、リサーチの仕事もしています。
野間:日本IBM の野間です。ここ10年ほど、IBMでデータベース界隈で技術支援や提案活動をしています。ベンダーの立場からの参加ですが、お客様の声を代弁する立場でも参加できると面白いかなと思っています。
谷川:まずはこちら、1ヶ月前の記事をご覧ください。IBMのプレス発表を記事にしたものです。「AIで使えるデータが30%」ということで、30%という数字が衝撃的だったのか、よく読まれました。実際のところ、どうでしょう。
平井:感覚的にはそんなものではないかと思います。何をもって「使えない」かはまちまちかと思います。例えば生産現場において、センサーやロボットからのログデータがあるとします。物理的にその工場にしかない(外部に出せない)から「AIで使えない」。あるいはクレンジングされていないから「使えない」。または季節変動を知りたいのに、データが1年分しかなくて「使えない」。いろんな状況が考えられます。
谷川:野間さんはどうですか。
野間:お客様の現場を思い浮かべると、30%よりもう少し低いかなと思います。平井さんと同じく、どう定義するかによります。データが整理整頓されて、すぐにでも分析可能な状態とすると、かなり少ないかと思います。AIに接続できる環境を整えクラウドを契約した、そういう環境だと30%くらいはいくかもしれません。
谷川:企業がBIを使い始めて25年ほど経ちます。すぐ使えるデータというのは企業にあって然るべきではないかと思うのですが。
平井:BIとAIを比べると基本は変わっていません。ただしBIではデータウェアハウスがあり、分析モデルから逆算してデータを構造化していました。AIは違います。BIを経験した企業ならAIができるかというと、文化的には近いですが、データが違います。
野間:私が伺っているお客様では、ビッグデータ活用のプラスアルファでAIを絡めたりしています。インフラ性能の向上で大量データでも一瞬で分析できることもあり、細かく分析すると「何か新しい発見があるのではないか」と期待されています。
谷川:それをやってうまくいった事例ってありますか?
野間:半分笑い話なんですが。ある製造業では製造装置の性能が上がり、データ取得の粒度も1時間に1回から1秒やミリ秒に1回データが取れるようになりました。最初は「ミリ秒でデータ分析しないと、品質改善につながらない」という予想でしたが、実際にやってみたところグラフの振れ幅はほとんど変わらず、「測定は1分間隔くらいでいいのでは」という結論に至りました。しかしムダではありませんでした。データの粒度を上げることよりも「別の角度から分析したほうがいい」や「別のものと相関を見たほうがいい」といった、新たな視点を得られて次の一手につなげられたからです。
視覚化や現状把握から、次のステップに進むにはどうしたらいい?
谷川:データを視覚化して現状把握するまでなら、多くが実践しています。次のステップ(統計解析やAI)に行こうとするとデータがないという壁があるようです。
平井:最近の製造業でホットなのが修理部品の在庫です。故障がいつ、どのくらい起きるかを把握できれば、修理部品の需要予測につなげられます。これをAIで解決するように進んでるところもあれば、まだ着手したばかりのところも。「AIで使える」という意味では、業務の文脈が分かった上でデータ加工しないと、傾向が読めません。まずはヒストグラムを描くとか、単純なピボットとか、そうした段階の企業が多いです。
谷川:Excelのピボットテーブルでもできますか?
平井:方法論としてはできそうですが、次元や軸が多く、データ量も大きいのでExcelでは厳しいです。一度データベースに格納して、何かのBIツールで、まずはビジュアル化します。故障率のグラフだと、当然ながら最初に初期不良の山がどんとあり、徐々に減るという形になります。部品や製品ごとに次のピークが来るタイミングが異なります。それがビジュアライゼーションで把握できます。それを今後どうやってモデル化するかが次の課題です。
谷川:現状では「見るところ」まではどの企業も行けるでしょうか?
平井:手法的には難しくないと思います。ビッグデータのブームと並行してインフラ整備が進み、クライアントパソコンが64ビットになるなど、環境が整いつつありますので。
谷川:ビジュアライゼーションから次のステップに行くポイントは?
野間:製造業のお客様を見ると、多くがリアルタイムで状況を把握するためにビジュアライゼーションを実践されています。古くからのノウハウやツールも持っています。現在の課題は、まだ1つの装置とか、1つの工程しか見えていないことです。前工程と絡めた時にどうなるか、あるいは全社で横断的に見たらどうなるか。次に進めないのは、装置ごとにデータ形式が違う、あるいは工場ごとにデータの定義が違うなどが壁になっています。
谷川:データの量についてはどうでしょう。データはたくさんないと分析できないのでしょうか?
野間:実際のところ、分析に必要なのは量ではなく質のいいデータです。前にIBMの海外イベントで大手製造業のお客様が「ビッグデータの時代にビッグデータを集めても意味がない。本当に必要なのは質が高いデータだ」と話していました。将来ディープラーニングするなら大量のデータが必要になりますが、「まずは(AIや分析を)やってみたい」であればそんなにデータは大量でなくても構いません。量よりも質です。
谷川:どうしたらデータの質を上げられるでしょうか。
平井:アナリティクスにおける質というと、統計的な外れ値がないことで、データクレンジングと呼ばれていた工程となります。ここはBIでもAIでも同じです。これに加えて、目的に沿った属性のデータが揃っているかが基本的なところです。
谷川:データサイエンティストが活躍するような分野でしょうか。
平井:データサイエンティストの資質やスキルというと、一般論では統計解析の能力と思われがちですが、実はそれよりもビジネス能力だと思います。何がゴールか。先ほどの修理部品在庫なら、ビジネスのゴールは「部品在庫を減らしたい」。そこから逆算して、どういうデータを解析してどういう結果が得られればいいのかを考えていくことになります。実存するデータからどれをピックアップするか、ビジネス的な仮説が必要になります。
谷川:IBM Watsonなど優秀なツールが出てきて「よくわからないけれどデータを食わせれば何か予測をしてくれる」といった期待があります。そうした期待をどうプロジェクトに落としていくのでしょうか。
野間:そこは厳しいところです。よくある相談が「いい装置を用意して、データ収集できる環境が整いました。データも蓄積できています。データ分析の部門や担当をつけました。それで何かAIをやりたいのですが」です。そこには「今あるデータをAIツールにかけたら、何かすごい結果が返ってくるかもしれない」という期待が込められています。そういう時、「本当にやりたいことは何か。AIの活用が目的なのか、もっと手前の質のいいモデルを作るのか」などをお客様と一旦整理するようにしています。
「AIで使える」にはデータレイクがあればいい?
谷川:本当に「AIで使える=AIレディ」にするにはどうするかに話を移していきます。企業のデータをAIレディにするには、改めてデータウェアハウスを整備した方がいいんじゃないかと思うんですが。
平井:データウエアハウスでは分析モデルが先に決まります。データの前処理まではデータウェアハウスもAIもほぼ一緒です。しかしインプリするタイミングが違います。AIだとデータサイエンティストやそれに近い人が試行錯誤しながらデータを作ります。この違いは大きく、データウェアハウスではないです。使えるデータがあっても、それだけではAIレディには十分ではないです。
谷川:ビジネス指標に対して何らかのAIを使うなら?
平井:経営的、経営判断的なものになれば、そうですね。
谷川:データレイクと呼ばれていたものがAIや機械学習のデータのソースになるでしょうか?
平井:私の印象だとデータレイクとは、もともとデータウェアハウスとの対比で出てきたものです。「データは倉庫よりも、湖に貯めておけ」と。とりあえず貯めておく貯水池です。またデータレイクは当初NoSQLのキーバリュー型データをためるものでしたが、最近ではファイルシステムのようにとらえられてきているという気がします。
谷川:データレイクを作っていてもAIレディにはならない?
平井:たぶん。今のデータレイクだと何の前処理もしていません。貯めてるだけです。
谷川:IBMの主張だとデータレイクはどうですか?
野間:一般的なデータレイクは「いろんな本を何でも置いておけるような大きな倉庫、レスポンスの良い倉庫を用意しました」で止まっています。IBMの考えは「自分に必要なデータをすぐに使えるように、図書館みたいに整理整頓されたものを作っていきましょう」です。これがIBMが考えるデータレイクのあるべき姿です。
谷川:それがエンタープライズデータカタログとなりますか?
野間:はい、そうなります。
谷川:具体的には何をするものでしょうか。
野間:例えば複数のデータソースがあったとして、元のソースは何か把握できるようにします。リレーショナルデータベースなのか、その表はどのような定義なのか、物理的な部分をカタログ化していくことができます。加えて、データを社内の業務で使う共通言語で紐付けすることができます。例えば工場Aで使う「プロダクトID」と、工場Bで使う「プロダクトID」は同じ用語でも意味合いが違うことがあります。そうした用語の定義や紐付けを行います。もう1つ、データの来歴管理もできます。例えば「この分析に使っているデータはどのデータソースから来て、このようなバッチ集計を経ていた」といった履歴が分かります。こうしてデータを利用するユーザーにわかりやすいデータリソースとして定義します。
谷川:先ほどの三澤さんの講演では自動的にメタタグをつけるとかおっしゃっていたような。手でやるならすごい手間だけど、楽になるのでしょうか。
野間:データを検索していく部分では自動化できます。しかし企業内の用語統一となると、そこは人が頑張らないといけません。ただし一度カタログを作っておけば、次に他の部門とコラボレーションする時に共通言語で進められるので、いろんな人が同じデータを参照して分析できるようになります。
AIを始めるなら、具体的には何から始めたらいい?
谷川:平井さんから見るとどうですか?
平井:IBM製品のDb2と言うと「ガチガチのデータベース」というイメージがありますが、「Db2 on Cloud」はAWSならRedshift、GCPならBigQueryに近いかもしれません。ある程度はデータレイクっぽいところもあるけれど、ある程度の前処理をしたデータや表を貯めて、不特定多数の人が使えるようにする。それが現実解としてインプリされているという印象を持ちました。
谷川:エンタープライズカタログが整備されればAIや機械学習に使えるだろうということは理解できました。パフォーマンスはどうでしょうか。
野間:昔に比べてハードウェアの性能が上がり、ストレージが高速になり、それらに助けられてパフォーマンスは十分出せるようになってきています。カラムナとかインメモリの活用といった技術も向上しています。そのためクラウドなどの仮想環境や小規模環境においてデータが大量でも、昔に比べれば短時間で分析できます。そしてそれらをデータベースの深い知識がなくても誰でも利用できるよう、より簡単に利用でき、より汎用的に、RESTのAPIとしてマイクロサービス的に結果を得るといったこともできるようになっています。
谷川:具体的にどこから始めればいいのかに話を移していきます。事前にデータをうまく処理するエンタープライズカタログができれば、おそらくAI活用ができそうです。現実的には何から始めたらいいでしょうか。
平井:その企業のカルチャーやポジショニングにもよります。パイオニアやチャレンジャーとなる企業はさておき、フォロワーとなる企業で考えると「最終的な結果がわかりやすくないと次に行けない」という悩みがあります。例えば「修理部品の在庫が減る」だと、目に見えてお金が節約できます。それぞれの業種業態で、上手くいけば確実に効果があらわれるターゲットを選ぶことが大事です。事例は出つつあるので、アンテナを張って「自分の会社でも行ける」ターゲットを探しましょう。見つけたら、必要なデータは何か、自分の会社にあるのか、あるならどう集めるのか、前処理はどうするか、という流れになるかと思います。
野間:同じ考えです。効果が出そうなターゲットをできるだけ狭く絞り込むことが大事です。効果があるところから始めて、そこを中心にカタログを拡充させていくのがいいでしょう。エンタープライズカタログもスモールスタートで。「小さく始める」のが今の主流です。
谷川:AIを始めるなら、どういう体制で始めたらいいでしょうか。組織や予算など、アドバイスをいただけたら。
平井:すごく難しい問題です。IT、ビジネス、アナリティクス。この3つの要素が必要です。アナリティクスはデータサイエンス系スキルとも言えます。ITとビジネスは多少調整すれば何とかなりそうですが、3つ目はまだ多くの企業が持ち合わせてない要素です。これは短期には解決できず、現実的には少数精鋭となります。内製か調達か、その組み合わせか、早い時期に着手する必要があると思います。
谷川:開発体制も含め、どのようにアプローチしたら上手くいくでしょうか。
野間:専任の人を必ずアサインしてください。AIを片手間でやろうとするお客様がまだ多くいらっしゃいます。このような新しい取り組みはなかなか片手間では回るものではありません。業務知識、分析や統計学の知識も必要です。データソースにアクセスするためのインフラの知識も必要です。幅広い知識が必要になります。また専任の人がデータを使いたいとき、すぐ使えるサンドボックス環境を用意することも重要です。
谷川:これでパネルディスカッションを終わります。ありがとうございました。