「企業でAIにすぐ使えるデータはまだ30%しかない」の現実味
谷川:DB Onlineチーフキュレーターの谷川です。企画、取材、執筆などしています。今日は現場を取材した話などを紹介できると思っています。まずはパネラーのお二人、自己紹介をお願いします。
平井:BI構築から企業データ分析などに関わってきました。他にもコンサルタントやアナリスト、リサーチの仕事もしています。
野間:日本IBM の野間です。ここ10年ほど、IBMでデータベース界隈で技術支援や提案活動をしています。ベンダーの立場からの参加ですが、お客様の声を代弁する立場でも参加できると面白いかなと思っています。
谷川:まずはこちら、1ヶ月前の記事をご覧ください。IBMのプレス発表を記事にしたものです。「AIで使えるデータが30%」ということで、30%という数字が衝撃的だったのか、よく読まれました。実際のところ、どうでしょう。
平井:感覚的にはそんなものではないかと思います。何をもって「使えない」かはまちまちかと思います。例えば生産現場において、センサーやロボットからのログデータがあるとします。物理的にその工場にしかない(外部に出せない)から「AIで使えない」。あるいはクレンジングされていないから「使えない」。または季節変動を知りたいのに、データが1年分しかなくて「使えない」。いろんな状況が考えられます。
谷川:野間さんはどうですか。
野間:お客様の現場を思い浮かべると、30%よりもう少し低いかなと思います。平井さんと同じく、どう定義するかによります。データが整理整頓されて、すぐにでも分析可能な状態とすると、かなり少ないかと思います。AIに接続できる環境を整えクラウドを契約した、そういう環境だと30%くらいはいくかもしれません。
谷川:企業がBIを使い始めて25年ほど経ちます。すぐ使えるデータというのは企業にあって然るべきではないかと思うのですが。
平井:BIとAIを比べると基本は変わっていません。ただしBIではデータウェアハウスがあり、分析モデルから逆算してデータを構造化していました。AIは違います。BIを経験した企業ならAIができるかというと、文化的には近いですが、データが違います。
野間:私が伺っているお客様では、ビッグデータ活用のプラスアルファでAIを絡めたりしています。インフラ性能の向上で大量データでも一瞬で分析できることもあり、細かく分析すると「何か新しい発見があるのではないか」と期待されています。
谷川:それをやってうまくいった事例ってありますか?
野間:半分笑い話なんですが。ある製造業では製造装置の性能が上がり、データ取得の粒度も1時間に1回から1秒やミリ秒に1回データが取れるようになりました。最初は「ミリ秒でデータ分析しないと、品質改善につながらない」という予想でしたが、実際にやってみたところグラフの振れ幅はほとんど変わらず、「測定は1分間隔くらいでいいのでは」という結論に至りました。しかしムダではありませんでした。データの粒度を上げることよりも「別の角度から分析したほうがいい」や「別のものと相関を見たほうがいい」といった、新たな視点を得られて次の一手につなげられたからです。
視覚化や現状把握から、次のステップに進むにはどうしたらいい?
谷川:データを視覚化して現状把握するまでなら、多くが実践しています。次のステップ(統計解析やAI)に行こうとするとデータがないという壁があるようです。
平井:最近の製造業でホットなのが修理部品の在庫です。故障がいつ、どのくらい起きるかを把握できれば、修理部品の需要予測につなげられます。これをAIで解決するように進んでるところもあれば、まだ着手したばかりのところも。「AIで使える」という意味では、業務の文脈が分かった上でデータ加工しないと、傾向が読めません。まずはヒストグラムを描くとか、単純なピボットとか、そうした段階の企業が多いです。
谷川:Excelのピボットテーブルでもできますか?
平井:方法論としてはできそうですが、次元や軸が多く、データ量も大きいのでExcelでは厳しいです。一度データベースに格納して、何かのBIツールで、まずはビジュアル化します。故障率のグラフだと、当然ながら最初に初期不良の山がどんとあり、徐々に減るという形になります。部品や製品ごとに次のピークが来るタイミングが異なります。それがビジュアライゼーションで把握できます。それを今後どうやってモデル化するかが次の課題です。
谷川:現状では「見るところ」まではどの企業も行けるでしょうか?
平井:手法的には難しくないと思います。ビッグデータのブームと並行してインフラ整備が進み、クライアントパソコンが64ビットになるなど、環境が整いつつありますので。
谷川:ビジュアライゼーションから次のステップに行くポイントは?
野間:製造業のお客様を見ると、多くがリアルタイムで状況を把握するためにビジュアライゼーションを実践されています。古くからのノウハウやツールも持っています。現在の課題は、まだ1つの装置とか、1つの工程しか見えていないことです。前工程と絡めた時にどうなるか、あるいは全社で横断的に見たらどうなるか。次に進めないのは、装置ごとにデータ形式が違う、あるいは工場ごとにデータの定義が違うなどが壁になっています。
谷川:データの量についてはどうでしょう。データはたくさんないと分析できないのでしょうか?
野間:実際のところ、分析に必要なのは量ではなく質のいいデータです。前にIBMの海外イベントで大手製造業のお客様が「ビッグデータの時代にビッグデータを集めても意味がない。本当に必要なのは質が高いデータだ」と話していました。将来ディープラーニングするなら大量のデータが必要になりますが、「まずは(AIや分析を)やってみたい」であればそんなにデータは大量でなくても構いません。量よりも質です。
谷川:どうしたらデータの質を上げられるでしょうか。
平井:アナリティクスにおける質というと、統計的な外れ値がないことで、データクレンジングと呼ばれていた工程となります。ここはBIでもAIでも同じです。これに加えて、目的に沿った属性のデータが揃っているかが基本的なところです。
谷川:データサイエンティストが活躍するような分野でしょうか。
平井:データサイエンティストの資質やスキルというと、一般論では統計解析の能力と思われがちですが、実はそれよりもビジネス能力だと思います。何がゴールか。先ほどの修理部品在庫なら、ビジネスのゴールは「部品在庫を減らしたい」。そこから逆算して、どういうデータを解析してどういう結果が得られればいいのかを考えていくことになります。実存するデータからどれをピックアップするか、ビジネス的な仮説が必要になります。
谷川:IBM Watsonなど優秀なツールが出てきて「よくわからないけれどデータを食わせれば何か予測をしてくれる」といった期待があります。そうした期待をどうプロジェクトに落としていくのでしょうか。
野間:そこは厳しいところです。よくある相談が「いい装置を用意して、データ収集できる環境が整いました。データも蓄積できています。データ分析の部門や担当をつけました。それで何かAIをやりたいのですが」です。そこには「今あるデータをAIツールにかけたら、何かすごい結果が返ってくるかもしれない」という期待が込められています。そういう時、「本当にやりたいことは何か。AIの活用が目的なのか、もっと手前の質のいいモデルを作るのか」などをお客様と一旦整理するようにしています。