data tech 2020 レポート（AD）

マルチクラウドのAutoMLサービスが実現するデータドリブン経営の未来

ビッグデータ活用の民主化が始まる

2021/01/20 08:00

通知

　ビッグデータという言葉が使われはじめてから、もう10年ほど過ぎた。ビジネスでデータを活用することの重要性はかなり浸透している。2021年の今、5G、IoT、DX、Society 5.0を背景に、データはますます膨張し、これからはデータの大海原から価値を見いだしていく必要があるだろう。DATAFLUCT 原田一樹氏は「いよいよ、ビッグデータ活用の民主化が始まります」と、データドリブン経営の重要性を語り始めた。

通知

データドリブン経営は演繹的アプローチと帰納的アプローチの合わせ技で

　これまでのデータ分析はデータウェアハウスにデータを集め、分析対象や目的を明確にして分析することが前提にあった。そのうえでデータモデルやスキーマを設計し、ETL（Extract Transform Load）を使い、データを分析、可視化して、最終的には過去の正確な把握を行う。これを原田氏は「演繹的アプローチ」と指摘する。

　一方、これからは未来の予測も必要になる。従来の演繹的アプローチと比較すると、データレイクなどにデータを集めて観察し、何が予測できるか仮説を立て、立証していくところに違いがある。機械学習をとりいれるのも特徴だ。こちらは「帰納的アプローチ」になるという。

　ただし演繹的アプローチが帰納的アプローチへと入れ替わるのではなく、両方とも必要だ。原田氏は「過去の正確な把握だけでは不十分です。これからは状況変化を前提として、未来予測していくことも必要な時代になります。両方合わせてデータドリブン経営が実現します」と話す。

　ここで原田氏はシンガポールのデジタルツインの例を挙げた。シンガポールをバーチャルに再現する試みがある。実在するあらゆるものをバーチャルに再現し、デジタルツインを作りあげている。サイバー空間でシミュレーションを行うなかで、リアルと照らし合わせて予測モデルを繰り返し磨きあげているのだ。

　デジタルツインの例と同様に、モデル駆動とデータ駆動（データドリブン）を組み合わせることがデータドリブン経営の未来像になると原田氏は考えている。モデル駆動は、演繹的アプローチでリアルの理論科学からサイバーの計算機科学でシミュレーションを行う。一方、データ駆動は帰納的アプローチでリアルの実験科学からデータを収集し、データサイエンスで未来予測を行うという。これらモデル駆動とデータ駆動の間で理論やモデルの補正を行うことで、精度を高めていく。

　食品流通サプライチェーンで考えてみよう。不確実なものが多いため、原料生産、食品加工、流通、小売、あらゆる段階でロスが起きている。これは、需要がわからないから多めに作ってしまったり、機会ロスを怖れて多めに発注してしまい廃棄してしまったりすることが原因だ。しかし、需要と供給のデータをつなぎ、予測と検証を繰り返すことで、勘と経験だけに頼らない判断が可能になる。

データ活用でフードロスを解消「DATAFLUCT foodloss.」
[画像クリックで拡大]

　DATAFLUCTではデータサイエンスで収穫予測、仕入れ予測、流通予測などを行うサービスを次々とリリースしている。たとえば、気象やエリア、モバイル空間統計、店舗のPOSデータなどから需要予測モデルでダイナミックプライシングを行う店舗支援型AIサービス「DATAFLUCT foodloss.」では、フードロスや機会ロスの最小化を目指しているという。

　原田氏は、「いろいろなプロダクトをつなぎ合わせることで食品ロスが発生しない、最適化されたサプライチェーンを作っていきたいというのが私たちのビジョンです」と話す。

AI活用を成功させるための第一歩

　ここからはデータドリブン経営への現実の道のりを考えてみよう。データの活用と機械学習の活用レベルが高まれば、データドリブン経営に近づく。もし社内に高度なデータ分析人材がいて、機械学習をあらゆる領域で導入済みであり、データサイエンティスト集団がいるなら理想だが、現実にはなかなかない。実現できているのはGAFAのような企業だけだという。

　また、現実では実証実験（PoC）や実現可能性で壁が立ちはだかる。ありがちなのが会社トップから「AIを活用した業務改善、新規事業の企画を」と言われるパターンだ。こういう場合は、失敗に終わってしまうケースが多くなる。なぜなら人工知能やAIをよく理解しないまま、使うこと自体が目的となってしまい、いい効果が出せなくなるためだ。

　他にも社内にデータサイエンティストがいなかったり、外部に依頼するにもデータサイエンティストの費用が高すぎて手がでなかったりと、様々の要因が壁となる。

　AI活用を目指そうとすると、機械学習そのものに関心が向きがちだ。機械学習のライフサイクル、つまりデータの準備に始まり、モデルの作成、評価、展開、そして運用管理や更新を繰り返す。これはこれで大事だが、これだけに固執するとよくない。データや機械学習の活用を高めるには、このライフサイクルのフィードバックにあたる「問題・要求の定義」や「ビジネス目標の評価」のプロセスで正しくあたりをつける必要があるという。

　では、「問題・要求の定義」とはどうあるべきか。原田氏によると、「どのような問題を解決する必要があるか」、「ビジネス上で測定すべき事象は何か（品質、コスト、顧客満足度など）」、「機械学習は適切なアプローチか（分類、予測、クラスタリングなど）」を明確化しておくことが望ましいという。もちろんデータも必要だ。どのようなデータが利用できるかも確認しておく必要がある。

　そして最終的に何を目標とするか。何らかのビジネス目標か、顧客価値の最大化か、予測精度か。このあたりの妥当性、PoCや実現可能性の検証精度を高めていくことが「成功への第一歩」と原田氏は言う。

AutoMLでデータドリブン経営を実現する

　とはいえ、切実なのは人材だ。優秀なデータサイエンティストもコンサルタントも、雇うとするとまとまった投資が必要になる。そうしたコストの問題を解決するのが、DATAFLUCTのマルチクラウドAutoMLサービスだ。

　AutoMLとは、機械学習を自動化する技術だ。先述したような機械学習のライフサイクルを手動で回すなら、データサイエンティストでも最低1ヵ月は必要になる。しかしAutoMLはモデルの準備、評価、展開の部分を自動化するため、数時間でモデルが完成する。基本的にはデータをアップロードしてAutoMLを実行すればモデルができてしまう。AutoMLはデータサイエンスの世界を大きく変える技術なのだ。

　原田氏によると、当初、AutoMLはオープンソースの機械学習ライブラリを中心に発展し、データサイエンティスト以外には敷居が高いものだった。しかし、2020年になると大手クラウドベンダーがAutoMLに本格参入しはじめ、いまや利用状況や認知度が急速に変わりつつある。原田氏は、「2021年以降、AutoMLの認知や活用が急速に進み、データサイエンスがより身近になると期待できます」と話す。

　DATAFLUCTのAutoMLサービスは、月額5万円から利用できる機械学習プラットフォームであり、AWS、Azure、GCPのマルチクラウド環境でAutoMLを同時実行し、各クラウドで作られたモデルを比較して最適なものをデプロイすることができる。2020年12月1日のトライアル版のリリースを経て、2021年1月15日に正式版をリリースしたばかり（無償トライアルも受付中。詳細はサービスサイト参照）。

　本サービスでは、PoCのモデル検証から実運用のMLOpsのサイクルをカバーできる。これにより、データドリブン経営の実現において壁として立ちはだかるPoCや実現可能性の部分が、簡易に、低コストで、高速化し、ハードルが一気に下がる。

マルチクラウドAutoMLサービス「DATAFLUCT cloud terminal」 — マルチクラウドAutoMLサービス「DATAFLUCT cloud terminal.」
[画像クリックで拡大]

　機械学習のモデル作成を自動化したら、その先には機械学習の本番運用で壁が待ち構えている。モデルの精度はデプロイすると徐々に劣化していく。なぜなら、データ取得の背景にある社会情勢やビジネス情勢など、世界は常に刻々と変化しているからだ。

　モデルは常に更新を繰り返す必要がある。そのため、継続的にモデルを更新できるようなMLOps（機械学習基盤）が必要になり、機械学習の周辺も含めた全体の設計が必要になる。だからこそ、多くの企業にとってDATAFLUCTのAutoMLサービスは魅力がある。

　原田氏がCTOを務めるDATAFLUCTは設立してわずか2年だが、食品流通から不動産、スマートシティまで幅広い領域をカバーするデータ活用事業創出のプロフェッショナル集団だ。最後に同氏は、「プラットフォームの構築やデータ収集を自社ですべて実現しようとすると大変です。ぜひ、私たちのサービスもご利用いただき、より手軽にデータをビジネスに活用してほしいと思います」と呼びかけて締めくくった。

この記事は参考になりましたか？