企業の業務改革や価値創造に対するAI活用の期待によりビッグデータ活用が求められる中、データを蓄積するプラットフォームとしてビジネス規模やデータ量の拡大に合わせて柔軟に拡張できるHadoop基盤を利用する企業が増えている。
一方、データ分析を行う際には、データ抽出や集計する個別のDataMartを構築したうえでデータを取り込む必要があり、DataMartに取り込まれないHadoop基盤上のデータを活用しきれないという課題があった。Hadoop対応版の「DataRobot」は、Hadoop基盤から直接データを取り込み、Hadoop基盤の処理能力を使って分析(各種の予測モデル構築、予測処理など)を実施できる。
これにより、これまで企業の中で眠っていた膨大なデータに対しても、機械学習の自動化によるデータ活用が飛躍的に進歩することが見込まれるという。今回、Hadoop対応版の「DataRobot」は、Clouderaが提供するデータプラットフォーム上での動作検証を完了している。
Hadoop対応版の「DataRobot」は、従来の「DataRobot」の特徴をそのまま備えながら、データを蓄積しているHadoop基盤から直接データを取り込んで分析できる。利用企業は分析用のDataMartを個別に構築する必要なく、Hadoop基盤上で必要なデータの準備をして分析を行う。また、Hadoop基盤上の処理能力を活用し、高速な予測モデル構築や予測処理が可能になるという。
Hadoop対応版の「DataRobot」は、日本国外では提供されているが、2018年3月末時点で日本国内では提供されていない。今回、DataRobotの販売代理店パートナーであるNTTデータにより、Clouderaプラットフォーム上でのHadoop対応版の「DataRobot」の動作検証が完了し、提供できる体制が整備されたため、正式にサービス提供を開始することになった。
Hadoop対応版の「DataRobot」導入メリット
デジタルマーケティングの領域においては、従来の大まかな市場予測を行うマスマーケティングではなく、多様なチャネルから集まる膨大な情報を基に、個人ごとの特性や好みに合わせて個別最適な提案を行うOne to Oneマーケティングでの活用が期待されている。
また、製造業の領域において、何千種類もある部品やプロセスごとに需要予測や不良品検知を行うことができるようになり、納品までのリードタイム短縮やこれまで以上の業務効率化が可能となる。
今回拡張される機能と利用上のメリットは次のとおり。
1. 外部データ/新規データを活用した新テーマ検討
Hadoop基盤上に新しく蓄積した外部データや新規データを活用するためには、データから個別のDataMartを構築し分析を行う必要がある。Hadoop対応版の「DataRobot」は、直接Hadoop基盤から分析データを取り込んで利用できるため、従来の抽出や集計、ダウンサイジングなどのDataMart構築にかかる処理を簡素化し、これまで使えていなかったデータを使って、「新規ビジネスの創出」や「既存業務の改善」に向けた新テーマ検討を加速させる。
2. 大量データでの試行錯誤の効率化
予測モデルの精度を上げるためには新しいデータを入れて試行錯誤したり、学習データ量を増やしたりといった対応をとる必要がある。従来の機械学習アルゴリズムは単一マシンでの動作を前提としていたものが多く、単一マシンの処理能力が制約となっていたため、現実的なデータ量に落として予測モデル作成を行っていた。
分散型アルゴリズム(Spark MLlib、H2O等)は、Hadoopの規模が大きくなればなるほど分散処理によって短い時間で予測モデル作成を行うため、大量データに対しても現実的な時間で予測モデル作成が可能になる。これにより、精度の良い予測モデルを作るための試行錯誤が効率的にできるようになるというメリットがある。
3. 個別データ予測により、より細やかな判断が可能
大量のデータに対して予測を実施したい場合にも、Hadoop Scoringという分散型バッチ予測の機能により、Hadoop基盤上の分散処理の仕組みを有効活用して従来の「DataRobot」の予測エンジンよりも高い処理能力で大量の予測を行う。これにより、個々のデータ特性に合わせて予測を行い、より細やかな判断ができる。例えば、マーケティングにおいて何万件もいる顧客1人ひとりに対して購買予測を実施することで、個別の傾向に合わせたアクションが可能になる。
■各社の役割
・DataRobot:機械学習自動化プラットフォーム「DataRobot」のHadoop対応版提供
・NTTデータ:Hadoop対応版の「DataRobot」に関するインテグレーションサービス提供
・Cloudera:機械学習と分析のためのデータプラットフォーム「Cloudera Enterprise」ならびにプロフェッショナルサービスの提供