従来、データのサンプル数が数千万件以上でコンピュータ1台の搭載メモリ量より大きい超大規模データを分析する際は、あらかじめデータを分割して分析していた。また、高性能なCPUの搭載(コア数増加など)にも限度があり、大規模データ分析における性能の改善が課題となっていた。
今回開発した「分散版異種混合学習技術」は、分散されたコンピュータ上でそれぞれ異種混合学習での分析を行うと同時に全体の整合も行えるため、コンピュータの台数を増やすことで、データの規模に制限なく予測モデルを生成できる。
例えば、大手金融機関の残高予測や大規模通信事業者の解約者予測など、数千万件以上のサンプルによる超大規模データの分析が可能になる。
この技術を用いて実証を行った結果、従来と比べて学習速度が約110倍高速化した。また、予測精度も約17%向上した。NECは、この技術のさらなる開発を進め、2017年度の実用化を目指すとしている。
新技術の特徴は次のとおり。
1. 分散コンピューティングシステムに適応したアルゴリズム(手法)を開発
複数のコンピュータが協調して予測モデルを学習する分散版異種混合学習アルゴリズムを開発。このアルゴリズムは、(1)予測モデル情報(データの場合分けや因子の組み合わせの情報)のみをコンピュータ間で共有すること、(2)共有された個々の予測モデルの情報を統合する独自のアルゴリズムを適用すること、によって各コンピュータが独立して学習しながら全体で整合が取れた高精度な予測モデルを生成する。
2. 分散コンピューティング基盤Apache Sparkに適合した実行用ソフトウェアを開発
分散コンピューティングシステム基盤の1つであるApache Spark上で動作する分散版異種混合学習アルゴリズムの実行用ソフトウェアを開発した。このソフトウェアは、全ての分析対象データを一度各コンピュータのメモリ上に分散配置すると、以降一切の再配置や再読み込みを行うことなく、分散版異種混合学習アルゴリズムを実行する。これにより、通常、コンピュータの台数増加によって頻度が増す分析対象データの通信やディスク読み込みが不要となり、Sparkの特徴である分散メモリ上での計算性能が最大限に発揮されるため、高速にアルゴリズムを実行できる。