この技術は、ニューラルネットワークの中間層で得られる特徴量を意図的に変化させることで、識別が難しい学習データを集中的に人工生成する。これにより、少ない学習データ量でも識別精度を大きく向上させ、ディープラーニングを適用したシステムの開発期間短縮に貢献するとしている。
具体的には、ディープラーニング技術の適用に必要な学習データ量を半分程度に削減する。またこの技術は、データの種類を問わず汎用的に適用可能であることから、専門家による調整が不要になる。これにより従来、学習データ収集時間やコストの高さが阻害要因となっていた製品の外観検査やインフラ保全など、さまざまなシステムの早期立ち上げを可能にするという。
新技術の特徴
・必要となる学習データを従来技術に比べ半分に削減
識別精度の向上には、識別が難しい「苦手な学習データ」をより多く学習することが有効であると広く知られている。データ拡張と呼ばれる従来技術では、ニューラルネットワークに入力する前にデータを意図的に加工・変形させ、学習データ量を人工的に増やしていた(例えば画像に対しては、回転や拡大・縮小、ノイズの付加など)。
しかし、このような増やし方では、「苦手な学習データ」の量が不十分で、かつ識別精度向上に寄与しないデータも多く生成され、十分な学習効果が得られなかった。
新技術は、ニューラルネットワークの中間層で得られる特徴量を意図的に変化させることで、識別が失敗しやすい「苦手な学習データ」を集中的に人工生成し識別精度を高める。この技術を公開データベース(手書き数字認識:MNIST、物体認識:CIFAR-10)で評価し、学習データ量が半分でも従来技術と精度が変わらないことを確認した。
・データの種類の違いによる専門家の調整が不要
従来のデータ拡張では、データの種類毎にデータの生成方法を変える必要があった。例えば、画像では大きさや回転角度など、音声では声の高さや話す速さなどを変えることでデータを人工的に増やしていた。さらに、専門家がデータ生成方法を慎重に選び、学習に悪影響を及ぼすデータが発生しないよう調整する必要があった。
新技術は、ニューラルネットワーク内部の数値に基づいて自動的に学習データを生成するため、多様なデータに対して汎用的かつ効率良く適用することができ、専門家による調整を不要にする。