今回、サプライチェーン上の複数の企業によるビジネスを模擬した「ビールゲーム」にこのAI技術を適用したところ、人の経験に基づいた判断と比べて、在庫や欠品による損失を約1/4に低減できることを確認したという。すでに囲碁などの対戦型ゲームでは、自己競争によるAIの学習の有効性が示されていたが、今回、不確定要素の多いビジネスの問題についても、自己競争を活用した学習が有効であることを示すことができたとしている。
通常、ディープラーニングなどを用いたAIは、大量の実績データから学習することで予測や判断を行う。そのため、大量のデータが入手できない場合には、正確な予測や判断が難しくなるという課題があった。囲碁などの対戦型ゲームにおいては、AIが自己競争によって自ら生成した大量のデータを用いて学習することで賢くなることが確認されているが、不確定要素の多いビジネスの問題に適用できるかは不明だったという。
今回開発したAI技術では、ビジネスに関わる企業を、ディープラーニングを用いたAIエージェントで表し、複数のAIエージェントを相互接続したAI群でビジネスを表現。各AIエージェントは、置かれた状況を考慮して、お互いにモノや情報のやりとりを繰り返すことで、損失低減などの与えられたアウトカムの向上に有効なアクションを学習する。
学習を行う際には、AI群をコンピューター上に複数生成し、同時並行で学習を実行する。そして、それぞれのAI群の全体のアウトカムを競わせる「自己競争」を何千回と繰り返すことで、より良いアウトカムを追求する(図1)。
同社が発表したAI技術の特徴は以下の通り。
1. 学習管理機能によりAIエージェントの学習を制御し、AI群全体のアウトカムを向上
今回開発したAI技術は、相互接続された複数のAIエージェントのそれぞれの学習を管理し、各AIエージェントの学習が、相互に悪影響を与えることを防止する学習管理機能を備えている。
この機能は、各AI エージェントの学習のタイミングの制御を担い、学習の初期段階ではひとつのAIエージェントのみに学習させ、徐々に学習するAIエージェントの数を増やしていく(図2)。これにより、AIエージェントが同時に学習する時に生じる競合を避け、AIエージェント同士の協調を学習させることができ、その結果、AI群のアウトカムの向上に繋がる。
2. 学習モデルを交叉させることでより優れたモデルを生成し、AIエージェントを進化させる技術
AI群を構成するAIエージェントが何度も学習を繰り返すと、各AIエージェントの学習結果(モデル)が偏ることでAI群のアウトカムが個別最適の状態に陥り、アウトカムの向上が停滞する現象が発生する。そこで、コンピューター上に複数生成されたAI群の間で、AIエージェント同士のモデルのパラメータを掛け合わせる(交叉)ことで、新たなモデルをもつAIエージェントを生成し、新たなAI群を構築する(図3)。
新たに構築したAI群を含め、複数生成されたAI群のアウトカムを比較し、アウトカムの劣るAI群は消滅させ、アウトカムが優れるAI群を残す処理(自己競争)を繰り返す(図4)。これにより、より良いアウトカムを追求することができる。