合成データを本物のデータと同様に扱える理由
AI&アナリティクスのライフサイクルはチームスポーツに似ている。データサイエンティストから開発者、ビジネスアナリスト、IT部門のメンバーまで、役割の異なる人たちがライフサイクルの場面場面に関与し、ビジネスにおける競争優位性を確立するという共通ゴールの達成に向けて努力する。ハリス氏は、「このライフサイクルを支えている基盤がSAS Viyaエコシステムである」と述べ、「お客様のニーズを満たすためにこのエコシステムを常に進化させてきた」と説明した。
その進化の目玉になっているのが生成AIである。生成AIは、ソフトウェアの利用体験を大きく変えようとしている。ハリス氏は「企業に生成AIから価値を得るには、業界ドメインの深い専門知識、最先端のAI機能、エンドツーエンドのガバナンスが必要になる」と述べる。SASはそのすべてを提供できると強調し、最先端のAI機能生成AI戦略を構成する3つの柱として「合成データ」「デジタルツイン」「大規模言語モデル(LLM)」を挙げた(図1)。
まず、1つ目の柱が合成データである。SASはGAN(Generative Adversarial Networks:敵対的生成ネットワーク)の仕組みを利用して、現実世界の複雑さを反映した合成データを生成する機能を開発した。AIモデルの開発では、高品質なデータを大量にかつ迅速に利用できる環境が不可欠である。しかし、データが少ない。データはあっても、プライバシーの問題で利用できない。データ取得コストが高い。データ取得プロセスが複雑であるなど、様々な理由でモデルの開発が困難に直面するのはよくあることだ。これらの問題点に対し、「トレーニングの時間が必要になるが、合成データは解決できる」とハリス氏は説明した。
GANとは教師なし学習の手法の1つで、ジェネレーター(生成)とディスクリミネーター(識別)という2つの異なる役割を担うAIを競わせることで、双方の性能を高め合う手法である。これまでの用途は画像生成が中心である。たとえば、ジェネレーターは本物の画像を模倣して別の画像を生成する。ディスクリミネーターはその画像を見て、本物か偽物かを統計的に判定する。本物と比べると、初期の生成画像の精度は低く、ディスクリミネーターは「これは偽物」と即座に判定する。すると、ジェネレーターは次に生成する画像が偽物と判定されないよう学習し、新しい画像を生成する。ディスクリミネーターは新しい画像を判定する。一連の学習フィードバックを徹底的に繰り返すことで、最終的にジェネレーターは本物に限りなく近い別の画像を生成できる。