生成AIへの取り組みはGPT登場前から
生成AIと山本氏との関わりは、2013年6月に自身が設立したデータアーティスト株式会社時代からのことになる。2017年、クライアントからの依頼によるプロジェクトで数十万を超える商品説明文の自動生成に取り組んだことが始まりだ。その裏側ではディープラーニングのテクノロジーであるLSTM(Long Short-Term Memory、回帰型ニューラルネットワークの一種)が動いていた(図1)。
「当時はまだGPTがなく、戦略的な意図があったわけではない。本格的に力を入れるようになったのは2018年。データアーティストが電通グループに入った時からで、今後注力するべき領域はどこかを考えた結果、クリエイティブ生成に着目した」と山本氏は当時を振り返る。2023年現在のアウトプットの水準と比べると、2017年時点のものはまだ満足できる品質水準に達していなかった。それでも、実用に耐える水準に到達するのはそう遠い将来ではないと予想し、その時に備えた研究開発をやろうと山本氏は決意した。
旧データアーティストが2018年に電通グループに加わった頃に登場したのが、GPTの前身に相当するBERTである。その利用を経て、2019年に山本氏のチームは、GPT-2をベースに30万件のキャッチコピーから学習した独自AIを開発した。GPTベースの取り組みは大きく2つある。1つはランディングページのA/Bテストに使うためのコピー生成だ。当時は電通デジタルの一員ではなかった事情もあって、広告事業を電通デジタルがやるならば、「我々はオウンドサイトをやろう!」と、差別化の意図があっての取り組みであった。もう1つがクライアントからの依頼によるAI芸能人の生成で、「時々変なことを言うけど、それも愛嬌だね」と思われるキャラクターならば可能な状況だった。
状況が大きく変化したのは2022年からだ。競合他社が広告に特化したAIへの投資を強化する動きが顕著になる中、電通デジタルでも明確なAI戦略を打ち出す必要に迫られた。そこで独自ブランドのAIソリューションとして立ち上げたのが「∞AI(ムゲンエーアイ)」である。GPT-3が本格的に一般でも利用できるようになった2021年11月から、山本氏らもすぐに∞AIの開発に向けてGPT-3を使い始め、GPT-2からの進化に期待が高まった。
キャッチコピー、画像生成の試行錯誤とファインチューニング
「これなら行ける!」という手応えを得たのは、GPT-4を使い始めてからだ。GPT-3時代は、制御文を工夫する必要があり、「丁寧にキャッチコピーを書いてください」と「キャッチコピーを丁寧に書いてください」のように、文節の順番が変わるだけで結果に差が出るなど、人間のプロンプトエンジニアリング力が問われる場面が多かったという。「GPT-4が出てきてからは、多少乱暴に指示をしても期待する答えが返ってくるようになった」と山本氏は説明した。
テキスト生成ではOpenAIのGPTの他、GoogleのPaLMなども利用している。クライアントと一緒に進めるプロジェクトの特性と世の中の状況を考慮しながら、一番良いものを選べるようにしたいためだ。また、画像生成の分野ではStability AIのStable Diffusionを中心に使っているが、文字を含む画像ではOpenAIのDALL·E 2が良い場合もある。テキストの場合と同様に、画像でもプロジェクトの内容によって使い分けをしているという。
山本氏のチームが画像生成の検証を始めたのは2020年からで、プロジェクトとして取り組んだのは「おにぎりせんべい AIせんべい」の企画が始まりだ。2022年3月に販売を開始したAIせんべい(現在は販売終了)は、フレーバー開発にAIを使ったことで話題になった。山本氏は、OpenAIのDALL·Eにパッケージデザインを作ってもらおうとしたが、当時のバージョンでは、プロンプトへの指示だけでは満足できる画像の生成ができず、大量の学習データを与える必要があった。どんなデータを与えれば、どれだけ綺麗な出力結果が得られるか、DALL·E以外のAIも含めファインチューニングで試行錯誤が求められた。
ファインチューニングの重要性はテキストの場合も同じだ。GPT-4の結果を見た時は、「プロンプト入力だけでこれだけの制御が可能ならば、今まで苦労してきたことは何だったのだろう?」と、複雑な気持ちになったことを山本氏は打ち明ける。だが、GPT-4を含むLLMを使い込む中で、本当に望む出力を得るには、ファインチューニングが重要になるとわかってきた。
LLMの最大の利点はゼロからモデル構築をする必要がないことだ。これをそのまま使ってもよいが、個別にファインチューニングを行うことで、劇的に出力精度を改善できる。クライアント独自のLLM構築案件の提案も始めた。ファインチューニング後のモデルで出力した結果を見せると、「こんなに変わるのか!」と驚かれるほどのパフォーマンスを出せる。これまで培ったデータサイエンスの実力が活かせると確信できたことは収穫だった。