生成AIの企業活用

電通デジタル山本覚氏が語る「∞AI（ムゲンエーアイ）」のビジョン──東大松尾研からAIベンチャー、電通グループ参画の理由

電通デジタル執行役員データ&AI部門長山本覚氏インタビュー

2023/11/01 10:00

通知

　生成AIブームの盛り上がりは凄まじい。ビジネス領域で、特に活用が進んでいるのはマーケティング分野だろう。東京大学・松尾豊教授の下、人工知能（AI）を専攻し、AIベンチャーのデータアーティストを経て、電通グループに参画、生成AIサービス群「∞AI（ムゲンエーアイ）」を起ち上げた山本覚氏に、これまでの歩みと今後の展望を聞いた。

通知

生成AIへの取り組みはGPT登場前から

　生成AIと山本氏との関わりは、2013年6月に自身が設立したデータアーティスト株式会社時代からのことになる。2017年、クライアントからの依頼によるプロジェクトで数十万を超える商品説明文の自動生成に取り組んだことが始まりだ。その裏側ではディープラーニングのテクノロジーであるLSTM（Long Short-Term Memory、回帰型ニューラルネットワークの一種）が動いていた（図1）。

　「当時はまだGPTがなく、戦略的な意図があったわけではない。本格的に力を入れるようになったのは2018年。データアーティストが電通グループに入った時からで、今後注力するべき領域はどこかを考えた結果、クリエイティブ生成に着目した」と山本氏は当時を振り返る。2023年現在のアウトプットの水準と比べると、2017年時点のものはまだ満足できる品質水準に達していなかった。それでも、実用に耐える水準に到達するのはそう遠い将来ではないと予想し、その時に備えた研究開発をやろうと山本氏は決意した。

図1：旧データアーティスト時代から取り組んできた生成AI 出典：電通デジタル　[画像クリックで拡大]

　旧データアーティストが2018年に電通グループに加わった頃に登場したのが、GPTの前身に相当するBERTである。その利用を経て、2019年に山本氏のチームは、GPT-2をベースに30万件のキャッチコピーから学習した独自AIを開発した。GPTベースの取り組みは大きく2つある。1つはランディングページのA/Bテストに使うためのコピー生成だ。当時は電通デジタルの一員ではなかった事情もあって、広告事業を電通デジタルがやるならば、「我々はオウンドサイトをやろう！」と、差別化の意図があっての取り組みであった。もう1つがクライアントからの依頼によるAI芸能人の生成で、「時々変なことを言うけど、それも愛嬌だね」と思われるキャラクターならば可能な状況だった。

　状況が大きく変化したのは2022年からだ。競合他社が広告に特化したAIへの投資を強化する動きが顕著になる中、電通デジタルでも明確なAI戦略を打ち出す必要に迫られた。そこで独自ブランドのAIソリューションとして立ち上げたのが「∞AI（ムゲンエーアイ）」である。GPT-3が本格的に一般でも利用できるようになった2021年11月から、山本氏らもすぐに∞AIの開発に向けてGPT-3を使い始め、GPT-2からの進化に期待が高まった。

キャッチコピー、画像生成の試行錯誤とファインチューニング

　「これなら行ける！」という手応えを得たのは、GPT-4を使い始めてからだ。GPT-3時代は、制御文を工夫する必要があり、「丁寧にキャッチコピーを書いてください」と「キャッチコピーを丁寧に書いてください」のように、文節の順番が変わるだけで結果に差が出るなど、人間のプロンプトエンジニアリング力が問われる場面が多かったという。「GPT-4が出てきてからは、多少乱暴に指示をしても期待する答えが返ってくるようになった」と山本氏は説明した。

　テキスト生成ではOpenAIのGPTの他、GoogleのPaLMなども利用している。クライアントと一緒に進めるプロジェクトの特性と世の中の状況を考慮しながら、一番良いものを選べるようにしたいためだ。また、画像生成の分野ではStability AIのStable Diffusionを中心に使っているが、文字を含む画像ではOpenAIのDALL·E 2が良い場合もある。テキストの場合と同様に、画像でもプロジェクトの内容によって使い分けをしているという。

　山本氏のチームが画像生成の検証を始めたのは2020年からで、プロジェクトとして取り組んだのは「おにぎりせんべい AIせんべい」の企画が始まりだ。2022年3月に販売を開始したAIせんべい（現在は販売終了）は、フレーバー開発にAIを使ったことで話題になった。山本氏は、OpenAIのDALL·Eにパッケージデザインを作ってもらおうとしたが、当時のバージョンでは、プロンプトへの指示だけでは満足できる画像の生成ができず、大量の学習データを与える必要があった。どんなデータを与えれば、どれだけ綺麗な出力結果が得られるか、DALL·E以外のAIも含めファインチューニングで試行錯誤が求められた。

　ファインチューニングの重要性はテキストの場合も同じだ。GPT-4の結果を見た時は、「プロンプト入力だけでこれだけの制御が可能ならば、今まで苦労してきたことは何だったのだろう？」と、複雑な気持ちになったことを山本氏は打ち明ける。だが、GPT-4を含むLLMを使い込む中で、本当に望む出力を得るには、ファインチューニングが重要になるとわかってきた。

　LLMの最大の利点はゼロからモデル構築をする必要がないことだ。これをそのまま使ってもよいが、個別にファインチューニングを行うことで、劇的に出力精度を改善できる。クライアント独自のLLM構築案件の提案も始めた。ファインチューニング後のモデルで出力した結果を見せると、「こんなに変わるのか！」と驚かれるほどのパフォーマンスを出せる。これまで培ったデータサイエンスの実力が活かせると確信できたことは収穫だった。

次のページ
「∞AI」ブランドで企業の生成AI活用をサポート

この記事は参考になりましたか？

印刷用を表示

生成AIの企業活用連載記事一覧: 生成AI時代のリスク管理フレームワーク「AI TRiSM」とは？　各国の規制動向と対策のポ...

失敗事例から学ぶ！生成AI 実践の成功への道筋──回答精度を90%向上したRAG構築のポイ...

サイバーエージェントが生成AI活用で「6割の業務削減」を宣言　独自開発中の「AIナスカ」が...

もっと読む

この記事の著者: 冨永裕子（トミナガユウコ）

　IT調査会社（ITR、IDC Japan）で、エンタープライズIT分野におけるソフトウエアの調査プロジェクトを担当する。その傍らITコンサルタントとして、ユーザー企業を対象としたITマネジメント領域を中心としたコンサルティングプロジェクトを経験。現在はフリーランスのITアナリスト兼ITコンサルタン...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事