ChatGPTが人々の心を掴んだワケ
2023年に入ってから「生成AI」「ChatGPT」といった言葉を聞かない日はないくらい、急速に我々の日常に入り込んできています。生成AIブームの火付け役となったChatGPTは2022年11月にOpenAIによって公開されました。以来、瞬く間に世界中で利用者を増やし、登場からわずか2ヵ月で月間利用者数が1億人に達しています。同じ数字に届くまでにFacebookは42ヵ月、Instagramは26ヵ月、TikTokは13ヵ月かかっており、いかにChatGPTが急速に世界に拡がっていったかがわかります。
ではなぜ、ChatGPTはそれほどまでに人々の心を掴んだのでしょうか。松尾教授はChatGPTの中核技術である大規模言語モデル(Large Language Model:LLM)のベースとなったGoogle由来のディープラーニングモデル「Transformer」の存在が大きかったと指摘します。ChatGPTをはじめとする生成AIと呼ばれるサービスは、既存のコンテンツ(テキスト、音声、画像、動画、ソースコードなど)を基盤モデルに入力し、その出力結果を新たなコンテンツとして生成します。それらのサービスにおいて現在主流となっている基盤モデルは、TransformerをベースとしたLLMです。OpenAIが開発し、ChatGPTに実装している「GPT」もTransformerから進化したもので、松尾教授は最大の特徴として「ラベル付けされていない大規模なデータセットを使った『自己教師あり学習』により、次の単語を予測すること(Next Word Prediction)に非常に長けている」点だと言います。
続けて「人間が文章を理解するときも、時々刻々と変化する言葉を過去の経験や背後の知識をもとに常に“予測”している。AIのモデルが予測するということは、知能にとって非常に本質的な行為」と説明。Transformer系のLLMの登場はAIモデルの予測能力を飛躍的に高めました。
そして、このLLMの予測能力を高めているのが、前述した「ラベル付けされていない大規模なデータセットを使った自己教師あり学習」という手法です。LLMはデータ量(データセット)、パラメータ数、計算量の3つの数字が従来の手法よりはるかに大きく、特にパラメータ数の巨大化はモデルの精度を著しく高めました。従来のAI学習ではモデルの能力が限定的(1タスクにつき1モデル)であることが多く、データのラベル付けも必要であったことから「パラメータの数は適切にすべき」という意見が主流で、パラメータの数は数億程度に留まっていました。しかし、データのラベル付けを行わない現在のLLMでは数十億から数兆にも上るパラメータが使われており、汎用的な言語モデルの用途にあわせたチューニングが行われ、より複雑な表現が可能になっています。
たとえばChatGPTで使われている「GPT‐3」のパラメータ数は約1750億、「GPT‐3.5」は約3550億で、最新世代の「GPT-4」のパラメータ数は公開されていませんが、一説には5000億を超えるとも言われています。また、データ量とパラメータが増大すれば当然ながら計算量も大幅に増大することになりました。LLMがもたらしたこのスケーリングの変化も「AIのパラダイムシフト」(松尾教授)を象徴する現象だったと言えます。