個別モデルの限界とLLMへの転換
カカクコムは、社名と同じ「価格.com」の他、「食べログ」「求人ボックス」「スマイティ」「キナリノ」など、生活に関わる様々なサービスを展開している。久保田氏の所属するアドバンストテクノロジー部は、サービスを運営している各事業部が抱える問題の他、全社共通の問題解決をサポートする部署になる。
以前から、同部では各種サービスをより良いものにするため、特定のタスクに特化したAIモデル「個別モデル」を構築し、実用化に向けた取り組みを進めてきた。この取り組みを発展させ、現在は生成AIに関する技術検証を活発に行なっているところだ。社外向けでは、食べログが、2023年5月にChatGPTプラグイン、2023年7月にAIチャット検索機能(ベータ版)の提供を開始している。
久保田氏は「現実のサービス改善の課題は、チャットボットよりも、文章の分類や文章からの情報抽出などのタスクに関係することが多い。これらのタスクを私たちは個別タスクと呼んでいる」と説明する。ここでの個別タスクとは、自然言語処理の中でも生成以外のタスクを指す。具体的には、文章から一部の情報のみを抽出する「情報抽出」、特定の情報を基に分類する「文章分類」がある。これらの個別タスクを実行させるため、以前のカカクコムではそれぞれに特化した訓練をさせた個別モデルを使っていたが、生成AIのモデルを使ってみることにした。
個別モデルには汎用性はないが、タスクに特化した学習を施しているため、高い精度でタスクを実行できる強みがある。カカクコムが個別モデルの代わりに生成AIのモデルを使ってみようと考えたのは、機械学習の専門知識やタスク固有の理解がなくても、容易に利用できる利点を評価したためだ。プロンプティング(プロンプトに入力する内容を工夫する)だけで、手軽に基盤モデル(LLM)を利用できる分、個別にモデルよりもエンジニアリソースの負荷を減らせる。
カカクコムでは、既にいくつかの個別モデルを構築した実績があるが、個別モデルの場合は用途が限定されてしまい、スケールしない悩みを抱えていた。「代わりに生成AIの技術を利用することで、個別モデルを利用する場合の課題が解決するのではないかと考えた」と久保田氏は明かした。
LLMを活用した実践的AI開発の極意
蒸留、ファインチューニング、RLHF
汎用性の高いLLMを使うメリットは他にもある。久保田氏は「生成AIをアプリケーションに組み込むための環境の整備が進んでいること」を挙げた。Google Cloudでも、ノーコードで高度な機械学習の技術にアクセスでき、LLMに追加学習を施し、より高い精度でタスクを実行させる環境を提供している。例えば、大規模なモデルを小型化する蒸留(Distillation)、別のデータセットを追加してのモデルのファインチューニング、人間らしい自然な表現になるようモデルを訓練するRLHF(Reinforcement Learning from Human Feedback)のような高度な手法がWeb上でクリックするだけで使える。
このような環境は、PoCにおけるLLMの評価検証にも役立つ。「個別モデルのトレーニングでは、まだここまでの環境は利用できない。生成AIの盛り上がり方を考えると、ここからさらに充実した環境の整備が進む可能性もある」と久保田氏は予測した。