ゼロからLLMを構築する際の注意点は?
STEP.3 自社専用LLMをゼロから構築する
最後のステップは、自社専用のLLMをゼロから構築する手法だ。追加学習では、どうしても汎用型LLMが元々学習しているデータとの相性が悪く、自社業務や狙ったユースケースで求められる精度が達成できない場合がある。そのような場合は、ゼロからモデルをトレーニングして解決を目指すことになる。
たとえば、Bloombergでは、金融分野の難解な文書を扱えるモデルの構築のために、ゼロから専用のLLMの学習を実施。同社がフォーカスした金融ドメインで、高い精度を達成できるLLMの開発に成功している[5]。
また、ストックマークが提供するビジネス情報検索サービス「Anews」では、ChatGPTなどが得意ではない最新の時事話題や、専門的な技術情報の検索を行うユーザニーズが高かったため、当該ユースケースに焦点を絞った学習データを用意。1000億パラメータのLLMを、ゼロから学習・構築した。
その結果、当該モデルは、時事話題や技術情報の質問回答に絞ったベンチマークであるStockmark Business Questions[6]において、GPT-4の64%の精度を上回る、90%で正答できる精度水準を実現している。
なお、これらのモデルは自社開発となるため、ライセンスの制約を受けていない。また、自社内にこのLLMをホスティングすることもできるため、セキュリティ性も担保した自社専用LLMの構築が可能となる。
さらに、ゼロから自社専用LLMを開発する手法を採用すれば、コスト効率性の高い軽量なLLMの開発も可能である。
Preferred Networks(PFN)では、大型LLMから自社のユースケースに沿った学習データを自動生成。当該データを小型LLMの学習に用いることで、エッジデバイスでも利用可能な10億パラメータ規模の、小型ながら高性能なモデルの開発に成功している[7]。
ただし、ChatGPTやLlamaなどから生成されたデータを用いて商用のLLMを作成することは、ライセンス的に禁止されている。そのため、NVIDIAなどが公開している大型LLM[8]から学習データを自動生成し、自社のコスト要求に沿った小型LLMを構築する必要がある点には注意したい。
日本のエンタープライズ企業で、特化型LLMの構築がもつ意義とは
ChatGPTの汎用性は非常に高い。一方、すべてのユースケースをChatGPTなどの汎用LLMだけでカバーすることは、難しい場合がある。特に、企業利用のように信頼性やコスト効率性・軽量性の観点が特に強く求められるユースケースではその傾向が顕著だ。そのため、今後も自社専用や特化型のLLMの構築技術は、並行して開発されていくことが予想される。
特に日本は、世界有数の歴史ある経済大国として、各企業の中に膨大で機密性の高いデータが蓄積されている。ChatGPTの学習量は1ペタバイトに満たないが、エンタープライズ企業1社で100ペタバイトにものぼる場合もあると言われている[9]。
これらのデータを有効活用し競争力のある独自の生成AIを開発するためにも、高い信頼性のもとで運用できる特化型LLMの構築技術の確立が、引き続き検証され続けていくと考えられる。
すでに先進企業では、こうした取り組みが始まっている。たとえば、パナソニック ホールディングスとストックマークは、パナソニックグループ専用のLLM「Panasonic-LLM-100b」の開発に向けた協業を発表している[10]。
このプロジェクトでは、ストックマークが独自に開発した「Stockmark-LLM-100b」[11]に、パナソニックグループの社内データを追加事前学習させる形で「Panasonic-LLM-100b」を構築。モデルサイズは1000億パラメータを予定しており、企業が開発する自社専用LLMとして、国内最大規模となる見込みだ。
また、当モデルは、独自に収集したビジネスドメインの日本語データを中心に事前学習を行うことで、日本語・ビジネス領域に特化し、ハルシネーションの抑止を実現。厳密さが重視されるビジネスシーンでも、信頼して利用できるようになる。この取り組みは、特化型LLMの可能性と、日本企業の強みを象徴する事例として注目されている。
【前編はコチラ】
[5]「ブルームバーグGPTのご紹介 -金融機関向けにゼロから構築された500億パラメーターを持つ ブルームバーグの大規模言語モデル」(ブルームバーグ・エル・ピー, 2023年3月30日)
[6]「Stockmark Business Questions」(Hugging Face)
[7]「小型で軽量な小規模言語モデルPLaMo Liteの提供開始」(Preferred Networks, 2024年8月28日)
[8]「nvidia/Nemotron-4-340B-Instruct」(Hugging Face)
[9]「久保田 雅也@Coalis(@kubotamas)June 16, 2024」(X, 2024年6月16日)
[10]「パナソニックHDとストックマーク、国内最大規模(1000億パラメータ)の 独自日本語LLM「Panasonic-LLM-100b」開発で協業」(ストックマーク, 2024年7月2日)
[11]「Stockmark-LLM」(ストックマーク)