rinnaは、Llama 3 8Bに対して日本語データで継続事前学習を行った「Llama 3 Youko 8B」を開発。Meta Llama 3 Community Licenseで公開したことを発表した。
rinnaのモデル公開活動
2024年4月に、MetaのLlama 3、MicrosoftのPhi-3、AppleのOpenELMといった大規模言語モデル(LLM)が公開されたが、rinnaは、これらのモデルは英語が学習データの大多数を占め、日本語のテキスト生成は可能であるものの、英語と比較すると十分な性能を発揮することができないと述べている。
そこでrinnaは、Llama 2やQwenの日本語事前学習で得られた知見を活かし、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を開発。AIの急速な発展の中で、英語圏の進展に追随するために、今回開発したLlama 3 Youko 8Bを公開したという。
「Llama 3 Youko 8B」の特徴
同モデルは、80億パラメータのLlama 3 8Bに対して、日本語と英語の学習データ220億トークンを用いて継続事前学習したモデル。サービス名の由来は、妖怪の「妖狐(ようこ)」からきているという。Meta Llama 3 Community Licenseを継承してモデルを公開しており、このライセンスに従い利用可能だとしている。
日本語言語モデルの性能を評価するStability-AI/lm-evaluation-harnessの平均スコアは、Llama 3が59.82であるのに対し、Llama 3 Youko 8Bは66.15となっているという。(図1)
同サービスは汎用的なベースモデルのため、利用する場合にはファインチューニングやモデルマージを行うことが推奨されている。
今後の展開
rinnaは同モデルの開発を通し、これまで以上に適したカスタムLLMを提供することが可能となると述べている。今後、AIの社会実装を進めるために研究開発を続け、研究成果の公開や製品への導入を行っていくとしている。
【関連記事】
・rinnaと電通、AIキャラクターの法人向けソリューション提供で協業 トヨタ販売店で試験運用へ
・rinna、日本語GPT-2/BERTの事前学習モデルをオープンソースとして公開
・rinnaとデジタルヒューマン、AIキャラクターの開発で協業