rinnaは、Llama 3 8Bに対して日本語データで継続事前学習を行った「Llama 3 Youko 8B」を開発。Meta Llama 3 Community Licenseで公開したことを発表した。
rinnaのモデル公開活動
2024年4月に、MetaのLlama 3、MicrosoftのPhi-3、AppleのOpenELMといった大規模言語モデル(LLM)が公開されたが、rinnaは、これらのモデルは英語が学習データの大多数を占め、日本語のテキスト生成は可能であるものの、英語と比較すると十分な性能を発揮することができないと述べている。
そこでrinnaは、Llama 2やQwenの日本語事前学習で得られた知見を活かし、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を開発。AIの急速な発展の中で、英語圏の進展に追随するために、今回開発したLlama 3 Youko 8Bを公開したという。
「Llama 3 Youko 8B」の特徴
同モデルは、80億パラメータのLlama 3 8Bに対して、日本語と英語の学習データ220億トークンを用いて継続事前学習したモデル。サービス名の由来は、妖怪の「妖狐(ようこ)」からきているという。Meta Llama 3 Community Licenseを継承してモデルを公開しており、このライセンスに従い利用可能だとしている。
日本語言語モデルの性能を評価するStability-AI/lm-evaluation-harnessの平均スコアは、Llama 3が59.82であるのに対し、Llama 3 Youko 8Bは66.15となっているという。(図1)
![図1:日本語言語モデルベンチマークStability-AI/lm-evaluation-harnessのスコア[画像クリックで拡大]](http://ez-cdn.shoeisha.jp/static/images/article/19642/19642-01.png)
図1:日本語言語モデルベンチマークStability-AI/lm-evaluation-harnessのスコア
[画像クリックで拡大]
同サービスは汎用的なベースモデルのため、利用する場合にはファインチューニングやモデルマージを行うことが推奨されている。
今後の展開
rinnaは同モデルの開発を通し、これまで以上に適したカスタムLLMを提供することが可能となると述べている。今後、AIの社会実装を進めるために研究開発を続け、研究成果の公開や製品への導入を行っていくとしている。
【関連記事】
・rinnaと電通、AIキャラクターの法人向けソリューション提供で協業 トヨタ販売店で試験運用へ
・rinna、日本語GPT-2/BERTの事前学習モデルをオープンソースとして公開
・rinnaとデジタルヒューマン、AIキャラクターの開発で協業
この記事は参考になりましたか?
- 関連リンク
- この記事の著者
-
EnterpriseZine編集部(エンタープライズジン ヘンシュウブ)
「EnterpriseZine」(エンタープライズジン)は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア