ELYZAは、商用利用可能な130億パラメータの日本語LLM「ELYZA-japanese-Llama-2-13b」を開発し、一般公開した。
ELYZA-japanese-Llama-2-13bは、Metaの「Llama-2-13b-chat」に対して、約180億トークンの日本語テキストで追加事前学習を行ったモデル。学習に用いたのは、OSCARやWikipediaなどに含まれる日本語テキストデータだという。複数のバリエーションがあり、ユーザーからの指示に従い様々なタスクを解くことを目的として事後学習を施した「ELYZA-japanese-Llama-2-13b-instruct」や、日本語の語彙追加により高速化を行った「ELYZA-japanese-Llama-2-13b-fast」が存在するとしている。
性能について同社のデータセットを用いて評価した結果、ELYZA-japanese-Llama-2-13b-instructについては、13Bモデルながら70Bモデルを含むオープンな日本語LLMの中で最高スコアを獲得。また「Qwen-14B」を除く日本語LLMの中では唯一、クローズドなモデルでありながらも1750億(175B)パラメータのGPT-3.5(text-davinci-003)を上回る結果となっているという。
またELYZA-japanese-Llama-2-13b-fastでは、前回の「ELYZA-japanese-Llama-2-7b-fast」で作成したトークナイザーを効率化するために改良を加えることで、前回(13,042個)よりも少ない12,581個の日本語の語彙追加で、同じ日本語の文章を表すのに必要なトークン数を元の「Llama 2」の47%まで削減することに成功(前回は55%)。推論速度に換算すると、約2.27倍の性能を実現したとしている。
なお、今回のモデル学習は、AI橋渡しクラウド(ABCI)を利用して実施。引き続き70Bモデルの開発も進行中だという。
【関連記事】
・ELYZA、コード生成・補完に特化した70億パラメータの日本語LLMを一般公開
・JR西日本カスタマーリレーションズ、ELYZAの言語生成AI導入実証で問い合わせ業務を最大54%削減
・70億パラメータの日本語LLMをELYZAが開発、国内のLLM研究開発を加速へ