ELYZAは、コード生成・補完に特化した70億パラメータの日本語LLM「ELYZA-japanese-CodeLlama-7b」を開発し、一般公開した。
今回の新しいモデルは、Metaが開発したコード生成専用大規模言語モデル(LLM)である「Code Llama」に対して日本語による追加事前学習を行って開発したもの。研究および商業目的での利用が可能だという。
同社では、2023年8月時点で「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開している。今回公開したELYZA-japanese-CodeLlama-7bは、先般の開発でELYZAが用いた日本語の追加事前学習の一連のメソッドが、「Llama 2」以外のモデルでも汎用的に適用可能であるかを実験した取組みの一部となる。これは、元々のモデルが持つ能力を保持したまま、日本語の能力を獲得できることを示す一例になるとしている。
サンプルとして、以下の画像のような出力が可能だという。
【関連記事】
・JR西日本カスタマーリレーションズ、ELYZAの言語生成AI導入実証で問い合わせ業務を最大54%削減
・70億パラメータの日本語LLMをELYZAが開発、国内のLLM研究開発を加速へ
・ELYZA、自社独自のLLM開発を支援するプログラムを開始 精度向上の鍵はPost-Training