ストックマークは、経済産業省とNEDOが実施する、国内の生成AI開発力強化を目的としたプロジェクト「GENIAC」第2期にて開発中の大規模言語モデル(以下、LLM)が、国内組織によってフロムスクラッチで開発されたオープンモデルと比較しても、一定の差をもって高い性能を発揮することが確認できたことから、現段階のモデル「Stockmark-2-100B-Instruct-beta」を公開した。

Stockmark-2-100B-Instruct-betaは、日本語を主な対象として学習された1000億パラメータの日本語特化型LLM。その特徴として、公開されている既存のLLMモデルを用いずに、同社がゼロから開発を行った独自モデルだという。同社が2024年5月に公開した、ハルシネーションを大幅に抑止した1000億パラメータのLLM「Stockmark-LLM-100b」の開発を通じて得た知見や課題を活かすことで、開発に至ったとしている。
Stockmark-2-100B-Instruct-betaの性能評価は、日本語MT-Benchによって既存モデルと評価を実施。今回の評価では、日本の組織によってフロムスクラッチで開発が行われた公開モデルと性能を比較したところ、一定の差をもって高い性能を示していることがわかったという。また、Metaが開発したLlama3.1に日本語を追加学習した「Llama 3.1 Swallow」と比較しても、今回開発したStockmark-2-100B-Instruct-betaがわずかに上回る結果になったとしている。
![[画像クリックで拡大]](http://ez-cdn.shoeisha.jp/static/images/article/21662/2.png)
加えて、今回日本語に特化したモデルを開発するにあたり、日本のビジネスドメインにおける知識の保持度を評価したという。評価には、同社が開発した「Stockmark Business Questions」を用いた結果、同モデルの正解率は90%となり、GPT-4oの正解率88%をわずかに上回ることが確認されたとしている。
また、商用利用可能なモデルとしてオープンソースで公開することで、より多くのユーザーが試せるモデルになっているとのことだ。
【関連記事】
・アリババクラウド、独自LLM「Qwen」最新版を日本市場に展開へ パートナーシップも拡大
・日立&NVIDIAの協業発表から1年、アプリケーションにおけるAIトランスフォーメーションを加速
・DNPが研究開発部門などに「ChatGPT Enterprise」導入、50%超の業務自動化を目指す