GMOメディアは、「大規模言語モデルの日本語実践的評価:JGLUEとITパスポート試験を用いた比較分析」をテーマとした研究を実施し、LLMが持つ推論能力(正確な解答を導き出す力)や問題解決能力の特徴を分析することで、LLMごとのIT分野における能力差を解明した。
同研究では、ITパスポート試験において、LLMが正解を導き出す力がどのくらいあるのかを指標とした。以下のLLMにITパスポート試験の過去問を解答させることで、IT分野の問題に対してどの程度正しい解答を導き出すことができるかを評価したという。
「研究対象のLLM」シリーズ名(モデル名/開発元)
- GPT-3.5(gpt-3.5-turbo-1106/OpenAI)
- GPT-4(gpt-4-11-6-preview/OpenAI)
- Japanese StableLM Alpha(Japanese Stable LM Instruct Alpha 7B v2/Stability AI)
- Swallow(Swallow-7B-instruct-hf/東京工業大学情報理工学院・産業技術総合研究所の研究チーム)
- Nekomata(nekomata-7b-instruction/rinna)
- ELYZA-japanese-Llama-2-7b(ELYZA-japanese-Llama-2-7b-instruct/ELYZA)
研究方法
1. 汎用的な日本語問題と、専門的な日本語問題を使用した各LLMの性能比較
入力される情報が特定分野へ特化していることが、LLMの解答の精度にどのように影響を与えるかを検証するため、LLMが一般常識をどの程度解答できるかを評価するJGLUE試験とITパスポート試験の2つの試験に解答させ、正答率を検証。また、それぞれの結果を比較して分析を行った。
2. プロンプトへのヒント挿入によるLLM推論能力(正確な解答を導き出す力)の向上評価
LLMが解答を導き出す力を検証するため、解答を導くために役立つヒントをプロンプトに追加し、ヒントが提供された場合に各LLMが問題の正答率をどの程度向上するかを評価。ヒントを含まないプロンプトで問題に解答させた1と、ヒントを含むプロンプトで問題に解答させた2の正答率を比較し、ヒントの有無がLLMの性能にどのような影響を及ぼすのか分析を行ったとしている。
研究結果
1. 汎用的な日本語問題と、専門的な日本語問題を使用した各LLMの性能比較
「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」は、約70%の精度で正しい解答を導き出すことができた。一方で、JGLUE試験のような一般常識問題では高い正答率を出すことができる「Japanese Stable LM Instruct Alpha 7B v2」「nekomata-7b-instruction」は、IT分野は苦手とする傾向がみられたという。
2. プロンプトへのヒント挿入によるLLM推論能力(正確な解答を導き出す力)の向上評価
IT分野が苦手なLLMであっても、解答を補助するヒントを与えることで、ほとんどのLLMで解答の精度が向上することがわかった。回答率一覧は以下のとおり。
LLMモデル名 | JGLUE |
ITパスポート試験(ヒントなし) |
ITパスポート試験(ヒントあり) |
---|---|---|---|
gpt-3.5-turbo-1106 | 89.311 | 69.9 | 93.832 |
gpt-4-11-6-preview | 95.42 | 70.53 | 82.99 |
Japanese Stable LM Instruct Alpha 7B v2 | 67.53 | 24.1 | 67.53 |
Swallow-7B-instruct-hf | 46.91 | 31.1 | 62.5 |
nekomata-7b-instruction | 81.68 | 58.8 | 86.16 |
ELYZA-japanese-Llama-2-7b-instruct | 38.42 | 72.3 | 64.33 |
結論
IT分野での正確な解答を導き出す力はLLMのモデル間で差異があり、IT分野に関してLLMに質問をする場合は、ある程度有効的に活用できるLLM(「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」)と、活用に注意しなければならないLLMがあることがわかったとしている。
調査結果の活用方法と展望
専門分野に特化するチューニングを施していない汎用的なLLMでも、一定の精度でIT分野の正確な解答を期待できる。そのため、ITパスポート試験の学習においても、誤りがある可能性を踏まえた上で、「わからない単語や概念について質問する」「練習問題を作成する」などの活用方法は、一定程度有効であるという。
今後も、こうした研究方法により他の資格試験を用いたLLMの評価分析を行っていく予定。それらの結果をもとに、資格試験をはじめとした学習にLLMを活用した授業の提案や対策講座の開発を促進していくとしている。
論文執筆者
- 羽中田将氏(GMOメディア サービス開発部 シニアエンジニア):現サービス開発部AIチーム。2018年入社。2020年まで、技術推進室でレコメンドやデータ分析基盤の作成。その後、サービス開発部インフラチームのDBA(Database Administrator)で、MySQLの運用を担当し、2023年よりAIチーム発足にともない社内データ活用やAIの推進を行う
【関連記事】
・北九州市、GMOサインを利用開始へ GMOグローバルサイン・HDと電子契約普及の協力に関する協定締結
・GMOグローバルサイン・ホールディングス、電子署名、電子契約、マイナンバーなどの「電子認証局」の役割を解説
・セキュリティ健康診断ツールのエンタープライズプランをGMOサイバーセキュリティが提供