EnterpriseZineニュース

GMOメディア、LLMごとのIT分野における能力差を解明　ITパスポート試験を用いて推論能力など分析

2024/03/12 11:30

通知

　GMOメディアは、「大規模言語モデルの日本語実践的評価：JGLUEとITパスポート試験を用いた比較分析」をテーマとした研究を実施し、LLMが持つ推論能力（正確な解答を導き出す力）や問題解決能力の特徴を分析することで、LLMごとのIT分野における能力差を解明した。

　同研究では、ITパスポート試験において、LLMが正解を導き出す力がどのくらいあるのかを指標とした。以下のLLMにITパスポート試験の過去問を解答させることで、IT分野の問題に対してどの程度正しい解答を導き出すことができるかを評価したという。

「研究対象のLLM」シリーズ名（モデル名／開発元）

GPT-3.5（gpt-3.5-turbo-1106／OpenAI）
GPT-4（gpt-4-11-6-preview／OpenAI）
Japanese StableLM Alpha（Japanese Stable LM Instruct Alpha 7B v2／Stability AI)
Swallow（Swallow-7B-instruct-hf／東京工業大学情報理工学院・産業技術総合研究所の研究チーム）
Nekomata（nekomata-7b-instruction／rinna）
ELYZA-japanese-Llama-2-7b（ELYZA-japanese-Llama-2-7b-instruct／ELYZA）

研究方法

1. 汎用的な日本語問題と、専門的な日本語問題を使用した各LLMの性能比較

　入力される情報が特定分野へ特化していることが、LLMの解答の精度にどのように影響を与えるかを検証するため、LLMが一般常識をどの程度解答できるかを評価するJGLUE試験とITパスポート試験の2つの試験に解答させ、正答率を検証。また、それぞれの結果を比較して分析を行った。

2. プロンプトへのヒント挿入によるLLM推論能力（正確な解答を導き出す力）の向上評価

　LLMが解答を導き出す力を検証するため、解答を導くために役立つヒントをプロンプトに追加し、ヒントが提供された場合に各LLMが問題の正答率をどの程度向上するかを評価。ヒントを含まないプロンプトで問題に解答させた1と、ヒントを含むプロンプトで問題に解答させた2の正答率を比較し、ヒントの有無がLLMの性能にどのような影響を及ぼすのか分析を行ったとしている。

研究結果

1. 汎用的な日本語問題と、専門的な日本語問題を使用した各LLMの性能比較

　「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」は、約70％の精度で正しい解答を導き出すことができた。一方で、JGLUE試験のような一般常識問題では高い正答率を出すことができる「Japanese Stable LM Instruct Alpha 7B v2」「nekomata-7b-instruction」は、IT分野は苦手とする傾向がみられたという。

2. プロンプトへのヒント挿入によるLLM推論能力（正確な解答を導き出す力）の向上評価

　IT分野が苦手なLLMであっても、解答を補助するヒントを与えることで、ほとんどのLLMで解答の精度が向上することがわかった。回答率一覧は以下のとおり。

LLMモデル名	JGLUE	ITパスポート試験（ヒントなし）	ITパスポート試験（ヒントあり）
gpt-3.5-turbo-1106	89.311	69.9	93.832
gpt-4-11-6-preview	95.42	70.53	82.99
Japanese Stable LM Instruct Alpha 7B v2	67.53	24.1	67.53
Swallow-7B-instruct-hf	46.91	31.1	62.5
nekomata-7b-instruction	81.68	58.8	86.16
ELYZA-japanese-Llama-2-7b-instruct	38.42	72.3	64.33

結論

　IT分野での正確な解答を導き出す力はLLMのモデル間で差異があり、IT分野に関してLLMに質問をする場合は、ある程度有効的に活用できるLLM（「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」）と、活用に注意しなければならないLLMがあることがわかったとしている。

調査結果の活用方法と展望

　専門分野に特化するチューニングを施していない汎用的なLLMでも、一定の精度でIT分野の正確な解答を期待できる。そのため、ITパスポート試験の学習においても、誤りがある可能性を踏まえた上で、「わからない単語や概念について質問する」「練習問題を作成する」などの活用方法は、一定程度有効であるという。

　今後も、こうした研究方法により他の資格試験を用いたLLMの評価分析を行っていく予定。それらの結果をもとに、資格試験をはじめとした学習にLLMを活用した授業の提案や対策講座の開発を促進していくとしている。

論文執筆者

羽中田将氏（GMOメディアサービス開発部シニアエンジニア）：現サービス開発部AIチーム。2018年入社。2020年まで、技術推進室でレコメンドやデータ分析基盤の作成。その後、サービス開発部インフラチームのDBA（Database Administrator）で、MySQLの運用を担当し、2023年よりAIチーム発足にともない社内データ活用やAIの推進を行う

この記事は参考になりましたか？

印刷用を表示

関連リンク: プレスリリース

この記事の著者: EnterpriseZine編集部（エンタープライズジンヘンシュウブ）

「EnterpriseZine」（エンタープライズジン）は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事