SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

Enterprise IT Women's Forum

2025年1月31日(金)17:00~20:30 ホテル雅叙園東京にて開催

Security Online Day 2025 春の陣

2025年3月18日(火)オンライン開催

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

EnterpriseZine(エンタープライズジン)

EnterpriseZine編集部が最旬ITトピックの深層に迫る。ここでしか読めない、エンタープライズITの最新トピックをお届けします。

『EnterpriseZine Press』

2024年秋号(EnterpriseZine Press 2024 Autumn)特集「生成AI時代に考える“真のDX人材育成”──『スキル策定』『実践』2つの観点で紐解く」

EnterpriseZineニュース

GMOメディア、LLMごとのIT分野における能力差を解明 ITパスポート試験を用いて推論能力など分析

 GMOメディアは、「大規模言語モデルの日本語実践的評価:JGLUEとITパスポート試験を用いた比較分析」をテーマとした研究を実施し、LLMが持つ推論能力(正確な解答を導き出す力)や問題解決能力の特徴を分析することで、LLMごとのIT分野における能力差を解明した。

 同研究では、ITパスポート試験において、LLMが正解を導き出す力がどのくらいあるのかを指標とした。以下のLLMにITパスポート試験の過去問を解答させることで、IT分野の問題に対してどの程度正しい解答を導き出すことができるかを評価したという。

「研究対象のLLM」シリーズ名(モデル名/開発元)
  • GPT-3.5(gpt-3.5-turbo-1106/OpenAI)
  • GPT-4(gpt-4-11-6-preview/OpenAI)
  • Japanese StableLM Alpha(Japanese Stable LM Instruct Alpha 7B v2/Stability AI)
  • Swallow(Swallow-7B-instruct-hf/東京工業大学情報理工学院・産業技術総合研究所の研究チーム)
  • Nekomata(nekomata-7b-instruction/rinna)
  • ELYZA-japanese-Llama-2-7b(ELYZA-japanese-Llama-2-7b-instruct/ELYZA)

研究方法

1. 汎用的な日本語問題と、専門的な日本語問題を使用した各LLMの性能比較

 入力される情報が特定分野へ特化していることが、LLMの解答の精度にどのように影響を与えるかを検証するため、LLMが一般常識をどの程度解答できるかを評価するJGLUE試験とITパスポート試験の2つの試験に解答させ、正答率を検証。また、それぞれの結果を比較して分析を行った。

2. プロンプトへのヒント挿入によるLLM推論能力(正確な解答を導き出す力)の向上評価

 LLMが解答を導き出す力を検証するため、解答を導くために役立つヒントをプロンプトに追加し、ヒントが提供された場合に各LLMが問題の正答率をどの程度向上するかを評価。ヒントを含まないプロンプトで問題に解答させた1と、ヒントを含むプロンプトで問題に解答させた2の正答率を比較し、ヒントの有無がLLMの性能にどのような影響を及ぼすのか分析を行ったとしている。

研究結果

1. 汎用的な日本語問題と、専門的な日本語問題を使用した各LLMの性能比較

 「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」は、約70%の精度で正しい解答を導き出すことができた。一方で、JGLUE試験のような一般常識問題では高い正答率を出すことができる「Japanese Stable LM Instruct Alpha 7B v2」「nekomata-7b-instruction」は、IT分野は苦手とする傾向がみられたという。

2. プロンプトへのヒント挿入によるLLM推論能力(正確な解答を導き出す力)の向上評価

 IT分野が苦手なLLMであっても、解答を補助するヒントを与えることで、ほとんどのLLMで解答の精度が向上することがわかった。回答率一覧は以下のとおり。

LLMモデル名 JGLUE

ITパスポート試験(ヒントなし)

ITパスポート試験(ヒントあり)

gpt-3.5-turbo-1106 89.311 69.9 93.832
gpt-4-11-6-preview 95.42 70.53 82.99
Japanese Stable LM Instruct Alpha 7B v2 67.53 24.1 67.53
Swallow-7B-instruct-hf 46.91 31.1 62.5
nekomata-7b-instruction 81.68 58.8 86.16
ELYZA-japanese-Llama-2-7b-instruct 38.42 72.3 64.33

結論

 IT分野での正確な解答を導き出す力はLLMのモデル間で差異があり、IT分野に関してLLMに質問をする場合は、ある程度有効的に活用できるLLM(「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」)と、活用に注意しなければならないLLMがあることがわかったとしている。

調査結果の活用方法と展望

 専門分野に特化するチューニングを施していない汎用的なLLMでも、一定の精度でIT分野の正確な解答を期待できる。そのため、ITパスポート試験の学習においても、誤りがある可能性を踏まえた上で、「わからない単語や概念について質問する」「練習問題を作成する」などの活用方法は、一定程度有効であるという。

 今後も、こうした研究方法により他の資格試験を用いたLLMの評価分析を行っていく予定。それらの結果をもとに、資格試験をはじめとした学習にLLMを活用した授業の提案や対策講座の開発を促進していくとしている。

論文執筆者

  • 羽中田将氏(GMOメディア サービス開発部 シニアエンジニア):現サービス開発部AIチーム。2018年入社。2020年まで、技術推進室でレコメンドやデータ分析基盤の作成。その後、サービス開発部インフラチームのDBA(Database Administrator)で、MySQLの運用を担当し、2023年よりAIチーム発足にともない社内データ活用やAIの推進を行う

【関連記事】
北九州市、GMOサインを利用開始へ GMOグローバルサイン・HDと電子契約普及の協力に関する協定締結
GMOグローバルサイン・ホールディングス、電子署名、電子契約、マイナンバーなどの「電子認証局」の役割を解説
セキュリティ健康診断ツールのエンタープライズプランをGMOサイバーセキュリティが提供

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
関連リンク
この記事の著者

EnterpriseZine編集部(エンタープライズジン ヘンシュウブ)

「EnterpriseZine」(エンタープライズジン)は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/news/detail/19365 2024/03/12 11:30

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング