NVIDIAは、「Nejumi Leaderboard 4」のパラメータ数10B以下において、「NVIDIA Nemotron-Nano-9B-v2-Japanese」を公開した。
同モデルは、高度な日本語理解と強力なエージェント機能を、導入しやすい軽量なサイズで実現しており、日本のエンタープライズAI開発における重要なマイルストーンになるとしている。「Nemotron-Nano-9B-v2」のアーキテクチャと、「Nemotron-Personas-Japan」によって実現された高品質な日本語合成データ生成(SDG)という、2つの基盤の上に築かれているとのことだ。
既に公開済みのNemotron 2 Nanoモデルを日本語向けにカスタマイズすることで、多様なユースケースや言語に対応したカスタム最先端モデルの開発・公開をコミュニティに促すことを目指しているという。Nemotronチームは、このカスタマイズから得た知見を今後のNemotronリリースに反映し、日本語における推論能力の強化を図っていくと述べている。
日本のエンタープライズにおけるSLM(小規模言語モデル)の重要性
現在の日本のエンタープライズAI環境には、「高度な日本語能力」と「エージェンティックAIとしてのタスク遂行能力」を兼ね備えたSLMがほとんど存在しないという課題があるという。これにより、特に以下の点において導入の障壁が生じているとのことだ。
- オンプレミスでのデプロイ要件:機密データを扱う企業では、プライベートネットワーク内でのモデル運用が不可欠。10B(100億)パラメータ未満のモデルであれば、実用レベルの性能を維持しつつ、インフラ面の導入ハードルを下げることが可能
- カスタマイズの効率化:実証済みのエージェント能力を持つ日本語ベースモデルから開始することで、ファインチューニングのサイクルを短縮できる。基礎能力の構築ではなく、特定のドメインへの適応に計算リソースを集中させることが可能に
- エージェント開発の加速:同モデルのアーキテクチャと性能により、大規模モデルのようなオーバーヘッドなしに、マルチエージェントシステムや複雑なワークフローの迅速なプロトタイピングが可能に
基盤
Nemotron 2 Nano
Nemotron-Nano-9B-v2-Japaneseは、「英語ベンチマークにおいてサイズ対性能比で卓越した結果を示した」とNVIDIAが述べる、NVIDIA Nemotron-Nano-9B-v2 をベースに構築されているという。このアーキテクチャを基盤としてさらなるカスタマイズを実施し、日本語能力を強化したとのことだ。同アーキテクチャには以下の特徴があるという。
- 高度な推論能力を実現、最適化されたパラメータ効率
- 多言語適応のための強固な基盤
- 実証済みのエージェントタスク遂行能力
この検証済みのアーキテクチャを日本語に適応させることで、ベースモデルの強みを維持しつつ、優れた日本語能力を実現していると述べている。
Nemotron-Personas-Japan
同モデルのデータ戦略は、オープンソース(CC BY 4.0)データセットであるNemotron-Personas-Japanを、合成データ生成(SDG)の高品質なシードとして活用することに焦点を当てているという。このデータセットは、日本の実世界における人口統計、地理的分布、性格特性の分布に基づき合成生成されたペルソナで構成されているとのことだ。こうした文化的に正確なペルソナを基盤として、高度に多様性があり、拡張性・堅牢性に優れたトレーニングパイプラインを構築したと述べている。シードデータの豊富なペルソナ群により、多様なシナリオやニュアンスにわたる合成データセットを効率的に拡張できたとのことだ。この手法により、拡張データは元のペルソナの厳密な文化的整合性を維持しつつ、最先端トレーニングに必要な規模を達成していると述べている。
特にNemotron-Nano-9B-v2-Japaneseでは、これらのペルソナをツール呼び出しシナリオにおけるトレーニングデータの生成基盤として活用したという。これにより、モデルが獲得する能力が単なるツール呼び出し機能にとどまらず、文化的に適切な日本語の対話と現実世界のユースケースに根差したものであることが保証されるとしている。
トレーニングパイプライン
Nemotron-Nano-9B-v2-Japaneseは、継続事前学習、合成データ生成、事後学習に至るプロセスを日本語オープンソースコーパスとNVIDIAのNemotronスタックを組み合わせて構築されたとのことだ。
継続事前学習
- Japanese OSS Corpus: Wikipedia, fineweb-2 Japanese, aozorabunko, sip3-ja-general-web-corpus
- Nemotron-CC-v2.1
- Nemotron-Pretraining-Specialized-v1
SFT
- Nemotron-Personas-JapanをシードセットとしたTool Callingデータセット
- Nemotron-Post-Training-v3
Nemotron-Nano-9B-v2-Japaneseに使用されたソフトウェア
- Megatron-LM:継続事前学習およびSFT
- NeMo Curator:データ前処理およびフィルタリング
モデルの日本語能力を最大化するため、継続事前学習を実施したとのこと。日本のオープンソースLLMコミュニティであるLLM-jpの資産を活用しているという。同時に、「Nemotron Pre-training Datasets」を活用し、モデルのエージェント機能を維持したと述べている。
SFTに使用した、Nemotron-Personas-JapanをシードとしたTool Callingデータセットは強力で、性能向上はツール呼び出しにとどまらず、日本語知識、QA、指示追従など多岐に渡ったとのことだ。また、このシードセットが600万のペルソナに基づいて構築されているため、SDGを効果的にスケールさせることができたとしている。これにより、重複を最小限に抑えながら、現実世界の多様なシナリオを網羅することに成功したと述べている。
モデルのトレーニングは、Nemotron Nano 2で確立されたトレーニングレシピを継承しているとのこと。これにより、トレーニングの不安定性を招くことなくスループットを向上させることができたという。
このアプローチによって、ロバストなツール呼び出し機能とリーズニング能力を維持しながら、強力な日本語言語モデルとしての性能を実現しているとのことだ。
【関連記事】
・富士通、「日本製」ソブリンAIサーバーを3月から製造開始へ 欧州にも展開予定
・NSSOL、東京・九州のデータセンターにOracle Alloy導入 ソブリンクラウド環境を提供へ
・日立、企業システムのソブリン性確保・モダナイズを両輪支援するクラウドサービスを提供開始
この記事は参考になりましたか?
- 関連リンク
- この記事の著者
-
EnterpriseZine編集部(エンタープライズジン ヘンシュウブ)
「EnterpriseZine」(エンタープライズジン)は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
