EnterpriseZineニュース

rinna、日本語に特化したGPT-2モデルをオープンソースとして公開

2021/04/07 17:02

通知

　rinnaは、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開した。

　製品開発のための自然言語処理（NLP）の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築。日本語のNLP研究コミュニティに貢献するために、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHub、およびNLPモデルライブラリHuggingFaceで、オープンソースとして公開するという。

日本語GPT-2モデルの機能

　GPT-2は、単語レベルの確率の組み合わせから文の確率を計算する言語モデル（自己回帰言語モデル）。たとえば、“確率（吾輩は猫である）＝確率（吾輩）×確率（は|吾輩）×確率（猫|吾輩,は）×確率（で|吾輩,は,猫）×確率（ある|吾輩,は,猫,で）”のような方法で推定を行うとしている。この能力を使って、同モデルでは「吾輩は猫で」という接頭辞（Prefix）を与えられたとき、確率の推定から次にくる単語として「ある」を選択し、文章を自動生成できる。

　今回、公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成。ユーザー／研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することも可能だとしている。

　たとえば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト（デモ1：講演の感想、デモ2：書籍の紹介）で応答文を生成するように、微調整できるという。

日本語GPT-2モデルの特徴

トレーニングデータとして、CC-100のオープンソースデータを使用している
Tesla V100 GPUを用いて、70ギガバイトの日本語テキストを約1ヵ月の長期間にわたってトレーニングした。その結果、このモデルの性能は約18perplexityを達成した
ユーザー／研究者が簡単にアクセスできるように、開発したモデルをHuggingFaceに公開。また、研究者が自分のマシンで当社の結果を再現できるように、トレーニングコードをGitHubに公開している
今回公開したのは、GPT2-mediumと定義される中規模サイズのモデル。今後、パフォーマンスとコストのトレードオフに基づいてユーザー／研究者が最善の選択をできるよう、異なるサイズのモデルも公開する予定だという。また、異なるデータでトレーニングした新しいモデルの公開も計画している

　同社は今後も、異なるテキストスタイルや異なるデータ量を含む、より高精度でより大規模な言語モデルの研究開発を続け、AIチャットボットの能力を高めていくという。また、日本語の研究コミュニティのために、これらのモデルをオープンソース化するとしている。

この記事は参考になりましたか？

印刷用を表示

関連リンク: rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化

この記事の著者: EnterpriseZine編集部（エンタープライズジンヘンシュウブ）

「EnterpriseZine」（エンタープライズジン）は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事