NTTデータは、汎用言語モデルBERTを特定の業務領域(ドメイン)に応じて最適化し、業務文書に適した言語モデルを自動で構築するドメイン特化BERT構築フレームワーク(以下、ドメイン特化BERT-FW)を開発した。
本フレームワークは、専門用語や特有の文脈を含む文書を解析する際に、言語モデル自体を顧客の業務文書に最適化することで従来のBERTと比べて高精度の結果を得ることができるという。また、言語モデル構築の一連の流れは自動化されているため、専門家によるチューニングを行う場合と比べて短期間でモデルを構築することが可能だとしている。
特長
ドメイン特化BERT-FWは、汎用言語モデルであるBERTに追加学習を行い、業務文書に合わせて最適な言語モデルを構築する仕組みだという。
自然言語処理を適用する業務によっては、事前に業界の範囲を適切に定義することが難しいという課題があった。これに対して本フレームワークでは、対象とする業務文書ごとに最適なデータを収集して追加学習を行うことにより解決を図っている。
処理対象の業務文書から学習前の一般的なBERTモデルによる扱いが難しい文章を効率的に選別。主に専門用語を含む文を対象に類似した文章をインターネットから収集し、追加学習することで特定ドメインに特化した言語モデルを構築するという。
今後、NTTデータの持つ自然言語処理に関する独自ノウハウや技術を活用し、ドメイン特化BERT-FWの実ビジネス適用を進めていくため、顧客との共同検証5件を2021年度中に行う予定だとしている。
【関連記事】
・金融機関の8割強がAIを重要視【NTTデータ グローバル調査結果】
・NTTデータ、マイクロソフトとの協業でWinActorとTeamsを連携
・NTTデータ関西、新型コロナウイルスのワクチン接種サービス無償提供へ