生成AIのハルシネーション克服へ RAG構築における「データ構造化」の4つのポイントとは?
複雑な文書を“正しく”構造化する「DLA」、ポイントとなる「チャンク最適化」

ChatGPTのリリース以降、日本国内の企業でも生成AIの導入が進んでいるが、実業務で定常利用するには至っていない。その背景には、ハルシネーションなどに対する懸念がある。ハルシネーションを抑えるためにはRAG(Retrieval-Augmented Generation)の利用が有効だが、そこで必要となるのが「構造化」という技術だ。本記事では、なぜ構造化が必要なのか、どのような手法があるか、そして構造化の精度が生成AIを実利用するビジネス現場にどのような影響をもたらすのか紹介する。
生成AI利用のカギを握る“データの構造化”
ChatGPTは2022年11月に一般向けにリリースされて以来、2024年8月時点で週間アクティブユーザーが2億人を突破し[1]、大きなイノベーションを生み出している。さらに、日本国内の企業利用においては、約7割の企業が生成AIを何らかの形で導入しており、企業利用においても生成AIが浸透していることがわかる。一方で、実際の利用頻度は定常利用(1日2回以上)が21%、定期利用(1日1回)が14%、不定期利用(数日に1回程度)が35%、未利用(それ以下、または使っていない)が30%と、いまだ定常利用には至っていない[2]。その大きな要因のひとつが、ハルシネーションに対する懸念だ[3]。
ハルシネーションを抑えるためには、生成AIが既存のデータを検索したうえで回答を生成するRAGを利用するのが一般的だ。たとえば、データベースで管理された業務データを用いたRAGシステムを構築することで、データに基づく適切な回答を返すことが可能となる。しかし、データベース管理されていない非構造化データとなると、話は別だ。
非構造化データとは、たとえば企画書や報告書、製品マニュアルといった非定型なドキュメントを指し、企業内のデータの90%を占める[4]。非構造化データをRAGシステムに組み込むためには、まず、そのデータを検索可能なデータ形式に変換する必要がある。このプロセスが「構造化」だ。企業内の複雑なドキュメントを読み取り、適切に構造化することができれば、ハルシネーションを抑えたRAGシステムを構築できる可能性が生じる。

構造化とRAGシステムの概要
[画像クリックで拡大]
[1]「OpenAI says ChatGPT usage has doubled since last year」(AXIOS, 2024年8月29日)
[2]「<ビジネスシーンにおける生成AIの実態調査> 企業における生成AIの「日常的な利用」は約4割未満 幅広い用途の中でも「社内情報を活用」できると利用者は7割まで上昇」(ストックマーク, 2024年4月18日)
[3]「生成AI使用企業は35%、情報漏洩やハルシネーションなど懸念か──ITR・JIPDEC調査」(EnterpriseZine, 2024年3月15日)
[4]「90% of your data is unstructured — and it’s full of untapped value」(Box, 2023年8月25日 )
この記事は参考になりましたか?
- この記事の著者
-
谷本 龍一(タニモト リュウイチ)
ストックマーク株式会社オープンデータユニットリーダー。生命情報学分野で修士号を取得後、2016年よりストックマークに参画。同社が開発する自然言語処理を活用した企業文化変革の支援を行うSaaSであるAnewsとAstrategyの立ち上げを担当。2019年にビジネスドキュメントの収集・解析を行うデー...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア