EnterpriseZine Press

生成AIのハルシネーション克服へ　RAG構築における「データ構造化」の4つのポイントとは？

複雑な文書を“正しく”構造化する「DLA」、ポイントとなる「チャンク最適化」

2024/11/18 09:00

通知

　ChatGPTのリリース以降、日本国内の企業でも生成AIの導入が進んでいるが、実業務で定常利用するには至っていない。その背景には、ハルシネーションなどに対する懸念がある。ハルシネーションを抑えるためにはRAG（Retrieval-Augmented Generation）の利用が有効だが、そこで必要となるのが「構造化」という技術だ。本記事では、なぜ構造化が必要なのか、どのような手法があるか、そして構造化の精度が生成AIを実利用するビジネス現場にどのような影響をもたらすのか紹介する。

通知

生成AI利用のカギを握る“データの構造化”

　ChatGPTは2022年11月に一般向けにリリースされて以来、2024年8月時点で週間アクティブユーザーが2億人を突破し^[1]、大きなイノベーションを生み出している。さらに、日本国内の企業利用においては、約7割の企業が生成AIを何らかの形で導入しており、企業利用においても生成AIが浸透していることがわかる。一方で、実際の利用頻度は定常利用（1日2回以上）が21％、定期利用（1日1回）が14％、不定期利用（数日に1回程度）が35％、未利用（それ以下、または使っていない）が30％と、いまだ定常利用には至っていない^[2]。その大きな要因のひとつが、ハルシネーションに対する懸念だ^[3]。

　ハルシネーションを抑えるためには、生成AIが既存のデータを検索したうえで回答を生成するRAGを利用するのが一般的だ。たとえば、データベースで管理された業務データを用いたRAGシステムを構築することで、データに基づく適切な回答を返すことが可能となる。しかし、データベース管理されていない非構造化データとなると、話は別だ。

　非構造化データとは、たとえば企画書や報告書、製品マニュアルといった非定型なドキュメントを指し、企業内のデータの90％を占める^[4]。非構造化データをRAGシステムに組み込むためには、まず、そのデータを検索可能なデータ形式に変換する必要がある。このプロセスが「構造化」だ。企業内の複雑なドキュメントを読み取り、適切に構造化することができれば、ハルシネーションを抑えたRAGシステムを構築できる可能性が生じる。

[1]「OpenAI says ChatGPT usage has doubled since last year」（AXIOS, 2024年8月29日）

[2]「＜ビジネスシーンにおける生成AIの実態調査＞企業における生成AIの「日常的な利用」は約4割未満幅広い用途の中でも「社内情報を活用」できると利用者は7割まで上昇」（ストックマーク, 2024年4月18日）

[3]「生成AI使用企業は35％、情報漏洩やハルシネーションなど懸念か──ITR・JIPDEC調査」（EnterpriseZine, 2024年3月15日）

[4]「90% of your data is unstructured — and it’s full of untapped value」（Box, 2023年8月25日）

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます
・翔泳社の本が買える！
500円分のポイントをプレゼント

メールバックナンバー

新規会員登録無料

次のページ
構造化を実現する、4つの具体的手法とは？

この記事は参考になりましたか？

広告を読み込めませんでした

広告を読み込み中...

印刷用を表示

EnterpriseZine Press連載記事一覧: AI時代にもなぜ炎上プロジェクトが生まれるのか　IT部門が見直すべき「3つの統制」

問い合わせ対応の沼から情シスを解放へ──ZendeskのAI統合の「自律型サポート」がEX...

坂出市の自治体DX、ホームページを「窓口」に全面刷新──電子申請は最短2クリックで来庁者4...

もっと読む

この記事の著者: 谷本龍一（タニモトリュウイチ）

　ストックマーク株式会社オープンデータユニットリーダー。生命情報学分野で修士号を取得後、2016年よりストックマークに参画。同社が開発する自然言語処理を活用した企業文化変革の支援を行うSaaSであるAnewsとAstrategyの立ち上げを担当。2019年にビジネスドキュメントの収集・解析を行うデー...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事