生成AI利用のカギを握る“データの構造化”
ChatGPTは2022年11月に一般向けにリリースされて以来、2024年8月時点で週間アクティブユーザーが2億人を突破し[1]、大きなイノベーションを生み出している。さらに、日本国内の企業利用においては、約7割の企業が生成AIを何らかの形で導入しており、企業利用においても生成AIが浸透していることがわかる。一方で、実際の利用頻度は定常利用(1日2回以上)が21%、定期利用(1日1回)が14%、不定期利用(数日に1回程度)が35%、未利用(それ以下、または使っていない)が30%と、いまだ定常利用には至っていない[2]。その大きな要因のひとつが、ハルシネーションに対する懸念だ[3]。
ハルシネーションを抑えるためには、生成AIが既存のデータを検索したうえで回答を生成するRAGを利用するのが一般的だ。たとえば、データベースで管理された業務データを用いたRAGシステムを構築することで、データに基づく適切な回答を返すことが可能となる。しかし、データベース管理されていない非構造化データとなると、話は別だ。
非構造化データとは、たとえば企画書や報告書、製品マニュアルといった非定型なドキュメントを指し、企業内のデータの90%を占める[4]。非構造化データをRAGシステムに組み込むためには、まず、そのデータを検索可能なデータ形式に変換する必要がある。このプロセスが「構造化」だ。企業内の複雑なドキュメントを読み取り、適切に構造化することができれば、ハルシネーションを抑えたRAGシステムを構築できる可能性が生じる。
[1]「OpenAI says ChatGPT usage has doubled since last year」(AXIOS, 2024年8月29日)
[2]「<ビジネスシーンにおける生成AIの実態調査> 企業における生成AIの「日常的な利用」は約4割未満 幅広い用途の中でも「社内情報を活用」できると利用者は7割まで上昇」(ストックマーク, 2024年4月18日)
[3]「生成AI使用企業は35%、情報漏洩やハルシネーションなど懸念か──ITR・JIPDEC調査」(EnterpriseZine, 2024年3月15日)
[4]「90% of your data is unstructured — and it’s full of untapped value」(Box, 2023年8月25日 )