SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

Data Tech 2024

2024年11月21日(木)オンライン開催

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

EnterpriseZine(エンタープライズジン)

EnterpriseZine編集部が最旬ITトピックの深層に迫る。ここでしか読めない、エンタープライズITの最新トピックをお届けします。

『EnterpriseZine Press』

2024年秋号(EnterpriseZine Press 2024 Autumn)特集「生成AI時代に考える“真のDX人材育成”──『スキル策定』『実践』2つの観点で紐解く」

EnterpriseZine Press

生成AIのハルシネーション克服へ RAG構築における「データ構造化」の4つのポイントとは?

複雑な文書を“正しく”構造化する「DLA」、ポイントとなる「チャンク最適化」

構造化を実現する、4つの具体的手法とは?

 では、構造化とはどのようにして行うのか。PDF形式のドキュメントを非構造化データの例として、具体的な手法とその特徴を紹介する。

1. ドキュメントファイル構造解析

 PDFの構造化を行う簡易な方法は、PDF内部に埋め込まれたテキストと、その座標情報を読み取り、内容を順次抽出していくというものだ。読み取りのための無料PDF解析ツールは、オープンソース・ソフトウェア(OSS)として公開されているものも多く、それらを用いてシステムに導入できる。

画像を説明するテキストなくても可

PythonのPDF解析ライブラリのテキスト抽出精度比較[5]

[画像クリックで拡大]

 しかし、この方法には、「作者の意図通りの順番でテキストを抜き出すことができない」という問題がある。PDF内部に埋め込まれた情報を上から順に抽出するため、図表と文章が横並びになっていたり、多段構成のドキュメントに対しては、テキスト同士が混在してしまい意味のある文章を取り出せなかったりといった場合があるのだ。こういった“不正な”テキストをRAGシステムに取り込むと、適切に検索ができなかったり、間違った回答をしてしまったりする可能性が高まる。

ドキュメントファイル構造解析によるテキスト抽出結果の例

[画像クリックで拡大]

 また、ドキュメント内の文字が、文字情報を持たずただの“画像”として挿入されている場合も、テキストを抽出できない。画像に対し、光学文字認識(OCR)を用いると、テキストの抽出自体は可能になる。ただし、OCRを行ったとしても、やはり意味のある順番でテキストを抽出できないという問題は残る。

2. 汎用LLMを用いた構造化

 ChatGPTなどの汎用LLMには、テキストと画像の両方を受け取り、内容を把握できるモデル(GPT-4oなど)がある。この汎用LLMを用いることで、意味のあるまとまりを識別でき、前述の問題を解決できる場合がある。

 しかし、ビジネス現場で用いられる企画書や報告書といった、複雑でデザイン性の高い形式のドキュメントに対しては、抽出の際にハルシネーションが起こり、本来存在するはずのテキストが欠損したり、別のテキストに置き換わったりしてしまうなどのミスが発生する。たとえば、スライド形式の資料に含まれる表を構造化しようとすると、空白セルの位置がずれてしまい、セルの記載内容と列の意味が合わなくなってしまう。

汎用LLMによる構造化の失敗例

[画像クリックで拡大]

 また、複数セルの内容がひとつに混成してしまい、内容も実際とは異なってしまうケースがある。こうしたミスのある構造化データをRAGシステムに取り込むと、本来摂取できる情報を落としたり誤った回答をしてしまったりする恐れがある。これは情報の把握に正確性が求められるビジネスシーンでの利用においては大きな問題となる。

汎用LLMによる構造化の失敗例②

[画像クリックで拡大]


[5]py-pdf/benchmarks」(GitHub)

次のページ
複雑な文書を正しく構造化する“DLA”、注意すべきポイントは

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
EnterpriseZine Press連載記事一覧

もっと読む

この記事の著者

谷本 龍一(タニモト リュウイチ)

 ストックマーク株式会社オープンデータユニットリーダー。生命情報学分野で修士号を取得後、2016年よりストックマークに参画。同社が開発する自然言語処理を活用した企業文化変革の支援を行うSaaSであるAnewsとAstrategyの立ち上げを担当。2019年にビジネスドキュメントの収集・解析を行うデー...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/20720 2024/11/18 09:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング