RAGシステム全体で回答の質を担保する、“チャンク最適化”
4. 文書レイアウト解析(DLA)+チャンク最適化
ビジネスドキュメントを構造化するという点でDLAは有効な手法だが、RAGシステム全体として回答の質を担保するには、チャンク最適化が重要だ。チャンクとは、DLAによって同定された個々の区画(パラグラフ、図、表、見出しなど)を指す。チャンク最適化とは、RAGシステムがチャンクの意味を理解して高精度な回答を行えるように、チャンクにコンテキストを付与したり、チャンク同士を結合したりする処理のことだ。
ストックマークは、ビジネスドキュメントに最適化したDLAに加えて、このチャンク最適化を導入した構造化サービス「Stockmark A Technology(SAT)」をリリースした[7]。以下に、SATで実装されているチャンク最適化の例を3つ紹介する。
図表チャンクへのコンテキスト付与
DLAで認識した図や表には、それが何を表すのか、どのような意図を持って描かれているのかといったコンテキストが明確に記載されているとは限らない。そのため、RAGシステムにおいて、ユーザーの入力に対し検索がヒットしないことがある。SATはこの問題に対して、現在2つのアプローチで図表チャンクにコンテキストを自動付与する仕組みを導入している。1つ目は、図表キャプションマッチングという手法だ。図表の周辺に記載されている説明文を自動発見し、図表に紐づけることで、ユーザーの入力と説明文がマッチすれば図表を見つけられる。2つ目は、図表の要約だ。図表に対して、要約生成モデルが生成した文章を紐づけることで、実際には説明文が存在せずとも、図表が検索にヒットしやすくなる。
ページを跨ぐ表の認識
DLAは文書1ページごとにレイアウトを解析する手法が主流だが、実際のワード形式の社内規定書類などにおいては、縦に長い表が複数ページにわたるケースが見られる。こうした表を1ページごとに解析すると、表の前半と後半が別々の表チャンクと認識されてしまい、後半のチャンクには表のヘッダーが存在せず、RAGシステムが表のセルの意味を理解できない場合がある。SATでは、ページ間の途切れている表チャンクをマッチングさせて元の表を復元する機能を搭載しており、これによって前述の問題を解消している。
読み順情報の付与
RAGシステムの質を上げるためには、システムがドキュメントの“読み順”を保持していることが重要だ。読み順が正しければ、検索にヒットした箇所の前後の文章を、検索結果に混ぜて生成AIに入力することで、ドキュメントの文脈に合った回答を生成しやすくなる。ところが、DLAを行う各種モデルは、読み順を把握する能力を備えていないものも多い。そこでSATでは、文章中のXY座標や段組構成をもとに、DLAによって得られた各チャンクを読み順の通りに並び替えるアルゴリズムを導入している。
現在公開されている汎用LLMは、構造化というタスクにおいて最適な手段とはなっていない。しかし、将来的にハルシネーションを抑制できれば、有用な選択肢となる可能性がある。ストックマークは、図表を含む設計書・提案書などの複雑で多様な資料を読解可能にするための、1000億パラメータのマルチモーダルLLMの開発を開始。マルチモーダルLLMの発展により、構造化というボトルネックが解消され、実用レベルの精度を持ったRAGシステムが普及すれば、企業における生成AI活用がより一層進むことが期待される。
[7]「マルチモーダルLLMで図表の内容を含むRAGを実現可能に ストックマークが『Stockmark A Technology』β版を本日リリース」(ストックマーク, 2024年6月25日)