複雑な文書を正しく構造化する“DLA”、注意すべきポイントは
3. 文書レイアウト解析(DLA)
ハルシネーションを起こさず、かつ意味のあるまとまりを認識して構造化する技術として、文書レイアウト解析(Document Layout Analysis:DLA)がある。DLAの代表的な実現方法は、テキストと画像の両方のデータを同時に理解できるマルチモーダルAIだ。ドキュメント中に現れる図、表、パラグラフ、段組みなどを視覚的に学習するため、文章のレイアウトを意識した構造化が可能になる。
加えて、DLAは生成AIではないためハルシネーションの心配もない。活用においては、DLA向けにいくつかのモデルがOSSとして公開されており、利用可能だ。
しかし、複雑な表構造や高いデザイン性をもつドキュメントの解析には、公開されている汎用学習データセットをマルチモーダルAIに学習させるだけでは不十分だ。そこで、ストックマークは独自に保有するビジネスドキュメントを学習させることで、スライド形式の企画書や報告書、グラフィカルな説明を含む製品マニュアル、技報や論文や特許といった技術文献など、様々な形式のドキュメントを構造化できるようにした。同社による定量比較では、構造化の精度の点で高いスコアを実現、構造化の強力な選択肢を提供している。
[6]「Vision Grid Transformer for Document Layout Analysis」(Cornell University, 2023年8月29日)