アドビは10月13日、三菱UFJトラスト投資工学研究所(以下、MTEC)が、PDFから文書構造を維持したまま、見出しやリスト、パラグラフなどといったテキストデータを判別し抽出可能な「Adobe PDF Extract API」を導入したと発表した。
MTECでは、各社の決算報告書や、年々発行数が増加している統合報告書などのPDFをテキストデータへと抽出したうえで、研究員がそのデータを用いて研究を行っているという。今回のAdobe PDF Extract APIの導入により、報告書の文章構造が保持されたままPDFからテキストデータへ自動で抽出することが可能になった。
これまで目視での確認が必要だった工程の削減につながり、900の統合報告書のテキストデータ抽出を3日で完了するなど、データ整形の時間を削減することで情報分析の効率化が実現するとしている。
【関連記事】
・アドビ、MicrosoftやGoogleをわたり歩いた及川卓也氏の顧問就任を発表
・保護者の約半数、25年以降の国立大受験に「情報」科目必須と認知せず アドビが調査結果を発表
・日本におけるデジタル課題、アドビが経済・デジタルトラスト・人材の3方針で支援を表明