行政機関の文書には、PDFが広く活用されているが、PDFは一般に画像データとして認識されることが多く、検索やコンテンツの再利用が難しいという誤解からオープンデータの作成例に含まれていなかった。
しかし、PDF作成ツールによっては、データ構造化された機械判読可能なPDFも簡単に作成できることから、8月のガイドライン改訂において構造化PDFのデータ作成例に追加されたという。
「Adobe Acrobat DC」は、電子文書PDFの国際規格であるISO32000-1に準拠した構造化PDFが作成できるため、オープンデータ対応に最適なソフトウエアだとしている。
構造化PDFは「タグ」がつけられており、タグが示す文書の論理構造を利用することで内容の再利用性や検索性が格段に向上するという。ワープロソフトで作った段組みや見出し、段落などの文書構造をPDFにも引き継いでいる。段組みがあっても、見出しや段落の並び順が正確に認識できるという。
アドビは、今回のガイドラインの改訂を機に、「Adobe Acrobat DC」による構造化PDF作成の認知を拡大し、政府・自治体のオープンデータ推進を支援していくという。
構造化PDFは、PDF文書の内容に、章、見出し、段落、図や表などといった文書の論理構造を示すタグを埋め込んだもので、タグ付きPDFとも呼ばれる。PDFは、もともとテキストデータ保持でき、テキストの抜き出しや検索ができるものだが、構造化PDFにすることにより、文書の構造や内容の繋がりが正確に表現できるため、機械判読性が高まり、複雑なレイアウトの文書でも高い精度でテキストの抜き出しや読み上げが行えるようになる。