Oracle Spatial and GraphとOracle Cloudの組み合わせで世界でも最大規模の統計LODを実現
「日本の公的統計は総務省統計局を中心として、各府省がそれぞれの行政に必要な統計を作成する『分散型』と呼ばれる機構体系によって整備されています。統計センターでは各府省が実施する統計調査のための共通システムの運用管理を行っています」――こう語るのは独立行政法人 統計センター 統計情報システム部情報システム企画課 課長代理 システム戦略担当の西村正貴氏だ。
統計センターでは、総務省統計局所管の国勢調査や消費者物価指数など、国の基本となる統計の作成(製表)を行うほか、各府省や地方公共団体の委託を受け、各種統計の作成も行っている。また、各府省が実施する統計調査のための共通システムの運用管理を行っており、2008年から「政府統計の総合窓口e-Stat」をはじめとする「政府統計共同利用システム」の運用を開始している。
e-Statは当初、インテグレーションされたサーバー・ストレージ環境でOracle Databaseを使い構築された。その後データが徐々に増え、検索などのパフォーマンスが低下する問題が発生する。「何らかの検索を行うと、1分間ほど結果が表示されないこともありました」と西村氏。そこで2013年には、プラットフォームをOracle Exadataに入れ替えることで大幅な性能改善が計られた。Oracle Exadataに移行したことで、処理性能は大きく改善することになる。
さらに2018年には、Oracle Exadataを更新し、Oracle Exalogicも加え処理性能だけでなくアプリケーションサービスの可用性も向上させた。またOracle Databaseのマルチテナント機能やOracle Zero Data Loss Recovery Applianceも採用し、複数システムの運用管理業務の大幅な効率化も行っている。また、Oracle Advanced Securityも活用しており、アプリケーション性能に影響を与えずにデータの暗号化を行い安全性の向上も図ったのだ。
このe-Statの運用と並行して、オープンデータの取り組みを推進しており、2014年にAPIによる統計データの取得を可能とし、2016年には、オープンデータの最高位の公開レベルであるLOD(Linked Open Data)での統計データの提供を開始した。LODによるデータ提供は2014年から試行的な取り組みを始め、オープンソースによるLODの提供環境を試験的に構築した。2016年には、Oracle Exadataのデータベース・リソースを使い、統計データをLODで提供するサービスが構築された。当初のデータ量は、トリプル数で3億ほどのデータが公開された。
LODはRDF(Resource Description Framework)でデータを作成する。RDFによるデータ提供は比較的新しい技術であり、順次新たな技術が開発される。今後のデータ量の増加に対応するためにも、それらを積極的に採用したかったが、オープンソースとの組み合わせでは容易ではなかった。さらにオープンソースの利用では、実現している機能の信頼性の担保にも不安があった。
その状況でOracleから提案があったのが、RDFにも対応するグラフデータベース管理機能のOracle Spatial and Graphの活用だった。さらにこれをOracle Cloudで利用する方法が推奨されたのだ。
「データを増やしていった際にそれに合わせて性能を向上させるには、Oracle Spatial and Graphの最新バージョンを使うべきだと考えました。しかし、Oracle Exadataのオンプレミス環境では他のシステムも動いており、それを実現するのはそう簡単ではありません。これがクラウドなら、新しいバージョンをいち早く使うことも簡単にできると判断しました」(西村氏)