公共機関がデータで抱える5つの課題とは
DatabricksのLevenson氏はまず、同社の公共機関における事業について説明した。
Databricksは2013年設立だが、3年後の2016年に連邦政府など公共機関向け事業「Databricks Federal」を立ち上げたという。「当時社員はまだ75人。それでもこの事業をやりたかったのは、世界をよくしたかったから」と振り返った。そのようなLevenson氏の熱心な思いもあって、現在45の連邦機関がDatabricksの技術を利用している。
公共分野でデータに関する課題としてLevenson氏は、「レガシーのモダン化」「サイバーセキュリティ」「予測メンテナンス」「詐欺対策」「市民サービスの強化」の5つを挙げた。
たとえばレガシーのモダン化。「連邦政府は早期からITを受け入れていたために、レガシーが多く残っている」とLevenson氏。連邦政府が抱えているデータセンターの数は1万2,000で、この数は2010年から変わっていないという。「これらデータセンターにはそれぞれデータソースがあり、連邦政府にとって大きな課題になっている」(Levenson氏)。
重要なデータがサイロ化されているのに加え、データの量は右肩上がりで増えている。だが、政府側も手をこまねいているわけではない。先に米国国防総省(DoD)は、省内全体のデータ共有を改善すべく「DoD Data Decrees」としてデータに関する5つの政令を出した。データ共有の最大化、共通のインターフェイス仕様に基づくデータカタログなどを含むもので、「DoDだけでなく、公共機関は同じような課題にフォーカスしている」とLevenson氏は説明する。
Databricksは「レイクハウス・プラットフォーム」などの製品をもち、データとAIの成熟モデルを敷いて顧客のデータ活用を支援しているが、公共機関に対しても同じだ。Levenson氏は「統合されたガバナンスモデルを持ち、データアナリティクスと機械学習のための様々なテクニックを活用するためには、すべてのデータが得られる場所が必要だ」と訴えた。
「データが製品」──迅速で的確な意思決定のために
後半は、Levenson氏がCDCのTarar氏(CEA)と同Sim氏(CDO)に質問する形式で、コロナ禍におけるCDCのデータ活用の取り組みを聞き出した。
Levenson氏:この2年間は激動の年月だったと思います。コロナ禍になってからの取り組みを簡単に教えてください。
Sim氏:2020年12月にCDCの最高データ責任者(CDO)に就任しました。CDOとして、CDC内部だけでなく、州、領土、地域や部族のパートナー、連邦機関なども関係しており、難しくもありますがチャンスもたくさんあると思っています。
今回の感染症についてですが、我々CDCは感染症の突発的発生を熟知しています。それでもCOVID‑19が特異だったのは、その規模です。ジカ熱のようなものは局所的ですが、COVID‑19は世界的な流行であり、効率の良い対応が求められました。CDCの上層部や連邦政府に情報を提供するだけでなく、地域のコミュニティも情報を必要としていました。これは、とても挑戦的な課題でした。
データの共有は当然重要ですが、CDCのデータ使用合意や規制についても考えなければなりませんでした。月次の報告ではなく、病院、介護施設、リーダーシップなどにリアルタイムに近い情報を提供するという点で、大きな挑戦となりました。
コロナが特異だったもう一つの点として、時間の経過とともにデータが変化すること。ウイルスについての理解が進むにつれて、追跡するものが変化しました。最初は感染者数、死亡者数を追跡していましたが、検査ができるようになり、病院のベッド数、マスクやゴーグルなどの個人用防護具(PPE)の在庫、そしてワクチンが出てくるとワクチンの数も調べなければなりません。
このように、先を見越して計画できない状況で、新しい研究や情報が入ってくるとそれに合わせて迅速に適応することが求められました。さらに、それを拡張させ、その情報を取得して処理するパイプラインも構築し、収集してレポートを作成しなければなりません。
Rishi(Tarar氏)が話すと思いますが、CDCは数年前に「Data Modernization Initiative(DMI)」をローンチしていました。DMIとは、公衆衛生にフォーカスしてシステムをモダン化する取り組みです。今お話ししたようなコロナ禍での取り組みは、結果としてこのDMIをさらに加速させることになりました。
Tarar氏:この2年はコンピューターの前にかじりついていましたね。特に重要な業務だったのが、検査やデータのバックボーンを構築することです。
2020年3月にCOVID‑19テストのためのバックボーン構築に着手し、6週間程度で運用を開始しました。すぐに取り組んだのがデータの速度で、高速にするためにストリーミング機能の構築もしました。データそのものだけでなく、データにつながる出来事が精度の高い意思決定を加速させたのです。このように、たくさんの学びがありました。
2020年5月~6月になると、検査が増えました。我々もスピードを速めて、地方や地域、国レベル、政府での意思決定のために、毎日夕方5時までに保健や健康に責任を持つ機関に正確な情報を届けました。
このように、CDCの役割において、データが製品であるということがわかると思います。CDCは毎日指標を生成しますが、これらは信頼できるものとして科学的な裏付けが必要です。様々なステークホルダーから入手するデータから、意味のあるインサイト(洞察)を抽出し、これにより意思決定を加速します。
CDCの重要な任務は、データの透明性と可観測性を強化することです。我々が構築した「Immunization Data Lake(IZ Data Lake)」は、Databricksのデータレイクである「デルタレイク」や「レイクハウス・プラットフォーム」を土台とし、コロナワクチンに関する匿名化されたデータの受け取り、保存、管理、分析などを行うデータリポジトリです。それ以前は伝統的なデータウェアハウスのアプローチで構築を試みましたが、結局Databricksの技術を使って構築しました。