レイクハウスで膨大なデータを迅速に分析したいニーズにも応える
次に人見氏は、データアナリストやデータサイエンティストに提供できるメリットについて、CERN(欧州原子核研究機構)の事例を紹介した。
CERNでは一周17kmの巨大なハドロン衝突型加速器を運用しており、加速器の安定稼働には600万におよぶ機器が安定して動く必要がある。そのために数百万個のセンサーからデータを収集し、故障などの予兆を推測しているという。
同機構では、これまでもオラクルの技術を活用し、メンテナンスのためのビッグデータ基盤を構築し利用してきた。現在はオラクルのパブリッククラウド使い、センサーから得られる1日あたり数ペタバイトにもおよぶデータをオブジェクトストレージに蓄積し、それを「Autonomous Data Warehouse」で分析しモデルを作りながらメンテナンス計画を立てている。
実際に日々入ってくるデータはデータレイクで管理し、データウェアハウスに渡すことで分析モデルの予測精度を上げるために使われるという。そのため、データの置き場所だけではなく高速な分析も求められる。また、データはAWSやAzureにもあり、マルチクラウド上のデータをデータレイクに集約し、処理する必要もある。
そこでCERNは、データレイクとデータウェアハウスを1つにしたレイクハウスを構築することでデータを統合し、サイロをなくしている。レイクハウスでは、オブジェクトストレージなどに生データや旧いデータを蓄積するデータレイクがあり、そのデータをカタログ化し、どこにどのデータがあるかを明らかにすることで分析のサイクルを回しているという。
このとき、データレイクとデータウェアハウス、そして分析に使うツール群をつなぐ必要があるため、データカタログが重要となる。Autonomous Databaseを使えば、データレイクとデータウェアハウスでデータカタログが共有化できる。「これは当たり前のようで難しいものがあります」と人見氏。データカタログでどこにどのデータがあるかを理解し、データベース、あるいはデータレイクにアクセスするかを動的に判断できる。また、データレイクが大きくなった場合でも、それに応えられるデータウェアハウスでなければならない。それらに対応できる技術がAutonomous Databaseの中にあるという。
最後に人見氏は、「オラクルはデータをテクノロジーの視点から、アプリケーション開発者、データベース管理者やデータベースアーキテクト、そしてデータアナリストとデータサイエンティストがDXを進めていくために欠かせない技術を提供していく」と講演を締めくくった。