data tech 2021 レポート（AD）

オラクルがすべてのエンジニア／データアーキテクトにささげるデータ基盤　DXのためのデータ管理とは

CERNも“宇宙の起源の探索”で活用する「データレイク」の効力

谷川耕一[著] / 関口達朗[写]

2022/01/31 10:00

通知

レイクハウスで膨大なデータを迅速に分析したいニーズにも応える

　次に人見氏は、データアナリストやデータサイエンティストに提供できるメリットについて、CERN（欧州原子核研究機構）の事例を紹介した。

　CERNでは一周17kmの巨大なハドロン衝突型加速器を運用しており、加速器の安定稼働には600万におよぶ機器が安定して動く必要がある。そのために数百万個のセンサーからデータを収集し、故障などの予兆を推測しているという。

　同機構では、これまでもオラクルの技術を活用し、メンテナンスのためのビッグデータ基盤を構築し利用してきた。現在はオラクルのパブリッククラウド使い、センサーから得られる1日あたり数ペタバイトにもおよぶデータをオブジェクトストレージに蓄積し、それを「Autonomous Data Warehouse」で分析しモデルを作りながらメンテナンス計画を立てている。

　実際に日々入ってくるデータはデータレイクで管理し、データウェアハウスに渡すことで分析モデルの予測精度を上げるために使われるという。そのため、データの置き場所だけではなく高速な分析も求められる。また、データはAWSやAzureにもあり、マルチクラウド上のデータをデータレイクに集約し、処理する必要もある。

　そこでCERNは、データレイクとデータウェアハウスを1つにしたレイクハウスを構築することでデータを統合し、サイロをなくしている。レイクハウスでは、オブジェクトストレージなどに生データや旧いデータを蓄積するデータレイクがあり、そのデータをカタログ化し、どこにどのデータがあるかを明らかにすることで分析のサイクルを回しているという。

　このとき、データレイクとデータウェアハウス、そして分析に使うツール群をつなぐ必要があるため、データカタログが重要となる。Autonomous Databaseを使えば、データレイクとデータウェアハウスでデータカタログが共有化できる。「これは当たり前のようで難しいものがあります」と人見氏。データカタログでどこにどのデータがあるかを理解し、データベース、あるいはデータレイクにアクセスするかを動的に判断できる。また、データレイクが大きくなった場合でも、それに応えられるデータウェアハウスでなければならない。それらに対応できる技術がAutonomous Databaseの中にあるという。

　最後に人見氏は、「オラクルはデータをテクノロジーの視点から、アプリケーション開発者、データベース管理者やデータベースアーキテクト、そしてデータアナリストとデータサイエンティストがDXを進めていくために欠かせない技術を提供していく」と講演を締めくくった。

この記事は参考になりましたか？

印刷用を表示

data tech 2021 レポート連載記事一覧: 時代は“躍動するデータ”を求める――Confluentが構築する「Data in Moti...

オラクルがすべてのエンジニア／データアーキテクトにささげるデータ基盤　DXのためのデータ管...

データ活用環境を“ノーコード”かつ、数日で構築──「b→dash」で実現するコストと工数半...

もっと読む

この記事の著者: 谷川耕一（タニカワ　コウイチ）

EnterpriseZine/DB Online チーフキュレーターかつてAI、エキスパートシステムが流行っていたころに、開発エンジニアとしてIT業界に。その後UNIXの専門雑誌の編集者を経て、外資系ソフトウェアベンダーの製品マーケティング、広告、広報などの業務を経験。現在はフリーランスのITジャーナリスト...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事