SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

EnterpriseZine Day Special

2024年10月16日(火)オンライン開催

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

Databricksと見る、データ×AIの世界

データとAIで将来を見通すニーズが増加中 プロジェクト進行を支えるキーマンたちのレイクハウス活用術

第3回:データ×AIプロジェクトに携わる人々はどのようにレイクハウスを活用するのか

 これまでの記事では、レイクハウスの活用事例やレイクハウス誕生の背景を説明してきた。本稿では、レイクハウスの構成要素を紐解き、それぞれの提供機能やユースケースについて述べる。

レイクハウスとは

 これまでの記事でも触れているように、レイクハウスは従来のデータプラットフォームの課題を解決するために、データウェアハウスとデータレイクの長所を組み合わせた新たなデータプラットフォームである。以下の図に示しているように、レイクハウスではテーブルなどの「構造化データ」、ログやJSON(JavaScript Object Notation)のような「準構造化データ」、画像・音声・テキストのような「非構造化データ」といったすべてを格納することが可能だ。さらに、データウェアハウスを活用して行われていたビジネスインテリジェンス(BI)や、データレイクの主なユースケースであるデータサイエンスや機械学習の取り組みなどを一つのプラットフォームで行える。

画像を説明するテキストなくても可

レイクハウス誕生の背景

[クリックすると拡大します]

レイクハウスの構成要素

 レイクハウスのアーキテクチャを以下に示す。一番上の緑の箱は、ユースケースあるいはペルソナである。このように、データ×AIという取り組みにおいて、考えつくであろうすべてのユースケースをカバーしているのがレイクハウスの特徴だ。

画像を説明するテキストなくても可
レイクハウスのアーキテクチャ

 レイクハウスにおいては、データをクラウド上のオープンなデータレイクに格納することでデータの種類やサイズを問わず「そのままの状態」で保持することが可能である。これにより、ベンダーロックインを回避できるだけでなく、将来的に取り組むであろうユースケースに備えて柔軟にデータを蓄積できるのだ。

 しかし、データレイクには上述の長所がある一方で、以前の記事でも触れたようにデータ品質やパフォーマンスの課題がある。どんなデータを格納できたとしても、そのままではただの“ゴミ”だらけになってしまう。そのため、従来のデータレイクは「データスワンプ(沼)」と揶揄されることもあった。

 レイクハウスでは、この課題を解決するために「ストレージ層」と「ガバナンス層」を導入している。このアーキテクチャはDatabricksやGoogleの「BigLake」などでも共通している。

ストレージ層

 データレイク上にストレージ層を存在させることで、データレイクの長所はそのままで高い性能やデータ品質を維持することが可能となる。ストレージ層の製品としては「Delta Lake」や「BigQuery」などが挙げられ、堅牢性、パフォーマンス、バージョン管理、トランザクション保証のような機能を提供している。

ガバナンス層

 データガバナンスは、組織内のデータをセキュアに管理するために実装されるポリシーとプラクティスをまとめ上げるものである。データの量と複雑性は増加し続けており、コアとなるビジネス成果を確実なものとするために、多くの企業がデータガバナンスを必要としている。

 このようなデータガバナンスを実現するのがガバナンス層だ。代表的な製品に、Databricksの「Unity Catalog」やGoogle Cloud Platformで提供されている「Dataplex」が挙げられる。レイクハウスで管理されるファイル、データベース、テーブルなどのデータ資産のメタデータ、セキュリティの一元管理を可能にし、さらにはデータリネージ(データの依存関係の管理)、データ共有のような高度な機能などが提供されている場合もある。

 また、レイクハウスにおいて、データやAIに関わる様々なユースケースを実現するには、多くのペルソナがコラボレーションしながらプロジェクトを進める必要がある。特に最近ではリモートワーク環境下では顕著だ。

 従来のツールやプラットフォームでは、各ペルソナが得意とするツールを活用することがほとんどで、リモートワークを行いながら迅速なコラボレーションを行うことは困難だった。結果として、データサイエンティストが期待していたデータが用意されていなかったり、データサイエンティストが構築したモデルが他の人にとってブラックボックスになっていたり、ビジネスアナリストが可視化に使用したデータが古くなっていたりなどの問題が少なくなかった。このような問題を解決するために、レイクハウスにはオンラインでのコラボレーションを促進するための機能が求められているのだ。

次のページ
レイクハウスのユースケース

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
Databricksと見る、データ×AIの世界連載記事一覧

もっと読む

この記事の著者

弥生 隆明(ヤヨイ タカアキ)

筑波大学大学院を修了後、株式会社IHIに入社。社内システム部門でサーバー・ネットワーク管理やシステム開発に従事。その後、株式会社日立製作所において自然言語処理に関する研究開発やITコンサルティング、インターネットサービスの開発・運用、インド赴任を通じてビッグデータソリューション創出に従事。その後、ア...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/17327 2023/02/17 09:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング