SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

Data Tech 2022

2022年12月8日(木)10:00~15:50

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

Databricksと見る、データ×AIの世界

構造化データと非構造化データに対応する、万能プラットフォーム「レイクハウス」が生まれるまで

第2回:データ基盤の進化の歴史──データウェアハウスからデータレイクを経てレイクハウスへ

 本稿では、古典的なデータウェアハウスから出発し、データレイクを経てレイクハウスに至った背景、そして、レイクハウスがなぜデータ基盤として最適なアーキテクチャと言えるのかをハイレベルな視点で解説する。なお、個別の実装技術やその詳細は今後の連載で取り上げるため、ここでは議論しない。

ビジネスインテリジェンスとデータウェアハウスの成熟

 近年、データ・AI活用やDXなどが世間で注目を浴びているが、ビジネスの意思決定をデータに基づいて実施しようとする「意思決定支援システム(Decision Support System:DSS)」は1980年代から利用されており、意外にもその歴史は長い。そして、より分析しやすいUIを持つビジネスインテリジェンスと、それを実現するデータ基盤としてデータウェアハウスが80年代後半から広く認識され利用されるようになってきた。

 データウェアハウスにおいて扱うデータは、データタイプ(整数、文字列、浮動小数など)や属性が厳密に管理された「構造化データ」が中心である。データが限定されているため、アトミックな処理が保証されるトランザクション機能、インデクシングによる高速化、データ品質を保つスキーマ強制、および、クエリ高速処理機能が開発・実装されてきた。また、利用者における観点でも、クエリ言語の標準化(SQL)も進み、どのデータウェアハウスを使っていてもSQLを基本としてデータ操作が共通に可能になっている。

 このように、「構造化データ」のみを扱う上では、データウェアハウスは成熟した領域に達していると言えるだろう。

機械学習・データサイエンスの進展とデータレイクの登場

 データウェアハウスの成熟の一方で、それだけでは対応できない新しいデータの利用方法が広がってきた。機械学習をはじめとする人工知能(AI)の進展とビジネスへの活用だ。機械学習やデータサイエンスでは、文書、画像、音声、ログデータ、センサーデータなど、あらゆるデータが対象になり、データタイプやサイズが多様であるため、これまでの構造化データと同じようにデータウェアハウスでは扱うことが難しい。これらのデータを「非構造化データ」と呼ぶ。そして、この非構造化データはテーブル形式ではなく、ファイルとして扱われることが多い。

 非構造化データは、ネットワークでアクセス可能な通常のストレージ上に保存され、利用者はそこにアクセスし、分析に利用することが一般的だ。特に、クラウドベンダーが提供するオブジェクトストレージは安価、従量課金制、容量に上限がなく、ボラティリティーが高いデータ量に対して最適なコストで運用できることから、データレイクとして広く用いられることになった。

 また、データレイクの利用には、ストレージに加えて、分析・処理のための計算リソースも同時に必要になる。この目的のために、安価のサーバーでクラスタを構成し、分散処理を実施するHadoopなどのシステムが開発され利用が進んだ。これにより、大量のデータを安価に処理し、安価に保存することが可能になったのだ。こうして、Hadoopなどを使用し、ログデータなどの大量なテキストデータ(非構造化データ)を処理し、小さいサイズになった集計結果をテーブルデータとして高価なデータウェアハウスにロードする使い方が一般的になった。これを抽出(Extract)/変換(Transform)/格納(Load)の頭文字を取ってETLと呼ぶ。

 一方、機械学習の分野では、開発言語としてPythonが中心に使用される。よって、データのロードも通常のファイルアクセスのようにデータレイク上のデータを読み込み、分析や機械学習を実施してデータをファイルとして保存することが多く行われる。ファイル操作なので、データについては制約が特になく、操作の自由度が非常に高い。逆を言えば、データに対して何でもできてしまい、データ管理はユーザー側に委ねられているのだ。

 実は、データレイクを運用する上での課題がここにある。つまり、企業などの組織レベル、もしくはエンタープライズ用途でデータレイクを運用する場合、そのデータの品質の管理が非常に困難になる。たとえば、頻発なデータコピーが発生する、データアクセス権限がファイルやフォルダ単位、データ破損の検知機構がない、派生データから上流のオリジナルデータをたどれず、データが正しいのかの正当性判断が難しいなど、実際の運用での課題は多岐にわたるだろう。

 データレイクは、自由度やオープン性が高い一方で、こうした課題を運用などで補足して構築管理することが求められる。

次のページ
データウェアハウスとデータレイクの並行運用とその課題

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
Databricksと見る、データ×AIの世界連載記事一覧
この記事の著者

北村 匡彦(キタムラ マサヒコ)

東京大学大学院を修了後、日本電信電話株式会社に入社。符号理論、映像伝送、ビッグデータ分散処理の研究に従事。カルフォルニア大学サンディエゴ校で客員研究員としてVR・リモートコラボレーションの研究に従事。その後、アカマイテクノロジーズにおいて、CDN実装、ウェブパフォーマンスのアドバイザリサービス、ネッ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/17150 2023/01/12 08:00

Job Board

PR

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

2022年12月8日(木)10:00~15:50

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング