ビッグデータ分析に特化したアーキテクチャとは
データ分析の結果に基づいた意思決定においては、ビッグデータ活用が重要となる。昨今では、従来の企業が持っていた顧客情報だけでなく、あまり活用してこなかったさまざまなログデータ、気象情報などのオープンデータも活用するようになっているという。
データドリブン経営を実現するためには、ビッグデータ分析を数多くのユーザーがストレスなく使える分析基盤にする必要があるだろう。セッションでは、分析に特化した次世代型データベースVerticaが解決してきた大量データと高速処理に関する4つの課題事例についてアシストデータベース技術本部の河西大樹氏が解説した。
【Vertica 4つの事例】
(1)JOIN処理ボトルネックを解消し、174倍のパフォーマンス向上
(2)マスターノード不要アーキテクチャでDBのボトルネックを解消
(3)クラウド上でピーク時のみ計算ノードを増加、高速処理のコストを最適化する
(4)機械学習とデータ分析の基盤を統一、高い予測精度を実現
Verticaは分析特化型で、基幹系システム処理を行うデータベースとはアーキテクチャが異なる。内部のデータの持ち方は列指向で、不要な列の読み込みを排除、データ圧縮効率もかなり高い。複雑なチューニングをせず高速な処理を実現できるため、結果として運用コストも削減できる。クラウドでもオンプレミスでも、柔軟に複数サーバー(ノード)で運用でき、必要に応じオンラインのままノードを追加することも可能だ。さらに独自の分析機能を、データベースのエンジンの中に多数搭載し、既に国内でも大手のオンライン証券を運営する企業や求人サイト運営会社など多数の事例があるという。
ビッグデータ活用を最大化する基盤がもたらしたもの
(1)JOIN処理ボトルネックを解消し、174倍のパフォーマンス向上
世界100カ国以上に事業部を置く米スマートメーター提供企業は、電気や水道、ガスのユーティリティソリューションをグローバルに展開している。世界中のスマートメーターから膨大なデータを日々収集して分析し、その規模は将来的にペタバイトクラスとなると見込まれている。日々増え続けるデータをより効率的に分析する基盤を検討し、Verticaの導入に至った。
「Verticaを導入後、従来と比べ174倍のパフォーマンスが得られています。その上、運用の手間も削減されました」。大幅な性能向上につながったのは、ボトルネックとなっていた大量データのJOIN処理における課題を解消したからだ。JOIN処理のボトルネックは通常、JOINした結果の非正規化テーブルを保持することで解消する。しかしこの手法の場合は、マスターに変更があるたびに非正規化テーブルを手作業で作り替えなければならず、運用上の負担が大きくなってしまう。
対して、Verticaにはフラッタンテーブル機能(注1)がある。JOINした結果のフラッタンテーブルを保持し、独自機能を用いてマスター変更時は更新部分だけをフラッタンテーブルに自動で反映できるそうだ。これにより大量データのJOIN処理というボトルネックに対し、性能の確保と管理工数の削減という両面からアプローチできる。