DBオフライン

次のSQL標準にはデータレイクを想定した表関数が出るとか？

谷川耕一[監修] / 加山恵美[著] / DB Online編集部[編]

2015/10/14 06:00

通知

　8月28日に第3回目のDB Offlineが開催された。今回のテーマはデータレイク。そもそも何なのかから始まり、次のSQL標準にはデータレイクの存在を想定した新たな関数が登場するという。どのように活用するのか。

通知

データレイクの定義いろいろ

谷川：これからDBオフラインを開始します。まずは土田さんから今回のテーマなどをお願いします。

土田：最初のアジェンダはデータレイクです。マイクロソフトさんなら「Azure Data Lake」、EMCさんだと「Business Data Lake」、GEさんも「Data Lake」という言葉を使っています。「ビッグデータ」という言葉が出てきてから数年経ち、最近では「データレイク」というキーワードが広まりつつあります。SQLの新機能を開発する私の立場から資料などを用意しましたので、みなさんとどういうものか一緒に考えてみたいと思います。また、今後制定されるSQL2016との関連性についても言及します。

谷川：次のSQL標準ですが、スケジュール的には2016年ということで決まりそうですか？

土田：最終的には10月に東京開催される国際会議で仕様が決まりそうです。実は私が会議の準備をしていまして今結構大変なのですが（笑）、ここで決めたら翌年には出ます。2016年に出版ということでほぼ決まりです。

谷川：ではさっそくデータレイクが何者かというあたりから。土田さんが用意してくれたのは2004年4月号の日経バイトの記事です。懐かしい。

土田：これは捨てられない1冊です。「ポストRDB」について書いてあります。この当時もRDBの後継が話題になっていました。この中の話題はまだ継続しているものもあり、NoSQLにもつながります。当時のスケーラビリティに対する考え方とか興味深いです。

谷川：今はスケーラビリティといえばHadoopとなり、時代は変わりました。

土田：そのHadoopでさえ、今はフロントにSQLを使うような時代です。「問い合わせはやっぱりSQLを使いたいよね」という要望があるからです。

　RDBの後継をめぐる問題はみなさまいろんなところで目にしていると思います。注目すべきはデータの件数や容量です。データ処理を生業とするものからすると、特にデータ件数の多さはシビアです。今話題のIoTもいかに現場で発生するデータを業務に活かすかが大きな命題となっています。例えば電力メーターなど絶え間なく発生するデータなどが話題になっています。

谷川：センサーデータなどはIoTで注目されたものですよね。当初ビッグデータが注目されたころはブログの非構造化データなどを想定していたと記憶しています。

土田：当初はSNSなどネットを通じて知りたいことを見いだせるところに成功体験や価値がありました。

谷川：これがビッグデータの第一世代で、いまの（IoTなど）が第二世代になってきたかなという気もします。

土田：ビッグデータに関連する世界をビジネスのいろんな視点で概観してみました。ビジネスなので、いかに定式化、効率化してお金に転化するかが関心事となります。多様なデータを有機的に関連づけたいという考えは時代を問わず、普遍的かと思います。

谷川：これだと構造化データも非構造化もまざっていますね。

土田：右上側はOLTP-DWHからなる業務系。日々発生するOLTPデータを分析して次のアクションにつなげるように、データウェアハウスを活用します。いまでは、業務ログを分析してビジネスに活用されるようにもなっています。下側はドキュメントから人間活動についての気づきを得るドキュメント・コンテンツ管理系。かつてはナレッジマネジメントとも言いました。左上側は実世界で発生する情報の利活用を目指して、、現場で効率化に必要な施策は何かを見い出す実世界ログ分析系。プラント制御、交通制御など準リアルタイム（ストリーム）処理もなされています。それぞれ個別に進化してきました。

谷川：サイロ化していますね。

土田：意思決定や施策を全社規模で考えたいというときに分断があると問題なので、横断的にデータを見たいとなります。2005年ごろから「情報統合」という言葉でデータを統合していきたいという要望が出てきました。

谷川：少し前だとオンプレでHadoopを稼働させて実現していましたね。

土田：問題は入れる器なんですね。

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます
・翔泳社の本が買える！
500円分のポイントをプレゼント

メールバックナンバー

新規会員登録無料

Page 1
- データレイクの定義いろいろ
Page 2
- 「ためる」の次は「ためす」そして「いかす」

次のページ
「ためる」の次は「ためす」そして「いかす」

この記事は参考になりましたか？

広告を読み込めませんでした

広告を読み込み中...

印刷用を表示

DBオフライン連載記事一覧: 次のSQL標準にはデータレイクを想定した表関数が出るとか？

第3回DBオフライン開催します。お題は「データレイクって必要ですか？」

次のSQL標準は何が盛り込まれる？－第2回DBオフライン

もっと読む

この記事の著者: 加山恵美（カヤマエミ）

EnterpriseZine/Security Online キュレーターフリーランスライター。茨城大学理学部卒。金融機関のシステム子会社でシステムエンジニアを経験した後にIT系のライターとして独立。エンジニア視点で記事を提供していきたい。EnterpriseZine/DB Online の取材・記事も担当しています。Webサイト：https://emiekayama.net

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事