データレイクの定義いろいろ
谷川:これからDBオフラインを開始します。まずは土田さんから今回のテーマなどをお願いします。
土田:最初のアジェンダはデータレイクです。マイクロソフトさんなら「Azure Data Lake」、EMCさんだと「Business Data Lake」、GEさんも「Data Lake」という言葉を使っています。「ビッグデータ」という言葉が出てきてから数年経ち、最近では「データレイク」というキーワードが広まりつつあります。SQLの新機能を開発する私の立場から資料などを用意しましたので、みなさんとどういうものか一緒に考えてみたいと思います。また、今後制定されるSQL2016との関連性についても言及します。
谷川:次のSQL標準ですが、スケジュール的には2016年ということで決まりそうですか?
土田:最終的には10月に東京開催される国際会議で仕様が決まりそうです。実は私が会議の準備をしていまして今結構大変なのですが(笑)、ここで決めたら翌年には出ます。2016年に出版ということでほぼ決まりです。
谷川:ではさっそくデータレイクが何者かというあたりから。土田さんが用意してくれたのは2004年4月号の日経バイトの記事です。懐かしい。
土田:これは捨てられない1冊です。「ポストRDB」について書いてあります。この当時もRDBの後継が話題になっていました。この中の話題はまだ継続しているものもあり、NoSQLにもつながります。当時のスケーラビリティに対する考え方とか興味深いです。
谷川:今はスケーラビリティといえばHadoopとなり、時代は変わりました。
土田:そのHadoopでさえ、今はフロントにSQLを使うような時代です。「問い合わせはやっぱりSQLを使いたいよね」という要望があるからです。
RDBの後継をめぐる問題はみなさまいろんなところで目にしていると思います。注目すべきはデータの件数や容量です。データ処理を生業とするものからすると、特にデータ件数の多さはシビアです。今話題のIoTもいかに現場で発生するデータを業務に活かすかが大きな命題となっています。例えば電力メーターなど絶え間なく発生するデータなどが話題になっています。
谷川:センサーデータなどはIoTで注目されたものですよね。当初ビッグデータが注目されたころはブログの非構造化データなどを想定していたと記憶しています。
土田:当初はSNSなどネットを通じて知りたいことを見いだせるところに成功体験や価値がありました。
谷川:これがビッグデータの第一世代で、いまの(IoTなど)が第二世代になってきたかなという気もします。
土田:ビッグデータに関連する世界をビジネスのいろんな視点で概観してみました。ビジネスなので、いかに定式化、効率化してお金に転化するかが関心事となります。多様なデータを有機的に関連づけたいという考えは時代を問わず、普遍的かと思います。
谷川:これだと構造化データも非構造化もまざっていますね。
土田:右上側はOLTP-DWHからなる業務系。日々発生するOLTPデータを分析して次のアクションにつなげるように、データウェアハウスを活用します。いまでは、業務ログを分析してビジネスに活用されるようにもなっています。下側はドキュメントから人間活動についての気づきを得るドキュメント・コンテンツ管理系。かつてはナレッジマネジメントとも言いました。左上側は実世界で発生する情報の利活用を目指して、、現場で効率化に必要な施策は何かを見い出す実世界ログ分析系。プラント制御、交通制御など準リアルタイム(ストリーム)処理もなされています。それぞれ個別に進化してきました。
谷川:サイロ化していますね。
土田:意思決定や施策を全社規模で考えたいというときに分断があると問題なので、横断的にデータを見たいとなります。2005年ごろから「情報統合」という言葉でデータを統合していきたいという要望が出てきました。
谷川:少し前だとオンプレでHadoopを稼働させて実現していましたね。
土田:問題は入れる器なんですね。