Excelでビッグデータがこれからの流行でしょう
そんな会合で、冗談の1つとして話題を提供したのが、「マイクロソフトのビッグデータはやっぱりExcelでしょう!」ということ。これ、Excelに大量データを取り込んでビッグデータ活用するというのが、マイクロソフトのビッグデータ戦略じゃないですかという話だ。ちなみに2007以降のExcelでは、1,048,576行×16,384列が1シートの最大。つまり1シートだけで、170億個以上のセルを扱える。これ、まんざらビッグデータと言えないこともない。
この話題は冗談のつもりだったけれど、先日行われたマイクロソフトの「ビッグデータ戦略記者説明会」では、まさにそのExcelをかなり活用するビッグデータ活用シナリオの説明があった。それが「Big Data Everyone」というもの。これは専門家ではなく誰でもデータ分析を可能にし、ビジネスの現場でデータ活用を行えるようにするもの。「誰でも」「現場で」を実現させるのに重要となるのが、Excelというわけだ。
実際のところ、Excelを使いこなせる人はBIツールを使いこなせる人より遙かに多い。さらに、最近のExcelは専用のBIツールなどと遜色ない、いやむしろそれを越えるくらいの表現力の高い、高度なデータ分析機能を持っている。さまざまな統計処理であっても、独自の分析手法であっても、ちょっと知識のある人なら独自のカスタマイズで作り込んでしまうこともExcelなら容易だろう。そう考えれば、高度なデータ分析処理もExcelがあれば実現できるというのは確かだ。
もちろん、マイクロソフトの戦略としては、ビッグデータそのものをExcel内に保持するものではない。そこは当然ながらSQL Serverが後ろで活躍するところ。その1つが昨年末に発表したSQL Server 2012を搭載するSSD Applianceだ。昨年6社のパートナーから提供開始されたラインナップが、日本IBM、日立、富士通が新たに加わり9社に拡充。ちなみに日本IBMのアプライアンスは、651万円とかなりお安い設定となっている。
もう1つのビッグデータ処理用の基盤が、5月に提供開始予定のSQL Server 2012 Parallel Data Warehouseだ。こちらは、まさにビッグデータ用のアプライアンスマシンであり、Oracle ExadataやIBM PureData Systemへの対抗馬ということになる。今回の新製品の特長としては物理ノードを数多く用意するだけでなく、Hyper-Vベースでさらにたくさんのノードを実現するMPP型のアプライアンスということ。「いままでにあり得なかったスケールアウト構成を可能にします」とDB Onlineでもおなじみのサーバープラットフォームビジネス本部アプリケーション プラットフォーム製品部部長の斎藤泰行氏は自信を見せる。
さらに、この新しいParallel Data Warehouseは、Hadoopを同居させることも可能。Hadoopに対してはファイルシステムであるHDFS上のデータをSQL Serverの仮想的な表として定義でき、クライアントからはT-SQLで操作ができる。つまり、Map/Reduceとか面倒なことを考える必要はない。結果、使い慣れたWebブラウザやExcelからParallel Data Warehouseの構造化データにも、Hadoopの非構造化データにもシームレスにアクセスできるわけだ。現場の人間にとっては、データがどこにあるか、何に入っているかを意識せずに分析できるのはいい。
ちなみに、提供するパートナーがあらかじめHadoop込みのアプライアンスを提供する可能性もあるが、Hadoopについては基本的にユーザーが別途用意することになりそうだ。あるいは、既存のHadoopとの連携でも、この仕組みは活用できる。
昨年来、ビッグデータという話題の中でデータサイエンティストがかなり注目されている。とはいえ、すぐに優秀な人材を育てられるわけでもなく、早々データサイエンティストが増えることはないだろう。そうなると、データサイエンティストのやることを、ツールやアプリケーションがカバーするのは必然。となると、Excelでビッグデータ活用というのは、まるっきりおかしな話ではないなぁと思えてくるのだった。
ビッグデータはビジュアライゼーションで感じ取れ
もう1つビッグデータの話題を。3月18日にウィングアークと日立がビッグデータに関するセミナーを都内で開催した。その基調講演に登場したのが、データベース界の「ラスボス」こと、東京大学の喜連川優教授だった。教授の講演の中で、これは面白いなと思うところがいくつかあった。その1つがHadoop、Map/Reduceについての話。HadoopやMap/Reduceというのは、ハッシュ関数を用いてノード分散して検索を速くするのが基本的な考え方。これは、データウェアハウスに長らく関わってきた人にとっては、「特別新しいものとは感じない」とのこと。
では違いは何かというと、データウェアハウスの世界は並列度が100とか500、がんばっても1,000程度だったものを、たとえばGoogleでは10万並列とかでやっているところだと。この10万並列みたいな仕組みを「壊れずに動かしているのがすごい」と喜連川教授。こういったプラットフォームの仕組みを作ったことに、大きなインパクトを受けるのだ。逆に考えれば、100ノード程度でHadoopをやるというのは、あまりインパクトはないというか、それならいままで通り使い慣れたデータウェアハウスでやったほうがいいのかもしれない。
もう1つの指摘で面白かったのが、データサイエンティストのこと。データ分析技術、手法にはさまざまなものがある。どの領域のデータに対し、どの方法がもっとも有効なのか。それが分かりにくいのが、現状のビッグデータ活用の課題でもある。この部分がまさに「ノウハウの塊であり、その部分を支えるのがデータサイエンティストだ」と喜連川教授は指摘する。
データサイエンティストについてはその通りなのだが、たとえば大学などで10ペタとかの本当に大規模なデータを分析しようとした際には、どのような分析アルゴリズムを適用するかを考える前に、まずはデータを眺めるところから始めるのだと。「これはデータ解析の前のステップかもしれないけれど、まずはデータを感じ取りそれから方法論を適用することになります」と喜連川教授。このときに、絶対に必要になるのがビジュアライゼーションの技術なのだと言う。そして、分析の前段だけでなく、分析して出てきた結果を分かりやすくするのもやはり、ビジュアライゼーションだ。確かにどんなに素晴らしい結果が得られても、それがデータサイエンティストにしか理解できない形では、誰もそれを応用できそうにない。
この日は、喜連川教授の研究成果である非順序実行原理を活用した、ビッグデータ用の基盤であるHitachi Advanced Data Binderについてはあまり触れず、このビジュアライゼーションが大事という話が何度も登場した。もう1つのセミナー主催者であるウィングアークが、まさにビッグデータのビジュアライゼーションソリューションを提供している。まさか、そのことを意識しての発言ではないだろう。実際にビッグデータを目の前にしている研究者の立場としては、「データを感じ取る」というのは本当に重要なことなのだと思われる。データサイエンティストのスキルは今後ツールなどがどんどんサポートしてくれるようになるはず。とはいえ、それ以上に重要となる「データを感じ取る」のには豊富経験とその人の感性がものをいいそうだ。