ビッグデータでのOracleの強みはすでに企業の構造化データを管理していること
Oracle OpenWorldを目前に控え、Oracleからの発表が相次いでいる。先週はビッグデータのソリューションで、今週はインメモリの高速分析マシン Oracle Exalytics、さらには満を持してのOracle Fusion Applicationsと立て続けに記者発表会が開催された。この中で今回触れたいのが、ビッグデータ。Oracle Bigdata Applianceの提供が始まる。Apache Hadoopを活用するのは他社ソリューションと同様、ディストリビューションとしては実績あるClouderaを採用し、Oracleが独自でHadoopに手を入れカスタマイズする方法はとっていない。
Hadoop以外のNoSQLとして、Oracle Berkeley DB Java Editionをビッグデータ用にカスタマイズした、Oracle NoSQL Databaseも搭載される。これはいわゆるKey-Value型のデータベース。さらに統計解析のR言語のオープンソースディストリビューションなどもアプライアンスには含まれる。これら全部をばりばりに使うのだ、という企業はまだそうはいないのでは。
Oracleのソリューションで特長的なのは、Hadoopと連携するためのOracle Data Integrator Application Adapter for Hadoop、Oracle Loader for Hadoopといったツールだ。ようは企業の意思決定支援をするための構造化データはすでにOracleに入っているのだから、それらと連携できないとHadoopでいくらビッグデータを効率的に処理できても意味ないよね、OracleとHadoopが密に、容易に連携できてこそのビッグデータ活用だよねというのがOracleの主張というわけだ。このBigdata Applianceを導入するかどうかは別として、普通の企業がなんらかのビッグデータ活用を考えた際は、既存の構造化されたデータとうまく融合させて分析できなければ意味がないのは事実だろう。
その点を考えると、たしかにOracleには優位性があるのかもしれない。Hadoopの仕組みをどう構築し運用するかだけでなく、既存システムとどう連携できるかでビッグデータ活用の正否は決まるだろう。さらに、かならずしもHadoopだけがビッグデータの最良な選択肢ではないことも憶えておきたい。場合によっては既存のリレーショナルデータベースでも十分にビッグデータを活用ができる場合もあるはず。自分たちはビッグデータで何をしたいのかを十分に考えた上で、方法を選ぶという当たり前のことを今一度思い返してみる必要はありそうだ。
パッケージと独自開発を賢く使い分ける
データベース関連ではないけれど、ちょっと興味深い話題を。先日、東京大学情報基盤センターの見学会に参加、教育用計算機システムを一新したのだ。学内では学生、教職員向けに約40,000のメールアカウントを発行しているとのこと。これに対し各研究室などで専用に利用するものを除き、今回導入された教育用端末の数は1,321台。教室にiMacがずらりと並んでいる様子は、ちょっと圧巻だ。とはいえ、人数に対してはちょっと数が少ないかなとは思うが、これはいわゆる授業で使うためのものなので事足りるのだろう。
端末として採用されたのはAppleのiMac。東大では以前からiMacを利用してきたけれど、今回は別途Windowsマシンを用意せずBootCampでMac OS XとWindowsを切り替える方法を採用。これで、MacとWindowsの端末を別々に用意する無駄を削減している。
特長的なのは、この40,000アカウントの管理にNEC WebSam SECUREMASTERを導入し、シングルサインオンの実現とアカウント管理の効率化を図っているところ。大学というと、オープンソースなどを活用して独自の仕組みで管理しているイメージがあるが、ここは市販のパッケージ製品を採用。独自の仕組みでは属人化されやすいので、適宜パッケージも採用しどうしても独自でなければならない部分だけを自ら開発しているとのこと。このあたりの使い分けは、企業と同様というわけだ。
もう1つ思い切った投資だなと思ったのが、ファイルサーバーとして採用されているEMC Symmetrix VMAX。フラッシュドライブ、ファイバチャネルを搭載するハイエンドのストレージがファイルサーバーというのも、かなり贅沢に思える。しかし、40,000アカウントであることを考えれば、ちまちま安いストレージを配置するよりも管理面も含め結果的にはコストパフォーマンスが高いのだろう。とくに大学では論文提出や試験前後など、あるいは1日のうちでも授業の時間割に応じアクセスの変動がかなり大きいとのこと。ピークのアクセスに耐えうる仕組みとなると、こういったハイエンドなストレージの選択になるということだ。
さらに、今回は駒場キャンパスのSymmetrixと、本郷キャンパスに設置されたEMC VNXの間でデータレプリケーションをして災害対策も行っている。この仕組みを採用したことで、バックアップ負荷も軽減。このあたりは、企業の災害対策とバックアップの両立方法として、参考になる事例だろう。ちなみに、今回のプロジェクトは入札案件で、費用は7億4,600万円、これには保守料金も含まれている。高いとみるか安いとみるか、以前は12億円くらいかかっていたそうなのでかなりのコスト削減はなされている。
最新のVisual Studioの良さはTeam Foundation Serverにありそうだ
これも直接データベースに絡む話ではないけれど、マイクロソフトがメディア向けにVisual Studio 11についての説明会を開催した。現在β版がすでにダウンロード可能となっており、すぐに試すことができる。現バージョンはWindows Azureなどのクラウドに対応しているのがその大きな特長だっが、この11は引き続きクラウドへの対応はもちろん、加えて次期OSのWindows 8対応が大きな特長だ。
さらに、これまでのWindowsの開発者だけでなく、Web系開発者のサポート機能が大幅強化されている。CSS/HTML5でのインターフェイス開発などに対応できるとのこと。当日は最新版のデモも披露されたが、その中でこれは必須だなと思わされたのがTeam Foundation Server。これを活用することで複数のプロジェクトを複数の開発者で開発するといった作業が、大幅に効率化する。チーム内での開発の実績から、このあとの開発効率なども予測できるので、火を噴きかねないプロジェクトを事前に察知し、トラブルを未然に防ぐなんてこともできそうだ。
先月くらいから、DB Onlineでも開発環境については取り上げている。データベースをより活用するためにも、最新の開発環境を評価してみるのはいいのかもしれない。ちなみに、Visual Studio 11は、提供時期や提供時にどのような名称、構成になるかは現時点では未定。詳細が気になる人は、4月24日、25日に東京で開催される有償イベントWindows Developer Daysに参加してみてはいかがだろうか。