垂直統合型システム「PureSystems」の利点と活用シナリオとは
ビッグデータ・トラックの冒頭は同社IMテクニカル・セールス 一志達也氏が「PureData System for Hadoop」を解説した。ビッグデータを解析する次世代型データウェアハウスにHadoop経由のデータを用いる場合、一般的にはデータウェアハウスにデータを渡す手前の処理に時間がかかってしまうのが課題とされている。
そこでIBMがHadoopソリューションとして提供しているのがBigInsights。オープンソースそのままのHadoopにIBM独自の技術を組み合わせたHadoopソリューションだ。例えばMapReduceはもともとJavaで書かれているが、IBMがCで書き直し、さらに最適化したのがAdaptive MapReduce。ほかにもHadoop用に作られた表計算ツール「BigSheets」、HadoopにANSI/SQLでアクセスができる「Big SQL」などがある。このBigInsightsというソフトウェアに事前構成済みのハードウェアを組み合わせたのが「PureData System for Hadoop」だ。手早く確実にHadoop技術を使うことがえきる。
ハードウェアは管理ノードを二重化し、内部は10GbEと40GbEを効率的に組み合わせて冗長化と最適化が図られている。またアプライアンスなので全体が見渡せる管理コンソールも提供されていて運用の負担が減らせるようになっている。一志氏は「IBMが本気を出すとHadoopもこれだけ簡単に使いやすくなります」と話していた。
次は同社IMテクニカル・セールス 佐々典子氏と同社ソフトウェア開発研究所 先進技術&パートナー協業推進 梅原秀司氏がトランザクション処理用の「PureData System for Transactions」を紹介した。こちらはおおざっぱに言うとDB2のpureScaleとPureFlexを組み合わせ、さらにエキスパートの知見も盛り込んだ製品だ。
DB2 pureScaleとは大規模トランザクションにてアプリケーションに変更を加えることなくスケーラビリティやワークロードを最適化し、障害やメンテナンスがあっても無停止を実現する。実態としては複数のホスト・コンピュータで稼働するDB2エンジンが連なり、データを共有しているものの、クライアントからは単一のデータベースに見えるようになっている。このDB2 pureScaleをPureData for Transactionsでは最小限の設定を行えばすぐに使えるようになっている。従来のミドルウェア環境構築と比べると、見積もりから稼働開始までの作業が不要あるいはかなり軽減できる。
IBMによる実機検証では4計算ノード構成のDB2 pureScaleクラスターでチューニングを行わない初期段階で60,000 SQL/secを超える処理レートとなったそうだ。佐々氏は「30日間利用可能なオンサイトのトライアルとサポートがありますので、ぜひ試してみてください」と話していた。
ビッグデータ・トラックの最後は同社 IMテクニカル・セールス 小島繁樹氏が登壇した。一般的に基幹業務システムでは明確なビジネス目的があり、安定性やビジネスを止めないことが重要視される。対照的に分析システムではデータの実験場としてとらえられ、自由自在に扱えることや人間の思考を止めないことが大事だと小島氏は指摘する。
小島氏が紹介するのは「PureData for Analytics」。データウェアハウスアプライアンスの元祖とも言えるNetezzaの後継であり、家電のような簡単さと圧倒的な性能が特徴だ。性能を引き出す鍵となるのがFPGAだ。テレビやDVD/Blu-rayプレイヤーなどでストリーミング処理に使われる集積回路を用いて、データをCPUに渡る前にストリーミング処理をしてしまう。さらに超並列処理も加わり高速処理を可能とする。例えば10時間37分かかっていた分析が2.4秒で終わるなど、驚異的な速さとなる。
さらに最新のPureData for AnalyticsではNetezza技術をSPSSやRと統合する「インデータベース・アナリティクス」機能が盛り込まれた。一般的にSPSSやRを用いて分析する場合にはデータの転送などが発生するが、PureData for Analyticsでは内部で処理できるようになる。SPSSならSPSSをユーザー定義関数としてNetezzaのルールエンジンにインストールすることにより、データを内部で処理してしまう。RならNetezzaがRのライブラリを読み込むことでRから透過的にNetezzaを利用できる。処理はRを稼働させているユーザーのパソコンではなくNetezzaとなるのでハードウェアの制約にとらわれなくなる。
それぞれの製品がワークロードや目的別に最適な技術と構成で組まれ、最良の性能を出せるようになっていることが示されていた。
【関連記事】
・ビッグデータ活用を「より簡単、より迅速に」-日本IBM、Hadoopアプライアンス提供開始
・データサイエンティストの思考を止めない――超高速データ分析で“将来予測”を実現するNetezza Analyticsの実力