サーバーとストレージ、ビッグデータではどちらが重要か
EMCジャパン株式会社の若松信康氏は、ビッグデータの現状を次のように分析。
企業においては、まずは構造化データの分析から行っているケースが多い。顧客をセグメントで切り取り、その動向を分析する。その結果から、まだ製品を購入していない顧客に対し、新たに製品を買ってもらうための提案をする。このときに、リアルタイムに分析する要求もあるが、精度を上げるために、データの深度、たとえばどこまで遡って分析をするべきか、ということも考慮が必要になる。遡れば遡るほど分析しなければならないデータはどんどん増えることになる。
しかし、これは一意に決まるものではなく、ビジネス戦略に応じて変化する。そのため、データの規模、分散性、多様性、そして処理のスピード、これらすべてに柔軟に対応できることがビッグデータ活用のためのインフラ基盤には求められる。分析し予測の精度を上げようとすれば、データベースのパフォーマンスに対する要求はより厳しくなる。さらに、分散し多様化しているデータをどう保護するのか、そして増えるデータに対応する拡張性も求められる。
パフォーマンスの向上については、まずはサーバー側で対処する方法がある。これについては、EMC自体納得するところだという。逆に大量データに対する可用性の確保や災害対策などについては、ストレージ側でやるほうが、効率性、実効性が高くなるという。
「たとえば、システムごとに個別の災害対策を施してしまうと、実際に災害があった際にそれらすべてをハンドリングするのは難しい。災害対策については、システムが異なってもなるべく単一のソリューションで一貫性を持った方法のほうがいい。この場合はストレージで集約したほうが実効性は高くなります」(若松氏)
拡張性の確保もまた、ストレージ側でやったほうが効率性は高くなる場合が多いというのだ。
そうなるとビッグデータを活用したいと考えた際、サーバーとストレージではどちらが重要となるのか。
若松氏によれば、「どちらか」ではなく「どちらも」活用しなければならない。その際のポイントは、「運用をバラバラにしないこと」。アプリケーションの特性により、サーバー側で対処すべきかストレージ側で対処すべきかが決まる。このときに、サーバー、ストレージを別々なものとして捉えるのでなく、サーバーのリソースもストレージのリソースもプール化し同じように扱えるようにすべきというわけだ。
「ERPなどのOLTPのワークロードは、なるべくサーバー側で処理するといいでしょう。ビッグデータの場合には、アプリケーションの処理をストレージ側に移すような利用方法が有効となります」(若松氏)