ビッグデータの課題とIBMの取り組み
近年あらゆる情報が電子化され大容量化し、更新の速度が飛躍的に上昇している中で、大量の情報を瞬時に分析し経営判断を下す必要性が高まっている。顧客データや販売データなどの大量の情報の蓄積は、それらを分析することで得られる知見から新たなビジネスを創出するための宝の山であると認識されている。しかし効果が不明瞭であるがゆえに、分析に必要なシステム・リソース、分析のためのデータ加工、膨大な処理時間などへの投資判断を困難としている。
IBMでは、情報を単純に蓄積するだけでなく、最適な経営判断を下すための知見・洞察を得て、同時にITインフラの非効率性の解消、新サービスの迅速な提供を可能にするための新しいビジョン“Smarter Computing”を掲げている。このビジョンを支える柱の1つ“ワークロード最適化”は、システムの仮想化をベースに、従来の販売・物流・人事など業務ごとに分割していたシステムの重複する資源を統合する。そして、業務共通でデータベース処理は高速DBを持つシステム、データマイニングは高速プロセッサを持つシステムへ、異機種混合環境をあたかもひとつのシステムとし、業務で必要なワークロードごとに適切なリソースを割り振ることで最適化・効率化を進める新しい統合のアーキテクチャーである。処理の共通化によって従来のシステムでは実装されていなかった処理が組み込めるようになる利点も持つ。
IBMのストレージ革新と3つのアプローチ
こうした新たな統合環境のために、IBMはストレージの分野でも“Smarter Computing” としての技術革新を進めている。ストレージ製品を構成する汎用部品の進化だけに任せるのではなく、それらをより効率的・効果的に利用する独自の技術開発と、サーバー群との連携で全体最適化を可能としている点がIBMストレージの強みであり、以下の3つのアプローチがその代表である。
1. データの適切な配置
これは階層型ストレージや単一階層のティアレス型ストレージによって実現される。階層型ストレージとしてIBMでは従来より、Hierarchical Storage Management(HSM)という複数のディスクやテープ間でライフサイクルに基づきデータを配置する機能を提供している。バックアップ・ソフトウェアとして知られているTivoli Storage Manager(TSM)がこの機能を提供しており、1台のTSMサーバーで最大20億個のファイルを統合的に管理することができる。
昨今求められている大容量ファイル・データの高速化に関し、IBMでは高速科学技術計算システムで培ってきたGPFS技術をハードウェアに組み込み、大量のファイルを一元管理するためのストレージとして、Scale-out Network AttachedStorage(SONAS)を提供している。
処理エンジンは容易に30ノードまでのスケールアウトが可能で、最大で14.4PBもの大容量データ領域を提供する。1ファイルシステムで最大2PB、10 億ものファイルを保管することができるのに加え、1ノードあたり1分間で1000万ものファイルを検索できる高いパフォーマンスも提供する。またGPFS自身の階層管理機能と前述のTSMを連携させることで、NASでありながらテープへの階層管理も可能としている。
また、ブロック・アクセス用途のストレージ装置であるDS8000やSAN Volume Controller(SVC)、Storwize V7000 では、自動階層管理を実現するEasy Tier 機能を利用することができる。HDDとより高速なSSDを組み合わせ、アクセスの高速化が必要なデータのみを自動的に分析してユーザーから透過的にSSDに配置する(図1)。この機能で全体のわずか2%のアクセス頻度の高いデータをSSDに配置するだけで最大3倍のパフォーマンス向上効果が得られた実例を持つ。併せてDS8000のI/O Priority Manager機能により重要度の高い業務に対して優先的に処理能力を配分することによって、システム統合を効率的に進めることができる。
次に、ティアレス型ストレージであるXIVは従来のRAID という概念を取り払い、搭載されるディスク・モジュール全体をグリッド化して負荷をディスク全体に分散させ、I/O効率を高めている。さらにQuality of Service(QoS)機能によりサーバーごとにI/Oパフォーマンスの制御機能を備えることで、ストレージ統合によるアクセス競合のリスクを軽減している。