S3 APIにより拡がるオブジェクトストレージの用途
データを活用することと賢く貯めることは、表裏一体の関係にある。つまり、データ活用のためには、データを使いやすく貯める必要があるということ。そして、このデータを賢く貯めるところで注目されているのが、オブジェクトストレージだ。なぜオブジェクトストレージが注目されるのか。
本講演では、富士フイルム株式会社 記録メディア事業部 営業部 シニアエンジニアの森 純也氏とネットアップ合同会社 システム技術本部 ソリューションアーキテクト部 ソリューションアーキテクトの箱根 美紀代氏によって対談形式で解説された。最初にオブジェクトストレージが注目される理由をシステム利用の変遷から説明したのは、箱根氏だ。
2000年代頃までは、サーバーやデータベースなどインフラ主導のシステムが多かった。それが2010年代になるとスマートフォンやクラウドなど新しい技術が台頭し、アプリケーションやデータ活用が主役のシステムが増えている。たとえば、写真や動画などをスマートフォンから扱うアプリケーションは今や珍しくない。その際、利用する画像などは、クラウドのデータを参照するものがほとんどだ。
「アプリケーションの多くがクラウドを利用するようになり、APIを通じクラウドにアクセスしています。このような使い方は、オブジェクトストレージとの相性が極めて良いのです」と箱根氏。当初は低コストでデータを保存する用途で使われていたが、これからはアクティブ・アーカイブで大容量データの出し入れを目的にオブジェクトストレージが使われるという。
それでは、オブジェクトストレージと旧来のNASはどう違うのか。NASはツリー構造でデータを管理する。ファイルやディレクトリがあり、その管理にinode番号が使われる。しかし、inodeには限りがあり、管理するデータにも上限が発生する。
さらに、「ユーザーはデータがツリーのどこにあるかを意識する必要があります」と箱根氏。これに対してオブジェクトストレージは、「データをフラットに保存します。ペタバイトを超えるような大容量データの管理を得意とし、利用プロトコルも異なります」と説明する。データを探すには、ファイルそのもののデータとメタデータを1つのオブジェクトとして扱うため、データを開かずに内容を把握し制御できるのだ。
データを活用するため適した形にするには、データパイプライン処理を行う。たとえば、デバイスなどから発生したデータをそのまま保存するデータレイクがあり、そこから扱いやすい形のデータに加工しデータウェアハウスに格納する。さらに、必要なデータを抽出しデータマートを作る。
オブジェクトストレージはデータレイクとして利用されてきたが、最近は進化しデータウェアハウスやデータマートとしても利用できる。データパイプラインのすべてでオブジェクトストレージが活用できるため、データ活用でも注目されていると述べる。
ネットアップというと、これまではNASのONTAPのイメージが強い。しかし、オブジェクトストレージ「StorageGRID」の実績も、既に10年以上ある。「StorageGRIDはソフトウェア管理の分散ストレージです。サーバーを複数台束ねて巨大なストレージを構築することで、データセンターを跨がる構成も可能になります」と箱根氏。StorageGRIDは、メタデータ用いた情報ライフサイクル管理(ILM)ルールを採用しており、ニーズに応じデータの配置や保護方法、保持期間などを設定できるのが特長だという。その上、ネットアップの認証ハードウェアやVMwareの仮想サーバー、Dockerコンテナでも利用できる。
オブジェクトストレージ自体は古くからあり、一昔前までは大容量かつ安価なためバックアップやデータのアーカイブ、つまりはセカンダリストレージの用途に使われることが多かった。それが今では、「アプリケーションが直接触われるものとなり、用途が拡がっています。それを可能としているのが、S3 APIです」と箱根氏。S3 APIを使いデータのハブとして利用したり、メタデータを使い分析用途で利用したりもできる。企業が扱うデータが膨大となる中で、オブジェクトストレージがプライマリ用途で使われるようになっていると指摘する。