VAST Dataは「シェアードエブリシング・アーキテクチャ」を採用
2023年11月1日、VAST Dataはピュアストレージでエンタープライズ営業本部 本部長を務めた藤井洋介氏を日本のカントリーマネージャーに任命すると、アジア太平洋地域でのビジネス拡大を目指して日本市場に本格参入した。「現状のAIは“人間の脳”を模したものであり、ニューロンのような仕組みで動き、その大部分はGPUが担います。神経回路にあたるのがネットワーク、記憶はストレージやメモリと言えるでしょう」とハラック氏。VAST Dataでは、主に“記憶”をカバーする「VAST DataStore」という新しいタイプのストレージを2019年から提供している。これは1つのプラットフォームだけで数値などの構造化データ、音声やビデオなどの非構造化データを格納できるというもの。「VAST DataStoreは、これまでにない規模と速度でデータを扱え、その効率も極めて高いです」という。
また、2022年には「VAST DataBase」を提供すると、構造化・非構造化データをより効率的に扱えるように。画像などの非構造化データには、メタデータとして構造化データが付いてくるが、それらを格納できるだけでなく、メタデータと非構造化データの両方に対してクエリーを同時に投げられるようになった。
そして、2024年に提供するのが「VAST DataEngine」だ。これはコンピュートリソースにあたり、CPUとGPUを用いた数値処理や学習、推論などを行うエンジンとなる。これらDataStore、DataBase、DataEngineは、VAST Dataが独自開発したソフトウェアで実現されており、1つのデータセンターに配置する必要はない。たとえば、パブリッククラウドやオンプレミス、エッジに分散配置して「VAST DataSpace」という1つのネームスペースとして管理できる。コンポーネントがどこに配置されていても関係なく、データの読み書きや解析が可能だ。
なお、VAST DataはNVMeのデータファブリックをノードとストレージでつないだ「シェアードエブリシング」の分散型アーキテクチャが採用されている。これは、すべてのノードからデータへのアクセスを可能にするようなデータ共有の方式だ。Oracle DatabaseのReal Application Clusters(Oracle RAC)でも採用されている同方式では、複数ノードからのアクセスで不整合が発生しないようにデータをロックされるため、ノード数が増えると性能が十分に発揮できない側面もある。
そこでVAST Dataでは、NVMe-oF(NVMe over Fabrics)、ストレージクラスメモリ、SSDとVAST OSが、最適な書き込みバッファを介した処理を行い、この問題を解消しているという。これによりノード毎に無制限かつ独立して性能や容量を増減でき、そのスケーラビリティからコスト効率も高くなるだろう。ちなみにOracle RACでは、インターコネクト回線を用いたCache Fusionという仕組みで解決している。
また、VAST Dataでは従来ストレージのように、データの利用頻度などに応じてデータ格納先を階層型で管理するような仕組みを必要としない。「分散した構成でデータをどこに置くと最適なのか、VAST Dataが自動で決めてくれます。ユーザーがインフラの構成を気にする必要はありません」とハラック氏は述べる。
VAST Dataにはアプライアンス型のオールフラッシュストレージもあるが、基本はソフトウェアの提供が主だ(ソフトウェアがサポートするハードウェアとクラウドの認証構成は開示されている)。つまり同社はソフトウェアベンダーであり、実際にソフトウェアの研究開発に携わるエンジニアは400名以上いる。ハードウェア開発は手がけず、既存の最先端ハードウェアを最大限に活用することに主眼が置かれているのだ。
そうなると気になるのはどこを競合他社と見ているのか、ハラック氏に訊ねるとDell TechnologiesやNetAppなど既存ストレージベンダーの名前が挙がった。さらにAIデータプラットフォームの領域では、SnowflakeやDatabricksなどが新たな競合先になるとのこと。「データプラットフォーム市場には他社よりも数年遅れての参入ですが、AI分野で他社がそれほど先行しているわけではありません。十分キャッチアップできます」と自信をのぞかせる。VAST Dataはクラウドやオンプレミスなど分散環境下で柔軟にデータを扱える点において、他社をリードしているとも話す。