AI時代の「データストレージ」課題解決へ
AIや機械学習、ディープラーニングなど、高負荷なワークロードに対応したデータストレージ・ソリューションを提供するVAST Dataは2016年に設立され、2023年10月に日本市場に本格参入した。同社はAIデータプラットフォーム事業に注力しており、構造化/非構造化データを統合管理できるVAST Data Platformを提供する。
VAST Data Platformは、計算リソースとストレージリソースを分離することで、(計算リソースから)あらゆるストレージリソースへの高速なアクセスが可能だという。これにより、従来のストレージシステムのボトルネックを解消し、高いパフォーマンスとスケーラビリティを実現し、AI学習で求められるようなデータ量の増加、アクセス集中にも柔軟に対応できる。
VAST Dataは新興ベンダーであるものの急速に成長しており、日本でも実績を積み上げつつある。たとえばDMM.comは、動画配信サービスのデータ分析にVAST Data Platformを採用し、データ分析の高速化と効率化を実現した。VAST Dataは日本市場での認知度向上と顧客基盤の拡大を目指しており、パートナー企業との協業を強化。AIデータプラットフォームとしての認知度向上を図っている。
これまでAIデータプラットフォームの領域では、創業当初からNVIDIAとのパートナーシップを築いてきた。2023年にはVAST Data Platformが「NVIDIA DGX SuperPOD」の認定データストアとして承認されており、2024年7月にはNVIDIA Partner Networkのクラウドパートナー向け高性能ストレージソリューションとして認証を取得。同年10月にはNVIDIAと協力し、「VAST InsightEngine with NVIDIA」を発表している。
従来のデータ分析では、データサイエンティストが複雑な前処理や変換を行う必要があり、時間と労力を要していた。しかし、VAST Data Platformを利用することで、これらのプロセスを簡素化でき、ビジネスユーザーでも容易にデータ分析やAI活用が可能になるという。
VAST Data 共同創業者のジェフ・デンワース(Jeff Denworth)氏は、「(データ活用における)課題は『必要なデータを集める』ところでしょう。多くの企業が“本当に必要なデータ”を用いてAIや機械学習のモデルをトレーニングできておらず、結局使い物にならないモデルが生まれています」と指摘する。
モデル構築には手間と時間がかかるだけでなく、一度構築したとしてもチューニングによる最適化が頻繁に行われないケースも少なくない。そうなればモデルは、すぐに陳腐化してしまう。
加えて、もう1つの課題として「AIモデルは、データのアクセス許可やセキュリティの概念を理解していません」とデンワース氏。大量のデータを用いて訓練したモデルを利用する際、特定のデータを参照することが許可されているか否かは、モデル側で判断しないことが一般的だ。現状、この問題を解決するためには、従業員ごとにアクセス許可されたデータを用いてモデルを訓練することになるだろう。しかし、それは現実的ではない。