バックアップデータを活用、生成AIへの新たなアプローチ
企業内データを生成AIで活用するため、ベンダーからはそれを実現するためのサービスや機能提供も増え始めた。バックアップからデータプラットフォームにソリューションの幅を広げているCohesityも、企業データを生成AIで活用するために「Cohesity Gaia」の提供を開始した。
同社はバックアップソリューションから始まり、最近ではデータ管理の効率化やセキュリティを高めるため、積極的にAIや機械学習技術を活用している。2023年には、ユーザー企業における自社データのAI活用を後押しするため、欲しいタイミングで安全にデータを活用するためのフレームワーク「Cohesity Turing」も発表した。
このCohesity Turingの中で、企業に蓄積されているデータを生成AIで容易に利用できるようにする機能がCohesity Gaiaだ。これはバックアップデータに対してAIと大規模言語モデルを適用するもので、Cohesity Data Cloudに蓄積されている企業データにアクセスして必要なデータを抽出してLLMに渡すことで、ユーザーの質問に適切な回答を返すことができる。
Cohesityは、これまでも同社のサービスで取得するバックアップデータを、バックアップ/リカバリーに使うだけでなく、さまざまな用途に活用できるように機能追加を行ってきた。たとえば、アプリケーションやデータベース、ファイルサーバーなどから得られるバックアップデータをクラウド上で、あたかもデータレイクのように蓄積して扱えるようにするものがCohesity Data Cloudだ。「バックアップデータをきちんと管理してさまざまな用途で使えるようにし、それを活用することで新たなインサイトを得られるようにします」と言うのは、Cohesity Japan 技術本部本部長の笹 岳二氏だ。
一般的にバックアップデータを他の用途で使いたいときは、バックアップデータをリストアし、得られたデータを別サーバーなどにコピーして利用する。一方、Cohesityでは“バックアップデータのまま”利用できることが大きな特長だ。つまり、コピーなどせずに、1つのプラットフォームの中でデータを他の用途でも利用できる。
バックアップデータは世代管理されるが、それをデータレイクとして利用できるために時系列変化を見ることも容易だ。今回提供を開始したCohesity Gaiaでは、バックアップデータに対して自然言語でアクセスし、生成AIに必要なデータをLLMに渡すことで知見を得られる。このとき、質問に対する関連性の高いデータを渡すために、バックアップデータに対してインデックス化を行う。
このインデックス化は、バックアップデータをベクトル化するものであり、RAG(Retrieval-Augmented Generation:検索拡張生成)の手法となる。これにより質問に関連性のあるデータを効率的にバックアップデータから抽出し、LLMに渡せるという。ユーザー権限に応じたアクセスコントロールも実現できるとして「データの安全性も担保されています」と笹氏は説明する。