構造化データ、半構造化データ、非構造化データを区別なく
データ分析やAI活用から価値を引き出したいと考える企業にとって、最大の障壁が社内におけるデータサイロである。新しいアプリケーションの導入にデータサイロの発生は付きものだ。社内で使う様々なアプリケーションデータを連携させるには、ユーザーが常に質の高いデータにアクセスできるよう、理想的な状態を維持しなくてはならない。データ管理者の継続的な努力なくしてはできないことだ。Snowflakeはこの脱サイロ化を、企業が「シングルプラットフォーム」を実現する上で対処するべき重要なテーマの1つと考えている。
シングルプラットフォームが実現すれば、ユーザーはあらゆる種類のデータに自由にアクセスできるようになる。今でも多くのデータを扱っていると思うかもしれないが、企業の中にあるデータは構造化データだけとは限らない。JSONやXMLのような半構造化データもあれば、画像のような非構造化データもある。Snowflakeの提唱する「データクラウド」は、形式が異なるデータを含め、あらゆるデータを1つのプラットフォーム上で扱えるようにすることを目指すものである。それが実現すれば、ジェネレーティブAI時代の企業のニーズにも対応できる。
既に同社の取り組みは半構造化データから始まっている。この考えを非構造化データへと拡張し、提供するソリューションが「Document AI」になる。ジェネレーティブAIが実行できるタスクのうち、ホワイトカラーの業務と関連の深いのが大規模言語モデル(LLM)に対し、テキストで質問をするとテキストで回答を得られる「Text-to-Text」であろう。LLMを組み込んだアプリケーションは、いずれもより良い結果を出せるよう、テキストデータで学習している。しかし、その学習範囲に非構造化データは含まれてはいない。
「Snowflake Summit 2023」の基調講演に登壇したスノーフレイク会長兼CEOのフランク・スルートマン氏は、「PDFファイルの中身を人間が読むことはできても、ソフトウェアにはできません」と指摘し、他のデータと同様にソフトウェアが扱える形式に変換し、学習材料にすることで、企業はジェネレーティブAIからより多くの価値を引き出せるようになると示した。