Snowflakeは、パフォーマンス向上、セキュアなデータ共有、データ保護の中核機能を、オープンテーブル形式の1つである「Apache Icebergテーブル」に組み込むと発表した。
これにより、組織はデータを移動させることなく、かつオープンな相互運用性を確保しながらデータをより迅速に活用できるという。その結果、Snowflakeの顧客はシームレスにオープンレイクハウス戦略を加速させ、オープン環境でもマネージド環境でもデータアクセスや分析が可能となり、高度なインサイトやAIを活用したアプリの構築、拡張、共有を行えるとしている。

SnowflakeによるIcebergテーブルの機能強化により、次のような活用が可能になるという。
- レイクハウスの分析:Snowflakeネイティブのテーブル形式と同じコンピュートエンジンをIcebergテーブルでも利用し、「Search Optimization Service」(近日一般提供開始)または「Query Acceleration Service」(近日一般提供開始)をIcebergテーブルに適用してクエリパフォーマンスを強化。SnowflakeのマネージドIcebergテーブルにより、柔軟なオープン保存形式を利用しつつ、SnowflakeのAI Data Cloudが活用可能
- 総合的なセキュリティ&ガバナンスと組み込まれた事業継続性・ディザスタリカバリー機能:SnowflakeはIcebergテーブルにセキュリティをシームレスに組み込み、オープンレイクハウス環境をセキュアで管理しやすい状態に維持し、カスタマーコンプライアンスも確保できるという。また、信頼性の高いデータレプリケーションおよび同期の機能をIcebergテーブルに拡張(プライベートプレビュー段階)
- データ共有:セキュアなデータ共有テクノロジーをIcebergテーブルに搭載することで、顧客はネイティブなSnowflakeテーブル形式と同様に、シームレスに自社データにアクセスし、共有、配布、利益化することが可能
オープンソースとデータ革新の未来を推進
Snowflakeは、オープン標準を提唱し、データの相互運用性と透明性を高めるコミュニティ主導型のオープンソースプロジェクトに重点的に投資しているという。Snowflakeが関わる主なオープンソースプロジェクトは以下のとおり。
- Apache Iceberg:SnowflakeのIcebergに対する取り組みにより、ガバナンスを設けた効率的なデータレイク管理を実現し、スキーマ進化、パーティション、トランザクション管理もサポート
- Apache NiFi:NiFiを活用するDatavolo(2024年にSnowflakeが買収)は、取り込み、変換、リアルタイムのパイプライン管理を簡素化
- Apache Polaris(Incubating):ベンダーロックインの課題を解消し、エンタープライズセキュリティと、Icebergの主要クラウドプロバイダーとの相互運用性を確保
- Modin:SnowflakeはModin(Snowflakeが2023年に買収)によりpandasのワークロードを加速し、コードを変更することなくシームレスなスケーリングを可能にするという
- Streamlit:SnowflakeにStreamlit(Snowflakeが2022年に買収)を統合することで、インタラクティブなWebアプリケーション、データダッシュボード、視覚的な表現を構築し共有することが可能
- TruEra:TruEra(Snowflakeが2024年に買収)はAIの説明可能性(explainability)とモデルパフォーマンスモニタリングを強化し、バイアス検出やコンプライアンス機能、パフォーマンスインサイトを提供
【関連記事】
・博報堂DYホールディングス「統計合成データ」の有用性をAcompanyと実証、AI学習データに活用へ
・三井住友銀行と富士通、データ分析ビジネスにおいて共創 顧客の人員配置・物流計画などの最適化を支援
・NTT Comら5者、「秘密計算を用いたデータ利活用実践のためのガイドライン」の中間報告文書を公開