このサービスは、「データ分析をすぐに始めたい」「スモールスタートで、将来にわたって拡張したい」という要望に応えるもので、オープンソースとして提供するビッグデータ向けスケールアウト型データベース「GridDB」と、これまでデータ分析実績として培ってきた分析パターン・ノウハウに基づく分析ツール、さらにはFluentdやApache Sparkなどの標準的なオープンソース技術を組み合わせたクラウドサービスになる。
大量のデータも高速に登録・更新・検索が可能で、データ量や処理性能に応じた柔軟な拡張が容易にできるため、分析データの拡大が見込まれる場合にも適しているという。オープン環境のため、利用者が要望する他のソフトウェアやサービスとも容易に連携できるという。
東芝はこのサービスとともに、データサイエンティストによる分析手法の提案や効果検証を行うプロフェッショナルサービスも提供する。自部門でビッグデータ分析することに難しさを感じている場合でも、安心してデータ分析を試行・導入できるサービスを提供するという。
収集・蓄積・分析における機能・特徴は次のとおり。
[収集]
さまざまなデータを高速かつ簡単に収集。Fluentdを基盤としたエージェント機能により、Webログ、アプリケーションログなどの発生周期が短いデータを簡単に収集する。また、センサーデータ、デバイスデータなどを収集する「SmartEDA」と連携することでさまざまなデータを効率的に収集できる。さらに、ローダー機能により、CSVファイルや文書(テキスト、PDF、Microsoft Officeデータ等)を高速に収集することができる。
[蓄積]
スケールアウト型データベースGridDBを活用することで、大量のデータでも高速な更新や検索処理を実現。時系列データに対応し、IoTでのデータ分析を容易にしている。また、蓄積されたデータはWeb APIで構成されるため、さまざまな外部アプリケーションとのデータ連携が容易に行える。
[分析]
IoTでのデータ分析やマーケティングデータの分析に適した分析パターン・アルゴリズムに加え、時系列データを可視化する仕組みや、さまざまな分析ツールと連携する仕組みを提供。
- 並列分散処理エンジン:Apache Sparkを基盤に複数の処理ユニットが同時に情報処理を実行
- 事象パターン抽出エンジン:当社のデータ分析に関するノウハウを活かし、データの相関関係をパターン抽出
- テキスト分類・抽出エンジン:膨大なテキストデータを利用目的に応じた手法で分類・キーワード抽出
- 機械学習アルゴリズムエンジン:Spark MLlibによる機械学習アルゴリズム提供など