セルフサービスBIにより、企業ユーザがデータ分析を行う場合、分析用データの収集、結合、変換、整形だけでなく、欠損値や外れ値の確認・修正といった補完作業など、分析に利用するデータの準備・品質担保作業に、担当者の80%以上の工数を費やされているという。
そこで、より多くの企業ユーザが、ビジネスに直結する最新かつ高い精度のデータを、セルフサービスで準備・活用でき、IT部門の業務負荷を大幅に軽減する「データ・プレパレーション」が新たな解決策として注目を集めているという。
「Paxata」は、Hadoop、Sparkをベースとし、人工知能、機械学習、インメモリ、コンシューマー・エクスペリエンスといった革新的なテクノロジーを活用したデータ・プレパレーション・プラットフォームであり、全世界では大手企業を中心に50社以上の導入実績がある。
「Paxata」は、ユーザ部門によるセルフサービスでのデータ活用に最適で、同時にIT部門の負荷軽減も実現し、全社のデータ活用に大きく貢献する次の4つの特徴を備えている。
(1) データ・プレパレーションに必要な機能をすべて搭載
さまざまな種類やフォーマットのデータソースを追加・格納、データのゆらぎを含め整備・変更、整形、フィルタリング、データ統合、生成データの活用まで、業務に応じてユーザ単位で管理・制限できる。利用したいデータは、すべてスプレッドシート上に可視化され、コーディングレスかつポイント&クリックで作業できるため、データの中身を把握しているユーザ部門での利便性が高まり、IT部門における個々の細かいニーズに応じたデータ準備が不要になる。
(2) AI(人工知能)の活用
目視でデータの中身を精査し精度の高いデータへと加工していく作業は手間と工数がかかる。「Paxata」では、AI技術を活用し、さまざまな推奨パターンをレコメンドする。例えば、複数のデータセットを結合する場合、データセット内のすべての値を走査し、結合キーの組み合わせをデータのマッチ率と併せて提示したり、フリーフォーマットで書かれたデータ内容が類似している場合、類似データをすべて修正候補として提示する。これにより、ユーザは分析に適したデータを、容易かつスピーディに確定させていくことができる。
(3) 分散コンピューティング
膨大なデータにさまざまな加工を施しリアルタイムに結果を確認しながらデータセットを作り上げていく一連の処理の最適化を目的として、「Paxata」ではSparkベースのインメモリ分散処理エンジンとデータセットを格納するストレージにスキーマレスなデータ管理が可能なHDFSを採用している。
(4) ETL/EAIツールとの共存でデータ活用をさらに拡大
「Paxata」で加工した精度の高いデータをETL/EAIツールと連携させ全社で再利用可能にすることでデータ活用の拡大を図ることができる。