データが複雑化しサイエンティストの負荷がますます高まる
正金氏は、国内システムインテグレーターや外資系ISVに勤務し、金融や通信会社向けに管理会計やデータ統合、マスタデータ管理といった分野でのシステム化、IT化推進を担当してきた。2010年に仏Talend社の日本法人に参画。ビッグデータ統合ソリューションの普及と推進を担当する。
正金氏はまず、現在の企業が置かれた状況について「新しいデータが生まれたことで、分析システムを最適化する時期にきている」と指摘。ソーシャルメディアやセンサが生み出すデータなど、かつて想定していなかった種類のデータが業務で用いられるようになったことで、従来の分析システムでは取り扱いが難しくなってきた事情をあらためて説明した。
「データ分析といえば、従来からDWHシステムが活用されてきた。DWHシステムが扱うのは、あくまでオンプレミスシステムがソースデータであり、量、種類、鮮度は限られていた。かたや、ビッグデータと呼ばれる最近のソースデータは、量は桁違いで、種類に富み、リアルタイム性が求められる。それに適した分析の仕組みが必要になってきた」(正金氏)
正金氏はかつて、ある半導体製造業向けにDWHシステムの構築を支援したことがあるという。工場ごとに発生する歩留まりを分析するシステムだったが、1日数億件のデータが365日にわたって発生し、規模も予算も巨大なものにならざるをえなかった。今日では、テクノロジーの進化により、そうした巨大なシステムを構築する必要性は減った。しかし、データ自体の複雑性が高まるなかで、担当者の作業負荷はいっそう高まっているのが現状だという。
「何らかのアルゴリズムを持って分析することなるが、データが複雑になると、分析の前段階で、データの整理整頓が必要になる。この部分がサイエンティストの作業負荷を高めている。データの整理整頓について、戦略とソリューションを持っておく必要がある。そこでポイントになるのが、データを分析するサイエンティスト、データを整理整頓するインテグレーション担当者、そのシステム基盤を整備する担当者が三位一体でプロジェクトを進める体制だ」(同氏)
データインテグレーションでは定型化、自動化がポイント
インテグレーション担当者の主な役割は、データサイエンティストが分析を行いやすくするために、ソースデータを収集し、収集したデータを整備・変換すること。サイエンティストの役割は、そうして整理整頓されたデータを使って、ビジュアライズし、分析を行うこと。また、実際にビジネスの現場で活用できるようにすること。そして、システム基盤担当者の役割はは、データ収集と整備・変換のためのシステム基盤を整備することだ。
「データ分析システムについては、最低限持っていなければならない機能が3つある。1つはビッグデータストア機能。2つめはデータインテグレーション機能。3つめはBI機能だ」(同氏)
ビッグデータストア機能は、大量データを蓄積するためのHadoopや、大量データの検索を行いやすくするNoSQLデータベース、インメモリ技術などを使って構築する。NoSQLデータベースやインメモリ技術は日々進化しており、近年では、NoSQLのグラフデータベースNeo4Jや、Apache Sparkが注目を集めているという。
Neo4Jは、ソーシャルネットワークの関係をグラフ化するものだが、業務の現場でも、たとえば、金融機関がマネーロンダリングを検知するために、口座の資金移動を可視化するツールとして使ったりしているという。また、Sparkは、6月に1.0がリリースされたばかりで、HadoopのリソースマネジメントフレームワークYARN上で動作するインメモリのデータストアエンジンとして注目されている。
BI機能は、近年ではデータをわかりやすく視覚化する機能を持った優れた製品が出てきている。ポイントとしては、最初からどんなデータが必要になるかわからないため、データインテグレーションで必要になる、データの収集や仮説検証ができる機能を備えていることだという。
また、データインテグレーション機能では、まずは、サイエンティストや分析担当者が有効だと判断したモデルなどを、定型化、自動化することが大事だという。もちろん、データをクレンジングしたり、ソースの異なるシステムからデータをインテグレーションしたり、データに属性を付与して扱いやすくしたうえでデータストアに投入するといった機能を実装していくことも求められる。