EnterpriseZine Press

Talend 正金氏が語る「ビッグデータの収集、整備、統合、活用のティップス」

2014/08/19 11:55

通知

　データインテグレーションを専門に2005年から製品を展開するTalend。同社のコンサルティングマネージャーである正金秀規氏は「ビッグデータの収集、整備、統合、活用のティップス」と題し、ビッグデータ分析におけるデータインテグレーションの重要性を解説した。

通知

Page 1
- データが複雑化しサイエンティストの負荷がますます高まる
- データインテグレーションでは定型化、自動化がポイント
Page 2
- スパイラルアプローチでPDCAを広げていく

データが複雑化しサイエンティストの負荷がますます高まる

Talend株式会社　正金秀規氏

　正金氏は、国内システムインテグレーターや外資系ISVに勤務し、金融や通信会社向けに管理会計やデータ統合、マスタデータ管理といった分野でのシステム化、IT化推進を担当してきた。2010年に仏Talend社の日本法人に参画。ビッグデータ統合ソリューションの普及と推進を担当する。

　正金氏はまず、現在の企業が置かれた状況について「新しいデータが生まれたことで、分析システムを最適化する時期にきている」と指摘。ソーシャルメディアやセンサが生み出すデータなど、かつて想定していなかった種類のデータが業務で用いられるようになったことで、従来の分析システムでは取り扱いが難しくなってきた事情をあらためて説明した。

　「データ分析といえば、従来からDWHシステムが活用されてきた。DWHシステムが扱うのは、あくまでオンプレミスシステムがソースデータであり、量、種類、鮮度は限られていた。かたや、ビッグデータと呼ばれる最近のソースデータは、量は桁違いで、種類に富み、リアルタイム性が求められる。それに適した分析の仕組みが必要になってきた」(正金氏)

　正金氏はかつて、ある半導体製造業向けにDWHシステムの構築を支援したことがあるという。工場ごとに発生する歩留まりを分析するシステムだったが、1日数億件のデータが365日にわたって発生し、規模も予算も巨大なものにならざるをえなかった。今日では、テクノロジーの進化により、そうした巨大なシステムを構築する必要性は減った。しかし、データ自体の複雑性が高まるなかで、担当者の作業負荷はいっそう高まっているのが現状だという。

　「何らかのアルゴリズムを持って分析することなるが、データが複雑になると、分析の前段階で、データの整理整頓が必要になる。この部分がサイエンティストの作業負荷を高めている。データの整理整頓について、戦略とソリューションを持っておく必要がある。そこでポイントになるのが、データを分析するサイエンティスト、データを整理整頓するインテグレーション担当者、そのシステム基盤を整備する担当者が三位一体でプロジェクトを進める体制だ」(同氏)

データインテグレーションでは定型化、自動化がポイント

　インテグレーション担当者の主な役割は、データサイエンティストが分析を行いやすくするために、ソースデータを収集し、収集したデータを整備・変換すること。サイエンティストの役割は、そうして整理整頓されたデータを使って、ビジュアライズし、分析を行うこと。また、実際にビジネスの現場で活用できるようにすること。そして、システム基盤担当者の役割はは、データ収集と整備・変換のためのシステム基盤を整備することだ。

　「データ分析システムについては、最低限持っていなければならない機能が3つある。1つはビッグデータストア機能。2つめはデータインテグレーション機能。3つめはBI機能だ」(同氏)

　ビッグデータストア機能は、大量データを蓄積するためのHadoopや、大量データの検索を行いやすくするNoSQLデータベース、インメモリ技術などを使って構築する。NoSQLデータベースやインメモリ技術は日々進化しており、近年では、NoSQLのグラフデータベースNeo4Jや、Apache Sparkが注目を集めているという。

　Neo4Jは、ソーシャルネットワークの関係をグラフ化するものだが、業務の現場でも、たとえば、金融機関がマネーロンダリングを検知するために、口座の資金移動を可視化するツールとして使ったりしているという。また、Sparkは、6月に1.0がリリースされたばかりで、HadoopのリソースマネジメントフレームワークYARN上で動作するインメモリのデータストアエンジンとして注目されている。

　BI機能は、近年ではデータをわかりやすく視覚化する機能を持った優れた製品が出てきている。ポイントとしては、最初からどんなデータが必要になるかわからないため、データインテグレーションで必要になる、データの収集や仮説検証ができる機能を備えていることだという。

　また、データインテグレーション機能では、まずは、サイエンティストや分析担当者が有効だと判断したモデルなどを、定型化、自動化することが大事だという。もちろん、データをクレンジングしたり、ソースの異なるシステムからデータをインテグレーションしたり、データに属性を付与して扱いやすくしたうえでデータストアに投入するといった機能を実装していくことも求められる。

次のページ
スパイラルアプローチでPDCAを広げていく

この記事は参考になりましたか？

印刷用を表示

EnterpriseZine Press連載記事一覧: 「新たな脅威」と「深刻な人材不足」に襲われるセキュリティ現場……現実的な打開策と次のステッ...

RAGを構築も「低い精度」「社内からの反発」に直面……今や社員3000人が活用、清水建設再...

デジタル庁楠正憲氏が進めたAI活用基盤構築──「他国に取り残される」危機感から始めた施策...

もっと読む

この記事の著者: 齋藤公二（サイトウコウジ）

インサイト合同会社「月刊Computerwold」「CIO Magazine」（IDGジャパン）の記者、編集者などを経て、2011年11月インサイト合同会社設立。エンタープライズITを中心とした記事の執筆、編集のほか、OSSを利用した企業Webサイト、サービスサイトの制作を担当する。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事