データ分析・活用をビジネス部門でも可能にするために
日本アイ・ビー・エムは11月9日、東京都内においてビッグデータ活用に関するセミナー「IBM Data Lake最新実践セミナー」を開催した。データ・エンジニアやデータ・サイエンティスト、ビッグデータ・インフラの構築に携わるIT部門だけでなく、ビッグデータの活用を企画するユーザー部門も対象としている。
冒頭、日本アイ・ビー・エムのアナリティクス事業部 アナリティクス・クライアント・アーキテクトを務める岡口純子氏は、「近年、データ分析から得られた知見が、企業の意思決定を大きく左右するようになっている。特にビジネスの最前線に立つ現場からのデータ活用ニーズは高い」と、データ分析を取り巻く企業の状況を説明した。
従来、データ分析のための準備やデータマート生成は、IT部門が担当していた。そのため、IT部門の負荷が大きくなってしまったり、必要な分析を迅速にできなかったりという課題を抱えていた。さらに、近年増加している第三者データやSNS、IoTなどの非構造化データは事前に定義ができないため、せっかく蓄積したデータがビジネスに活用できていないという問題もあった。
岡口氏は、「今はデータ・サイエンティストやエンジニアだけでなく、マーケティングや営業といったユーザー部門でも、必要に応じてデータを入手し、ビジネスの目的に応じて自身でデータ分析したいと考えている。企業は、こうしたニーズに応え、『セルフサービス・アナリティクス』が実現できる環境を整える必要がある」と説く。
セルフサービス・アナリティクスの環境構築で重要なのが、あらゆるデータを一元的に統合し、ニーズに応じて迅速にデータを分析/活用できるシステムだ。それが「データレイク」である。
IBMのデータレイクとは?
データレイクとは、ビッグデータを収集・保存し、分析する概念/システムだ。2010年初に米国で提唱され、ストレージコストの低下とデータ量の増大により、急速に普及している。
岡口氏は、IBMのデータレイクの特徴を「単にデータを蓄積するだけではなく、社内外のデータを加工せずに蓄積し、カタログをもとにユーザーが必要なデータに自由にアクセスできる」と説明する。「迅速、かつ広範囲なデータの利活用はもちろん、既存資産を生かしたスモール・スタートができる。段階的に機能拡張できるのが、IBMデータレイクの強みだ」(岡口氏)
なかでも同氏が強調するのは、「セルフサービスETL機能」による既存データの抽出/活用である。これは、カタログに登録されたメタデータを利用することで、ユーザー自身が必要なデータを取捨選択できるというもの。データのカタログ化で、組織横断的にデータが可視化され、他部門のデータの利用が容易になる。また、ユーザーが必要なデータへ直接アクセスできるため、データの重複保持が不要になるというメリットもある。
スモール・スタートを可能にしているのは、既存のDWH(データ・ウェアハウス)環境でも、メタデータをカタログに集約できる機能を擁しているからだ。例えば、情報カタログだけを追加したり、ガバナンス機能や、“とりあえずデータを置いておく”といったサンドボックス機能を追加したりすることもできる。