SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

EnterpriseZine編集部ではイベントを随時開催しております

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

週刊DBオンライン 谷川耕一

Sparkがアナリティクスのオペレーティング・システムになる

 ビッグデータの活用では非構造化データを大量に蓄積する必要があり、それをリレーショナルデータベースに入れるのは得策ではないのでHadoopなどを利用する。これはいまやビッグデータ・ソリューションの定番になりつつある流れだ。拡張性の高い分散ファイルシステムのHadoopは、増え続けるデータを格納するのに向いている。とはいえHadoopに入れれば、それで問題がすべて解決するわけではない。

Hadoopにすればビッグデータ活用の課題をすべて克服できるわけではない

 ビッグデータの活用では非構造化データを大量に蓄積する必要があり、それをリレーショナルデータベースに入れるのは得策ではないのでHadoopなどを利用する。これはいまやビッグデータ・ソリューションの定番になりつつある流れだ。拡張性の高い分散ファイルシステムのHadoopは、増え続けるデータを格納するのに向いている。とはいえHadoopに入れれば、それで問題がすべて解決するわけではない。

 ビッグデータ活用はインサイト・エコノミーの時代になっている、と言うのは日本IBM 理事 IBMアナリティクス事業部長の三浦美穂氏だ。インサイト・エコノミーでは収集した大量データを分析可能な品質に素早くまとめ上げ、素早く分析する必要がある。そうすることでタイムリーな行動に結び付くから。増え続けるデータに対し、こういった環境を提供し続けるのはじつは容易ではない。

日本IBM 理事 IBMアナリティクス事業部長 三浦美穂氏
日本IBM
理事 IBMアナリティクス事業部長
三浦美穂氏

 溜め込んだデータに対して時間をかけ整理し、分析するアルゴリズムも時間をかけて構築する。その分析アルゴリズムを使って、数年に渡り収集データの分析を行う。この方法は別に間違いではない。変化のない世界であれば、これでも成果を得られるだろう。しかし、顧客の嗜好の変化も激しく、提供する製品やサービスもどんどん変化するインサイト・エコノミーの時代では、このスピード感では意味をなさない。

 「大量データをスピーディに分析し、なるべくリアルタイムなアクションに結び付ける。さらに、データサイエンティストがやるようなアナリティクスのアルゴリズム開発をする人には、より柔軟なプラットフォームが必要です」(三浦氏)

 そんな要求の中、オープンなテクノロジーとしてHadoopは生まれた。Hadoopは大量データを処理するのはたしかに得意だ。しかしながら限界もある。その1つが開発者には使い難いことだ。Map Reduceを使いこなせる技術者は簡単には育成できず、多くのHadoopディストリビューションで結局は使い慣れたSQLインターフェイスを実装するに至っている。

 さらに、Hadoopが基本的にはバッチ処理重視の仕組みだったことも、リアルタイム分析を求めるインサイト・エコノミー時代にはそぐわない。結果的に莫大なデータを扱うとなると、Hadoopには分散システムによる拡張性があるとはいえ、ディスクIO部分がボトルネックになることも課題だった。そんなときに登場したのが、Apache Sparkという新しい仕組みだ。

 「Hadoopの課題を解決するために出てきた技術がSparkです。SparkはHadoopを置き換えるものではなく、補完するものです」(三浦氏)

 Apache Sparkは、ビッグデータの処理を分散クラスター上で高速に実行する。その際、Hadoopのようにファイルシステムにアクセスするのではなく、分散インメモリを使うので高速で低遅延の分析処理が可能となるのだ。さらに、SQLインターフェイスを持ち機械学習、グラフ処理、ストリーム処理などの最近のビッグデータ活用でよく登場する分析アルゴリズムをライブラリーで用意している。これらがあれば、すぐにデータサイエンティストによる独自の分析アルゴリズムの開発も可能だろう。

Hadoopを補完するSparkの重要性
Hadoopを補完するSparkの重要性

次のページ
IBMはSparkをアナリティクスの中核にする

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
週刊DBオンライン 谷川耕一連載記事一覧

もっと読む

この記事の著者

谷川 耕一(タニカワ コウイチ)

EnterpriseZine/DB Online チーフキュレーターかつてAI、エキスパートシステムが流行っていたころに、開発エンジニアとしてIT業界に。その後UNIXの専門雑誌の編集者を経て、外資系ソフトウェアベンダーの製品マーケティング、広告、広報などの業務を経験。現在はフリーランスのITジャーナリスト...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/7064 2015/07/23 06:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング