ビッグデータ時代にはアナリティクスのモダナイズが必要
ビッグデータ時代に、従来のBIやアナリティクス、さらにはリレーショナルデータベースを利用するデータウェアハウスで対応しきれるのか。対応するためにSASでは、アナリティクスをモダナイズすべきだと主張する。モダナイズの対象は人、プロセス、データ、テクノロジー、企業文化という5つ。これらが近代化しなければ、ビッグデータの活用は難しい。
5つの中でプロセスの部分とデータとテクノロジーで構成されるインフラ部分のモダナイズをSASはサポートする。
「SASはプロセスに注目しています」と北川氏。SASの製品群を使って、プロセス間をデータがスムースに流れるようにする。それにより、分析をライフサイクルで捉えられるようにするのだ。このプロセスのモダナイズは、コンサルティングサービスの形で提供することになると北川氏は言う。
テクノロジーのモダナイズは、SAS Grid ManagerやSAS Visual Analyticsなど既存製品を活用することで実現する。また先頃発表したSAPとの提携もテクノロジーのモダナイズの1つであり、「SAS SAP HANA」という新たな構成は近日中に発表できるだろうとのこと。
Hadoopを活用できるようにするのもアナリティクスのモダナイズでは重要
そして、今回発表したHadoop関連製品もテクノロジーのモダナイズに欠かせない。
「Hadoopを中心にアナリティクスの近代化を図るというのを、SASはいま注力しているところです」(北川氏)
この背景には、企業の多くが増え続けるビッグデータの保存先としてHadoopを選択し始めている事実がある。ところがHadoopにデータは入れるのだが、分析の際には既存のデータウェアハウスなりにデータを移動してから行うことが多い。これはHadoop上で高度な分析をしようとすれば、Javaなどを使って独自にプログラミングする必要もあり、それがデータサイエンティストと呼ばれるような人たちには面倒で手間のかかる作業となるからだ。
そのようなHadoopにおける分析の課題を解決するために、新バージョンとなるSAS Visual Analytics 6.4でHadoopに対応した。Visual Analyticsは対話型のビジュアルデータ探索ツールだ。GUI操作でビッグデータ分析結果を多彩に表現できる。今回の6.4ではテキストデータ、非構造化データ分析機能の強化がなされ、顧客のコメントやTwitterストリーム解析でビジネス機会の特定が可能になった。またセルフサービス型のデータインポート機能の強化でCloudera、Greenplum、Hortonworks、Oracle、Teradataなど17種類のデータソースを分析者自らがインポートできるようになっている。
Hadoopへの対応は上記のデータインポート機能だけでなく、アーキテクチャ・オプションの追加という形でHadoopクラスターとSASのインメモリ技術であるSAS LASR Analytic Serverを統合している。統合方法としては、Hadoopクラスターとは別に用意されたSAS LASR Analytic Serverのメモリ間でデータを並列高速ロードする。また、Hadoopクラスター側のハードウェアリソースに余裕があれば、同一サーバー上にLASR Analytic Serverを導入しHDFSからメモリに直接データを展開する方法もとれる。これらにより、Hadoopから別のデータウェアハウスにデータを移すことなく、Visual Analyticsを用いてインメモリでの高速な分析ビジュアライゼーションが可能になる。
今回、さらにSAS In-Memory Statistics for Hadoopという新製品も提供を開始する。これは、SASで実績のある統計アルゴリズムと機械学習テクノロジーをHadoopのデータにも適用できるようにするものだ。データへのアクセス方法は、上記のVisual Analyticsと同様で、HadoopのデータをLASR Analytic Serverのメモリに展開して利用する。In-Memory Statistics for Hadoopを分析者が利用するためのインターフェースとしてSAS Studioが用意されている。従来のSASではコマンドラインでプログラミングに近い操作をしながら高度な分析を進めていくイメージがあるが、SAS Studioを利用することでHadoop上のデータに対するデータサイエンティストの分析作業は格段に楽になるとのこと。アルゴリズムやパラメータを変え繰り返し分析結果の検証を行う作業などが簡単に行えるようになり、データサイエンティストの生産性の向上が期待できる。
企業においてデータサイエンティストの採用や育成が難しい原因の1つが、分析、IT、ビジネスが分かっているというスキルフルな人材がなかなかいないことにある。この高度に求められるスキルセットのうち、ITスキルがなくてもデータサイエンティストが仕事をできるようにする。それが、今回のSAS In-Memory Statistics for HadoopとSAS Studioの組み合わせとなっている。
Hadoopと統合するLASR Analytic Serverに必要なメモリ容量は、分析するデータ量により異なる。分析に利用したいデータはすべてメモリ上に展開している必要があり、共通で利用するデータはバッチ処理などで定期的にメモリに展開しておくことになる。また、分析者が都度必要なデータをメモリに展開することもできる。
SASでは、Hadoop上で分析ライフサイクル全体を実現すべく製品の拡充を図っている。すでにSAS/Access to HadoopなどのHadoopにSASの分析ツールからアクセスするための製品提供を行っており、これらに今回のVisual Analytics、In-Memory Statistics for Hadoopが追加されたわけだ。今後SASの分析ツールのほとんどがHadoopに対応し、多くは2014年後半までにリリースされる予定だ。