data tech 2018　講演レポート（AD）

Microsoft Azureのデータ分析サービスを使い倒すには？実例を元にツール活用方法を徹底解説

2019/01/29 06:00

通知

　ビジネスにおけるデータ活用が着実に現実化してきている。SNSの普及やセンサーからのデータ取得が可能となり、これまでにない粒度や種類のデータが取得できるようになった。加えてクラウド基盤へのシフトも大きく進んでいる。こうしたなか、よりモダンな形で、より効率良くデータ活用を進めていくにはどうしたらいいか。編集部主催のdata tech2018に登壇した日本マイクロソフトクラウドソリューションアーキテクト大内山浩氏が解説した。

通知

今どきのデータ活用のサクセスにはクラウドツールが欠かせない

　データ活用で得られる恩恵はあるものの、実現にはいくつかのハードルがある。例えば「統合的なデータ分析環境がない」「個人情報の取り扱いが難しい」「効果的な活用方法が見いだせない」など。2016年に発表された総務省の情報通信白書によると、「日本企業のデータ利活用は収集と蓄積の段階で止まっている」という指摘があり、今後、経済成長の中核となるのはAIを活用したデータ（ビッグデータ）の収集や活用とされている。　

　裏返すと、こうした課題解決にはビッグデータ、IoT、AIなどのデータをシームレスに統合したデータプラットフォームや分析基盤が必要であるということ。センシティブなデータを取り扱うためのセキュリティを確保した上で、現場のユーザーがデータ活用できるような環境が求められている。その上で、生産性向上やビジネス価値創出を実現できるソリューションを編み出していく必要がある。　

　「データ活用のサクセスキーは3つ」と日本マイクロソフトクラウドソリューションアーキテクト大内山浩氏は言う。まずは「ヒト」と「プロセス」。「ヒト」とはデータ活用のためのスキルセットを保有する人材で、データサイエンスやデータエンジニアリングの知見だけではなくビジネスのスキルも必要だ。

　「プロセス」とはデータ活用活動を効果的および効率的に進めるための方法論に相当し、CRISP-DM、KDDなどの汎用的なものや企業内での実績に裏打ちされたカスタムプロセスなどになる。ここまでは従来のITやデータ活用と共通している。大内山氏はもう1つ「クラウドツール」を挙げた。　

　クラウドへのシフトが進み、データ活用環境においてはモダンなクラウドツールをいかに活用できるかが生産性向上の鍵となる。そこで大内山氏は顧客企業における実体験から得た知見も交えながら、実際のデータサイエンスの現場で最新のクラウドツールやサービスがどのように活用されているかを示した。今回紹介するサービスはAzure Data Lake Storage、Power BI、Azure Databricks、Azure Machine Learning service、SQL Data Warehouseなど。

新人でも乗客をキャッチできるようにタクシーの乗客予測モデルを作成

　日本マイクロソフトでは、Azureを利用してデータ活用を思考されている顧客企業にデータサイエンティストやソリューションアーキテクトが技術的な支援を実施することがある。大内山氏も実際にそうした支援活動を行う1人。外資系IT企業でシステムエンジニアやデータ分析コンサルタントを経て、現在は日本マイクロソフトでクラウドソリューションアーキテクトをしている。

　例えばデータ分析活動を行う場合、主に8つのフェーズで構成されることが多い。ただし、この8段階はウォーターフォール的に上から下に流れるというよりは、必要に応じて行き来を繰り返すアジャイル型であるという。

データ分析サービスの8つのフェーズ　出所：日本マイクロソフト［画像クリックで拡大表示］

　最初にあるのが「ビジネスの理解」。データ分析はやみくもに進めるだけでは確かな効果は得られないことが多い。ビジネスの背景を知り、どのような課題があるかを把握し、何を目標にするのかをきちんと見定めていく必要がある。　

　大内山氏は架空のシナリオとしてタクシー会社の例を解説する。このタクシー会社では売上が伸び悩んでいる。特に巡回における各ドライバーの経験値の差が大きく、経験の浅い新人ドライバーの顧客獲得率が低い、というビジネス上の課題があったとする。

　そこで、その「経験の浅さ」をITによって補完できないかと考えたとする。その実現に向けて複数出されたアイデアのうち、実現性、将来性および開発コストなどを鑑みた結果、機械学習を用いてタクシー巡回エリア内の乗客期待数を予測し、かつ、各ドライバーへ予測結果を提示するような仕組みを最初のステップとして開発する。なお、次ステップ以降では乗車距離や最適ルートなどを考慮した需要予測だったり、ゆくゆくは顧客の顔および行動認識による異常検知など、本ステップを土台とした将来的な展開案を考えておくことも推奨している。

　方針が決まったら、実際のデータ分析作業へと進む。まずはデータを顧客から受領する。今回の例ならタクシー運行ログが1年分で約26GB、支払ログが1年分で約18GB。これらの置き場所となるのがクラウドのストレージだ。Azureの汎用的なオブジェクトストレージとしてよく知られているのは「Azure BLOB Storage」。最近ではこの進化形として、並列分散処理やビッグデータに最適化した「Azure Data Lake Storage」がプレビューで公開されている。　

　データを受領したら、次はデータの理解。「基礎分析」とも呼ばれる。データの内容を見ながら、要件の理解とデータの過不足を確認する。大内山氏によるとPower BIを使うことが多いという。　

　Power BIはデスクトップ版「Power BI Desktop」のほかにSaaS版「Power BI Service」もある。いずれもExcelを扱うようにすぐに利用できるのが特徴だ。ほかにも大規模向けには「Power BI Premium」、オンプレミスのレポート用に「Power BI Report Server」、アプリケーションに組み込むための「Power BI Embedded」がある。要件に応じて使い分けるといいだろう。　

　基礎分析の結果を利用して、分析設計として本分析に向けた様々な詳細事項の定義を実施していく。具体的には分析スコープ、データ加工方針、外部データを利用する場合の種類や取得方法など。タクシー会社の例なら、使用するデータは1年分、分析対象となるエリア、需要予測モデルは100m四方ごとの乗車人数予測といった具合だ。さらに、データの加工方針やクレンジング条件、または利用する外部データの具体的な情報が含まれることもよくある。いずれも顧客と一緒にPower BIのレポートなどを眺めながら、合意形成をしていくことが重要としている。

具体例：分析設計分析設計には分析するデータの範囲やエリア、クレンジング方針などが含まれる　
出所：日本マイクロソフト［画像クリックで拡大表示］

Azure DatabricksにAzure Machine Learning service…強力なツールが次々と登場

　分析設計で分析方針を定めたら、次はデータ加工とモデル作成へと進む。ここは「全行程において最も時間を要するフェーズ」と大内山氏は言う。試行錯誤を繰り返しながら精度を高めていくためだろう。ここで使われるのが「Azure Databricks」。これはAzureのPaaSとして提供されるSparkサービスとなる。

　DatabricksはApache Sparkの開発チームが2013年に設立した企業であり、今ではApache Sparkの最大のコントリビューターでもある。Sparkをよく知るエンジニア集団がデータ分析をより高速かつ便利に行えるように、ごりごりに磨き上げたSparkと考えていいだろう。それがAzureのPaaSサービスとして提供されている。

AzureのPaaSとして提供されるSparkサービス「Azure Databricks」　
出所：日本マイクロソフト［画像クリックで拡大表示］

　Azure Databricksは通常のSparkに比べると、性能面、管理面、コラボレーション面でメリットがある。性能面でいえば、Sparkエンジンが最適化されており、DatabricksによってOSS Sparkの5倍高速というベンチマーク結果が公開されている。管理性だとクラスタのオートスケール（自動的に拡張）やオートターミネーション（自動的に終了して課金が生じないようにする）など、サーバーレスで管理が容易という点が挙げられる。

　加えてPythonやRなどに対応したDatabricks Notebookを搭載しており、複数で共同作業ができるなどコラボレーション機能が充実している。これまで分断されがちだったデータエンジニアリングとデータサイエンス（モデル作成）という2つの作業をワンストップで一気通貫に実現できる。Azure Databricksを活用することでデータ処理時間を150時間から5時間に短縮し、コストを月額で240万円から30万円に削減できた事例もあるという。　

　データ加工とモデル作成が終了したら「これで終わり」ではない。作成したモデルは使ってこそ意味がある。つまり、モデルを管理し、実際の環境へと展開して運用する必要がある。Azureではこうした機械学習モデルのライフサイクルをサポートするフレームワークとして「Azure Machine Learning service」が提供されている。データの準備、モデル構築、モデル展開から監視までできるようになっている。特にモデル展開は売りの機能の一つであり、モデルをDockerイメージとしてパッケージングしてAzure上のコンテナ環境およびEdge上に容易に展開できるようになっている。本ケースにおいてはAzure Databricksがデータ準備とモデル作成までを担当し、Azure Machine Learning serviceはそれ以降を担当する、というようにサービス連携と役割分担も可能だ。　

　分析データの再利用を顧客から希望されることがある。分析プロセスの過程で作成された中間データを別の部署や関係者がそれぞれの目的で利用したいというケースがあるためだ。その目的やクライアントツールにも依存するが、汎用的な分析を目的とするのであれば「RDBに格納しておくのが好ましい」と大内山氏は言う。その際にはクラウド型の並列分散データウェアハウスである「Azure SQL Data Warehouse」が適している。特に最近ではより高速化された「Gen2」が登場しており、データ分析をしているなら着目しておいたほうがいいだろう。

Microsoft Azureのデータ分析サービス全体図　
出所：日本マイクロソフト［画像クリックで拡大表示］

　大内山氏の話から分かるように、Microsoft Azureには企業がデータ分析およびデータ活用を行うためのサービスが次々と登場している。データの収集、加工、モデル作成、展開、監視まで、フルサイクルを一気通貫でカバーできており、Microsoft Azureだけで完結できるほど充実している。企業のデータ活用に力強い味方となりそうだ。