AI活用に不可欠な「アナリティクス・ライフサイクル」
畝見氏ははじめに、アナリティクス・ライフサイクルについて説明した。ここ数年、多くの企業がAI活用にチャレンジしているが、課題を解決し、ビジネス価値、つまり具体的な成果を上げるためには、アナリティクス・ライフサイクルがキモになるという。アナリティクス・ライフサイクルには、データ、ディスカバリー、デプロイメントの3つの要素があるとした。
「データ」は、企業内に散在しているデータを抽出し、十分にクレンジングし、加工・変換・結合しデータを準備していくこと。「ディスカバリー」は、準備したデータの中身を探索し、その結果に基づいてモデルを開発していく分析のフェーズ。「デプロイメント」は、開発したモデルを業務に実装するフェーズ。この一連のプロセスを、SASでは古くからアナリティクス・ライフサイクルと呼んでいる。そして、このサイクルを素早く回し続けることで、企業がビジネス価値を創出し、変化への対応力を高めることができる。
そして畝見氏は、このサイクルを素早く回すためには「自由と統制のバランス」が必要であるとした。自由は「選択の自由」であり、データソースはもちろん、プログラミング言語や人材(スキル)、分析手法を自由に選べることが重要。そして分析結果をビジネスに役立てるには、自由度が高いだけでは意味がなく、統制を効かせることが重要であると指摘した。データやモデルに対するガバナンスがあってこそ、信頼あるデータに基づく信頼あるモデルが作られ、そのモデルをデプロイ・業務に実装できるようになるということだ。
自由と統制を最適にバランスし、アナリティクス・ライフサイクルを素早く回せる「SAS Viya」
畝見氏は、「SAS Viya」が自由と統制を最適にバランスできる比類なきEnterprise Open Analytics Platformであるとして、その特徴を説明した。自由度の点では、SAS Viyaはどんな環境でも動作する。オンプレミスはもちろん、さまざまなIaaS環境や、Cloud FoundryやDockerなどのPaaS環境上でも稼働する。また、データベース内のデータ、Hadoop内のデータ、クラウドデータベース、ストリーミングデータなどなど、あらゆるデータソースに対応している。
ユーザーインタフェースも、さまざまなスキルレベルに対応する。プログラミングを好むユーザーであれば、プログラミングUIによって好みの言語で分析できるし、必要に応じてSAS ViyaのAIライブラリを使用することで、その処理はマルチスレッドかつインメモリーの並列分散テクノロジーにより、ビッグデータ高速解析、高速モデリングが可能になる。コーディングスキルを持たないユーザーには、ビジュアルなUIも用意されている。
また、企業内にはCやC++などで開発されたアプリケーションも多く存在する。これらはREST APIを通じてViyaの機能を自由に呼び出し活用することが可能だ。Python、R、SAS、すべてのモデルがリポジトリ内で統合的に管理された上で容易に共有活用し、デプロイできる。
ビジュアルUIに関して、SAS Viyaは統合グラフィカルユーザーインタフェース上だけでもアナリティクス・ライフサイクルをシームレスに回すことができる唯一の分析プラットフォームでもある。分析者自身で分析に必要なデータをセルフサービス型に準備でき、準備したデータの中身を探索し、その結果に基づいてモデルを開発できる。完成した予測モデルを、統合的に管理した上で業務に実装し、以降モデルの精度をモニタリングしながら改良改善していくことができる。
アナリティクス・ライフサイクルに不可欠な3つの要素(データ、ディスカバリ、デプロイメント)を網羅
畝見氏はさらに、アナリティクス・ライフサイクルを構成する三つのプロセスに合わせて、SAS Viyaの機能を深掘りした。データの準備においては、従来から提供しているETLツールに加え、マウスだけで操作できるセルフサービス型のデータプレパレーション機能が用意されている。データのプロファイリングからクレンジング、加工変換フェーズを自在に行える。
ディスカバリーのプロセスに関して、SAS Viyaでは様々な分析要件に対応できるように、教師なし、教師あり学習、ディープラーニング、自然言語処理、フォーキャスティング、計量経済分析、最適化など豊富なAI&アナリティクス機能を搭載している。パラメーター値の範囲を設定するだけでハイパーパラメーターの最適値を見つけ出し、ベストモデルを自動生成する自動チューニング機能も搭載するほか、ディープラーニングのオートチューニングや転移学習などにも対応する。もちろん、マウス操作のみのセルフサービス型のデータ探索や分析機能もある。見たい項目を画面内にドラッグすることで、最適なビジュアルを自動的に描き出し、過去の見える化から高度な機械学習まで行える。BIレポートやダッシュボードもセルサービスで作成し、全社で共有することも可能だ。
マウス操作でビジュアルなパイプラインを描き実行することで簡単にモデルを生成できる。また、多彩なテンプレートが用意されていることも特徴。学習用のデータを選択し、予測対象の項目を指定し、テンプレートを選んで実行するだけで精度が高い予測モデルが自動的に生成できる。ビジネスニーズに合わせて、ブラックボックス的、ホワイトボックス的なモデル作成も可能だ。さらに、ビジュアル・パイプライン上で異なる言語(Python、R、SAS)間のモデル精度を比較し、その中からチャンピオンモデルを自動的に見つけ出して教えてくれる機能もある。
デプロイメントのフェーズに関して、多くの企業はココで躓いているケースが多いと指摘する。モデルは開発するものの、研究開発分野だけであったり、POC段階までで、モデルの業務実装に至っていないケースがほとんどだ。こうした課題に対してSAS Viyaでは、実装前に作成されたモデルを統合的に管理した上で、容易なデプロイを可能としている。モデルにテストデータを当てはめてスコアリングのテストを実施したり、実装後のモデルの精度をビジュアルにモニタリングすることができる。精度が下がってきたときには自動的に再学習を行ったり、バージョン管理機能により一世代前のモデルを適用することもできる。そして管理されたモデルをそれぞれ異なる業務要件ごとに最適な環境(In-Memory, In-Hadoop, In-DB, etc)に配置し、最適なタイミング(バッチ、リアルタイム、オンデマンド)でのスコアリングが可能になっている。
3つのガバナンス(データ、モデル、プロセス)に対応
畝見氏はデータやモデルの信頼性を高めるために重要なガバナンスについて紹介した。SAS Viyaは、データ、モデル、プロセスの3つのガバナンスに対応している。まず、データガバナンスにより、IT管理者は各種データソースへのセキュアなアクセスを確保し、そのアクセス制限を中央一元的に管理することができる。その管理下で、分析者はデータソースにアクセスし、必要な加工・変換をおこない、分析用データマートを作成する。そのデータマートは分析者間で共有し活用することができる。
モデルガバナンスは、モデルを統合的に管理することで、容易にデプロイできるようにするためのものだ。
プロセスガバナンスでは、データ統合のプロセス、データプリパレーションのプロセス、モデリングのプロセス、そのモデルを業務に実装する際の意思決定のプロセス。アナリティクス・ライフサイクルに関わる全てのプロセスをグラフィカルなフロー図として描き、実行できることで、プロセス全体の処理の流れを容易に理解できるメリットに加え、最終的には分析業務の標準化、プロセス改変への容易な対応などにも役立つ。
これら3つのガバナンスによって、分析者ごとの冗長な作業や資産を削減でき、それらの資産は分析者間で容易に共有し、再利用し、コラボレーションが促進していく。その結果、人材不足から人材活用へとシフトしていけるようになる。
AI&アナリティクス活用 on コンテナ環境でモデルオーケストレーションを実現
多くの企業のモデル開発環境では、データサイエンティストごとに好みの言語、好みのバージョンが使用され、混在している。その結果、異なるバージョン間における互換性の問題や、最新版に移行させるべきなのか旧版のまま塩漬けなのか、いくつかの課題を抱えている。異なるバージョン環境混在時の対応について、畝見氏は3つのパターンについて、メリットとデメリットを示した。「最新バージョンへの移行」、「異なる言語バージョンのVM環境の保持」、「異なる言語バージョンのコンテナの保持」である。
最新版に移行させる場合、データサイエンティストのメリットは特にない。デメリットは移行の難易度が高く、多大な工数がかかってしまうし、特定のバージョンしか使えなくなってしまうため、データサイエンティストは辞めてしまうかもしれない。IT側では、最新の環境だけを保守すればいいことになるので、運用管理コストを低く抑えることができる。
異なる言語バージョンのVM環境を保持する場合、データサイエンティストは、好みの環境を利用できる。ただし、その環境の起動にはある程度の時間がかかってしまうので、すぐには使えない。IT側では、数多くのVM環境を構築していかなければならないため、ITリソースの消費、運用管理コストが増大する。
そして、コンテナで実装し運用する場合は、データサイエンティストは好みの環境を使いたいと思った時に、スピンアップし、即座に使用できるようになる。IT側では、VM環境と比べればリソース消費を抑えられる。つまり、リソースの効果的な活用が可能になるし、運用管理コストも抑え、ITガバナンスも効かせられる。これにより、データサイエンティストの自由度とITガバナンスを確保できる。ただし、この環境には非常に重要な要素が一つ欠けている。それは数多く開発されるモデルの管理、モデルガバナンスであると畝見氏は指摘する。
ITガバナンスの確保では、異なる言語の異なるバージョンの異なる用途別(モデル開発用やスコアリング用)の数多くのコンテナを用意していくという形態になる。たとえば、DockerコンテナであればKubernetesによるオーケストレーションによって数多くのコンテナ環境に対してITガバナンスを効かせることができる。では、数多く開発されるモデルの管理はどうすれば良いのか。ここでもSAS Viyaが活躍する。
① データサイエンティストは、好みの言語の好みのバージョンのモデル開発用のDockerコンテナをスピンアップし、モデルを開発していく。モデルが出来上がったら、REST APIを通じてSAS Viyaのモデルリポジトリにそのモデルの情報や関連ファイルを登録する。
② 登録した情報はSAS Viyaのモデル管理のGUI上で共有し確認し、管理できる。
③ そしてデプロイ時には、スコアリング用のDockerコンテナがスケジュール指定等で自動的にスピンアップされ、その中でスクリプトが自動実行される。そのスクリプトでは、REST APIを通じてSAS Viyaのモデルリポジトリから実行対象のスコアコードが読み取られ、スコアリングが実行され、
④ その結果の精度情報がSAS Viyaにアップロードされる。
⑤ この精度情報に基づき、SAS Viya上でビジュアルに精度のモニタリングまでが可能になる。
SAS Viyaのモデルオーケストレーションはビジネス側とIT側、つまりDepとOpsの橋渡し役を担うことになる。
畝見氏は続いて、SAS ViyaはエンタープライズセキュリティやITガバナンスの効いた環境であり、ユーザー単位、ユーザーグループ単位で各種コンテンツに対するきめ細かなアクセス制限設定、サーバー管理、監査、モニタリング、統合メタデータ管理、アクセス管理などの全てが一元管理できると強調。メタデータを統合的に管理できることは企業にとって強力な武器になるとした。