AWSとETL、データ分析ツールを連携活用
今回のデータ分析基盤は、グローバルで利用するものだ。そのため「AWSを使っていることが、海外との共通言語になるのもメリットでした」と上野氏は言う。構築したデータレイクの環境では、リポジトリはデータの種類に応じAmazon S3、Amazon EMR、Amazon RDS、Amazon Redshiftのサービスを使い分けている。さまざまなデータソースからデータを取得しリポジトリに格納するためには、サードパーティーのETL「Informatica」のサービスを採用している。Informaticaは、分析前のデータクレンジングなどData Preparation処理でも利用する。

データ分析ツールとしては従来使っていたSASやTableau、機械学習のためにはPythonやサードパーティーの「AutoML」も新たに利用する。またトレーサビリティなどのデータガバナンスの確保には、Informaticaのデータカタログ機能が使われている。
データの種類ごとにリポジトリを分け、それらに各種AWSのサービスやサードパーティーツールなども組み合わせて構成されており、端から見るとデータ分析基盤の構成はかなり複雑で構築や運用に手間がかかりそうに見える。とはいえこの構成は多くの課題を解決するための要件を満たしていった結果であり、「それほど問題だとは感じていません」と上野氏。海外グループ会社の担当者に「何故この構成になっているかを説明するのは、少し大変でした。理由や運用ルールについて丁寧に説明し理解してもらいました」とも言う。
複雑化するデータガバナンス課題をInformaticaで解決
今回第一三共で構築したデータ分析基盤では、Informaticaのツールが鍵となっているようだ。InformaticaのようなETL機能を提供し、容易にデータレイクを構築するためのサービスとしては、AWSにも「AWS Lake Formation」がある。これについては第一三共でも関心があり事前に話を訊いたが、PoCを始めた2019年の6月頃はまだサービスとして成熟していない印象だった。結果的に「データレイクのデータがどこから来て、誰に対しどのような利用制限をかけるかなどの管理を、ITに詳しくない人でもノーコード、ローコードで行えるか。それを考えた際には、Informaticaを選ぶこととなりました」と上野氏は言う。
第一三共では製品や技術の選択方針として、クラウドファーストを掲げている。なので自分たちの要件に合うSaaSがあれば、積極的に採用する。次の選択肢は、クラウド上に必要なサービスを構築することとなる。それも難しければ、オンプレミスで仕組みを構築する。今回はキーとなるETLやData Preparation、データカタログ機能などは、InformaticaをAWS上に実装し実現したわけだ。
また複数のデータリポジトリを用いたことで、アクセスコントロールをどう実現するかのところは苦労したようだ。この課題にもInformaticaのデータカタログ機能を用いてデータの区分けとユーザー権限を整理し、それをセキュリティ設定に反映するようにしている。現状、大規模なデータレイクを構築する際に、データカタログをどのように持てば良いかのベストプラクティスがまだ充実していないと上野氏は指摘する。これについては、サポートしてくれるパートナーと一緒に学び取り組んだ。