Excelを介することで生まれる属人化とデータの質低下
データレイクを構築したことで、IT部門が管理する業務システムのデータ更新の仕組みをエンジニアが設計する企業もあるだろう。その上で業務部門が扱いたいものは、ユーザーがExcelなどをセルフサービスで入れられる。これは一見便利そうに見えるが、データレイクにあるデータを、誰がどこから持ってきて、それをどう加工したかが分からなくなる。つまり、データの信頼性が大きく揺らいでしまうのだ。属人化が進んだ場合も同様だが、透明性がなく信頼性の低いデータで分析して予測結果が出ても「このデータをビジネス判断で使って本当に大丈夫なのか」と、経営層などから問われたときに明確に答えることができない状況になってしまう。
日本の多くの企業はExcelで様々なデータを管理しており、それをBIツールで直接扱ったり、分析用データベースなどに入れたりしている。また、BIツールでレポートやダッシュボードを作り、結果をExcelファイルに出力して経営層に共有することもある。つまり、データ活用のプロセスでExcelが間に入ると属人化が生まれ、データが複製されることで信頼性が損なわれてしまうのだ。
また、専門知識を持ったエンジニアがいる場合、自身でスクリプトを書いて独自データパイプラインを構築してしまうこともある。そうなってしまうとデータ追加や修正は、担当者に依存する。限られたオンプレミスのシステムだけならば、なんとか人手でもデータを集められるかもしれないが、クラウドサービスとなれば限界があるのは明白だ。
現在はクラウドの利用が当たり前となり、米国大手企業では1社で100を超えるSaaSを使っている。日本企業でも数十のSaaSを使っていることは珍しくない。多くのSaaSはデータ取得用のAPIを用意しているため、容易にデータを取得できると考えがちだ。
しかし、APIの仕様はサービスごとに異なり、取得できるデータ形式や一度に取得できるデータ量も違うのが現実。サービスごとにエンジニアがAPI接続のためにコードを書き、データを取得できるようにするにはかなりの手間がかかる。さらにSaaSは頻繁にアップデートされるので、それに合わせて修正の手間も発生する。利用するSaaSが多ければ多いほど、人手でコードを書いて対応するのは現実的ではない。
既にIT部門のエンジニアは多忙を極めており、週のうちの半分以上の時間を業務部門のデータ取得依頼の対応に費やしているとの調査結果もある。人頼みでデータを収集するのは、今や社内のリソースを鑑みると難しい状況だ。そしてせっかくデータが集まっても、人に大きく依存する「野良Excel」や「野良データパイプライン」があれば、データの信頼性は損なわれる。「信頼できないデータをいくら集めても、そこから得られる答えは使い物になりません」と疋田氏は指摘する。
誰でもすぐにデータを収集できる環境を実現するには
このような課題が見られる中、属人性を排し、業務部門などが欲しいデータをタイムリーに収集できる環境を実現できるのが「CData Sync」だ。これを使えば、GUIベースの操作、そしてノーコードで簡単にデータパイプラインを構築できる。SaaSやオンプレミスのアプリケーション、各種データベースやファイルなど400を超えるコネクタが用意されており、それらはCDataにより常にメンテナンスされている。その実績から200を超えるアプリケーションやサービスのベンダーが、データ連携にCDataのコネクタをOEM提供している。「対応するデータコネクタの数は世界で最も多く、世界一信頼されたコネクタと言えるでしょう」と疋田氏は自信をみせる。
EAIツールでは、データ取得の履歴を残して差分だけを取得するには、多くの場合、複雑なフローを組んでスクリプトなどを記述する必要がある。一方、CData SyncならばGUIベースの操作で設定するだけで実現できる。他にもデータベースのCDC(変更データキャプチャ)、SaaS の差分更新機能、ニアリアルタイムのデータ転送、スキーマ変更の自動追従、データ型の検出、データベースやデータウェアハウスからSaaSへのデータ書き戻しを行うリバースETL、カスタムSQLでの柔軟なデータ操作など多彩な機能を提供している。CData Syncの設定はかなりシンプルで「エンジニアでなくても使えます」と疋田氏は語る。
また、CData Syncはデータの格納先も多様だ。Microsoft AzureやAWSなどのクラウドプラットフォーム、あるいはオンプレミスのサーバーにもホスティングでき、それらの上で動く多様なデータウェアハウスやデータレイクにデータを同期できる。