EnterpriseZine Press（AD）

データ活用の裏に見えるIT部門の疲弊……“誰でもすぐに”を叶えるデータ収集環境の構築術とは

データ収集の属人化を解消！データパイプラインツールで実現する効率的なデータ活用基盤

2024/07/08 10:00

通知

　ここ数年で、データウェアハウスを構築し、BIツールと組み合わせてデータ活用やデータの民主化に取り組む企業は増えてきた。一方で、社内のデータを活用したくてもデータがサイロ化していたり、作業の属人化により再現性が低かったり、IT部門の負担が大きかったりなど、実際にデータを使える状態にするまでの過程で課題は山のように挙げられる。どのようなデータ収集のパターンがあり、そこに潜む課題は何か。どうすればそれを解決できるのか。CData Software Japan 代表社員職務執行者の疋田圭介氏に話を聞いた。

通知

データドリブン経営を実現するカギは「データの質」

　「データドリブン経営」は、もはや珍しい言葉ではない。とはいえ、経営者が自信を持って「取り組めている」と言える企業はまだ少ないだろう。国内企業の多くが中期経営計画などに「データを活用したDXの取り組み」や「データに基づく経営」などの言葉は取り入れているが、その成果には相当なばらつきが見られる。

　一方、データウェアハウスを構築し、BIツールでデータの見える化を実現している企業もあれば、データレイクを構築し、セルフサービスBIを組み合わせてビッグデータ活用やデータの民主化に取り組む企業もある。ここ数年、これらの動きが進む中、新たに問題として浮かび上がってくるのが「データの質」だ。これまでは、データがサイロ化したため欲しいデータが手に入らず、やりたい分析を思うように実現できないことが課題だった。データウェアハウスやデータレイクなどのデータ活用基盤である程度解決できるが、それらに蓄積するデータはIT部門の担当者がかなり手間をかけて集めているのが実情だ。そのためIT部門はかなり疲弊しており、将来的に人手不足が予測される中、この状況を解消できなければ真に効果を発揮するデータドリブン経営はままならない。

　様々なデータを集めたデータレイクのようなものはあるが、顧客に関するデータは営業担当者などがExcelなどのフォームに入力していて、それをIT担当者が集約しデータを集めている場合も少なくない。この方法では、ビッグデータ活用においてデータに求められるボリュームや鮮度、データの正確性などの面に不安が出る。Excelは慣れたツールで誰でも使えることが利点だが、データ収集作業が極めて属人化されやすいことが大きな問題だ。

　また、IT部門の担当者が業務システムなどからCSV形式などでデータを抽出し、それを手作業で分析用データベースにロードするようなケースもある。この方法であればボリュームのあるデータの取得も問題なく実行できるだろう。人手を多く介さないので、データの正確性も向上する。とはいえ、担当者が作業するので属人性は変わらず、複雑なデータ処理も難しくなってしまう。

　柔軟なアプリケーション間データ連携が可能なEAIツール（Enterprise Application Integration）を用いて、ETLの仕組みを構築する方法もある。このやり方は、データ鮮度を向上させ属人化の懸念もなくすことができるが、多様なデータソースに対応したい場合はAPI連携コネクタの開発作業が発生する。また大量のデータを扱いたい場合、効率化のために差分データを取得する仕組みを作る必要もあるが、EAIツールの導入・ランニングコストは高い状況だ。

　コストを考えると、BIツールにデータソースへアクセスするコネクタがあり、それが活用できれば比較的安価にデータパイプラインが実現できるかもしれない。とはいえこの方法も、膨大なデータを扱うにはEAIツールと同様差分を取り込む仕組みの構築などが必要となる。データソースに対応するコネクタがなければ、アクセスする仕組みをAPIを用いてコードを書き構築するか、コネクタを外部から調達しなければならないのだ。

80%の米国企業が使っているツール、日本の利用率は25％？

　データドリブン経営で先行する米国では、8割近くの企業がデータレイクなどにデータを集めるためにデータパイプライン用ツールを用いて効率化を図っているという。一方日本では「データ収集にツールを利用している企業は25％程度しかなく、さらに65％の企業が今後もツールを使うつもりがないと回答しています」と指摘するのは、CData Software Japan 代表社員職務執行者の疋田圭介氏だ。日本の多くの企業では、データウェアハウスやデータレイクを構築しても、データ収集は人に大きく依存しているのが現状だ。

　実際、ツールを使わずスクリプトを記述して各データソースのシステムからCSVをエクスポートし、分析用データベースにロードするバッチ処理を行っているような企業は多い。長年この方法で運用しているならば、かなり複雑なバッチジョブが動いているだろう。人がスクリプトを書けばツールコストは発生しないが、その分属人性がかなり高くなる。

　上記のような運用を行っている企業には、ソースのレガシーシステムにも精通し、長年にわたりスクリプトのメンテナンスを担当してきたベテランエンジニアがいるだろう。その人が転職などでいなくなれば、データパイプラインの仕組みはブラックボックス化しかねない。システム環境の変化や業務部門の要求に応じて適宜修正を加えてきた「人力データパイプライン」では、マニュアルや詳細な仕様が分かるドキュメントもなく、もはや誰も手を付けられない。そんな状況は容易に想像される。

Excelを介することで生まれる属人化とデータの質低下

　データレイクを構築したことで、IT部門が管理する業務システムのデータ更新の仕組みをエンジニアが設計する企業もあるだろう。その上で業務部門が扱いたいものは、ユーザーがExcelなどをセルフサービスで入れられる。これは一見便利そうに見えるが、データレイクにあるデータを、誰がどこから持ってきて、それをどう加工したかが分からなくなる。つまり、データの信頼性が大きく揺らいでしまうのだ。属人化が進んだ場合も同様だが、透明性がなく信頼性の低いデータで分析して予測結果が出ても「このデータをビジネス判断で使って本当に大丈夫なのか」と、経営層などから問われたときに明確に答えることができない状況になってしまう。

　日本の多くの企業はExcelで様々なデータを管理しており、それをBIツールで直接扱ったり、分析用データベースなどに入れたりしている。また、BIツールでレポートやダッシュボードを作り、結果をExcelファイルに出力して経営層に共有することもある。つまり、データ活用のプロセスでExcelが間に入ると属人化が生まれ、データが複製されることで信頼性が損なわれてしまうのだ。

　また、専門知識を持ったエンジニアがいる場合、自身でスクリプトを書いて独自データパイプラインを構築してしまうこともある。そうなってしまうとデータ追加や修正は、担当者に依存する。限られたオンプレミスのシステムだけならば、なんとか人手でもデータを集められるかもしれないが、クラウドサービスとなれば限界があるのは明白だ。

　現在はクラウドの利用が当たり前となり、米国大手企業では1社で100を超えるSaaSを使っている。日本企業でも数十のSaaSを使っていることは珍しくない。多くのSaaSはデータ取得用のAPIを用意しているため、容易にデータを取得できると考えがちだ。

　しかし、APIの仕様はサービスごとに異なり、取得できるデータ形式や一度に取得できるデータ量も違うのが現実。サービスごとにエンジニアがAPI接続のためにコードを書き、データを取得できるようにするにはかなりの手間がかかる。さらにSaaSは頻繁にアップデートされるので、それに合わせて修正の手間も発生する。利用するSaaSが多ければ多いほど、人手でコードを書いて対応するのは現実的ではない。

　既にIT部門のエンジニアは多忙を極めており、週のうちの半分以上の時間を業務部門のデータ取得依頼の対応に費やしているとの調査結果もある。人頼みでデータを収集するのは、今や社内のリソースを鑑みると難しい状況だ。そしてせっかくデータが集まっても、人に大きく依存する「野良Excel」や「野良データパイプライン」があれば、データの信頼性は損なわれる。「信頼できないデータをいくら集めても、そこから得られる答えは使い物になりません」と疋田氏は指摘する。

誰でもすぐにデータを収集できる環境を実現するには

　このような課題が見られる中、属人性を排し、業務部門などが欲しいデータをタイムリーに収集できる環境を実現できるのが「CData Sync」だ。これを使えば、GUIベースの操作、そしてノーコードで簡単にデータパイプラインを構築できる。SaaSやオンプレミスのアプリケーション、各種データベースやファイルなど400を超えるコネクタが用意されており、それらはCDataにより常にメンテナンスされている。その実績から200を超えるアプリケーションやサービスのベンダーが、データ連携にCDataのコネクタをOEM提供している。「対応するデータコネクタの数は世界で最も多く、世界一信頼されたコネクタと言えるでしょう」と疋田氏は自信をみせる。

　EAIツールでは、データ取得の履歴を残して差分だけを取得するには、多くの場合、複雑なフローを組んでスクリプトなどを記述する必要がある。一方、CData SyncならばGUIベースの操作で設定するだけで実現できる。他にもデータベースのCDC（変更データキャプチャ）、SaaS の差分更新機能、ニアリアルタイムのデータ転送、スキーマ変更の自動追従、データ型の検出、データベースやデータウェアハウスからSaaSへのデータ書き戻しを行うリバースETL、カスタムSQLでの柔軟なデータ操作など多彩な機能を提供している。CData Syncの設定はかなりシンプルで「エンジニアでなくても使えます」と疋田氏は語る。

　また、CData Syncはデータの格納先も多様だ。Microsoft AzureやAWSなどのクラウドプラットフォーム、あるいはオンプレミスのサーバーにもホスティングでき、それらの上で動く多様なデータウェアハウスやデータレイクにデータを同期できる。

多様なデータソースから“信頼できるデータ”を集める

　CData Syncでは、それぞれのデータソースへの接続情報を明確に記録する。これにより、どのデータソースからどのようなデータを取得したのかを明確に把握できる。データの変換処理をGUIで定義し、その内容を記録。データがどのように変換されたのかも追跡できるため、分析結果の信頼性も向上されるという。

　またジョブの実行履歴を記録し、いつ、どのデータが抽出・変換・ロードされたのか、エラーが発生した場合はその内容も記録する。これらの情報は、データの整合性や処理の信頼性を証明する上で極めて重要だ。その上でユーザーの操作履歴を監査ログとして記録し、誰が、いつ、どのような操作を行ったのかを追跡することも可能。これらの機能により、収集したデータや分析の結果に対する説明責任を果たせる。

　多くの企業が、人手に頼ってデータを集めている。それでもなんとかデータ活用はできるかもしれない。しかし、「今後活用規模を拡張して全社でデータを活用したい」「生成AIなど新しい技術でも、社内のデータを使いたい」。こうした要望への対応を、属人化したまま進めるのは限界がある。求められるのは、安定して信頼性のあるデータを、人手をかけずに収集できること。集めたデータに対し透明性を確保し、説明責任を果たせるようにすること。「それを解決できるのが管理されたデータパイプラインであり、CData Syncです」と疋田氏は言う。

　IT部門が忙しすぎて疲弊している。欲しいデータを手に入れるのに1ヵ月以上かかる。経営層に分析結果について質問されても、自信をもって説明できない。そのような課題を抱えているなら、ぜひ一度、ツールによるデータパイプライン構築、管理を検討してほしい。その際には、世界で最も信頼されたコネクタを要するCData Syncを候補にしてほしいと疋田氏は強調する。