データの前処理はデータ分析における長年の課題
──はじめに、truestarと藤さんについて紹介をお願いします。
truestarで代表取締役社長をしております、藤 俊久仁です。truestarは、データ分析やデータ可視化に関するコンサルティングやエンジニアリングを得意としており、既に10年以上の実績があります。実は、2019年に共著で『データビジュアライゼーションの教科書』(秀和システム)を執筆しており、効率的かつ効果的に仕事をすることにこだわりをもっています。
──「Data for Good」受賞おめでとうございます。まずは、率直な感想をお聞かせください。
今回、受賞理由にも挙がっている「Prepper Open Data Bank」は、加工済みのオープンデータを無償共有しているものです。コロナ禍で会社として苦しい時期に取り組み始めたのですが、無償提供していることもあり開発メンバーたちは、ちょっと肩身の狭い思いをしていた部分もありました。その中で、こうしたアワードをいただけることは、本取り組みにおける社会的価値を外部から認めていただいたことでもあるため、メンバーの努力が報われることになりました。非常にありがたいと感じています。
──メンバー皆さまの反応はいかがでしたか?
受賞を社内ツールで共有したのですが、ハートマークをたくさん貰いましたね。ここで、たくさんのコメントを出せればよかったのですが、コメントをする性格のメンバーが少なく…(笑)。
──ありがとうございます(笑)。「Prepper Open Data Bank」について、改めて教えていただけますか。
「Prepper Open Data Bank」における一番の特徴は、データ分析の作業を「超時短」できることです。データ分析では事前にデータを探す、ダウンロードする、加工する、保管する、更新するといった作業が必ず発生します。しかし、本サービスを使うことで、いきなりデータを分析できるようになります。データ分析を一度でも経験した人ならば、時間を短縮できる価値がすぐにわかると思います。
──前処理は、データ分析における長年の課題だとか。
私自身、20年近くデータ分析に携わってきていますが、データ分析における“前処理の課題”というのは今に始まったものではなく、とても身近な問題です。これまでは、当たり前のように前処理をせざるをえなかったというのが実状です。
一方、ここ数年のうちにデータそのものが充実してきており、データ分析のツールやソリューションも登場したことで、多くの企業で当たり前のようにデータ分析を行えるようになりました。我々は、これまで当たり前だった課題を解決し、多くの日本企業に役立つサービスとして提供しております。データ分析の領域においても何かできないかと思っていたところ、今回のサービスに行き着きました。
かつてはデータを集めるだけで何日もかかることがあったのですが、この苦しさはデータ分析に携わった人しか知らない、わからないという難しい領域です。課題は実在するのに、お金がつかない領域でもあるため、まだまだ認知されていません。
ただ、どのような企業でも同様の問題には直面しますし、(放置すれば)今後広がると考えています。データ分析における前処理がすべて要らなくなることは、とても画期的なことです。
──他にもどのようなメリットがありますか?
データ分析者の時間を有効活用できると考えられます。本来データ分析は、分析した結果をどうビジネスに生かすかというところに時間を使わなくてはいけないのですが、前処理に多大な時間を費やしているのが現状です。しかし、「Prepper Open Data Bank」で提供しているデータなら前処理を終えているので、本来データ分析者がやるべきところに時間を使うことができます。これは、とても大きなメリットだと考えています。
また、データ分析の前処理においては、引き継ぎも課題として挙げられます。データ分析では、ぐちゃぐちゃなデータを試行錯誤して加工していくため、どうしても属人化しがちです。しかし、「Prepper Open Data Bank」のデータなら前処理は終えていますので、複雑な処理の繰り返しや引き継ぎも発生しません。そのため、運用のコストを大きく下げることにもつながります。
活用の幅も広い「国勢調査データ」
──「Prepper Open Data Bank」は、どのようなユーザーを想定されていますか?
基本的にはデータ分析者です。本サービスを2021年8月にリリースしたとき、多くのお客様からお声がけいただきました。元々、商圏分析やエリアマーケティングで使われているデータを提供していたため、今回の国勢調査データを使用するユーザーも同じ方たちだと思っていたのですが、実際には想像以上に幅広いユーザーがいるのだと認識するきっかけにもなりました。
もしかしたら現段階で「Prepper Open Data Bank」をお使いの方々は、実際に国勢調査データを使っていた、あるいは使っているのかもしれません。これまでは、前処理について「面倒くさい」と思いながら利用されており、「(加工済みが使えるなら)これにしよう」と使っていらっしゃる方が、実は多いのではと考えています。
──いつごろからこのサービスの開発に着手したのですか?
サービスの開発に着手したのは2021年春ごろからです。元々、特定のお客様向けにオープンデータを収集してライブラリにまとめるといった、近しいサービスをご提供させていただいておりました。こうしたニーズがあることはわかっていたので、今回は無償提供でサービス化することにしました。
ちょうどコロナ禍で、コンサルティングサービス以外でもマネタイズする必要があるだろうと、新規事業を模索していたところでした。データの前処理が課題になるのは明らかでしたし、過去に似たものを提供していたので「これをまたやってみてもいいのでは」と思いつき、一旦やってみようと取り組んでいます。
──第一弾として、なぜ国勢調査のデータを選ばれたのでしょうか?
第一に、弊社の活用事例で多かったのが「国勢調査の人口統計データ」だったという実績があることが理由として挙げられます。また国勢調査のデータだと商用、二次利用可能という点も大きいですね。日本ではオープンデータでありながら、商用、二次利用不可とするデータが結構沢山ありまして…。そのため、利用規約から見ても、国勢調査のデータならば手軽に使いやすいところも理由の一つです。
今回、無償提供しているものでは「人口統計データ」が中心となっており、商圏分析や需要予測、マーケティングの費用対効果を予測するようなシーンでお使いいただけるかなと予想しております。もちろん、これらの用途に限られない活用方法もあると考えています。
いつだってデータは料理の具材でしかありません。我々は下ごしらえをした具材を提供しているだけですので、その先にどう使うかはデータ分析者の腕の見せ所であり、色々な使い方があると思います。
──国勢調査データは社内でも活用しているのでしょうか?
弊社内では、新規の需要予測案件、既存の可視化案件でも活用できるのではと考えています。また、本データと複数の他データソースを組み合わせた「Prepper POI」というサービスをリリースしています。
──今回、無償で提供した意義や目的を教えてください。
我々は有償サービスを用いてデータを活用しているのですが、その過程で作成したデータは誰でも使えるデータです。それを金庫に閉じ込めておくのかシェアするか考えたとき、「ギブ&テイク」はギブから始まることもあり、ギブを選択することにしました。
結果としてブランドの認知、技術力の向上などを訴求する機会が増えました。本業のコンサルティングやエンジニアリングのサービスに好影響を与え、新規案件獲得にもつながっているためよかったと思っています。
適切なオープンデータが普及する日を目指して
──オープンデータを加工して共有することの意義はどこにありますか?
オープンデータのほとんどが「オープンにすること」が目的化してしまい、その先の利活用にあまり目が向いていないと思います。つまり、ユーザーからすると使いづらいのです。本来、オープンデータは利用価値が高いはずなのに、共有方法があまりよくないため、データの価値が十分に発揮できていないのが実状だと思います。
現在、「データは21世紀の石油」といわれています。オープンデータも原油のようなものです。精製しないと使えず、せっかくの資源が有効活用できていません。データの使い勝手が向上し、利用者が増えればネットワーク効果でオープンデータの質と量も向上するのではないかと期待しています。
昨年には、気象庁の気象データも公開しました。今後も引き続き、利用者が多く、データ分析に活用しやすいデータのラインアップを増やしていこうと考えています。また、2021年11月30日に総務省統計局より「令和2年国勢調査 人口等基本集計」が公表されたように、既に共有済みのデータ更新も行っていく必要があります。今後は、時系列での分析がしやすくなる環境も整えていきたいと考えています。
現状は、オープンデータの使い勝手がよくないために加工して提供しているのですが、データ所有元が使い勝手のよい形で、簡単にアクセス可能な場所で共有してくれれば「Prepper Open Data Bank」は、お役御免になります。その日が来ることを信じつつ、それまではデータ分析者を下支えするオープンデータ基盤になれるように環境整備に努めたいと思います。
──データ共有の場として、「Snowflake データマーケットプレイス」を選ばれていますね。
最初は自前で共有しようと考えました。そうすると、自分たちで基盤を構築/運用しなくてはなりませんし、コストもかかります。どうしようかと模索していたところ、社内でSnowflakeを紹介してくれた人がいたことがきっかけでした。
調べてみると、Snowflakeにデータ共有に関する機能が十分に備わっており、メンテナンスコストも極めて低い。加えて、特定のクラウドベンダー、特定の分析ツールやソリューションと独立していることが決め手になりました。やはり、ベンダーロックインが起こらないことが重要なポイントだと考えていたので。
Snowflakeなら(ユーザーがクラウドを使うことが前提になるものの)主要クラウドベンダーを選ばずに利用でき、自分たちの環境にデータがあるかのように使えます。どこかから取得して使わなくていけなかったり、アクセスが制限されたりすることもないため、ユーザーにとっても大きなメリットになると思います。
──Snowflakeの使い勝手はどうでしたか?
元々使いやすさが売りだと思いますが、特に引っかかるところなく使えましたね。逆に私たちのほうが機能を知り尽くしていないために「使いこなせていないのでは」と思っているくらいです。また、社内で勉強会を開催したり、有志のユーザーグループで情報共有をしたりしています。とはいえ、習得する以上のスピードで新しい機能が次々に出てきているため、中々追いつけていません(笑)。
そのため、まずはSnowflakeが持つ機能を十分活用できるように知識や技術力を磨いていきたいと思います。サービスの使い勝手が良くなれば、さらにデータが使われるようになり、我々が提供する価値も増えていくと思います。
そして、引き続きSnowflakeには我々も含めたユーザーが驚くような機能を出し続けてほしいと思いますね。日本において、データ分析はまだまだこれからという段階です。この領域を盛り上げ、けん引役になってもらえるといいなと期待しています。
──最後に、御社の展望を教えてください。
メインとしているデータ分析やデータエンジニアリングの領域には取り組み続けていき、データ前処理の領域においては前述した通り、課題が増えていくと踏んでいます。そのため、後方支援できるようなソリューションを提供したいと考えています。
昨今、“データドリブンな意思決定”が話題になっています。我々truestarが黒子として、そうした意思決定を推進し、効率的に行えるような役目を果たしていきたいですね。