データ分析・統計の仕事で必要な基本知識
2日間のセミナーの冒頭で、西内氏はデータ分析・統計の基本的な考え方と取り組み方法について以下のように示した。
最低限のツールを使いこなそう
統計解析やデータマイニングについての基礎知識がなければ、データ分析はできない。そのためには、最低限何らかのツールを使いこなせることが必要だ。ツールはRでも、SASでもよい。GUIを扱いたければ、SPSSもある。RやSASをベースに、より使いやすくしたものも各種ある。分析ツールを使えるというだけでなく、統計学の基礎がわかっていると、レコメンドエンジンなども意外と簡単にスクラッチでアルゴリズムを書くこともできる。
データベースの基本を抑えよう
ビジネスの現場では、担当者のエクセルシートで住所録が管理されているというようなケースもある。それも1つのデータである。そうした場合以外には、一番重要なデータはリレーショナルデータベース(以下、RDB)に入っていることが多い。これらのデータは、そのままでは解析はできないので、「解析可能な状態に形に加工する」という作業が非常に重要となる。いろいろなデータを解析可能な形にまとめていくのにもっとも便利なツールがSQLである。データベースとSQLの基本知識があれば、一通り分析はできると考えてよいだろう。
『ハーバードビジネスレビュー』をちょくちょく読む
ビジネス現場の「もやもやした」経験値や感覚値を拾い出してしていく上で、分析者自身がビジネス視点を持っていることは強みになる。ビジネスに直結する学問としては経営学だが、心理学などでもよいので自分の興味の持てる社会科学系の学問の最新の動向を勉強しておくとよい。おすすめの勉強法は、『ハーバードビジネスレビュー』にちょくちょく目を通しておくこと。経営学の新しい視点が紹介されているので、分析について、顧客が気づいていない仮説を提案するためのヒントなどが得られる。
統計学で何ができるのか?
では統計学で何ができるのか?大きくいえば、以下の3点である。
1. 無数にあるデータ中の値を「1つの値」に集約する
たとえば、10000個の数字の羅列を見ても何だかよくわからないが、情報量は削られても、たとえば「平均」といった1つの値に集約されると、その意味が見えてくる。
2. データをわかりやすく比較する
分析とはつまり比較すること。例えば、プランAとプランBの収益差の比較を行う事で、はじめて次の施策をどうするか?の検討につなげることができる。
3.今後を予測する
比較の結果を生かし、その変数によって将来のの傾向を予測することも可能になる。その予測に基づき、在庫の最適化などを計画できる。
以上の3つができるようになれば、統計学がわかったといってよいだろう。
どう分析するかより何を分析するか、が重要
現場で事業に関わっている人たちから話をいろいろ聞く(仮説のヒアリング)、現在どんなデータがあるのかを確認する(既存データレビュー)を踏まえ、データを解析可能な形に結合/加工するという「何を分析するか」を決めるデータ整備は、解析方針の検討・コーディング・レポート作成といった「どう分析するか」よりも労力がかかる部分である。というよりも、データは解析方針に沿って整備されていなければならないので、解析方針の検討はデータ整備に既に含まれているといえる。データ整備ができていれば、実は分析にはほとんど時間はかからない。
ヒアリングを行いデータを拾い集める、まるで「考古学者」のような活動がなぜ重要かというと、ビジネスデータが蓄積されたRDBのドキュメントについて管理者自身もよく把握していない謎のデータ項目があったり、別の部署や紙で管理しているデータに実は重要なものがあったりするからである。
センスよりもセオリー、分析の目的は「儲けのため」であるべき
データ分析にセンスが必要だ、データサイエンティストはそのセンスの高い人だというのは、西内氏に言わせればウソだ。このセミナーでは「何を分析するか」という本質についての講義が中心で特定のツールに依存した指導はしないが、便宜上、フリーソフトを利用し、データ加工にはSQL(TKSQLite)、統計解析にはRを用いておこなう。
顧客に「なぜ、分析したいのか」を尋ねると「何となく」「何かがわかりそう」「最近流行っているから」という答えが意外に多いが、正しい答えは「儲かるから!」であるべきだ。
たとえば、ECサイトで購買金額が低い顧客と高い顧客を比べ、高い顧客のほうがトップページからよく商品名の検索をしていることがわかったとする。この分析結果から「検索中心のユーザーを増やせば売り上げが上がるのではないか」または逆に「この検索を使いにくくすると、ユーザーの導線が切れて、売り上げが下がるのではないか」といった仮説が立てられる。そこから、検索を使いやすくするといった利益拡大のための施策につなげられる。このように施策に役立てることがデータ分析の意義である。この他にも、「サーバーが落ちた日と正常だった日」、「契約を取れる社員とそうでない社員」、「廃棄率が高い商品とはけやすい商品」の比較など分析例はいくらでも考えられる。
これらの例に共通しているのは、「理想的な状態とそうでない状態とを比較している」ということだ。まず、利益につながる理想的な状態(売り上げ、契約数、廃棄数(少)など)を定義する。その状態をコントロールできれば、間接的に利益は上がるはずだと考えられる。
廃棄削減が利益につながることはわかっていて、在庫の廃棄をなくしたいと思っていても、何らかの手がかりがなくては実際には在庫を減らせない。この商品の仕入れをちょっと減らそうかなといった経験や勘ではなく、データに基づき、理想的な状態を左右している裏にある要因を発見できれば、その要因にアプローチすることはできるかもしれない。このように、間接的に動かせるものを見つけられれば、データ分析は成功したことになる。
SQLによるデータ処理とRによる分析を実践指導
上の基本に基づき、西内氏は2日間にわたり、徹底した実践指導をおこなった。講義の後は、データ項目からどのような分析視点が見出せるか?についてグループディスカッションを行う。その後は演習に移り、受講者は分析用データの作成に取り組んだ。配布されたいくつかの演習用ビジネスデータ(CSVファイル)をTkSQLiteに読み込み、SQLでデータを加工しながら先のディスカッションで洗い出した分析視点(説明変数)をデータ化していく。
ここで西内氏が強調するのは、この説明変数について考え抜くことの重要性だ。たとえば、「顧客のこれまでの総購買金額」について顧客IDを解析単位として分析する際には「購買商品に占める商品ジャンル割合」、「1決済あたりの平均商品点数」など、いろいろな変数が考えられる。分析目的に合致する変数を効率的に見つけられるようになるのはとにかく練習しだいだという。
参加者はSQLでの解析用データの加工と、Rでの多変量解析をトピックごとに繰り返し行う。初日までで、一連の分析のエッセンスを一気に体感できる
受講にはデータベースとSQL文に対するの一定の理解が必要だが、西内氏の説明は明快でわかりやすく、実際のデータやツールを使った演習ゆえに、ビジネスに直結するデータ分析を腹落ちして理解できる内容となっている。
2日間にわたるこの研修、TISでは現在プライベートな形式で開催しているが、今後オープンな参加形式でも開催する予定とのことなので、データ分析を業務に活かしたい方にはぜひ参加をおすすめする。
『 統計家 西内啓の ビジネスに活かす統計解析実践セミナー 2日間 』
▼カリキュラム監修・主席講師
西内啓(にしうち ひろむ)
東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ハーバード がん研究センター客員研究員を経て、現在はデータに基づいて社会にイノベーションを起こすための様々なプロジェクトにおいて、調査、分析、システム開発および戦略立案に関するコンサルティングを統計家の立場から提供している。
▼企画主催
TIS株式会社 産業事業本部 東日本産業事業部 ストラテジックソリューション営業部
▼詳細・申込み