データサイエンティストを疲弊させてきた“分析前処理”が「Gemini」で改善!活用法を実例で解説
#6:Geminiと協働するデータサイエンス業務の新しい形
第6回は「Geminiと協働するデータサイエンス業務の新しい形」と題して、データ分析業務における具体的なGeminiの活用事例を紹介します。執筆は、auコマース&ライフの奥野が担当しました。データサイエンティストとして、弊社が運用する総合ショッピングサイト「au PAY マーケット」の主要KPIの動向レポートやユーザー行動の分析など、事業推進に必要な統計解析を行っています。今回はそうした実務から得られた知見を共有します。
分析前業務が簡便になることで、より本質的な分析に注力
Gemini登場以前のデータ分析業務では、データの抽出・集計、可視化、モデルの実装といった分析の準備にあたる作業に多くの時間と労力がかかり、結果の評価や考察に十分な時間が取れないという場面も多かったと感じています。
しかし、Geminiの登場により、これらの課題に対する新たな解決策が見出されました。Geminiは、自然言語の指示でデータ抽出・集計、グラフの作成、さらには数理モデルの実装まで、幅広い分析作業をサポートしてくれます。そのため、これまで面倒だった作業が自動化・短縮され、分析者は「結果の評価・考察」といったより本質的な業務に集中できるようになりました。
また、Geminiとの協業は、コスト削減だけでなく、クリエイティブな側面においても大きなメリットをもたらしています。たとえば、統計を評価し考察をつけるステップにおいて、一人では思いつかないような多様なアイデアを提案してくれるため、質の高い分析作業が可能になります。私自身も業務体験そのものが大きく変化していると実感しています。
それでは、実際にGeminiをどのように活用し、コスト削減や分析品質向上の効果を実現しているのか、具体的な事例を交えながら詳しくご紹介していきます。
活用事例1:性年代別に訴求力を持つ商品キーワード分析
膨大なデータから特定のユーザー層に響く情報を効率的に見つけ出すことは、事業戦略の立案において重要です。
本章では、メルマガコンテンツをパーソナライズする際、ターゲットの関心が高いであろう内容を提供することで、コンバージョンの向上を狙うというビジネス要望に対し、性年代別に購買されやすい商品キーワードをGeminiと一緒に分析していくことで、ユーザー層の興味関心に関する示唆を得た事例を紹介します。
技術調査と分析設計
今回、各キーワードについて、ユーザー属性別の購買しやすさを評価するために「正規化自己相互情報量(NPMI)」という指標を用いました。まずは、この手法についての調査を行います。こういった技術調査には、Deep Researchがおすすめです。Deep Researchに次のように聞いてみましょう。
正規化自己相互情報量をつかってユーザーの特徴や興味関心について分析した事例について調べてください
このプロンプトでDeep Researchを実行すると、NPMIの理論的解説から社会実装された具体的な事例まで、引用元のついたレポートをまとめてくれます。
図1:Deep Researchの結果(抜粋)
クリックすると拡大します
自分一人では丸一日かかっても終わらないようなレベルのレポートが数分で作成されるのです。後は気になる部分を読み込んでいくことで、手法の特徴や注意すべき点、利活用事例を押さえることができます。ここで得られた事前知識を元に、改めて今回の分析設計を進めました。今回は、ある性年代のユーザーがある単語を商品名に含む商品を購買した数をもとにNPMIを計算し、関連性を評価することにします。こうすることで、NPMIが1に近い単語ほどその性年代が購買しやすいキーワードという解釈ができるようになります。
データの可視化
続いて、分析対象のデータの特徴を把握するため、可視化を行っていきます。対象データは各キーワードについて、ユーザーの性年代別のNPMIを計算したデータとなります。商品キーワード(下記の例では「いびき」や「低反発」など)と性年代(20代女性、20代男性など)の組み合わせで傾向を確認したいところですが、数多く存在するキーワードをすべて手作業でチェックすることは非現実的です。
図2:データ例(キーワードと性年代のかけ合わせでNPMIを計算した結果一覧)
[クリックすると拡大します]
この課題に対しては、スプレッドシートのGeminiサイドパネルがパートナーとなります。キーワード毎に性年代別のNPMIの棒グラフを可視化する際、スプレッドシートのサイドパネルから自然言語で指示を入力するだけで、GeminiがPythonのコードを自動生成・実行し、グラフを出力してくれます。実際にスプレッドシートのデータから、特徴的なデータをGeminiで抽出してグラフ化してみましょう。
このデータからNPMIが高い・低いキーワードと性年代の組み合わせをそれぞれ10個抽出してください
図3:スプレッドシートのサイドパネルでの抽出結果イメージ
[クリックすると拡大します]
これで、特に購入につながりやすい・つながりにくい性年代とキーワードの組み合わせが抽出されるので、それらをピックアップして可視化して状況を確認します。
キーワードが「かんたん」のものについて、性年代を横軸に、NPMIを縦軸にした棒グラフを作成して可視化してください
図4:スプレッドシートのサイドパネルでの可視化イメージ
[クリックすると拡大します]
プロンプトで複数のキーワードを指定することで、一度に複数のグラフを可視化することもできますので、手軽にデータの概況を把握していくことができます。
上記スマホケースの例では「かんたん」というキーワードが、性別問わず高齢層でNPMIが高いことがグラフから一目で分かります。「高齢者が購入する傾向がある」というようなパターンがありそうですね。
キーワードと性年代の組み合わせで購買しやすさを測るNPMIの計算自体は機械的に可能であるものの、その膨大なデータを可視化・確認するのには手間がかかります。スプレッドシートのサイドパネルを使った効率化によって、データ抽出・グラフ作成をGeminiが代行してくれるため、多くの情報を多様な切り口で可視化する手間とコストが削減されます。
パターン分析
より深いユーザー行動パターンの抽出には、キーワードの購買傾向を類似性に基づいてグループ化するクラスタ分析が有効です。Geminiはここでも有用で、自然言語の指示によって性年代別NPMIをベクトル化し、クラスター分析を実行、その結果を可視化することができます。GeminiがPythonで分析モデルを実装・実行してくれるため、環境構築の手間も不要です。
パターン分析は、分析作業の記録を残しながら進めていきたいので、スプレッドシートのサイドパネルではなく、Gemini アプリを利用していきます。
まずは先ほどのデータ(図2)を添付しつつ、Geminiにデータを読み込んでもらいます。
添付ファイルの「データ」シートの内容を読み込んでください
(データが記録されたスプレッドシートを添付する)
データを読み込んだら、クラスタリングを実行してもらいます。
キーワード毎に各性年代のNPMIを値にもつベクトルを作成し、そのベクトルを使ってクラスタリングしてください
図5:Geminiによるクラスタリングの結果イメージ
[クリックすると拡大します]
たった2文の自然言語の指示でキーワードクラスタができました。実行されたソースコードも確認できるので、このグラフが何を表しているかも明瞭です(k-meansでクラスタリングしたものをt-SNEで二次元平面に次元圧縮して可視化していました)。各点がキーワードに対応しており、先ほど見ていたNPMIの性年代グラフが似ているものが近くにプロットされている状態、ということになります。
データの詳細を確認していきましょう。
下記の条件を満たすデータを抽出してください
- tsne_x in [15, 18]
- tsne_y in [-20, -35]
図6:上記プロンプトでのデータ抽出範囲(黄色エリア)
[クリックすると拡大します]
図7:抽出結果イメージ
[クリックすると拡大します]
クラスタ分析の結果から「(レディースファッションの)パーティードレス」と「(子供服の)フォーマル」が類似する購買層(性年代)を持つキーワードとして抽出されているのは興味深いですね。これは「特定性年代の購買者は、イベント用に子供の服と自分の服を一緒に揃えたりするのかもしれない」といった、より深いユーザー行動の仮説立案につながります。ここまでわかってくると、「性年代別に購買につながりやすいキーワードを選定してメルマガ配信してみる」という施策につながっていきそうです。
このように、Geminiは、データ分析における探索的な可視化や面倒なデータ整理作業を自動化することで、分析者が「なぜそのようなパターンが見られるのか」「このパターンからどのような示唆が得られるのか」といった結果の解釈や本質的なユーザー行動パターンの抽出に集中できる環境を提供します。分析業務の質と効率の両面で効果が発揮されています。
この記事は参考になりましたか?
- Jagu'e'r発!Gemini活用大全連載記事一覧
-
- データサイエンティストを疲弊させてきた“分析前処理”が「Gemini」で改善!活用法を実例...
- 放送局での業務自動化に「Gemini」が大活躍──「AI関数」によるデータ分析/アプリ開発...
- 膨大な資料から必要情報を「Gemini」が抽出/オンライン会議の議事録作成からバーチャル背...
- この記事の著者
-
奥野 源(オクノ ハジメ)
auコマース&ライフ株式会社リードデータサイエンティストとして、総合ショッピングサイト「au PAY マーケット」の統計分析業務に従事Jagu'e'rでは、GWS分科会を中心にいくつかの分科会のメンバーとしてLT会での情報発信などの活動も行っています
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
