SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

EnterpriseZine編集部ではイベントを随時開催しております

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

意志決定のためのデータサイエンス講座

【第七回】クラスタ分析 (後編) 「R」を使ったクラスタ分析


 アクセンチュアの全世界組織であるアクセンチュア アナリティクスチームが贈る「意思決定のためのデータサイエンス講座」。今回より2回にわたるクラスタ分析を紹介の後編となります。今回は、「R」を使ったクラスタ分析の手法のご紹介です。

 前回は、クラスタ分析の「ビジネスにおける応用例」、「分析手法の概要」と「分析時の心構え」について説明しました。今回はOSS(オープンソースソフトウェア)のR 言語(Version 3.1.2)を使って、前回紹介した代表的なアルゴリズムによるクラスタ分析を実行してみましょう。最初に今回の分析対象データの収集と加工方法について述べ、その後、階層的手法のウォード法と非階層的手法のK-Means法を代表例として、各手法の分析プロセスを説明していきます。

 なお、本稿ではWindows 7 におけるR Version 3.1.2の実行結果を示しています。Mac OS XとLinux環境においても基本的に同様の実行結果が得られます。クラスタ分析で利用するパッケージと関数の一部はVersion 3.1.0以降が必要となるので、本稿にあるRサンプルコードを実行する場合、Version3.1.0以降のRをご利用ください。

1 データの収集と加工

 今回の分析例では、有担保ローンという、比較的ライフイベントを色濃く反映しやすく、かつ厳密な審査過程を経ないと承認されない商材を軸に地域的な貸し出しの特徴量がないかを調査することを目的とします。これにより、融資担当者は、地域ごとの特性を元に、リスク傾向を把握し、利率の設定提案の参考にしたり、新しい金融商品をローカライズしながら試験運用したり、比較的利幅が大きく、金融機関に安定的な収入を齎す長期有担保ローンの離脱防止策をクラスタ別にモデリングすることも可能になるかもしれません。

 そこで、今回は住宅金融支援機構 が公表している、フラット35利用者調査(2013年度集計表)「全体」データを利用し、前回の連載の「2.ビジネスにおける応用例」の「(3)テストマーケットにおけるマーケティング施策の評価」をシミュレーションします。

 まずはデータを確認していきましょう。今回使用する「全体」のExcelファイルの「第1-1表 地域別都道府県別主要指標」シートには、全国、地域別、都道府県別のフラット35利用者の主要指標に関する統計結果が記載されています。フラット35利用者調査の主要指標として表 1のデータ属性が提供されています。表 1の「フィールド説明」欄には、資料「調査の概要」から抜粋した各指標の意味を記載しています。

表 1:フラット35利用者調査指標
フィールド# Excel列名 フィールド名(単位) フィールド説明
1 B列 都道府県 都道府県名
2 D列 件数 調査対象件数
3 E列 年齢(歳) 利用者の年齢(調査対象平均)
4 F列 家族数(人) 利用者を含む入居予定家族人員の合計(調査対象平均)
5 G列 世帯の年収(万円) 利用者及び収入合算者の年間収入の合計(調査対象平均)
6 H列 住宅面積(m2) バルコニー部分の面積を除いた専有面積(調査対象平均)
7 I列 所要資金額(万円) 申し込み時点における予定建設費と土地取得費を合計したもの(調査対象平均)
8 J列~Q列 資金調達の内訳(万円) 所要資金額のカテゴリごとの資金額
9 R列 1か月当たり予定返済額(千円) 借入金に対する年間返済額の1/12の額
10 S列 総返済負担率(%) 各利用者の総返済負担率(1か月当たり予定返済額/世帯月収)の総和をサンプル数で除したもの

 前回の「まとめ」でクラスタ分析の心構えとしても紹介しましたように、クラスタ分析に利用するデータ属性は分析目的に合わせて選別する必要があります。本稿では説明の便宜上、都道府県別の「年齢」、「家族数」、「世帯の年収」、「住宅面積」、「所要資金額」の5つ基本指標に着目し、各都道府県を1つのマーケットとしてみなし、マーケットのクラスタ分析を試みます。

 まず準備作業として、5つの指標に関する都道府県別データをCSVファイルに保存し、分析用データファイルを作成しましょう。CSVファイルはここのリンクからダウンロードできます。(CSVファイルは文字コードがUTF-8、改行コードがLFとなっています。)
次に、RコンソールにおいてCSVファイルのURLを指定し、データを読み込みます。

#URLからCSVファイルを読み込む
data.orig <- read.csv("http://enterprisezine.jp/static/images/article/6873/flat35_research_2013.csv", header=TRUE, row.names="都道府県", fileEncoding="UTF-8")

 関数read.csvを使って、CSVファイルのデータを分析用データフレームdata.origとして格納しました。CSVファイルの先頭行に列名がヘッダーとして設定されているので、引数headerに「TRUE」を指定するとともに、データ1列目の都道府県名をデータの行名として利用するため、引数row.namesに列名「"都道府県"」を指定しました。また、正しい文字コードでCSVファイルを読み込むために、引数fileEncodingに「"UTF-8"」を指定しました。

 データが正しく読み込まれたことを確認するには、関数headを使って、分析用データフレームdata.origの先頭の数行を出力します。

#分析用データフレーム「data.orig」の先頭の数行のデータを表示
head(data.orig)
図 1:分析用データフレームの構成イメージ(一部のデータのみ表示:アクセンチュア作成)

 図 1のように列名、行名と分析対象データが正しく設定されていれば、データフレームdata.origが作成されます。ただし、表 1の「フィールド名(単位)」から分かるように、データフレームdata.origの各列のデータは単位がそれぞれ異なります。これからの分析において単位が異なるデータ属性の特徴を相対的に比較する必要があるため、データフレームdata.origに対して関数scaleによる標準化を行い、各列の値を平均値が0、標準偏差が1になるようにデータのスケールを統一します。

#分析用データフレームに対する標準化の実施
data.scale <- scale(data.orig)

 ここまででデータの収集と加工が完了しました。次に、データdata.scaleに対して階層的手法ウォード法と非階層的手法K-Means法をそれぞれ適用し、クラスタ分析のプロセスを説明します。

次のページ
2. 階層的手法ウォード法によるクラスタ分析

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
意志決定のためのデータサイエンス講座連載記事一覧

もっと読む

この記事の著者

工藤 卓哉 (クドウ タクヤ)

Accenture
Data Science Center of Excellence
アクセンチュア アナリティクス 日本統括
マネジング・ディレクター慶應義塾大学を卒業しアクセンチュアに入社。コンサルタントとして活躍後、コロンビア大学国際公共政策大学院で学ぶため退職。同...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

保科 学世(ホシナ ガクセ)

アクセンチュア株式会社 デジタル コンサルティング本部
マネジング・ディレクター
慶應義塾大学大学院理工学研究科博士課程修了 理学博士。アクセンチュアにてAFS[Accenture Fulfillment Service]、ARS[Accenture Recommend Service]など、アナリ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

佐伯 隆(サエキ タカシ)

アクセンチュア株式会社 デジタル コンサルティング本部
アクセンチュア アナリティクス シニア・マネジャー 
アクセンチュア アナリティクスにおいて、金融機関の合併に伴うデータ統合管理方針策定、通信事業者向けのビッグデータを活用したマーケティング促進システムの構築、公益事業会社向けデータ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

飯澤 拓 (イイザワ ヒラク)

アクセンチュア株式会社 デジタル コンサルティング本部 シニア・マネジャー 
福島大学 経済学部卒業。 SAPなどを活用した大規模基幹システム開発から、ビッグデータを取り扱う分析基盤に至るまで、インフラ・アーキテクチャの設計と実装を専門とする。近年は通信事業者における位置情報データ活用プロジェクトや、...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

余 東明 (ヨ トウメイ)

アクセンチュア株式会社 デジタル コンサルティング本部 コンサルタント
アクセンチュアアナリティクスにおいて、クラウド・モビリティ・センサー等の新技術を活かした並列分散処理基盤の設計・構築とデータ分析に携わっている。通信・メディア・ハイテク業界を中心に、企画・設計から構築・運用まで一貫した業務経験があ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/6873 2015/07/06 11:48

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング