【第五回】H2Oでディープラーニングを動かしてみよう！

更新日: 2015/07/06
公開日: 2015/02/17

通知

　アクセンチュア・アナリティクスチームが贈る「意思決定のためのデータサイエンス講座」、第五回目は前回に続いてディープラーングの紹介。今回はオープンソースを使ってディープラーニングを実際に動かしてみます。ぜひトライしてみてください。

通知

動かしてみないことにはわからない

　前編では、ディープラーニングの理論について説明するとともに、この分野がGoogleやFacebook等の先進IT企業がこぞって注力しようとしている今まさに熱い分野だということについて触れました。ディープラーニングが画期的な機械学習方法だということを強調して書いたつもりではありますが、いくら文章を読んでも、自分で手を動かさない限りその威力はなかなか実感しにくいかと思います。また、ただ手を動かして体験するとはいってもディープラーニングを自分で一からやるには高度な技術力を必要とするため、ごく一部の専門家でない限り、敷居が高いと思われるかもしれません。

　筆者が学生の頃、機械学習はまだ手が届きにくく、機械学習を用いた研究を行うにも気の遠くなるような分量のスクリプトを書き、そしてパラメータチューニングに昼夜を問わず明け暮れる、そんな時代でした。このようにディープラーニングはごく限られた高度な技術者だけのものなのでしょうか？そんなことはありません。オープンソースが浸透した今の時代を生きる私たちは、大変幸運なことにディープラーニングの威力を手軽に（しかも無料で！）体験することができます。これを利用しない手はありません。

　後編では、ディープラーニングのオープンソースソフトウェアの実装を用いてディープラーニングを実際に動かしてみることを目標にしています。（今回はディープラーニングを動かすことを目標としているので、パラメータチューニングについての議論はあまり行いません。）また、ただ単に動かして正解率を漫然と眺めるだけでは、筆者は面白くないと考えています。正解率の値で一喜一憂するだけではなく、分類の失敗例/成功例を実際に目で見て、どのようなケースだと分類がうまくいく/失敗するかを考察していきたいと思います。さあ、それでは始めましょう。

ディープラーニングのソフトウェア実装

　ディープラーニングのソフトウェアパッケージへの実装でフリーなものとして、Javaで開発された分析エンジンプラットフォームのH2O、PythonのPylearn2 (Theano) やRのdeepnetパッケージなどが公開されています。本記事では、Webインターフェース上からプログラミング作業を伴わず操作でき、また、データの整形や可視化に優れたRから手軽に扱える点などから、H2Oを用いた分析手順を概説します。

下準備および注意事項

　本記事の手順ではR-3.1.1 (64ビットWindows版)とH2O(2.8.1.1)を用いました。なお、H2Oの起動にあたって、JRE（Java Runtime Environment）が必要になりますので、お使いのPCにJavaがインストールされていない方は、Javaの[ダウンロードサイト](https://java.com/ja/download/)からJavaインストーラをダウンロードし、exeファイルを実行することでJavaがインストールされます。

　また、Rのほかにデータ処理のためPython 2.7.7(Anaconda 2.0.1 64ビット版)を使用しています。お使いのPCにPythonがインストールされていない方は、Pythonをインストールして頂く必要があります。新たにインストールされる場合、Pythonの数値計算ライブラリNumpy を使用する関係で、Continuum Analytics社より配布されているPythonディストリビューション、Anacondaが便利です。Continuum Analytics社のAnaconda[ダウンロードサイト](http://continuum.io/downloads)よりインストーラをダウンロードし、exeファイルを実行することでAnacondaがインストールされます。

　なお、本記事の手順で用いたRコマンドは、最初からすべて続けて実行することを想定しております。休憩をとるなどして一旦Rのコンソールを閉じてしまった場合などは、本手順の最初に戻って再度最初からコマンドを入力するようにしてください。

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

・全ての過去記事が閲覧できます
・会員限定メルマガを受信できます
・翔泳社の本が買える！
500円分のポイントをプレゼント

メールバックナンバー

新規会員登録無料

次のページ
ビッグデータのためのインメモリ予測エンジンH2O

この記事は参考になりましたか？

広告を読み込めませんでした

広告を読み込み中...

印刷用を表示

意志決定のためのデータサイエンス講座連載記事一覧: 【第九回】経路探索(後編) R言語と地図データによる実行

【第八回】経路探索(前編) アルゴリズムとビジネスへの適用

【第七回】クラスタ分析 (後編)　「R」を使ったクラスタ分析

もっと読む

この記事の著者: 工藤卓哉（クドウタクヤ）

Accenture
Data Science Center of Excellence
アクセンチュアアナリティクス日本統括
マネジング・ディレクター慶應義塾大学を卒業しアクセンチュアに入社。コンサルタントとして活躍後、コロンビア大学国際公共政策大学院で学ぶため退職。同...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 保科学世（ホシナガクセ）

アクセンチュア株式会社デジタルコンサルティング本部
マネジング・ディレクター
慶應義塾大学大学院理工学研究科博士課程修了理学博士。アクセンチュアにてAFS［Accenture Fulfillment Service］、ARS［Accenture Recommend Service］など、アナリ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 平村健勝（ヒラムラタケカツ）

アクセンチュア株式会社デジタルコンサルティング本部
コンサルタント　東京工業大学大学院社会理工学研究科修士課程修了、アクセンチュア入社。通信、メディア業界を中心としたシステム導入、新規サービス企画、設計、構築およびプロジェクト管理を手がける。プライベートではR言語のアドオンパッケージ開発、検索...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事; 阪野美穂（バンノミホ）

アクセンチュア株式会社デジタルコンサルティング本部
コンサルタント東京大学新領域創成科学研究科博士課程修了博士（科学）。専攻はバイオインフォマティクス（構造生物学）。民間企業にて独立行政法人、製薬企業向けの医療統計解析およびバイオインフォマティクスに関連する研究サポート業務に従事。2014年9月...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事