SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

EnterpriseZine編集部ではイベントを随時開催しております

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

EnterpriseZineニュース

データ分析や機械学習に欠かせない「前処理」の共通化を目指したオープンソースプロジェクトが国内で発足

■データの前処理とオープンデータ

 人工知能、ビッグデータの現場において、綺麗に加工されモデリングや分析のアルゴリズムを施せるデータがすぐに手に入ることはほぼあり得ないという。まず、有益なデータソースを探すところから始まり、そのデータを理解しデータフォーマット(配列、データフレーム…)に加工し、分析可能なデータの型に変換(例えば男、女という文字列を整数型に変換など)する必要がある。

 また、それに加えて外れ値や欠損値、連続値の離散化などのデータの正規化を行わなければ正しい分析をすることはできない。現状では、モデリングや分析それ自体に対するフレームワークはオープンソースを含め存在するが、この事前処理を共通のプラクティスとしてフレームワーク化する動きは必ずしも活発とはいえないという。

 政府系の機関を中心にデータをオープンにする動きは盛り上がりを見せているが、それぞれの組織がさまざまなデータフォーマットや文字コード、データの切り方で公開をしている。

 オープンデータの前処理に関しては、それぞれの技術者が車輪を再発明する必要はない。データの取り扱いに関する規約の範疇でデータとその処理方法について共有することができれば本質的な分析や評価により多くの時間がかけられる。そのため、サンフランシスコと東京をベースとするAisaac Inc.は、オープデータに関する前処理の共有化とコミュニティによる改善を目的としたdetaset.jpを発足させたとしている。

■データの前処理に関するオープンソースベースのフレームワーク

 プライベートなデータとなると一般的にその乱雑さはオープンデータよりも大きくなる傾向にあり、組織や個人のデータ活用、分析の大きな障害となっている。一方で、モデリングや分析に関するライブラリやパッケージは発達しており、多くの技術者はそれに依存することとなる。つまり前処理で行うべきフォーマットはある程度共通化させる余地はあるという。

 また、フォーマットの共通化によってデータを無害化させることが容易になれば、企業間でのデータの売買や共有がより活発になり、データ活用がより広がるという。その試金石をdataset.jpの活動から得られたプラクティスをフレームワーク化させるdatakitを公開した。どちらもαバージョンで、コミュニティの立ち上げ途上だという。

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
関連リンク
この記事の著者

EnterpriseZine編集部(エンタープライズジン ヘンシュウブ)

「EnterpriseZine」(エンタープライズジン)は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/news/detail/9726 2017/08/31 13:30

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング