SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

Data Tech 2022

2022年12月8日(木)10:00~15:50

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

IT Initiative Day

佐藤一郎氏が語る「データ処理技術の歴史とビッグデータの現在」


この記事は、2012年12月に開催された「IT Initiative Day /ビッグデータ時代の複合DB環境」での国立情報学研究所 教授 佐藤一郎氏の基調講演を編集部が採録し佐藤氏の了解のもと記事化したものです。データ処理技術とDBのイノベーションの歴史について解説しています。

データの増加とデータ処理技術

佐藤一郎
国立情報学研究所 教授
佐藤一郎 国立情報学研究所 教授

 国立情報学研究所は、情報系・コンピュータサイエンスの研究者を中心とした文部科学省系の研究所です。そのほかに、大学や国の研究機関のネットワークも扱っており、環境系のネットワークも管理しています。

 私自身は、データベースというより、データベースを実行する分散システムといわれているもののインフラが専門ですので、本日はデータベースというより、データベースの外側からこれからどういう技術が起きて、それがデータベースにどう影響するのかという話をさせていただきます。

 本日のセミナーのサブタイトルに「ビッグデータ」とありますが、ビッグデータの話になると、必ずデータ量が増えているという話になります。例えば、2020年になるとデータ量は2011年の50倍になります。しかし、皆様の関心事は、世の中のデータが増えるか増えないかということより、皆様の企業やお客様のデータがどれだけ増えていくのか、そのデータがどのように変わっていくのかということだと思います。

 ビッグデータの定義はいろいろありますが、いちばん重要なのは、今のシステムでは扱えないようなデータであれば、たぶんそれはビッグデータだろうということです。

国勢調査がビッグデータの始まり

 「今の時代に扱えないデータはビッグデータ」という観点は非常に重要です。世界で最初のビッグデータの案件は何だと思われますか? 実は、ビッグデータの案件は、コンピュータが生まれる前からあったのです。その世界最初の案件は、1880年ないしは1890年の米国の国勢調査だといえます。米国では憲法で10年に1回、国勢調査をすることになっていますが、1880年の国勢調査では集計には諸説あるようですが、一説では7年かかってしまったそうです。さらに、その当時は移民が多かったので、1890年の国勢調査では集計に13年かかると予測されました。10年に1回の国勢調査の集計に10年以上かかれば、年々積み重なって、永遠に終わらないことになるので、当時としては、まさにビッグデータだったのです。

 そこで、米国政府は、集計を高速化する新しい技術を公募しましたが、そのときに提案されたのが、紙に穴を開けて、それを読み取って集計するパンチングマシンです。これを使うことによって、1880年には7年かかり、1890年には13年かかるといわれていた集計が、約1年で終わりました。

 おそらくこれが世界最初のビッグデータの案件です。今の時代のシステム、方法では処理しきれないものがビッグデータですから、これは十分にビッグデータです。

パンチングマシンからコンピュータへ

 この話にはオチがあります。パンチングマシンを発明したホレリス(Herman Hollerith)は、会社(Tabulating Machine Company)をつくりますが、それはその後、IBMの母体になります。

 よくコンピュータが進化してビッグデータの時代になったといいますけれども、むしろ逆で、ビッグデータがコンピュータをつくったといえます。そのへんの因果関係は押さえておくといいと思います。

 IBMの最初のメインフレームの事例の内部処理は、ソーティングして、項目ごとに集めて、集計をする、またはそれをソートするということを繰り返すものであり、国勢調査に極めて近い処理です。

 この話にはもうひとつオチがあります。最近、当時のパンチングマシーンの集計と極めてよく似たシステムが人気を集めています。それは、Hadoop、またはそのもととなったMapReduceです。最近、Hadoopでバッチ処理を置き換えるという話がありましたが、ある意味で、それは当たり前のことです。Hadoopでやっていることが、国勢調査の集計とよく似た方法を実現することなので、国勢調査の集計手法を発展させたメインフレームで動いているバッチ処理をHadoopで処理することは、ある意味で親和性が高いといえます。

次のページ
データの多様化という問題

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
IT Initiative Day連載記事一覧

もっと読む

この記事の著者

EnterpriseZine編集部(エンタープライズジン ヘンシュウブ)

「EnterpriseZine」(エンタープライズジン)は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/4608 2013/03/05 13:51

Job Board

PR

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

2022年12月8日(木)10:00~15:50

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング