Shoeisha Technology Media

EnterpriseZine(エンタープライズジン)

EnterpriseZine(エンタープライズジン)

テーマ別に探す

佐藤一郎氏が語る「データ処理技術の歴史とビッグデータの現在」

  2013/02/27 14:00

この記事は、2012年12月に開催された「IT Initiative Day /ビッグデータ時代の複合DB環境」での国立情報学研究所 教授 佐藤一郎氏の基調講演を編集部が採録し佐藤氏の了解のもと記事化したものです。データ処理技術とDBのイノベーションの歴史について解説しています。

データの増加とデータ処理技術

佐藤一郎
国立情報学研究所 教授
佐藤一郎 国立情報学研究所 教授

 国立情報学研究所は、情報系・コンピュータサイエンスの研究者を中心とした文部科学省系の研究所です。そのほかに、大学や国の研究機関のネットワークも扱っており、環境系のネットワークも管理しています。

 私自身は、データベースというより、データベースを実行する分散システムといわれているもののインフラが専門ですので、本日はデータベースというより、データベースの外側からこれからどういう技術が起きて、それがデータベースにどう影響するのかという話をさせていただきます。

 本日のセミナーのサブタイトルに「ビッグデータ」とありますが、ビッグデータの話になると、必ずデータ量が増えているという話になります。例えば、2020年になるとデータ量は2011年の50倍になります。しかし、皆様の関心事は、世の中のデータが増えるか増えないかということより、皆様の企業やお客様のデータがどれだけ増えていくのか、そのデータがどのように変わっていくのかということだと思います。

 ビッグデータの定義はいろいろありますが、いちばん重要なのは、今のシステムでは扱えないようなデータであれば、たぶんそれはビッグデータだろうということです。

国勢調査がビッグデータの始まり

 「今の時代に扱えないデータはビッグデータ」という観点は非常に重要です。世界で最初のビッグデータの案件は何だと思われますか? 実は、ビッグデータの案件は、コンピュータが生まれる前からあったのです。その世界最初の案件は、1880年ないしは1890年の米国の国勢調査だといえます。米国では憲法で10年に1回、国勢調査をすることになっていますが、1880年の国勢調査では集計には諸説あるようですが、一説では7年かかってしまったそうです。さらに、その当時は移民が多かったので、1890年の国勢調査では集計に13年かかると予測されました。10年に1回の国勢調査の集計に10年以上かかれば、年々積み重なって、永遠に終わらないことになるので、当時としては、まさにビッグデータだったのです。

 そこで、米国政府は、集計を高速化する新しい技術を公募しましたが、そのときに提案されたのが、紙に穴を開けて、それを読み取って集計するパンチングマシンです。これを使うことによって、1880年には7年かかり、1890年には13年かかるといわれていた集計が、約1年で終わりました。

 おそらくこれが世界最初のビッグデータの案件です。今の時代のシステム、方法では処理しきれないものがビッグデータですから、これは十分にビッグデータです。

パンチングマシンからコンピュータへ

 この話にはオチがあります。パンチングマシンを発明したホレリス(Herman Hollerith)は、会社(Tabulating Machine Company)をつくりますが、それはその後、IBMの母体になります。

 よくコンピュータが進化してビッグデータの時代になったといいますけれども、むしろ逆で、ビッグデータがコンピュータをつくったといえます。そのへんの因果関係は押さえておくといいと思います。

 IBMの最初のメインフレームの事例の内部処理は、ソーティングして、項目ごとに集めて、集計をする、またはそれをソートするということを繰り返すものであり、国勢調査に極めて近い処理です。

 この話にはもうひとつオチがあります。最近、当時のパンチングマシーンの集計と極めてよく似たシステムが人気を集めています。それは、Hadoop、またはそのもととなったMapReduceです。最近、Hadoopでバッチ処理を置き換えるという話がありましたが、ある意味で、それは当たり前のことです。Hadoopでやっていることが、国勢調査の集計とよく似た方法を実現することなので、国勢調査の集計手法を発展させたメインフレームで動いているバッチ処理をHadoopで処理することは、ある意味で親和性が高いといえます。

※この続きは、会員の方のみお読みいただけます(登録無料)。


※この続きは、会員の方のみお読みいただけます(登録無料)。


著者プロフィール

  • EnterpriseZine編集部(エンタープライズジン ヘンシュウブ)

    「EnterpriseZine」(エンタープライズジン)は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。

バックナンバー

連載:IT Initiative Day

もっと読む

All contents copyright © 2007-2019 Shoeisha Co., Ltd. All rights reserved. ver.1.5