データの増加とデータ処理技術
国立情報学研究所は、情報系・コンピュータサイエンスの研究者を中心とした文部科学省系の研究所です。そのほかに、大学や国の研究機関のネットワークも扱っており、環境系のネットワークも管理しています。
私自身は、データベースというより、データベースを実行する分散システムといわれているもののインフラが専門ですので、本日はデータベースというより、データベースの外側からこれからどういう技術が起きて、それがデータベースにどう影響するのかという話をさせていただきます。
本日のセミナーのサブタイトルに「ビッグデータ」とありますが、ビッグデータの話になると、必ずデータ量が増えているという話になります。例えば、2020年になるとデータ量は2011年の50倍になります。しかし、皆様の関心事は、世の中のデータが増えるか増えないかということより、皆様の企業やお客様のデータがどれだけ増えていくのか、そのデータがどのように変わっていくのかということだと思います。
ビッグデータの定義はいろいろありますが、いちばん重要なのは、今のシステムでは扱えないようなデータであれば、たぶんそれはビッグデータだろうということです。
国勢調査がビッグデータの始まり
「今の時代に扱えないデータはビッグデータ」という観点は非常に重要です。世界で最初のビッグデータの案件は何だと思われますか? 実は、ビッグデータの案件は、コンピュータが生まれる前からあったのです。その世界最初の案件は、1880年ないしは1890年の米国の国勢調査だといえます。米国では憲法で10年に1回、国勢調査をすることになっていますが、1880年の国勢調査では集計には諸説あるようですが、一説では7年かかってしまったそうです。さらに、その当時は移民が多かったので、1890年の国勢調査では集計に13年かかると予測されました。10年に1回の国勢調査の集計に10年以上かかれば、年々積み重なって、永遠に終わらないことになるので、当時としては、まさにビッグデータだったのです。
そこで、米国政府は、集計を高速化する新しい技術を公募しましたが、そのときに提案されたのが、紙に穴を開けて、それを読み取って集計するパンチングマシンです。これを使うことによって、1880年には7年かかり、1890年には13年かかるといわれていた集計が、約1年で終わりました。
おそらくこれが世界最初のビッグデータの案件です。今の時代のシステム、方法では処理しきれないものがビッグデータですから、これは十分にビッグデータです。
パンチングマシンからコンピュータへ
この話にはオチがあります。パンチングマシンを発明したホレリス(Herman Hollerith)は、会社(Tabulating Machine Company)をつくりますが、それはその後、IBMの母体になります。
よくコンピュータが進化してビッグデータの時代になったといいますけれども、むしろ逆で、ビッグデータがコンピュータをつくったといえます。そのへんの因果関係は押さえておくといいと思います。
IBMの最初のメインフレームの事例の内部処理は、ソーティングして、項目ごとに集めて、集計をする、またはそれをソートするということを繰り返すものであり、国勢調査に極めて近い処理です。
この話にはもうひとつオチがあります。最近、当時のパンチングマシーンの集計と極めてよく似たシステムが人気を集めています。それは、Hadoop、またはそのもととなったMapReduceです。最近、Hadoopでバッチ処理を置き換えるという話がありましたが、ある意味で、それは当たり前のことです。Hadoopでやっていることが、国勢調査の集計とよく似た方法を実現することなので、国勢調査の集計手法を発展させたメインフレームで動いているバッチ処理をHadoopで処理することは、ある意味で親和性が高いといえます。