今年2010年は、日本国内で急速にクラウドビジネスが立ち上がった1年として記憶されるはずだ。海外の主要なベンダーが参入してくると同時に、国内の主 要なベンダーも相次いでクラウドへの本格参入を表明した。一方で、何でもかんでも「クラウド」と呼ぶ風潮も広まっている。確かなクラウド戦略をつかむため にも、あらためてクラウドの本質とは何かを考えよう(前編はこちら)。
分散環境に対応したデータべースNoSQLとRDBMSとの違い
クラウド対応のソフトウェアを実現する上でもう1つの課題はデータベースだ。企業で一般的に用いられている既存のリレーショナルデータベースは、分散環境でスケーラブルな性能を発揮するのは苦手である。そのため、クラウドに適応し、よりスケーラブルに性能を向上させることができる仕組みを備えた「NoSQL」(Not Only SQL)と呼ばれる新しい種類のデータベースが登場してきた。従来のリレーショナルデータベースがなぜクラウドのような分散環境でスケーラブルに性能を向上させにくいのかといえば、データベースに関する多くの資源が集中管理されているためだ(図3)。

例えば、リレーショナルデータベースに備わっているトランザクション機能では、データの一貫性をどんなときでも維持するため、排他制御の機能がある。これは、Aさんが更新中のデータはBさんは削除できない、Cさんが参照しているデータは、その間Dさんは削除も更新もできない、といったことを行う。これによって、データはつねに最新かつ全体が矛盾しない状態を作り出すことができている。
しかしこれは利用者が増えれば増えるほど排他制御の処理も増え、負荷がデータベースに集中することを意味する。分散処理させにくい理由の1つがこれだ。また、多くのリレーショナルデータベースでは数台からなるクラスタで実行することが可能だが、その際にはクラスタ内のサーバー間でキャッシュの一貫性を維持するため頻繁な情報交換を行っている。
なぜキャッシュの一貫性が必要なのかと言えば、これもデータの一貫性を維持するためだ。例えば、クラスタがサーバーA、B、C の3台で構成されるとき、サーバーA経由でデータを変更した場合、その変更前のデータがサーバーBやCのキャッシュに残っている可能性があるため、それらのキャッシュを更新する必要がある。データの変更や削除があるたびに、つねにすべてのサーバーのキャッシュをチェックし、古いデータが残っていないかどうかをチェックしなければならないのだ。3台で構成されるクラスタならたいした処理ではないが、数十台やそれ以上で構成されるクラウドでは、この作業もボトルネックになる。
そこでNoSQL データベースが登場する。NoSQL データベースは一般に、データの一貫性よりも分散処理の効率を重視する。従来のリレーショナルデータベースのように処理が一カ所に集中するようなことを避けるようになっており、サーバーを増やせば増やすほど性能が向上するようになっている。
その代わりデータベース全体での一貫性に関しては保証されておらず、例えば複数台のサーバーで構成されたNoSQLデータベースでは、あるサーバーで更新処理が行われたデータがすぐに別のサーバーに伝わることが保証されないので、しばらく別のサーバーからは更新前の結果が返るということもありえる。ただしある程度時間がたてば更新情報がすべてのサーバーに伝わるため、最終的には一貫性が実現する。こうしたゆるやかな一貫性のことを結果整合性(Eventual Consistency)と呼ぶ。NoSQLデータベースの多く、特にキーバリューが多分散データストアと呼ばれるソフトウェアではこの結果整合性を採用することで高い分散処理性能を実現している。
(次ページへ続く)
この記事は参考になりましたか?
- IT Initiativeスペシャル連載記事一覧
- この記事の著者
-
新野 淳一(ニイノ ジュンイチ)
1988年に株式会社アスキーに入社。データベースのテクニカルサポート、IT系雑誌編集などを経て、フリーランスのライターに。2000年には株式会社アットマーク・アイティの設立に参画し、取締役就任。IT技術系のWEBサイト「@IT」の立ち上げにも関わる。2008年、「@IT」発行人を退任し、再びフリーラ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア