分散環境に対応したデータべースNoSQLとRDBMSとの違い
クラウド対応のソフトウェアを実現する上でもう1つの課題はデータベースだ。企業で一般的に用いられている既存のリレーショナルデータベースは、分散環境でスケーラブルな性能を発揮するのは苦手である。そのため、クラウドに適応し、よりスケーラブルに性能を向上させることができる仕組みを備えた「NoSQL」(Not Only SQL)と呼ばれる新しい種類のデータベースが登場してきた。従来のリレーショナルデータベースがなぜクラウドのような分散環境でスケーラブルに性能を向上させにくいのかといえば、データベースに関する多くの資源が集中管理されているためだ(図3)。
例えば、リレーショナルデータベースに備わっているトランザクション機能では、データの一貫性をどんなときでも維持するため、排他制御の機能がある。これは、Aさんが更新中のデータはBさんは削除できない、Cさんが参照しているデータは、その間Dさんは削除も更新もできない、といったことを行う。これによって、データはつねに最新かつ全体が矛盾しない状態を作り出すことができている。
しかしこれは利用者が増えれば増えるほど排他制御の処理も増え、負荷がデータベースに集中することを意味する。分散処理させにくい理由の1つがこれだ。また、多くのリレーショナルデータベースでは数台からなるクラスタで実行することが可能だが、その際にはクラスタ内のサーバー間でキャッシュの一貫性を維持するため頻繁な情報交換を行っている。
なぜキャッシュの一貫性が必要なのかと言えば、これもデータの一貫性を維持するためだ。例えば、クラスタがサーバーA、B、C の3台で構成されるとき、サーバーA経由でデータを変更した場合、その変更前のデータがサーバーBやCのキャッシュに残っている可能性があるため、それらのキャッシュを更新する必要がある。データの変更や削除があるたびに、つねにすべてのサーバーのキャッシュをチェックし、古いデータが残っていないかどうかをチェックしなければならないのだ。3台で構成されるクラスタならたいした処理ではないが、数十台やそれ以上で構成されるクラウドでは、この作業もボトルネックになる。
そこでNoSQL データベースが登場する。NoSQL データベースは一般に、データの一貫性よりも分散処理の効率を重視する。従来のリレーショナルデータベースのように処理が一カ所に集中するようなことを避けるようになっており、サーバーを増やせば増やすほど性能が向上するようになっている。
その代わりデータベース全体での一貫性に関しては保証されておらず、例えば複数台のサーバーで構成されたNoSQLデータベースでは、あるサーバーで更新処理が行われたデータがすぐに別のサーバーに伝わることが保証されないので、しばらく別のサーバーからは更新前の結果が返るということもありえる。ただしある程度時間がたてば更新情報がすべてのサーバーに伝わるため、最終的には一貫性が実現する。こうしたゆるやかな一貫性のことを結果整合性(Eventual Consistency)と呼ぶ。NoSQLデータベースの多く、特にキーバリューが多分散データストアと呼ばれるソフトウェアではこの結果整合性を採用することで高い分散処理性能を実現している。
(次ページへ続く)