「Cloudera Search」は、業界初のHadoop分散ファイルシステム(Hadoop Distributed File System:HDFS)やApache HBaseにあるデータのインタラクティブ探索の実現に向けた統合検索エンジンだという。
この製品は、Hadoopを簡素に使いやすくするように設計されたClouderaイノベーション製品群のシリーズであり、オープンソース検索エンジン「Apache Solr」をベースに、より機能を強化してものだという。特別なトレーニングや最新プログラミング知識がなくても、組織のあらゆる人がHadoopデータに対してインタラクティブな自然言語キーワード検索やファセットナビゲーションを実行できるようにするとしている。
企業のHadoop利用が進むにともなって、Hadoopはあらゆるデータにとっての主要レポジトリになっているという。そのなかで、「Cloudera Search」は「より効果的かつ迅速に、データを結合・整備して単一な統合プラットフォームに投入するにはどうすればよいか」というニーズに応えるために開発されたという。
「Cloudera Search」は、Apache Solrやその他の検索関連のオープンソースプロジェクトの成果物と統合することで、包括的なビッグデータインフラをサポートし、また現在多くの企業が検索クエリを実行するために利用しているバラバラな複数のシステム維持にかかる膨大なコストの削減を実現するとしている。
発表によると、「Cloudera Search」の特徴的な機能は次のとおり。
・スケーラブルで信頼性高いHDFSインデックスストレージ:インデックスストレージを統合し、直接HDFSに提供。
・MapReduceに対するバッチインデキシング:MapReduceと同じスケーラビリティと堅牢性で、HDFSおよびHBase内のデータにインデックス生成を実現。
・データ収集時にリアルタイムインデックス化:Apache Flumeによりほぼリアルタイムのインデックス機能を強化し、Hadoopにデータが格納されたと同時にイベント検索を実行。
・Cloudera Hueによる容易なデータ探索機能:Hueのプラグインアプリケーションと、標準Hueサーバの簡単インストール機能を提供してデータクエリと検索結果閲覧を容易にし、ファセット分析を実現。
・フィールド抽出、プラットフォームをまたいだデータ処理:Apache Avroなど、最適化されたHadoopファイルフォーマットを利用することで、スタンドアロンの検索ソリューションにありがちな障害を起こすことなく、HDFS内のあらゆる種類のデータから簡単かつ迅速にフィールド抽出し、設定の再利用やCloudera Morphinesなど新しい処理フレームワークのアクティビティを促進。
・Cloudera Managerによる統合マネジメント監視:一元化されたマネジメントと監視を実現し、CDHやその他Hadoopクラスタ内サービスの展開や設定、監視検索サービスを容易に実現。
なお、「Cloudera Search」は、Cloudera Enterpriseの補完モジュールとして、契約者はすぐに利用できるという。
■ClouderaのWebページ
http://www.cloudera.co.jp/