(写真左から)
谷川 耕一氏
DBオンライン チーフキュレーター
大谷 弘喜氏
株式会社ワークスアプリケーションズ Advanced Technology & Engineering Dept.開発本部
小野寺 民也氏
日本IBM東京基礎研究所 サービス型コンピューティング部長
神林 飛志氏
株式会社ノーチラス・テクノロジーズ 代表取締役社長
今すぐSpark?まだまだ敷居が高い?
谷川:今日の全体テーマはデータ活用です。追ってSparkや分散フレームワークにも触れます。まずは自己紹介をお願いします。
大谷:ワークスアプリケーションズの大谷です。Lotus Notes/Dominoからアプリケーション開発をしてきました。一般的にデータベースといえばRDBですが、私が最初に関わったNotes/Dominoはドキュメント指向型でした。今と違って分散はしていませんが、KVS的な使い方をしていました。
アリエルネットワークでP2P型グループウェア、次にWebベースのグループウェアを開発。2005~6年ごろにワークスアプリケーションズに買収され子会社となりました。ここワークスアプリケーションズは来年で20年となる老舗で、パッケージをオンプレで提供しています。このたびHUEという新製品発表します。クラウドベースのERPで圧倒的なパフォーマンスが特徴です。
小野寺:IBMの小野寺です。プログラム言語の設計と実装が中心で、ミドルウェアやOSの研究にも従事しています。最近ではビッグデータ活用基盤のSparkにも携わっています。SparkはこれまでのJavaアプリケーションとは違うチャレンジがあります。1つのJVMを多数のコアで動かし、ワーカースレッドは普通コア数の2倍立てます。未曾有のJVM内マルチスレッドの世界です。 コンパイラはどういう処理をすればいいのかなどという問題も生じます。そして、巨大なヒープ。ガベージコレクターがこれまでみたことのない世界です。OSとからむところもあり、チューニングで大きく変わる面白い分野です。
神林:ノーチラス・テクノロジーズの神林です。一応会社の代表ではありますが、小さいベンチャーなのでPMや設計もしてます。業務系の分散処理しかしていません。日本で初めてHadoopを業務系でカットオーバーしたのはうちだと思います。今はSparkも。あるシステムではHadoopからSparkに変えたら5倍速くなりました。
今Hadoopを業務で使っている方はいますか?今挙手した方、今すぐにSparkにしてください。唯一、HadoopがSparkに勝てるのは大規模なGroupByをするときだけ。それもデータが1ペタバイト以上。同じアプリケーションロジック、データも同じで、処理系をHadoopからSparkに変えただけで3~5倍速くなります。だからHadoopを使われているなら、明日からSparkに変えましょう。
ではSparkもHadoopも触ったことがない方は?今挙手した方、見送った方がいいです。水を差して悪いですが、やはりSparkは難しいです。オープンソースはある程度は自力でビルドできる人を対象にしています。普通の人にはまだ敷居が高いです。マゾな人はどうぞ。
Sparkはまだ過渡期です。これから2020年に向けてハードウェアのアーキテクチャが変わります。CPUのコアあたりの出力を上げるのではなく、メニーコア化へと進みます。そうなると分散ノードのアーキテクチャは合っていません。今のSparkを5年もたせるより、HDFSにデータためているほうが現実的です。HDFSのAPIはあと10年以上残るでしょう。鉄板です。ただし上のレイヤーは不確定です。
谷川:オンライン処理の分散処理というトレンドはひとつの方向性ですね。大谷さん、HUEでどういう新しいデータ活用をしますか。