DB Press

Sparkを使うべきか、見送るべきか、何を知っておくべきか　

加山恵美[著] / DB Online編集部[編]

更新日: 2016/02/03
公開日: 2016/02/02

通知

　さる2015年11月17日、Data Engineering Conference 2015にて「アプリ・サービス開発者が学ぶべきデータアーキテクチャはこれだ！」と題したパネルディスカッションが行われた。その模様をお届けする。

通知

（写真左から）

谷川耕一氏

DBオンライン　チーフキュレーター

大谷弘喜氏

株式会社ワークスアプリケーションズ Advanced Technology & Engineering Dept.開発本部

小野寺民也氏

日本IBM東京基礎研究所サービス型コンピューティング部長

神林飛志氏

株式会社ノーチラス・テクノロジーズ代表取締役社長

今すぐSpark？まだまだ敷居が高い？

谷川：今日の全体テーマはデータ活用です。追ってSparkや分散フレームワークにも触れます。まずは自己紹介をお願いします。

大谷：ワークスアプリケーションズの大谷です。Lotus Notes/Dominoからアプリケーション開発をしてきました。一般的にデータベースといえばRDBですが、私が最初に関わったNotes/Dominoはドキュメント指向型でした。今と違って分散はしていませんが、KVS的な使い方をしていました。

　アリエルネットワークでP2P型グループウェア、次にWebベースのグループウェアを開発。2005～6年ごろにワークスアプリケーションズに買収され子会社となりました。ここワークスアプリケーションズは来年で20年となる老舗で、パッケージをオンプレで提供しています。このたびHUEという新製品発表します。クラウドベースのERPで圧倒的なパフォーマンスが特徴です。

小野寺：IBMの小野寺です。プログラム言語の設計と実装が中心で、ミドルウェアやOSの研究にも従事しています。最近ではビッグデータ活用基盤のSparkにも携わっています。SparkはこれまでのJavaアプリケーションとは違うチャレンジがあります。１つのJVMを多数のコアで動かし、ワーカースレッドは普通コア数の２倍立てます。未曾有のJVM内マルチスレッドの世界です。コンパイラはどういう処理をすればいいのかなどという問題も生じます。そして、巨大なヒープ。ガベージコレクターがこれまでみたことのない世界です。OSとからむところもあり、チューニングで大きく変わる面白い分野です。

神林：ノーチラス・テクノロジーズの神林です。一応会社の代表ではありますが、小さいベンチャーなのでPMや設計もしてます。業務系の分散処理しかしていません。日本で初めてHadoopを業務系でカットオーバーしたのはうちだと思います。今はSparkも。あるシステムではHadoopからSparkに変えたら5倍速くなりました。

　今Hadoopを業務で使っている方はいますか？今挙手した方、今すぐにSparkにしてください。唯一、HadoopがSparkに勝てるのは大規模なGroupByをするときだけ。それもデータが1ペタバイト以上。同じアプリケーションロジック、データも同じで、処理系をHadoopからSparkに変えただけで3～5倍速くなります。だからHadoopを使われているなら、明日からSparkに変えましょう。

　ではSparkもHadoopも触ったことがない方は？今挙手した方、見送った方がいいです。水を差して悪いですが、やはりSparkは難しいです。オープンソースはある程度は自力でビルドできる人を対象にしています。普通の人にはまだ敷居が高いです。マゾな人はどうぞ。

　Sparkはまだ過渡期です。これから2020年に向けてハードウェアのアーキテクチャが変わります。CPUのコアあたりの出力を上げるのではなく、メニーコア化へと進みます。そうなると分散ノードのアーキテクチャは合っていません。今のSparkを5年もたせるより、HDFSにデータためているほうが現実的です。HDFSのAPIはあと10年以上残るでしょう。鉄板です。ただし上のレイヤーは不確定です。

谷川：オンライン処理の分散処理というトレンドはひとつの方向性ですね。大谷さん、HUEでどういう新しいデータ活用をしますか。

次のページ
HadoopからSparkへと代えた理由

この記事は参考になりましたか？

広告を読み込めませんでした

広告を読み込み中...

印刷用を表示

DB Press連載記事一覧: Databricksとの対比でみえたSnowflakeの真価：なぜ他社に“乗換可能”な環境...

DWHやMDM導入の前に読むべき一冊『成果を生む攻めのデータガバナンス』　データ活用に悩...

ソブリンクラウドは“自社”に本当に必要か？「宝の持ち腐れ」にしない判断ポイントと情シスに課...

もっと読む

この記事の著者: 加山恵美（カヤマエミ）

EnterpriseZine/Security Online キュレーターフリーランスライター。茨城大学理学部卒。金融機関のシステム子会社でシステムエンジニアを経験した後にIT系のライターとして独立。エンジニア視点で記事を提供していきたい。EnterpriseZine/DB Online の取材・記事も担当しています。Webサイト：https://emiekayama.net

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事