SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

Security Online Day 2023 春の陣

2023年3月14日(火)10:00~16:00

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

DB Press

Sparkを使うべきか、見送るべきか、何を知っておくべきか 


 さる2015年11月17日、Data Engineering Conference 2015にて「アプリ・サービス開発者が学ぶべきデータアーキテクチャはこれだ!」と題したパネルディスカッションが行われた。その模様をお届けする。

(写真左から)

谷川 耕一氏

DBオンライン チーフキュレーター

大谷 弘喜氏

株式会社ワークスアプリケーションズ Advanced Technology & Engineering Dept.開発本部

小野寺 民也氏

日本IBM東京基礎研究所 サービス型コンピューティング部長

神林 飛志氏

株式会社ノーチラス・テクノロジーズ 代表取締役社長

今すぐSpark?まだまだ敷居が高い?

谷川 耕一氏
谷川 耕一氏

谷川:今日の全体テーマはデータ活用です。追ってSparkや分散フレームワークにも触れます。まずは自己紹介をお願いします。

大谷:ワークスアプリケーションズの大谷です。Lotus Notes/Dominoからアプリケーション開発をしてきました。一般的にデータベースといえばRDBですが、私が最初に関わったNotes/Dominoはドキュメント指向型でした。今と違って分散はしていませんが、KVS的な使い方をしていました。

 アリエルネットワークでP2P型グループウェア、次にWebベースのグループウェアを開発。2005~6年ごろにワークスアプリケーションズに買収され子会社となりました。ここワークスアプリケーションズは来年で20年となる老舗で、パッケージをオンプレで提供しています。このたびHUEという新製品発表します。クラウドベースのERPで圧倒的なパフォーマンスが特徴です。

小野寺:IBMの小野寺です。プログラム言語の設計と実装が中心で、ミドルウェアやOSの研究にも従事しています。最近ではビッグデータ活用基盤のSparkにも携わっています。SparkはこれまでのJavaアプリケーションとは違うチャレンジがあります。1つのJVMを多数のコアで動かし、ワーカースレッドは普通コア数の2倍立てます。未曾有のJVM内マルチスレッドの世界です。 コンパイラはどういう処理をすればいいのかなどという問題も生じます。そして、巨大なヒープ。ガベージコレクターがこれまでみたことのない世界です。OSとからむところもあり、チューニングで大きく変わる面白い分野です。

神林:ノーチラス・テクノロジーズの神林です。一応会社の代表ではありますが、小さいベンチャーなのでPMや設計もしてます。業務系の分散処理しかしていません。日本で初めてHadoopを業務系でカットオーバーしたのはうちだと思います。今はSparkも。あるシステムではHadoopからSparkに変えたら5倍速くなりました。

 今Hadoopを業務で使っている方はいますか?今挙手した方、今すぐにSparkにしてください。唯一、HadoopがSparkに勝てるのは大規模なGroupByをするときだけ。それもデータが1ペタバイト以上。同じアプリケーションロジック、データも同じで、処理系をHadoopからSparkに変えただけで3~5倍速くなります。だからHadoopを使われているなら、明日からSparkに変えましょう。

 ではSparkもHadoopも触ったことがない方は?今挙手した方、見送った方がいいです。水を差して悪いですが、やはりSparkは難しいです。オープンソースはある程度は自力でビルドできる人を対象にしています。普通の人にはまだ敷居が高いです。マゾな人はどうぞ。

 Sparkはまだ過渡期です。これから2020年に向けてハードウェアのアーキテクチャが変わります。CPUのコアあたりの出力を上げるのではなく、メニーコア化へと進みます。そうなると分散ノードのアーキテクチャは合っていません。今のSparkを5年もたせるより、HDFSにデータためているほうが現実的です。HDFSのAPIはあと10年以上残るでしょう。鉄板です。ただし上のレイヤーは不確定です。

谷川:オンライン処理の分散処理というトレンドはひとつの方向性ですね。大谷さん、HUEでどういう新しいデータ活用をしますか。

次のページ
HadoopからSparkへと代えた理由

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
DB Press連載記事一覧

もっと読む

この記事の著者

加山 恵美(カヤマ エミ)

EnterpriseZine/Security Online キュレーターフリーランスライター。茨城大学理学部卒。金融機関のシステム子会社でシステムエンジニアを経験した後にIT系のライターとして独立。エンジニア視点で記事を提供していきたい。EnterpriseZine/DB Online の取材・記事も担当しています。Webサイト:https://emiekayama.net

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/7589 2016/02/03 13:28

Job Board

PR

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

2023年3月14日(火)10:00~16:00

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング