SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

直近開催のイベントはこちら!

EnterpriseZine Day 2022

2022年6月28日(火)13:10

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

DB Press

Yahoo! Japanの大規模データウェアハウスを支えるテラデータの技術


 日頃のニュースの確認などでは、Yahoo! Japanのトップページを参照することが多い。Webメディアの記事がYahoo! ニュースでピックアップされると、ニュースサイトへのアクセスが一気に増える。その影響は、依然としてかなり大きい。他にもオークションや動画配信、ショッピングなど、Yahoo! Japanには100を超えるサービスがある。登録会員数は2,000万を超え、1日に9,100万ものユニークビジター・アクセスがある。

テラデータの大規模なデータウェアハウスとHadoopのデータレイクを併用

 多くのユーザーがサービスを利用することで、Yahoo! Japanでは日々膨大なデータが生まれている。Webサイトやアプリケーションには1日に約610億ものリクエストが発生、そこから日々125テラバイトを越えるデータが生成される。これらユーザーのアクセスから生まれる大量データは、当然ながらYahoo! Japanのビジネスを最適化し、利用者の利便性の向上に使われる。

 Yahoo! Japanがデータウェアハウスを構築したのは、2002年のことだった。当時のデータ量は6テラバイトほど、分析スキルの高いユーザーにのみアドホック分析の環境が公開された。

 その後、Yahoo! Japanのデータウェアハウスは徐々に成長する。2016年には扱うデータ量は1.7ペタバイトにまで拡大、ユーザーからのデータ処理リクエストは、1日に30万クエリーにもなった。さらに2018年には、データウェアハウスは3.3ペタバイト規模に拡大、1日当たりのクエリー数は100万を超える。Yahoo! Japanの極めて大規模なデータウェアハウスは、主に2つのテラデータのシステムで構築されている。さらにデータレイクとして、大規模なHadoopクラスターシステムも運用している。

 2018年10月、米国ラスベガスで開催されたテラデータのユーザーカンファレンス「Teradata Analytics Universe」では、ヤフー株式会社 データプラットフォーム本部 データウェアハウスチームの櫻井史彦氏が、Yahoo! Japanのデータウェアハウスについてブレークアウトセッションで解説した。セッション後のインタビューで櫻井氏は、Teradata Database (以下 Teradata)で構築されているデータウェアハウスは「SQLさえ憶えれば、エンジニアではなくても誰でも使える環境です」と語る。

 左/ヤフー株式会社 データ&サイエンスソリューション統括本部 データプラットフォーム本部 開発1部 部長 小林直哉氏 右/ヤフー株式会社 データプラットフォーム本部 データウェアハウスチーム 櫻井史彦氏
 左/ヤフー株式会社 データ&サイエンスソリューション統括本部 データプラットフォーム本部 開発1部 部長 小林直哉氏 
右/ヤフー株式会社 データプラットフォーム本部 データウェアハウスチーム 櫻井史彦氏

 Yahoo! Japanには、SQLを書きデータウェアハウスから必要なデータを分析・抽出できるスキルを持つユーザーが1,000人ほどいる。さらにTableauなどのBIツールを使いアクセスするユーザーも1,000人ほど、合わせて2,000人強のユーザーがTeradataのデータウェアハウスを活用している。

 一方でデータレイクとなっているHadoopのクラスター環境は「すべてのデータの受け皿という位置づけになります」と櫻井氏。Teradataに全てのデータを蓄積するとコストも上がる。Hadoopならば、同じコストで何10倍ものデータを置くことができる。そのため、日々大量に発生するログデータを最初に置くのが、Hadoopのシステムになっているのだ。

 Yahoo! Japanにとって、データレイクを効率的に運用することは最大の課題だ。「スケールすることが非常に重要です。手間のかかるデータの移行はしたくありません」と語るのは、ヤフー株式会社 データ&サイエンスソリューション統括本部 データプラットフォーム本部 開発1部 部長の小林直哉氏だ。

 とはいえHadoopは、巨大で拡張性のあるストレージとして利用しているだけではない。Hadoopの環境には分散処理のHive、SparkやPrestoといった多様なクエリーエンジンがあり「ストレージとしてだけでなく、コンピューティングでもあり、データ処理を適材適所で行っています。これからもYahoo! JapanにとってHadoopは大切なものの1つです」と櫻井氏は言う。

次のページ
複数システム間のデータ同期のためにTeradata IntelliSphereを新たに採用

この記事は参考になりましたか?

  • Facebook
  • Twitter
  • Pocket
  • note
DB Press連載記事一覧

もっと読む

この記事の著者

谷川 耕一(タニカワ コウイチ)

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/11479 2018/12/11 10:12

Job Board

PR

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

2022年6月28日(火)13:10

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング