SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

Enterprise IT Women's Forum 2025 KANSAI

2025年9月2日(火)大阪開催

EnterpriseZine(エンタープライズジン)

EnterpriseZine編集部が最旬ITトピックの深層に迫る。ここでしか読めない、エンタープライズITの最新トピックをお届けします。

『EnterpriseZine Press』

2025年春号(EnterpriseZine Press 2025 Spring)特集「デジタル変革に待ったなし、地銀の生存競争──2025年の崖を回避するためのトリガーは」

EnterpriseZine Press

AIインフラの鍵となる「大規模クラスター」の成功に欠かせないGPU・CPU・ネットワークの要件とは?

Dell・AMD・IBM・Tensorwaveが「ADVANCING AI 2025」で対談

AIインフラの構築で懸念すべきこと、軽んじてはいけないこと

マタス氏(モデレーター):訓練と推論の両方に同じインフラが使われるという話でしたが、高性能システムを構築するに当たっての課題も教えてください。訓練と推論のインフラは同じ特性のものを揃えるべきなのか。たとえば、スケールアップの帯域幅やGPU間通信で求められる性能はどうでしょうか。

ジュブラン氏(IBM):用途によって規模は異なりますから、一概には言えませんね。訓練用のインフラでは、数千のGPUが相互に通信でき、ある程度の障害を許容して復旧できる必要もあります。一方、推論とファインチューニングでは、もっと小規模にはなりますが同じインフラとネットワークが必要です。

 ファインチューニングのために複数のシステムをクラスター化する場合、訓練を行うシステムと同じ速度が求められますが、クラスター規模は10~50システム程度と、訓練時より小規模になります。推論の場合は、1システムでの実行から4システムのクラスター化まで様々です。

Director, Cloud & AI Infrastructure, IBM ジェイ・ジュブラン(Jay Jubran)氏
Director, Cloud & AI Infrastructure, IBM
ジェイ・ジュブラン(Jay Jubran)氏

シヴァ氏(AMD):AMDのソフトウェアスタックとインフラは、訓練にも対応しています。これまでのAIモデルはすべて、密結合された8GPU構成で訓練されたものです。そして直近では、より大規模なシステムが稼働し始めました。

 ユーザー企業における現実的なアプローチとして、ゼロから巨大モデルを構築する必要はないでしょう。既存の高性能モデルを基盤とし、ファインチューニング、プロンプトエンジニアリング、コンテキスト操作を組み合わせて企業データを活用する方法が効果的です。特に、最近登場したような100万トークン対応モデルであれば、企業の大量文書をそのまま処理できるため、この傾向はさらに強まるはずです。

ホートン氏(Tensorwave):訓練を想定してインフラを構築すれば推論もそのままサポートできますが、その逆は困難です。業界では、推論サービスを提供する多くのスタートアップが登場していますが、小規模なデータセンターを多数持ちながらクラスター化の最適化に時間とリソースを費やしていない企業が多いです。これがボトルネックになっています。

マタス氏(モデレーター):クラスター設計において最も懸念すべき要素とは何でしょうか。復旧可能性か、フルバイセクション帯域幅か、それともソフトウェア運用モデルでしょうか。

ホートン氏(Tensorwave):何よりまずは「復旧可能性」でしょう。多くのクラスターワークロードでは、1つのノードがダウンするだけで全体のワークロードに影響します。多くのクラスタープラットフォームやワークロードは、GPUなどの障害に対する復旧能力を持っておらず、チェックポイントに戻ったり、ワークロードを再開したりする時間が無駄になるのです。クラスターのコストが1時間で100万ドル規模になる場合、時間の無駄は許されません。

 次に重要となるのが「ネットワーク最適化」です。クラスターにまつわる問題というのは、ほぼすべてがネットワークの話に帰結します。より高い性能、より多くの帯域幅、光学部品の温度管理、RoCE(Remote Direct Memory Access over Converged Ethernet)最適化など、多くの調整項目があるため、ユーザーごとに最適解が異なる場合もあります。

CEO, Tensorwave ダリック・ホートン(Darrick Horton)氏
CEO, Tensorwave
ダリック・ホートン(Darrick Horton)氏

タラジ氏(Dell):復旧可能性と性能の両方が重要であるというのは、まったく同意見です。復旧可能性は軽んじられることも多いですが、実現するのは非常に難しいのです。

 AIのための“GPU as a Service”クラウドについても、多くの人がクラウドサービスが長年存続するためには当然のものと考えていますが、そう単純な話ではありません。業界では、いまだ数十万のGPUを同時にオーケストレーションした事例は存在しないからです。真にオンデマンドで大規模なGPUオーケストレーションは、業界内でもまだ進行中の試みであり、冷却水の流れからGPU自体、サーバー内の信号品質、電力の品質に至るまで、すべてが密に連携しなければ実現できません。

次のページ
優れたネットワークは大規模AIクラスターの成功に不可欠

この記事は参考になりましたか?


  • Facebook
  • X
  • Pocket
  • note
EnterpriseZine Press連載記事一覧

もっと読む

この記事の著者

森 英信(モリ ヒデノブ)

就職情報誌やMac雑誌の編集業務、モバイルコンテンツ制作会社勤務を経て、2005年に編集プロダクション業務とWebシステム開発事業を展開する会社・アンジーを創業した。編集プロダクション業務では、日本語と英語でのテック関連事例や海外スタートアップのインタビュー、イベントレポートなどの企画・取材・執筆・...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/22280 2025/07/17 08:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング