AIインフラの鍵となる「大規模クラスター」の成功に欠かせないGPU・CPU・ネットワークの要件とは?
Dell・AMD・IBM・Tensorwaveが「ADVANCING AI 2025」で対談
AIインフラの構築で懸念すべきこと、軽んじてはいけないこと
マタス氏(モデレーター):訓練と推論の両方に同じインフラが使われるという話でしたが、高性能システムを構築するに当たっての課題も教えてください。訓練と推論のインフラは同じ特性のものを揃えるべきなのか。たとえば、スケールアップの帯域幅やGPU間通信で求められる性能はどうでしょうか。
ジュブラン氏(IBM):用途によって規模は異なりますから、一概には言えませんね。訓練用のインフラでは、数千のGPUが相互に通信でき、ある程度の障害を許容して復旧できる必要もあります。一方、推論とファインチューニングでは、もっと小規模にはなりますが同じインフラとネットワークが必要です。
ファインチューニングのために複数のシステムをクラスター化する場合、訓練を行うシステムと同じ速度が求められますが、クラスター規模は10~50システム程度と、訓練時より小規模になります。推論の場合は、1システムでの実行から4システムのクラスター化まで様々です。
ジェイ・ジュブラン(Jay Jubran)氏
シヴァ氏(AMD):AMDのソフトウェアスタックとインフラは、訓練にも対応しています。これまでのAIモデルはすべて、密結合された8GPU構成で訓練されたものです。そして直近では、より大規模なシステムが稼働し始めました。
ユーザー企業における現実的なアプローチとして、ゼロから巨大モデルを構築する必要はないでしょう。既存の高性能モデルを基盤とし、ファインチューニング、プロンプトエンジニアリング、コンテキスト操作を組み合わせて企業データを活用する方法が効果的です。特に、最近登場したような100万トークン対応モデルであれば、企業の大量文書をそのまま処理できるため、この傾向はさらに強まるはずです。
ホートン氏(Tensorwave):訓練を想定してインフラを構築すれば推論もそのままサポートできますが、その逆は困難です。業界では、推論サービスを提供する多くのスタートアップが登場していますが、小規模なデータセンターを多数持ちながらクラスター化の最適化に時間とリソースを費やしていない企業が多いです。これがボトルネックになっています。
マタス氏(モデレーター):クラスター設計において最も懸念すべき要素とは何でしょうか。復旧可能性か、フルバイセクション帯域幅か、それともソフトウェア運用モデルでしょうか。
ホートン氏(Tensorwave):何よりまずは「復旧可能性」でしょう。多くのクラスターワークロードでは、1つのノードがダウンするだけで全体のワークロードに影響します。多くのクラスタープラットフォームやワークロードは、GPUなどの障害に対する復旧能力を持っておらず、チェックポイントに戻ったり、ワークロードを再開したりする時間が無駄になるのです。クラスターのコストが1時間で100万ドル規模になる場合、時間の無駄は許されません。
次に重要となるのが「ネットワーク最適化」です。クラスターにまつわる問題というのは、ほぼすべてがネットワークの話に帰結します。より高い性能、より多くの帯域幅、光学部品の温度管理、RoCE(Remote Direct Memory Access over Converged Ethernet)最適化など、多くの調整項目があるため、ユーザーごとに最適解が異なる場合もあります。
ダリック・ホートン(Darrick Horton)氏
タラジ氏(Dell):復旧可能性と性能の両方が重要であるというのは、まったく同意見です。復旧可能性は軽んじられることも多いですが、実現するのは非常に難しいのです。
AIのための“GPU as a Service”クラウドについても、多くの人がクラウドサービスが長年存続するためには当然のものと考えていますが、そう単純な話ではありません。業界では、いまだ数十万のGPUを同時にオーケストレーションした事例は存在しないからです。真にオンデマンドで大規模なGPUオーケストレーションは、業界内でもまだ進行中の試みであり、冷却水の流れからGPU自体、サーバー内の信号品質、電力の品質に至るまで、すべてが密に連携しなければ実現できません。
この記事は参考になりましたか?
- EnterpriseZine Press連載記事一覧
-
- AIインフラの鍵となる「大規模クラスター」の成功に欠かせないGPU・CPU・ネットワークの...
- 【IVS2025】塩崎氏ら国会議員と弁護士が提言/AI・web3規制は制約ではなく事業機会
- 弁護士が指南、法的リスクを低減させる生成AI運用のポイント “価値ある”ルール整備と運用の...
- この記事の著者
-
森 英信(モリ ヒデノブ)
就職情報誌やMac雑誌の編集業務、モバイルコンテンツ制作会社勤務を経て、2005年に編集プロダクション業務とWebシステム開発事業を展開する会社・アンジーを創業した。編集プロダクション業務では、日本語と英語でのテック関連事例や海外スタートアップのインタビュー、イベントレポートなどの企画・取材・執筆・...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア