Oracle(オラクル)とAMDがコラボレーションの拡大を発表した。Oracle Cloud Infrastructure(OCI)が、AMD Instinct MI450シリーズGPUを搭載した初の一般公開AIスーパークラスターのローンチパートナーになるとしている。初期導入は2026年第3四半期に5万基のGPUで開始され、2027年以降も拡大していく予定だという。
まずは、2024年にAMD Instinct MI300X搭載シェイプの提供を顧客向けに開始し、その後AMD Instinct MI355X GPUを搭載したOCI Computeの一般提供を開始するとのことだ。これらのプラットフォームは、ゼタスケールOCIスーパークラスタで利用可能になるとしている。
新たなAIスーパークラスターは、AMDが2026年の提供開始を目指す「Helios」ラック設計を採用するとのことだ。このラック設計には、AMD Instinct MI450シリーズGPU、次世代AMD EPYC CPU(開発コード名「Venice」)、次世代AMD Pensando アドバンストネットワーキング(開発コード名「Vulcano」)が搭載されるという。
OCI対応のAMD Instinct MI450シリーズGPUにより、ユーザーは以下のメリットを享受できるとのことだ。
- コンピューティングとメモリ:AIトレーニングモデルのメモリ帯域幅を拡大することで、ユーザーはより迅速な結果への到達、より複雑なワークロードへの対応、モデル分割の必要性の低減を実現可能。AMD Instinct MI450シリーズGPUは、最大432GBのHBM4メモリと20TB/sのメモリ帯域幅を提供し、ユーザーは前世代と比べて50%大規模なモデルを、完全にインメモリでトレーニングおよび推論することが可能に
- 「Helios」ラック設計:高密度で水冷式の72GPUラックにより、パフォーマンス密度、コスト、エネルギー効率を最適化しながら、大規模な運用を実現。Heliosラック設計が、UALoEスケールアップ接続と、Ultra Ethernet Consortium(UEC)準拠のイーサネットベースのスケールアウト・ネットワークを統合し、ポッドとラック全体のレイテンシを最小限に抑え、スループットを最大化
- ヘッドノード:次世代AMD EPYC CPU(コードネーム「Venice」)で構成されるアーキテクチャ上でジョブオーケストレーションとデータ処理を高速化することで、クラスター利用率を最大化し、大規模ワークフローを合理化。また、これらのEPYC CPUは、機密性の高いコンピューティング機能と組み込みのセキュリティ機能を提供し、機密性の高いAIワークロードをエンドツーエンドで保護する
- DPUアクセラレーション・コンバージド・ネットワーキング:ラインレートのデータ取り込みを実現し、大規模AIおよびクラウドインフラストラクチャのパフォーマンス向上、セキュリティ体制の強化を実現。AMD Pensando DPUテクノロジーを基盤とするDPUアクセラレーション・コンバージド・ネットワーキングは、データセンターが次世代のAIトレーニング、推論、クラウド・ワークロードを実行するために必要なセキュリティとパフォーマンスを提供
- AI向けスケールアウト・ネットワーキング:将来を見据えたオープン・ネットワーキング・ファブリックにより、超高速分散トレーニングと最適化された集合通信を活用できる。各GPUには最大3枚の800Gbps AMD Pensando「Vulcano」AI-NICを搭載可能で、高度なRoCEおよびUEC規格をサポートするロスレス、高速、かつプログラマブルな接続を提供
- UALinkおよびUALoEファブリック:ワークロードの効率的な拡張、メモリボトルネックの削減、数兆パラメータ規模の大規模モデルのオーケストレーションを実現。スケーラブルなアーキテクチャは、CPUを経由することなくホップ数とレイテンシを最小限に抑え、UALoEファブリックを介したUALinkプロトコルを介して、ラック内のGPU間でハードウェアコヒーレントな直接ネットワークとメモリ共有を実現。UALinkは、AIアクセラレータ向けに構築され、幅広い業界エコシステムによってサポートされているオープンな高速相互接続規格だという。これにより、ユーザーはオープンスタンダードベースのインフラストラクチャ上で、最も要求の厳しいAIワークロードを実行するために必要な柔軟性、拡張性、信頼性を実現可能
- オープンソースの AMD ROCm ソフトウェアスタック:一般的なフレームワーク、ライブラリ、コンパイラ、ランタイムなどのオープンで柔軟なプログラミング環境を顧客に提供することで、迅速なイノベーションを可能にし、ベンダーの選択の自由を提供し、既存のAIおよびHPCワークロードの移行を簡素化
- パーティショニングと仮想化:きめ細かなGPUおよびポッド パーティショニング、SR-IOV仮想化、堅牢なマルチテナントにより、リソースの安全で効率的な使用を促進し、顧客がクラスターを安全に共有し、ワークロードのニーズに基づいてGPUを割り当てることを可能に
加えて、OCIはAMD Instinct MI355X GPUを搭載したOCI Computeの一般提供も発表した。これらは、13万1072基のGPUまで拡張可能なゼタスケールOCI Superclusterで利用可能になるとのことだ。
【関連記事】
・OpenAI、次世代のAIインフラストラクチャ駆動にAMD製品を大規模導入へ
・AMDとIBM、量子中心型スーパーコンピューティングの開発に向け協業
・アルトマン氏とAMDリサ・スーCEOが対談! Instinct MI400シリーズの概要も明かされる
この記事は参考になりましたか?
- 関連リンク
- この記事の著者
-
EnterpriseZine編集部(エンタープライズジン ヘンシュウブ)
「EnterpriseZine」(エンタープライズジン)は、翔泳社が運営する企業のIT活用とビジネス成長を支援するITリーダー向け専門メディアです。データテクノロジー/情報セキュリティの最新動向を中心に、企業ITに関する多様な情報をお届けしています。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア