同じAIモデルのプロンプト実行スピードを「vLLM推論の約6倍」に……新興企業MangoBoostが実現したイノベーション
AMDシンガポール拠点を訪れたCEOキム氏「ほぼ全ての企業はAIソフトウェア・スタックを自前で最適化できない」
vLLMを用いたAIモデルは業務遂行に90秒、LLMBoostを使えば15秒に……
キム氏らが初めて導入したGPUは、AMDのInstinct MI300シリーズだった。最初は300、次に325、続いて355……。あっという間に異なる世代のGPUが混在する環境となったが、自ら開発したLLMBoostによってそれらの配置と分業を最適化した。パフォーマンスにも劇的な改善が見られ、考え得る限りの効率性を実現したと、キム氏は当時を振り返る。
Instinct MI300に対し、NVIDIAから出ている同世代のGPUはH100だった。MangoBoostは、自社内でMI300による32基のGPU、4つのノードによるクラスタを用いて、H100と並ぶ学習パフォーマンスを実現した。2025年の出来事だという。NVIDIAも実際にその現場を見て、MangoBoostの技術を認めたようだ。
「すると今度はH100の後に出たB200を、AMDのMI300シリーズと比較するよう求められました。そこでも私たちは、同世代のMI325、355を用いた環境で、LLMBoostによってB200と同等のパフォーマンスを実現して見せました」(キム氏)
【左】マルチノードとカーネルの最適化を実証。4ノード、32基のAMD Instinct MI300X GPUによるマルチノードスケーリングで、シングルノードに対し4.3倍のスループットを実現
【右上】AMD MI300XとNVIDIA H100を用いた、Llama2-70B-LoRAのトレーニング実行時間の比較。ほぼ同等のパフォーマンスを実現
【右下】MangoBoostが最適化した通信ライブラリが、標準的なRCCLと比較して、Megatron-LM MoEのスループットにおいて推定1.18倍〜4.48倍の高速化を実現する
LLMBoostは、市場的にはいわゆるAIの自動チューニング製品のカテゴリに属している。しかし、vLLMやSGLangのように推論だけをサポートしているわけではなく、Megatronのように学習に特化したソフトウェアでもない。推論、トレーニング、ファインチューニング、RAGなど、すべての実装・運用に対応している。これにより、ベンダーロックインに陥らずに済むとキム氏は述べる。
最後には、MangoBoostとvLLMによる実際の推論パフォーマンスの比較が画面上でデモとして展開された。データセットはOpenOrca、4基のGPU(MI355)、単一ノード環境という条件下で、日常業務の中で想定されるのと同じプロンプトを、LLMBoostとvLLMそれぞれの推論エンジンを使用したDeepSeek-V3.2に対しテストする。
結果、すべての質問や命令に対し90秒近くを要したvLLMに対し、LLMBoostによって最適化されたAIモデルは約15秒でタスクを完遂して見せた。
この記事は参考になりましたか?
- EnterpriseZine Press連載記事一覧
-
- 同じAIモデルのプロンプト実行スピードを「vLLM推論の約6倍」に……新興企業MangoB...
- AIエージェント時代、“染みだす”情シスになれ──おざけんが語る組織の未来と我々に求められ...
- DatabricksがHTAPを「LTAP」で再定義、イベントで示した「Agentic S...
- この記事の著者
-
名須川 楓太(編集部)(ナスカワ フウタ)
サイバーセキュリティとAI(人工知能)関連を中心に、国内外の最新技術やルールメイキング動向を取材しているほか、DX推進や、企業財務・IRなどのコーポレート領域でも情報を発信。武蔵大学 経済学部 経済学科 卒業。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア
