EnterpriseZine Press

同じAIモデルのプロンプト実行スピードを「vLLM推論の約6倍」に……新興企業MangoBoostが実現したイノベーション

AMDシンガポール拠点を訪れたCEOキム氏「ほぼ全ての企業はAIソフトウェア・スタックを自前で最適化できない」

2026/06/19 09:00

通知

vLLMを用いたAIモデルは業務遂行に90秒、LLMBoostを使えば15秒に……

　キム氏らが初めて導入したGPUは、AMDのInstinct MI300シリーズだった。最初は300、次に325、続いて355……。あっという間に異なる世代のGPUが混在する環境となったが、自ら開発したLLMBoostによってそれらの配置と分業を最適化した。パフォーマンスにも劇的な改善が見られ、考え得る限りの効率性を実現したと、キム氏は当時を振り返る。

　Instinct MI300に対し、NVIDIAから出ている同世代のGPUはH100だった。MangoBoostは、自社内でMI300による32基のGPU、4つのノードによるクラスタを用いて、H100と並ぶ学習パフォーマンスを実現した。2025年の出来事だという。NVIDIAも実際にその現場を見て、MangoBoostの技術を認めたようだ。

　「すると今度はH100の後に出たB200を、AMDのMI300シリーズと比較するよう求められました。そこでも私たちは、同世代のMI325、355を用いた環境で、LLMBoostによってB200と同等のパフォーマンスを実現して見せました」（キム氏）

【左】マルチノードとカーネルの最適化を実証。4ノード、32基のAMD Instinct MI300X GPUによるマルチノードスケーリングで、シングルノードに対し4.3倍のスループットを実現【右上】AMD MI300XとNVIDIA H100を用いた、Llama2-70B-LoRAのトレーニング実行時間の比較。ほぼ同等のパフォーマンスを実現【右下】MangoBoostが最適化した通信ライブラリが、標準的なRCCLと比較して、Megatron-LM MoEのスループットにおいて推定1.18倍〜4.48倍の高速化を実現する — **【左】**マルチノードとカーネルの最適化を実証。4ノード、32基のAMD Instinct MI300X GPUによるマルチノードスケーリングで、シングルノードに対し4.3倍のスループットを実現

**【右上】**AMD MI300XとNVIDIA H100を用いた、Llama2-70B-LoRAのトレーニング実行時間の比較。ほぼ同等のパフォーマンスを実現

**【右下】**MangoBoostが最適化した通信ライブラリが、標準的なRCCLと比較して、Megatron-LM MoEのスループットにおいて推定1.18倍〜4.48倍の高速化を実現する

　LLMBoostは、市場的にはいわゆるAIの自動チューニング製品のカテゴリに属している。しかし、vLLMやSGLangのように推論だけをサポートしているわけではなく、Megatronのように学習に特化したソフトウェアでもない。推論、トレーニング、ファインチューニング、RAGなど、すべての実装・運用に対応している。これにより、ベンダーロックインに陥らずに済むとキム氏は述べる。

　最後には、MangoBoostとvLLMによる実際の推論パフォーマンスの比較が画面上でデモとして展開された。データセットはOpenOrca、4基のGPU（MI355）、単一ノード環境という条件下で、日常業務の中で想定されるのと同じプロンプトを、LLMBoostとvLLMそれぞれの推論エンジンを使用したDeepSeek-V3.2に対しテストする。

　結果、すべての質問や命令に対し90秒近くを要したvLLMに対し、LLMBoostによって最適化されたAIモデルは約15秒でタスクを完遂して見せた。

この記事は参考になりましたか？

広告を読み込めませんでした

広告を読み込み中...

印刷用を表示

EnterpriseZine Press連載記事一覧: 同じAIモデルのプロンプト実行スピードを「vLLM推論の約6倍」に……新興企業MangoB...

AIエージェント時代、“染みだす”情シスになれ──おざけんが語る組織の未来と我々に求められ...

DatabricksがHTAPを「LTAP」で再定義、イベントで示した「Agentic S...

もっと読む

この記事の著者: 名須川楓太（編集部）（ナスカワフウタ）

サイバーセキュリティとAI（人工知能）関連を中心に、国内外の最新技術やルールメイキング動向を取材しているほか、DX推進や、企業財務・IRなどのコーポレート領域でも情報を発信。武蔵大学経済学部経済学科卒業。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事