キーサイト・テクノロジー(以下、キーサイト)は4月10日、AIデータセンターの拡張を支援するソリューションポートフォリオ群「Keysight Artificial Intelligence(KAI)」アーキテクチャを発表した。
同日に開催された説明会では、同社 日本マーケティングマネージャー兼アジアパシフィックマーケティングセグメントマネージャー 岡崎淳起氏が詳細を説明した。

同社は2014年にスタートしており、2025年で10周年を迎える。オシロスコープをはじめとする測定器などのハードウェアを中心に展開し、顧客ニーズに合わせてその上で稼働するソフトウェアにも力を入れてきた。岡崎氏は「これまでも業界初の新しい測定器を世に出してきました。今後は、従来のデータセンターのネットワークからAIデータセンターのためのネットワークへの技術革新をサポートしていきます」と話す。
同社が注力しているAI領域の中で、特に中心的存在となるのが今回発表されたKAIだ。KAIは、実環境のAIワークロードエミュレーションを使用してAIクラスタコンポーネントを検証することで、データセンターにおけるAI処理能力の拡張を支援するよう設計されているという。
KAI発表の背景に、岡崎氏はAI活用における様々な技術的課題があるとして下図を提示。たとえば、AIを稼働させるイーサネットは400G/800Gだが、3年後以降には1.6T/3.2Tが見込まれている。メモリに関しても、今日ではDDR5 8.4GT/s程度のデータ転送速度が主流だが、いずれはDDR6やHBM3(High Bandwidth Memory 3)が搭載され、メモリ容量も1.5倍の12.8 GT/sになるという。岡崎氏は「取り扱うデータの量が増えるため、それに応じてスピードも求められます」と話す。

このような課題を踏まえ、データセンターに目を向けると2つの課題が浮かび上がる。1つはAIの処理エンジンの稼働率。GPUやそこに搭載されたメモリが適切に動いていなければ非効率になってしまう。そしてもう1つがネットワークだ。岡崎氏は「AIを処理するとき、ネットワークがGPU一つひとつに対して仕事を割り振っていきますが、たとえば一つのGPUに仕事量が偏ってしまって他のGPUが動いていない状態では、AIデータセンターとしてのパフォーマンスが下がってしまいます。そのため、GPUに対して平均的に仕事を割り振れるネットワークの構築が非常に重要です」と強調する。
実際にGPUの稼働率を見てみると、自分で演算処理をしておらず、相手からの信号やデータを待っているGPUが62%も存在するという(下図左)。また、自分でタスクを実行できていても処理に失敗してしまうケースもあり、その割合は全体の43%に上る(下図右)。失敗の原因としては、ネットワークがスタックしてしまっている場合やGPU自体のドライバーにエラーが生じている場合などが考えられるという。岡崎氏は「処理が失敗に終わると、AIの推論精度の低下や再処理による遅延につながります」と述べる。

こうしたAIデータセンターにおけるテクノロジーは、従来のデータセンターとはまったく異なるものだと岡崎氏。「これまでのデータセンターでは、ある程度決まった時間に決まった処理が毎日走るような動きが一般的でしたが、AIデータセンターでは、一つのリクエストが入った瞬間に一気にGPUを動かして処理をさせるため、ネットワークの負荷が瞬間的に高くなります」と両者の違いを説明。この処理に対応するために、ネットワークを適切に構築することで、信号を待っていて動いていないGPUにも適切に仕事を分散させることができると話す。
キーサイトがこうしたAIデータセンターの課題に対応すべく提供を開始するKAIは、システム全体のパフォーマンスを測定するソフトウェア「Keysight AI (KAI) Data Center Builder」に加え、「KAI Compute」「KAI Interconnect」「KAI Network」「KAI Power」の4つのポートフォリオで構成されている。

- KAI Compute:EDA、ビットエラー・レシオ・テスター、オシロスコープ、任意波形発生器を含むAI対応ツールにより、高速デジタル設計を最適化。これにより、次世代のAIチップ開発を支援する
- KAI Interconnect:サンプリング・オシロスコープ、光パワー・メーター、ネットワーク・インターコネクト・テスターなど、AI対応ツールによって光および電気データパスを検証し、最大1.6Tのスケーラブルで高速接続を保証する
- KAI Network:AIワークロードエミュレータ、分散型ネットワークトラフィックジェネレータ、ネットワークトラフィックエミュレータを含むAI対応ツール群により、AIネットワークのパフォーマンスをベンチマークし、ボトルネックを検出。これにより、AIワークロードの分散を最適化する
- KAI Power:オシロスコープ、パワーレールプローブ、EDAを含むAI対応ツール群で、データセンターのコンポーネント全体の電力効率とエネルギー管理を最適化する
岡崎氏は加えて、従来よりAIデータセンターに対するソリューションポートフォリオをもっていたところに、今回3つの新製品を投入したとして下図を提示。

左から、1.6テラビット光トランシーバーを評価する「DCA-Mサンプリング・オシロスコープ」。AIや機械学習に必要となる伝送速度に対応し、1レーンあたり最大240Gbpsの高速光信号解析を提供するとしている。
また上図中央にあるのが、ソフトウェアソリューションであるインターコネクト・テスト・システム(ITS)が稼働するインターコネクトおよびネットワーク・パフォーマンス・テスター1600GE(INPT-1600GE)のハードウェアトラフィックエミュレーターである。シリコンチップからネットワーク機器まで、パフォーマンスを検証するアプリケーションをサポートする汎用1.6テラビット・イーサネット・プラットフォームをポータブルなベンチトップ型とラックマウント型ソリューションとして提供するという。
そして、3つの新製品の中で最も目玉となるのが一番右に示されたKAI Data Center Builderだ。KAI Data Center Builderは、AIデータセンターのシステムパフォーマンスそのものを評価できるソフトウェアで、コンポーネント障害の影響を予測・軽減し、データセンターの運用を最適化するという。同ソフトウェアは、実環境のAIトレーニングジョブのネットワーク通信パターンを再現することで、実際にAIトレーニングジョブを行うだけでは困難な実験の高速化、習熟の効率化、パフォーマンス低下の原因分析といった課題について洞察を提供するとしている。ユーザーは、GPTやLlamaなどのLLMワークロードのライブラリにアクセスでき、代表的なモデル・パーテーショニング手法も利用可能だという。
岡崎氏は最後に、「我々はフィジカルレイヤー、プロトコルレイヤー、アプリケーションレイヤーのすべてにおける測定器を提供することで、AIデータセンターのパフォーマンス最大化に寄与していきたいと考えています」と目指す全体像を示し、説明を締めくくった。