音楽生成モデル「Lyria」を発表──“すべてのモーダル”をサポートするAIモデルに
4月9日からの2日間、「Google Cloud Next 2025」は怒涛の発表となった。ここではAIエージェントを中心に紹介したい。
現在Google Cloudは、ハイパースケーラーとしてはAmazon Web Services(AWS)、Microsoft Azureの後塵を拝して3位、シェアは12%ほどだ[1]。2024年第4四半期の業績は前年同期比30%増の120億ドル。生成AIユニコーンの約90%がGoogle Cloudの顧客だとして、Google Cloud Nextの会期中には500以上の事例が紹介された。
9日の基調講演には、Google CloudのCEOを務めるトーマス・クリアン(Thomas Kurian)氏が登壇。来場した3万人の顧客やパートナーを前に、Google Cloudが支持を集めている理由として「(優れたコストパフォーマンスで提供される)AIに最適化されやプラットフォーム」「オープンなマルチクラウドプラットフォーム」「相互運用性をもつエンタープライズ級のAIプラットフォーム」の3つを挙げた。競合他社がAIエージェント戦略を進める中、Google Cloudは既存のデータベースやドキュメントストア、業務アプリケーションなどと接続されたAIエージェントを構築でき、さらには他社のAIエージェントモデルとの相互運用も実現するという。
クリアン氏によると、既に400万人以上の開発者がGeminiで開発しており、AIプラットフォーム「VertexAI」の利用率は1年で20倍に増加、「Google Workspace」でのAIアシストの提供数は月に20億以上にまで達している。特にVeo 2、Imagenなどの利用が大きく増加しているという。また先述したようにイベントでは、テキストから音声を生成する「Lyria」が発表された。「テキスト、動画、画像、音声、音楽、すべてのモーダルをサポートする唯一のモデルだ」とクリアン氏は胸を張る。マーケティングなどでのユースケースが考えられるとして、「ブランドのイメージとストーリーにあった音楽をスグに作成できる」とした。
ほかにもGemini 2.5では、コストパフォーマンスに優れた「Gemini 2.5 Flash」が発表された。「低遅延とコスト効率を特徴とし、プロンプトの複雑さに基づいて推論のレベルを調整し、予算に応じたパフォーマンス制御が可能だ。リアルタイムでの要約、ドキュメントに迅速にアクセスしたい場合などに最適」とする。
さらに「Chirp3」にはHD音声の日本語対応、Veo 2には『オズの魔法使い』でも使われた動画内にオブジェクトを加える「out-painting」、消去するための「in-painting」機能などを追加。Metaが4月5日公開したばかりの「Llama 4」をいち早くサポートするなど、パートナーのAIモデルに関するアップデートも発表された。
加えて、音声や動画などをGeminiに直接ストリーミングできる「Live API」にも触れた。AIエージェントがリッチメディアをリアルタイム処理しながら応答できるようになるため、「没入型マルチモーダルアプリケーションの可能性を広げる」とクリアン氏。Google CloudはVertex AIで200種以上のAIモデルをサポートするなど、“マルチモデル”である点を重視している。ユーザーは「Vertex AI Model Garden」からアクセスできるが、ここに「Vertex AI Model Optimizer」が追加されたことで、コストや品質などのパラメーターを設定するだけで最適なAIモデルを選択してくれる機能も加わった。

[画像クリックで拡大]
実際にGoogle CloudでAIを活用しているユーザーには、Deutsche BankやIntuit、Honeywell、Nokiaなどがいる。Deutsche Bankでは、2019年にGoogle Cloudと戦略的提携を結んだ後、260以上の業務アプリケーションをGoogle Cloudに移行。ドキュメント処理にAIを適用すると、97%という高い精度で処理時間を40%削減した。現在ではAIを用いたソフトウェア開発、従業員向けAIアシスタントの開発などにも取り組んでいる。
[1] 「Cloud Market Jumped to $330 billion in 2024 - GenAI is Now Driving Half of the Growth」(Synergy Research Group, 07 Feb, 2025)