Geminiの革新的な特徴とマルチモーダル性能
Google Cloud Applied AI Summitに先立つ2023年12月6日(現地時間)、Google Cloudはマルチモーダル基盤モデルとしてゼロから同社が構築した「Gemini」を発表した。Geminiは、テキストからテキスト、テキストから画像のようなシングルモーダル基盤モデルを組み合わせて構築する既存のマルチモーダル基盤モデルとは異なる。寳野氏の説明によれば、「テキスト、画像、音声、動画、コードなど、様々な種類の情報をシームレスに理解し、操作し、組み合わせて結果を出力する『ネイティブなマルチモーダル基盤モデル』である」という。この特徴により、Geminiを使うことで、画像の説明のような単純なタスクではなく、もっと複雑で抽象的な概念を扱う推論への適用が可能になった。
Geminiのモデル構造:NanoからPro、Ultraへ
Geminiには小さい順にNano、Pro、Ultraの3つのサイズがある。Nanoがスマートフォンなどのエッジデバイス向け、Proが組織の幅広いタスクに対応する中核モデル、Ultraが数学、物理学、歴史、法律、医学、倫理などの知識と問題解決能力を備えた最上位のモデルになる。Google Cloudはこれまでも複数の選択肢の中から、ユースケースに応じて最適なものを選択できるようにしてきたが、今回のGeminiの発表で、その選択肢がさらに増加したことになる。また、Bardを支えるという意味では、「英語版のBardでGemini Proが利用可能になったという発表があった」と寳野氏は説明した。
Gemini開発環境:Google AI StudioとVertex AI
とはいえ、基盤モデルはそのままでは使えない。開発者向けにGeminiを使える環境として、Google Cloudが用意しているのがGoogle AI StudioとVertex AIの2つである。Google AI Studioは、無料で利用できる個人向けの開発環境で、APIキーを利用してプロンプトを開発できる。もう1つのVertex AIはもっと高度なエンタープライズ要件に対応する開発環境で、Google Cloud Applied AI Summitでは新しくGemini Proのサポートを開始したことが発表になった。「どちらの環境でもGeminiを使えるが、Vertex AIの方がより幅広いユースケースでの利用を想定しており、データ保護のようなエンタープライズ要件に対応する必要がある場合は、Vertex AIを選ぶことを推奨している」(寳野氏)。