Re:Inventで公開されたAmazon Bedrockの新機能を解説
アマゾン ウェブ サービス ジャパン(AWS)は1月31日、同社の生成AIアプリケーション開発基盤であるAmazon Bedrockの最新機能と活用手法のアップデートを発表。同社の巨勢泰宏氏が新機能の内容を詳しく紹介した。
多くの企業がBedrockを採用する理由の一つとして、多種多様なモデルの選択肢を提供していることが挙げられる。例えば、LlamaやMistralのようなオープンなLLMをカスタマイズしている企業もあれば、Stability.AIの画像生成モデルを必要とするアプリケーションを構築する企業もある。また、AnthropicのLLMを活用する企業も多い。こうした多様なニーズに応えるために、AWSが生成AIのアプリケーション開発に有効な基盤モデルの選択肢をさらに拡張した。昨年(2024年)のre:Inventでは、PoolsideとLuma AI、stability.aiなど新しいモデルプロバイダーと基盤モデルが発表された。
poolsideは、大企業向けソフトウェアエンジニアリングAIで、開発者のニーズを予測する低遅延のコード補完やコード、ドキュメントの生成に強みを持つ。Luma AIは、高品質な動画を高速生成でき、自然なカメラワークの再現や、キャラクターの一貫性と正確性の高い動画を作成できる。stability.aiは、自然言語による高品質な画像生成に特化しており、コンセプトアート制作やビジュアルエフェクトのプロトタイピングに役立ち、Stable Diffusion 3.5も使用できるようになった。
またAmazonは、マルチモーダル、画像生成、動画生成モデルであるAmazon Novaを提供開始している。Amazon Novaには、Micro、Lite、Pro、Premierの4つのモデルがあり、それぞれ異なる機能と価格帯で提供される。
Microは、テキストのみに対応した低コスト、低遅延のモデル。LiteとProは、テキストに加えて画像、音声、動画に対応したマルチモーダルモデル。Premierは、マルチモーダルかつ複雑な推論タスクに対応するモデルで、2025年に提供予定。その他、Amazon Nova Canvasは、テキストからスタジオ品質の画像を生成するモデル、Amazon Nova Reelは、テキストからスタジオ品質の動画を生成するモデルとなり、Premier以外は一般提供が開始されている。
ドキュメント理解と画像生成
Amazon Nova は、テキストとドキュメントからの洞察に優れている。ドキュメント理解の例として、財務書類とテキストから EPS (1 株当たり純利益)を算出する様子が紹介された。また、画像、データ、プロンプトを組み合わせることで、元の画像を拡張することも可能である。
画像生成では、コーヒーメーカーの画像に新しい要素やコンテキストをプロンプトで追加することで、背景画像を生成する事例がある。限られた初期画像から、より包括的なシーンを作成したり、背景の詳細を追加したりすることが可能になる。追加の撮影やコード、編集スキルは必要ない。
製品の画像を充実化させることも可能になる。テキストからビデオを生成する例では、「フロントから光の筋が差し込み、隠された地下の水たまりを照らす洞窟をカメラが反時計回りに映し出す」というプロンプトで、複雑な内容のテキストにも対応し、美しい動画を生成する。
現在、9つのプロバイダーから提供される基盤モデルから、アプリケーションに適したモデルが提供され、柔軟に選択することが可能である。さらに、Amazon Bedrock Marketplaceの提供を開始し、新興プロバイダーや専門プロバイダーのモデルも利用できるようになった。
Amazon Bedrock Marketplaceは、新興企業や専門のプロバイダーから提供される100を超える基盤モデルへのアクセスを提供する。開発者は、希望するインスタンスにモデルを展開し、エンドポイントを設定することができる。Amazon BedrockのAPI、ツール、セキュリティを活用することで、開発ワークフローを効率化できる。また、日本からはKARAKURI、Preferred Networks、Stockmarkがモデルを公開している。
モデル蒸留によるコスト効率
選ぶモデルやサイズによってコストはある程度決まるが、それだけでは最適化とは言えない。重要なのは、アプリケーションが生成ラインの要求するコスト、精度、性能に対してどう答えていくかである。コスト、精度、性能のバランスをうまく取れれば、それがアプリケーションにとっての最適化につながると考えることができる。
コストを抑えながら、モデルの性能を最適化する手法として、モデル蒸留がある。これは、大規模で高い能力を持つモデルを基に、特定のユースケースについて、小規模なモデルの性能を高めていく手法である。
大規模なモデルの出力結果を教師信号として用い、小規模なモデルを特定分野の専門家として追加学習させることができる。一方で、トレーニングデータの管理やモデルのパラメータの重み付け、調整といったプロセスには専門家が必要となる。
そこで、この作業をより簡単にするために発表されたのが、Amazon Bedrock Model Distillationである。蒸留においては、まず教師となる大規模モデルを選ぶ。特定のプロンプトに対する回答のデータを作成し、それを小型のモデルに学習させることで蒸留する。これにより、小さなモデルが特定のユースケースに対しては、大規模モデルと同等の精度を実現できるようにする。小規模モデルは最大で500%高速化させ、コストを75%削減することも可能となる。
プロンプトキャッシングによる推論機能の強化
その他にも、モデルのコスト、性能、精度に影響する機能も追加されている。Prompt Cachingは、繰り返し使用されるトークンを安全にキャッシュし、処理を効率化する。人間が入力したプロンプトをモデルにインプットできる形にエンコードしたデータフォーマットで、コストを最大90%、レイテンシーを最大85%削減可能である。
例えば、弁護士は担当する買収案件の状況を把握する際、支払い構造や売主に含まれる保証について質問する。こうした問い合わせはすべての案件に共通するため、毎回プロンプトの一部として送信する必要がある。この共通の問い合わせに対する応答をキャッシングすることで無駄なプロンプトを抑制でき、結果的にコストの削減に貢献する。
一方、Intelligent Prompt Routingはプロンプトの内容に応じて最適なモデルを自動で選択し、入力を渡す。リクエストをモデルに動的にルーティングすることで、最も低いコストで望ましい結果が得られる可能性が高くなる。結果的に、単一のモデルの開発と基盤モデルよりも低コストで性能向上を期待することが可能になる。
RAG を構造化データソースで強化
データ活用の最もポピュラーな手法として、RAG(検索拡張生成)がある。企業が保管するデータを活用することで、モデルがより正確で、企業のビジネスに関連性の高い応答を生成する。
Amazon Bedrockは、このRAG機能を提供するKnowledge Basesという機能を備えている。Knowledge Basesは、企業が保有するデータでモデルの応答をカスタマイズできるフルマネージドな機能である。それによって、RAGのワークフローを自動化する。また、データソースの統合やクエリの管理のためにカスタムコードを書く必要はない。
一方、企業は通常業務データをデータベースやデータレイクに保存するケースが多い。RAGが構造化データに対して自然言語でクエリしデータを取得可能にするため、Knowledge Basesがプロンプトを解釈してSQLを生成し、データを取得できるようにした。プロンプトを解釈して、その内容に見合ったSQLを生成し、データを取得することで、プロンプトが意図する出力を得ることができるようになる。
これまでRAGには、単純なベクトル検索だけでは、異なる複数のデータソースの情報の関連性を加味した応答を生成するのが困難という課題があった。そこで、Knowledge Basesでグラフデータベースを利用できるようにしたことで、データの関連性を加味したテキスト生成ができるようになり、結果的に応答の精度の向上が期待できるようになった。
データ間の関連性を表現できる「ナレッジグラフ」を用いて、より関連性の高い応答を生成する。そのデータが応答に活用されることで、応答の精度が強化される。シンプルな機能であるが、生成AIアプリケーションの精度強化に貢献できる機能と言える。
例えば、銀行で融資承認ワークフローを自動化したい場合、各融資パッケージ内の適切なデータをデータベースに取り込む必要がある。そこで、融資パッケージの各文章を分類し、データを抽出、正規化、変換してからデータベースに取り込むという作業を行った。
この機能拡張によって、文書やビデオ、画像、音声などの非構造化データを解釈し、構造化データとして出力することが可能になり、RAGの精度を向上させることができる。これによって、組織の中に存在する複雑で幅広いユースケースに生成AIで取り組みやすくなることが期待できる。
責任ある AIのための「ガードレール」
企業の生成AIにおいては、PoC(概念実証)では許容できても、実ビジネスでは許容できないケースも多い。そこで、Bedrockではガードレール(Guardrails)機能を提供し、責任ある生成を支援している。ガードレールは、Bedrockでサポートされる基盤モデル、ファインチューニングされたモデルなど、幅広いモデルで機能し、有害な出力や入力を回避することが可能である。
責任あるAIポリシーに基づいて有害なコンテンツのフィルタリング設定を行い、安全対策を実装する。センシティブな禁止トピックを短い文章で定義し、出力を制限したり、モデルの応答から個人情報や機密情報を検出しブロックしたりするなど、きめ細かな設定が可能である。
ガードレールによって、企業の一貫した安全対策を生成AIのインターフェースに実装することが可能となり、多くの顧客に好評を得ている。そして、ガードレール機能を強化するために昨年プレビューに発表されたのが、Amazon Bedrock Guardrails Automated Reasoning Checkである。
Automated Reasoning Checkは、モデルの応答がポリシー通りに動作しているかを検証する機能だ。例えば、開発者は人事ガイドラインや運輸運用マニュアルなど、基盤となる事実を示すドキュメントをアップロードすることで自動推論ポリシーを作成できる。自動推論は、こうしたオフィシャルな文書の論理的な構造をリスト化し、モデルが返してくる応答がその論理構造に合致しているかを数学的に検証する。この機能は、ミッションクリティカルなアプリケーションに推論を組み込む際、大きな助けになりそうだ。
AIエージェント開発:スーパーバイザーとサブの協働
最後のテーマとして、AIエージェント開発の新機能が紹介された。Amazon Bedrockのmulti-agent collaborationのエージェントは、特定のタスクを実行するためのアシスタントツールである。
これまでのエージェントは、複数の専門的なタスクを処理するには課題があった。そこで、その課題を解消するために発表されたのが、マルチエージェントコラボレーションである。この機能によって、コーディングなしで、複数のステップを要する複雑なタスクを制御することができる。
ソーシャルメディアキャンペーンにおけるユースケースを例に説明する。まず、専門的なタスクのための個別エージェントを複数作成する。続いて、スーパーバイザーエージェントを作成する。これは頭脳のように機能するエージェントで、調整の役割を果たす。情報へのアクセス権を持つエージェントの設定や、エージェントタスクを順次実行するか並列実行するかの判断を行う。そして、専門エージェント間の連携の確認、必要に応じて判断の調整も行う。
これによって、複数のエージェントが絡むようなビジネスプロセスを生成AIによって自動化することが可能になる。金融分析とリスク管理サービスを提供するムーディーズは、顧客向けの包括的な金融リスクレポートを生成するアプリケーションの実証実験にマルチエージェントコラボレーションを活用している。この実証実験により、従来1人当たり1週間かかっていた企業分析プロセスがわずか1時間で完了できるようになった。さらには、複数の企業のレポートを並行して途切れなく生成できるようにもなった。