Databricks(以下、データブリックス)は、人間が生成した指示命令データセットを基に微調整された、商用利用が可能な命令追従型の大規模言語モデル(LLM)「Dolly 2.0」の提供を開始した。Dolly 2.0は、APIアクセスや第三者とのデータ共有にかかる費用を支払わずに商用利用が可能だという。
データブリックスは3月、「ChatGPT」のような対話能力(指示追従性)を発揮する LLM「Dolly 1.0」を公開。これまでの命令追従型モデルは、商用利用を目的としておらず、ライセンスに基づく限定的なトレーニングデータで管理されている。Dolly 2.0は、「EleutherAI/pythia」モデルファミリーに基づく12Bパラメータ言語モデルで、データブリックスの社員が生成した命令レコードの小規模なオープンソースデータセットのみを使用して微調整されているため、商用利用が可能だという。
なお、Dolly 2.0モデルウェイトは、データブリックスの「Hugging Face」のページからのダウンロードできる。また、データブリックスは、Dolly 2.0のトレーニングに使用されたデータセット「databricks-dolly-15k」も公開しているという。
【関連記事】
・データブリックス、ChatGPT同様の対話が可能な生成AIモデル「Dolly」を発表
・データブリックス・ジャパン社長に笹俊文氏が就任 元セールスフォース・ジャパン
・Databricks、製造業向けに構築済みのレイクハウスを提供開始 既にAGCなどが採用