【元記事をASCII.jpで読む】

 Stability AIは4月17日2月22日にプレビュー版を発表した最新の画像生成AIモデル「Stable Diffusion 3」、その高速版である「Stable Diffusion 3 Turbo」、そしてこれらを搭載したAIチャットボット「Stable Assistant」を発表した。

文字の生成が強み

 同モデルはMultimodal Diffusion Transformer(MMDiT)という、画像と言語の表現に別々の重みセットを使用し、テキストと画像のトークンが互いの情報を考慮しながら独自のスペースで機能できる新しいアーキテクチャにより、テキストの理解力とスペル能力が向上。「DALL-E 3」や「Midjourney v6」などの他の最先端モデルと比較して、タイポグラフィ(文字の生成)やプロンプトの遵守において優れたパフォーマンスを示している。

 Stable Diffusion 3の初期リリースでは、800M(8億)から8B(80億)までのパラメータを持つ複数のバリエーションが用意される予定。

 リサーチペーパーによると、最大となる8BモデルでもNVIDIAビデオカード「RTX 4090」の24GB VRAMで動作可能。1024x1024の解像度の画像を生成するのに、50サンプリングステップを使用した場合、34秒かかるという。

 「Stable Diffusion 3 Turbo」は、Stable Diffusion 3の高速版。どちらも高速で信頼性の高いAPIプラットフォームである「Fireworks AI」と提携し、「Stability AI Developer Platform API」を通じて利用可能。APIの使用には、Stability AIのメンバーシップが必要だ。

 また、近い将来セルフホスティング用のモデルウェイトも提供され、ローカルでも利用できる予定だという。

SD3とStable LM 2を組み合わせた「Stable Assistant」

 「Stable Assistant」は、Stable Diffusion 3と同社が開発した大規模言語モデル(LLM)「Stable LM 2-12B」を使用したチャットボット。会話から画像を生成することに優れており、ライティングプロジェクトの支援やコンテンツに合った画像の提供が可能だ。

 クレジットベースの4つの価格プランが用意されており、画像生成1回につき6.5クレジット、メッセージ送信1回につき0.1クレジットが消費される。

画像生成AI「Stable Diffusion 3」API利用可能に 文字の正確さが強み