
独Black Forest Labs(BFL)が6月26日、画像生成AIモデル「FLUX.1 Kontext [dev](フラックス.1 コンテキスト)」をオープンウェイトモデル(重み)として公開したことが話題になっています。今、画像生成AIの高性能モデルでは“一貫性ある画像”をいかに簡単に出力するかの競争が激しくなっていますが、FLUX.1 Kontextは今までの水準を大幅に上回っています。5月にAPIのみで使用できるクラウドバージョンが公開されていて、すでに高い評価を集めていました。ローカルPC環境でも使えるモデルを出すとアナウンスしてから約1ヵ月でのリリースです。その実力を探りました。
※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください
クラウドサービスなら1枚6円で試せる
BFLは、「Stable Diffusion」の開発者たちが独立して展開を始めたスタートアップ。2024年8月に画像生成AIの「FLUX.1」を発表後、特に実写系モデルとしては高い評判を集めていました。複数のモデルが用意され、最高品質のFLUX.1 [pro]についてはAPI経由のクラウドのみでしか使えない形にして収益モデルを確立する一方、オープンウェイトモデルとして公開されたFLUX.1 [dev]や[schnell]が人気を集めました(参考:「Stable Diffusion」の失敗に学び、画像生成AIの勢力図を塗り変える「FLUX.1」)。
2024年11月には、改良版の「FLUX 1.1[pro]」をクラウドサービス向けに発表し、より高品質な画像生成に対応していきました。そして、FLUX.1 Kontextは、画像とテキストの両方を認識し、複数の処理結果を反映できるマルチモーダルモデルとして、使い勝手の良いモデルとして登場してきました。筆者の推測では、今回のFLUX.1 Kontextは、FLUX 1.1をベースにさらに学習させたものではないかと思います。出力結果の品質がFLUX 1.1よりも全体的に高まっていると感じられるためです。
FLUX.1 Kontextは、BFLが提供しているクラウドサービス「FLUX Playground」で、1枚あたり0.04ドル(約6円)で簡単に試すことができます。
まずは、いつもの作例の「明日来子さん」の画像(左上)を参照画像として、「日本のアニメスタイルで水彩画調」(右上)や、「バウハウス」スタイル(右下)にしてみました。それから夏の時期にはこの冬服の格好がいかにも暑いので、「季節を夏にして、半袖の服に、街を歩いている人も夏服に」(左下)と指示しました。それぞれ十数秒ほど待つと高い品質で、出力されてきます。
さらに夏服の画像を参照画像として、「スーパーカブに乗せてください」と指示したところ、次のような画像が生成されました。さらに夏服を参照して、FLUX Playgroundのアウトペイント機能を使って、全身像を出すように指示したところ、明日来子さんの全身像がかなり自然に生成されました。
FLUX.1 Kontext [dev]では、こうした機能がローカルPC環境で使えるようになるわけです。
画像生成アプリの定番「ComfyUI」でも使える
BFLは、ノードベースの画像生成AIアプリ「ComfyUI」への公式テンプレートにワークフローを同梱するなど、連携を積極的にしています。また、ComfyUIは独自アプリを強化しており、初心者でも扱いやすいようにするべく努力を続けています。テンプレートのなかに「Flux」という項目があり、そこからKontext Devの読み込みをすればよく、最初の導入は簡単になっています。不足しているモデルは自動でダウンロードしてくれます。
Kontext Devは様々な設定ができるのですが、「FLUX Kontext Dev(Grouped)」の設定を利用して、2枚の画像を連続して生成する方法を試してみました。夏服の明日来子さんを参照画像に設定し、1回目の生成では猫を抱いていて、2回目の生成では「ASCII」の文字を画面に追加するという設定をしてみました。すると、猫を抱きしめている明日来子さんが表示され、ASCIIの文字が追加されました。画質は、クラウドの[pro]に比べると若干劣るようにも感じますが、ほとんどその違いがわかりません。追加学習モデルのLoRAでキャラクターモデルを作らなくとも、ここまでの一貫性を維持できるのは強力です。
また、この2回生成する方法は、様々な形で応用が可能で、写真風画像をイラスト風に変換し、さらに、それを線画にするといったこともできます。そして、合成すればイラスト風の画像を作ることもできます。
画風LoRAも登場し、動画生成にも使いやすく
さらに、画風LoRAも登場し始めています。サーバーレンタルサービスのFalはLoRAトレーニング環境「LoRA trainer for FLUX.1 Kontext [dev]」を提供開始しています。変化前と変化後の画像のペアをセットにして20~30パターンを登録して作成すると、専用のKontext LoRAを作れます。それによって作成されたLoRAの開発も進められています。比較的LoRAの開発もしやすいこともあり、今後も、様々な可能性が探られることになるでしょう。
ただ、標準のワークフローでは、LoRAに対応していないため、LoRAを動かせるワークフローは別途に用意が必要です。
reverentelusarcaさんが公開した「FLUX Kontext Character Turnaround Sheet LoRA」は、正面の画像が1枚あれば、様々な角度からのキャラクターシートを生成してくれるというLoRAです。参照画像は右端の上半身の女性です。少し欧米のカートゥーンよりの画風ですが、様々な角度からのキャラクターを生成してくれます。なぜか右端に男性も生成されていますが、その部分だけ削除すれば使用時には問題ありませんでした。
このキャラクターシートが便利なのは、動画生成AIのViduのリファレンス機能と組み合わせて一貫したキャラクターの動画生成に使えることです。画面外のものは、他のサービスでは生成するたびに違うものとして生成されやすいのですが、リファレンス機能を使うと一貫性を持った動画として生成されます。
△Viduのリファレンス機能を利用して生成した動画
apolinarioさんは「Kontext Relight」というLoRAを発表しました。このLoRAでは照明環境を任意に変更できるようにトレーニングされています。ライトのタイプや方向などを設定することで、場面の雰囲気を維持したままライトだけを変えることができます。HuggingFaceにデモ版も公開されていますが、ローカルPC環境でも問題なく使用できます。
ライセンスで混乱も
一方で、混乱が起きたのがライセンスです。
当初、FLUX.1 Kontext [dev]の発表に合わせて、ライセンスv1.1に改定されました。その際に、[dev]版は一切の商用利用を認めないと発表がありました。今まで、FLUX.1 [dev]では公開したモデルを利用してのビジネスを認めず、しかし、その生成物については、BFLは権利を主張しないというものから大幅な変更です。商用ライセンスは月額999ドルの支払いが必須であるため、事実上、FLUX.1 [Dev]の生成物であっても、今までのように自由に使えないとの理解が広がりました。
しかし、翌日、ユーザーからの問い合わせに答える形で、そのライセンスは再度変更されました。v1.1.1の2.ライセンス付与の項目では下記の様な文言が追加されました。
「d. 出力物。当社は、出力物に関するいかなる所有権も主張しません。あなたは、本ライセンスに従って生成した出力物およびその後の利用について、単独で責任を負います。あなたは、本ライセンスで明示的に禁止されている場合を除き、出力物をいかなる目的(商業目的を含む)にも利用できます」
そのため、FLUX.1 Kontext [dev] の生成物は、ライセンスの他の条項(違法コンテンツの生成禁止、プライバシーや著作権侵害の禁止、競合AIのデータ作成など)に違反しない限り、生成物は商用目的で使用可能であると再確認され、これまでと同様とコミュニティをホッとさせました。
様々な可能性を秘めた期待のモデル
FLUX.1 Kontext [dev] は様々な可能性を秘めているモデルで、様々な場面でも使われていくと同時に、様々な技術可能性も試されていくでしょう。静止画のみならず、動画への応用も期待されるため、今後の活躍の幅は広がっていきそうです。

コメント