[ComfyMaster14]ComfyUIでのTextToImageを極める!!(4)複数キャラを同時に制御する

media

2年前

ComfyUIで「思い通りの画像を生成したい！けど思うようにいかない…」という方、TextToImage(t2i)を使いこなせていますか？
Stable Diffusionの内部の仕組みを理解し、ComfyUIでのText to Imageテクニックを身につけて、思い通りの画像を生成できるようになりましょう！

こんにちわ、AICU media編集部です。
「ComfyUI マスターガイド」第14回目になります。

[新連載] ここからはじめる「ComfyUIマスターガイド」

前回「ComfyUIでのTextToImageを極める!! (3)Concatで複数CLIPをつなぐ」で
は、Conditioning(Concat)ノードと複数CLIPを結合して「プロンプトの限界」を超え、その内部動作をソースコードから確認しました。
今回は実験を通して確認していきたいと思います。

長いプロンプトを使った実験

前回、Concatをつかうことで、長いプロンプト中の「緑の森」「赤い城」といった背景/世界と建築物での「色分け」を紹介しました。

CLIP1「a red castle on a hill」(1344×768, seed:13)
CLIP2「A fantasy landscape, overlooking a vast green forest」

さらに Conditioning(Concat)のToとFromはToがベースプロンプトで、Fromが追記であることを解説しました。でも短いプロンプトで入れ替えてみても絵に変化はなく、どちらがベースなのかは確認できなかったという結論になっていました。
今回はキャラクターイラストを使って、ものすごく長いプロンプトで実験してみましょう。
AICUで生成AIを使ってキャラクターデザインやイラストレーションを担当している犬沢某先生に相談して長めのプロンプトをいただきました。

🐶Special Attack🐶#dogear #overall #DogEarOverAll #AIArtwork #AIArt pic.twitter.com/rdOYvdU8f3
— 犬沢某🐾InusawaBow🐶いぬさわ・ばう (@InsBow) June 12, 2024

face focus, dog ears, 1boy, best quality, 16K, eating hair, dog nose, looking at looking at viewer, short hair, skinny, big eyes, dark skin, tall, naked overalls, 20-year-old,

beautiful, bold black outline, pink, pastel colors, Light Pink, scowl, brown hair, golden eyes, simple line drawing, animal ears, solo, brown hair, overalls, cat ears, dark skin, short hair, dark-skinned female, simple background, choker, sweater, yellow shirt, long sleeves, pink choker, white background, closed mouth, extra ears, animal ear fluff

これは2つのキャラクターを表現する2つのプロンプトを貼り付けたものです。途中に「髪を食べる（eating hair）」という謎の単語を含めて合計78ワードあります。

Concatを使った実験：単純な結合

まずは実験として、「Load Default」をつかって初期のワークフローにして、モデルをSDXL（sd_xl_base_1.0.safetensors）に変更し、, seed=13 fixed, 1344×768にして、CLIPひとつでそれぞれ生成してみます。

「face focus, dog ears, 1boy, best quality, 16K, eating hair, dog nose, looking at looking at viewer, short hair, skinny, big eyes, dark skin, tall, naked overalls, 20-year-old, beautiful, bold black outline, pink, pastel colors, Light Pink, scowl, brown hair, golden eyes, simple line drawing, animal ears, solo, brown hair, overalls, cat ears, dark skin, short hair, dark-skinned female, simple background, choker, sweater, yellow shirt, long sleeves, pink choker, white background, closed mouth, extra ears, animal ear fluff」、ネガティブプロンプトは「text, watermark」（2トークン消費）で生成してみます。

さすが！！かわいい！
男性と女性が混ざった雰囲気ですね。長いプロンプトが結合できていることが確認できました。

プロンプトの整理

次にこの2人分のプロンプトを前半と後半に分けて生成してみます。

前半「face focus, dog ears, 1boy, best quality, 16K, eating hair, dog nose, looking at looking at viewer, short hair, skinny, big eyes, dark skin, tall, naked overalls, 20-year-old」
Negative 「text, watermark」, SDXL, 1344×768, seed=13

(顔の焦点, 犬の耳, 1boy, 最高品質, 16K, 髪を食べる, 犬の鼻, 見る人を見ている, 短い髪, 痩せている, 大きな目, 浅黒い肌, 背が高い, 裸のオーバーオール, 20歳)

顔に焦点を当てた半裸でオーバーオールを着た20歳の青年が生成されました。続いて後半です。

後半「beautiful, bold black outline, pink, pastel colors, Light Pink, scowl, brown hair, golden eyes, simple line drawing, animal ears, solo, brown hair, overalls, cat ears, dark skin, short hair, dark-skinned female, simple background, choker, sweater, yellow shirt, long sleeves, pink choker, white background, closed mouth, extra ears, animal ear fluff」
Negative 「text, watermark」, SDXL, 1344×768, seed=13

（美しい, 太い黒の輪郭, ピンク, パステルカラー, ライトピンク, しかめっ面, 茶色の髪, 金色の目, シンプルな線画, 動物の耳, ソロ, 茶色の髪, オーバーオール, 猫耳, 浅黒い肌, 短い髪, 浅黒い肌の女性, シンプルな背景, チョーカー, セーター, 黄色のシャツ, 長袖, ピンクのチョーカー, 白背景, 閉じた口, 余分な耳, 動物の耳の綿毛）

Concatを使った実験：整理と結合

これらを Conditioning(Concat)を使って繋いでみます。

CLIP1-Conditioning_to「face focus, dog ears, 1boy, best quality, 16K, eating hair, dog nose, looking at looking at viewer, short hair, skinny, big eyes, dark skin, tall, naked overalls, 20-year-old」
CLIP2-Conditiong_from「beautiful, bold black outline, pink, pastel colors, Light Pink, scowl, brown hair, golden eyes, simple line drawing, animal ears, solo, brown hair, overalls, cat ears, dark skin, short hair, dark-skinned female, simple background, choker, sweater, yellow shirt, long sleeves, pink choker, white background, closed mouth, extra ears, animal ear fluff」
Negative 「text, watermark」, SDXL, 1344×768, seed=13

1boyとdark-skinned femaleが混ざっていますので、難しいと思います。中性的ではありますが、どちらかというと男性っぽいですね。
まずはConcatで結合が機能していると考えられます。

FromとToはどっちがベースなのか実験的に確認する

さてFromとToはどっちがベースなのか実験的に確認していきましょう。
さきほどの中性的なイラストの前後半を入れ替えてみます。

CLIP1-Conditioning_to「beautiful, bold black outline, pink, pastel colors, Light Pink, scowl, brown hair, golden eyes, simple line drawing, animal ears, solo, brown hair, overalls, cat ears, dark skin, short hair, dark-skinned female, simple background, choker, sweater, yellow shirt, long sleeves, pink choker, white background, closed mouth, extra ears, animal ear fluff」
CLIP2-Conditiong_from「face focus, dog ears, 1boy, best quality, 16K, eating hair, dog nose, looking at looking at viewer, short hair, skinny, big eyes, dark skin, tall, naked overalls, 20-year-old」
Negative 「text, watermark」, SDXL, 1344×768, seed=13

たしかに同じではなさそうです。toとfromは英語的な意味とは逆で、「toがベースでfromが追加条件」という説が実証できているようにも見えます。

キャラクターの描き分け実験：空白CLIP、クオリティプロンプト

実はこのプロンプト、2つのキャラクターが混ざっています。1boyとfemale、Dog earsと Cat ears、「髪の毛を食べる」と「口を閉じる」という破綻しやすそうなキーワードが混在していますので、これを整理してみます。

混ざっているプロンプトをわかりやすく、キャラクター1,2と演技、画風やクオリティプロンプト、と分けて入れ替えてみます。

キャラクター1「1girl, pink, pastel colors, Light Pink, scowl, golden eyes, animal ears, solo, overalls, cat ears, dark skin, short hair, dark-skinned female, choker, sweater, yellow shirt, long sleeves, pink choker, closed mouth, extra ears, animal ear fluff」（1girl、ピンク、パステルカラー、ライトピンク、しかめっ面、金色の目、動物の耳、ソロ、オーバーオール、猫耳、黒い肌、ショートヘア、肌の黒い女性、チョーカー、セーター、黄色のシャツ、長袖、ピンクのチョーカー、口を閉じた、余分な耳、動物の耳の綿毛）

これをConditioning_toに設定して、Conditioning_fromを空白する例と、それを入れ替えた例、さらにクオリティプロンプトと背景設定を入れ替えた例を実験します。

やはり空白のような極端に短いCLIPでは効果は確認できないようです。クオリティプロンプトを加えてみます。

Conditioning_to「1girl, pink, pastel colors, Light Pink, scowl, golden eyes, animal ears, solo, overalls, cat ears, dark skin, short hair, dark-skinned female, choker, sweater, yellow shirt, long sleeves, pink choker, closed mouth, extra ears, animal ear fluff」
Conditioning_From「beautiful, bold black outline, simple line drawing, simple background, white background, best quality, 16K」

Conditioning_to「beautiful, bold black outline, simple line drawing, simple background, white background, best quality, 16K」
Conditioning_from「1girl, pink, pastel colors, Light Pink, scowl, golden eyes, animal ears, solo, overalls, cat ears, dark skin, short hair, dark-skinned female, choker, sweater, yellow shirt, long sleeves, pink choker, closed mouth, extra ears, animal ear fluff」

たしかに、ベースプロンプトがConditioning_toではありそうです。長いプロンプトでの実験は効果ありそうです。画風とキャラクターについての実験を続けます。

続いてキャラクター2のプロンプトを設定します。もともと頂いたプロンプトからキャラクターとして一貫性がありそうな「1boy, dog ears, dog nose, short hair, skinny, big eyes, looking at viewer, dark skin, tall, naked overalls, 20-year-old, brown hair」（1boy、犬耳、犬鼻、短髪、痩せ型、大きな目、視聴者を見ている、黒い肌、背が高い、裸のオーバーオール、20歳、茶髪）として、先程のキャラクター1の代わりに入れてみます。

Conditioning_to「1boy, dog ears, dog nose, short hair, skinny, big eyes, looking at viewer, dark skin, tall, naked overalls, 20-year-old, brown hair」
Conditioning_from「beautiful, bold black outline, simple line drawing, simple background, white background, best quality, 16K」

入れ替えてみます。

Conditioning_to「beautiful, bold black outline, simple line drawing, simple background, white background, best quality, 16K」
Conditioning_from「1boy, dog ears, dog nose, short hair, skinny, big eyes, looking at viewer, dark skin, tall, naked overalls, 20-year-old, brown hair」

たしかに、ベースプロンプトがConditioning_toではありそうです。

実験：多段Concat

それではConcatを多段にするとどうなるでしょうか？
接続としては以下のようになります。
Concat1（To:画風＋ From: キャラクター1boy）
Concat2（To:Concat1の結果＋Form：キャラクター2girl）

多段Concatは問題なく接続されますし、結果も良好です。
さて次は問題です。

Concat1（To:画風＋ From: キャラクター2girl）
Concat2（To:Concat1の結果＋Form：キャラクター1boy）

このようなネットワークを組んだときに、boyが出るのかgirlが出るのか、皆さんはどう考えますか？

結果は「入れ替えても変わらない」です。Conditioningの多段、特にFromを多段Concatで入れ替えても結果は変化ありませんでした。
シードによって描かれる結果は変わりますが、Fromを入れ替えても変化はないのです。これは便利ですね。

Concat1（To:キャラクター1boy＋ From: 画風）
Concat2（To:Concat1の結果＋Form： キャラクター2girl）

Concat1（To:キャラクター1boy＋ From: キャラクター2girl）
Concat2（To:Concat1の結果＋Form：画風）

ComfyUIにおいて強調構文は平均ではなく、Fromは掛け算のように働くと覚えておくと良いのかもしれないですね。

実験：Combineでの融合と入れ替え

同じようにConditioning(Concat)ではなく、Conditioning(Combine)で融合と入れ替えをしてみます。こちらも全く変化なしです。

複数の異なる特徴を持ったキャラクターを描くには？

さて、Concatの理解は進みましたでしょうか？
では複数の異なる特徴を持ったキャラクターを描くにはどうやったら良いのでしょうか？

ポイントは、まず「大事なものはToに設定」そして「それぞれのCLIPにも設定」しましょう。
複数のキャラクターの画風の統一を図りたい、同じ空間や世界に配置したいときはToに書きます。これをベースとして、このように2人の人物が出てくれば、あとは詳細を75トークン以内で表現するだけで2人以上のキャラクターの画像をそれぞれ生成することができるようになります。

CLIPを2つでConcatだけで構成する場合にはこんな感じです。
[CLIP1] best quality, beautiful, 1girl and 1boy,
[CLIP2] best quality, beautiful, 1girl and 1boy,
ここまでいれる、というテクニックが非常に重要です。
こんな絵も作れるようになります。

[CLIP1]
best quality, beautiful, 1girl and 1boy, 1girl, female, 20-year-old, cat ears, pink choker, sweater, yellow shirt, long sleeves, white background, closed mouth, extra ears, animal ear fluff, solo, brown hair, overalls, pink, pastel colors, Light Pink, face focus,

[CLIP2]
best quality, beautiful, 1girl and 1boy, blue choker, eating hair, dog ears,16K, dog nose, looking at looking at viewer, short hair, skinny, big eyes, dark skin, tall, naked overalls, bold black outline, scowl, brown hair, golden eyes, simple line drawing, animal ears, simple background, dark skin, short hair, dark-skinned

多段Concatを使った作例

実際にはCLIP2つだけで複数キャラクターと世界や画風を設定するよりも、多段のConcatを使ったほうが楽かもしれません。
一連の流れを出力例からおさらいします。

ベースになる画風を1段目のConditiong_toに設定します。

Conditiong_to「1boy and 1girl, beautiful, bold black outline, simple line drawing, simple background, white background, best quality, 16K」

二人がどんな演技をしているか、共通で維持したいものはすべてのCLIPに入れておけば強調されます。

conditioning_fromとconditioning_toに共通に「1girl and 1boy」を入れて、それぞれの特徴をCLIP1とCLIP2で詳細に描写していくことができます。

このあたりで一度、シードをfixedからIncrementに変更して、Queue Prompt Extra Options▶Batch countを20として、20枚、シードを増やしながら一気に生成してみます。

肌の褐色をプロンプトで強調していくか、いろんな方向性があり得ると思いますが、ここまで制御性が高くなっていると、好きなテイストを選ぶことも難しくないと思います。

この段階では画風、肌の色やレイアウトのほうが表情や指といった細かいところよりも重要です。画面比率を変えると大幅に変わってしまいますので今回は1344×760で固定しておいたほうが良いでしょう。
SDXLの場合、テキスト以外にも画像解像度等の条件が加えられる場合はconditioning_toの方を使います。

表情や指がおかしいところはImageToImageで修正できますが（次回以降）、今回はネガティブプロンプトやembeddingで仕上げていきます。

[11]ComfyUIでのTextToImageを極める!!(1)プロンプトの基本文法

プロンプトだけのSDXL、TextToImageで完成させた作品がこちらです。
便宜上、CLIP0、CLIP1、CLIP2と呼んでいますが、いままでの2段構成のConditioning(Concat)によって実装しています。

CLIP0(conditioning_to) : 1boy and 1girl looking each other, beautiful, bold black outline, simple line drawing, simple background, white background, best quality, 16K

CLIP1(Conditiong_from) : 1boy and 1girl looking each other,1boy face focus, dog ears, 1boy, best quality, 16K,, dog nose, looking at looking at viewer, short hair, skinny, big eyes, dark skin, tall, naked overalls, 20-year-old

CLIP2(Conditioning_from) : 1boy and 1girl looking each other, 1girl , pink, pastel colors, Light Pink, scowl, golden eyes, animal ears, solo, overalls, cat ears, dark skin, short hair, dark-skinned female, choker, sweater, yellow shirt, long sleeves, pink choker, closed mouth, extra ears, animal ear fluff

Negative: text, watermark, embeddings:negativeXL_D

まとめ：conditioning

これまで4回にわたってComfyUIでSD1.5およびSDXLを使ってプロンプトの基本的な方法から、応用的なテクニックまでを紹介してきました。今回はイラストレーションで「複数のキャラクターを同時制御する」という実験を行いましたが、プロンプトだけでなく、CLIPの内部やConditioningを使ってComfyUIならではの絵作りを探求していくベースになったようであれば幸いです。実はconditioningにはたくさんあり、今回紹介したCombine、Concatの他にはAverage、 Set Areaなど複数存在します。例えばAverageは結合ではなく線形補間します。