タグ: controlnet

  • [ComfyMaster28] 落書きが画像に!ControlNet Scribble入門

    頭の中のイメージを、絵心がなくても、まるで魔法のように高品質な画像に変換できるとしたら?
    最新のAI技術、ControlNetの「Scribble」がそれを可能にします!
    シンプルな線画を描くだけで、あとはAIがあなたの意図を読み取り、驚くほどリアルで美しい画像を生成してくれるのです。

    こんにちわ、AICU media編集部です。
    ComfyUI マスターガイド」第28回目になります。
    本記事では、この革新的なScribble機能の使い方を、具体的な手順と豊富な作例を交えて分かりやすく解説します。AIによる画像生成の世界を、あなたも体験してみませんか?

    本連載の初回はこちら。前回はこちら、目次はこちらです。

    [ComfyMaster27] 写真もイラストも線画に!ComfyUIとControlNetによる線画抽出ワークフロー #ComfyUI

      1. 概要

      この記事では、ControlNetのScribble機能を使って、簡単な線画から高品質な画像を生成するワークフローを解説します。具体的な手順、使用したモデルやパラメータ、そして異なる強度設定による生成結果の違いなどを示し、Scribbleの効果と活用方法を理解することを目的とします。

      以前の記事で解説したControlNetの基本設定を前提に、今回は「scribble_01.png」というサンプル線画を用いて、人物画像を生成する例を紹介します。生成にはSDXL、RealVisXlモデル、controlnet-union-sdxl-1.0モデルを使用し、プロンプトによる調整も行います。最終的には、ControlNetの強度パラメータを調整することで、線画の反映度合いを制御し、思い通りの画像生成を実現する方法を学びます。

      2. ワークフローの使用準備

      ControlNet

      ControlNetの使用準備については、以下の記事をご覧ください。

      今回は、ControlNetのScribbleを使用します。Scribbleは、線画を元に、画像の内容を推定し、その内容に沿った画像を生成します。

      画像素材

      今回は、以下の画像をScribbleに使用します。

      画像

      画像ファイルは、以下よりダウンロードしてください。

      3. ワークフロー解説

      以下がワークフローの全体構成になります。

      画像

      ワークフローのファイルは文末のリンクよりダウンロードしてください。
      以下にワークフローの主要な部分とその機能を図示し、詳細に説明します。

      1. 入力画像の読み込みと前処理
        • Load Image ノード: 「scribble_01.png」というスケッチ画像を読み込みます。
        • Scribble ノード: 入力スケッチを処理し、ControlNetに適した形式に変換します。
          • 出力解像度: 1024×1024
      2. モデルとControlNetの読み込み
        • Load Checkpoint ノード: 「RealVisXl.safetensors」モデルを読み込みます。
        • Load ControlNet Model ノード: 「controlnet-union-sdxl-1.0.safetensors」を読み込みます。
      3. プロンプト処理 (CLIP Text Encode (Prompt) ノード x2)
        • ポジティブプロンプト: 「realistic, photorealistic, 1girl, t-shirt, black_hair, long_hair,」
        • ネガティブプロンプト: 「bad hand, bad anatomy, worst quality, ai generated images, low quality, average quality, nsfw, nude, naked,」
      4. ControlNetの適用 (Apply ControlNet (Advanced) ノード)
        • 前処理されたスケッチ画像を使用してControlNetを適用します。
        • 強度: 0.4 (中程度の影響力)
      5. 潜在画像の準備 (EmptyLatentImage ノード)
        • サイズ: 1024×1024
        • バッチサイズ: 1
      6. 画像生成 (KSampler ノード)
        • Seed: 860227022998597
        • Steps: 20
        • CFG Scale: 7
        • Sampler: dpmpp_2m
        • Scheduler: karras
        • Denoise: 1.0 (完全に新しい画像を生成)
      7. 画像のデコードと保存
        • VAEDecode ノード: 生成された潜在表現を実際の画像にデコードします。
        • SaveImage ノード: 最終的に生成された画像を「controlnet_scribble」という名前で保存します。

      4. 生成結果

      以下がScribbleの生成結果です。ControlNetの強度を0.10〜0.80まで変化させながら生成を行い、その違いを一覧化しました。

      画像

      まず、0.10は、ほとんどScribbleが効いていないようです。0.20から少し効果が出てきているようで、0.30-0.40で良い具合で効いているように見えます。0.50からは、反対に効果が出過ぎていて、形状が崩れていっています。0.70からは落書きが強く反映されてしまっています。

      強度を0.40にし、プロンプトを変更して色々と画像を生成してみました。

      画像

      5. まとめ

      Scribbleは、落書きやラフ絵をプロンプトで指定した画像に変換してくれる、特に絵を描きたい人に有効なControlNetです。今回は、私の適当な落書きで試しましたが、もう少ししっかりしたラフ絵であれば、より良い画像を生成できると思います。ぜひ色々なラフ絵でお試しください!

      次回は、IPAdapterでの生成画像のコントロールの方法を紹介します。乞うご期待!
      X(Twitter)@AICUai もフォローよろしくお願いいたします!

      画像生成AI「ComfyUI」マスターPlan

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。
      ✨️オトクなメンバーシップについての詳細はこちら

      ワークフローのファイルは以下のリンクよりダウンロードしてください。


      この記事の続きはこちらから https://note.com/aicu/n/n8f82a5f619f1

      Originally published at https://note.com on Nov 1, 2024.

    1. [ComfyMaster26] ControlNetでイラストを精密に実写化!

      イラストのスタイルを実写に変換する際、従来のimage-to-image (i2i) 手法では、変換元画像の特徴を維持しながらの変換が困難でした。今回は、その課題をComfyUIのConrolNetで解決します!

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第26回目になります。
      本記事では、ControlNetを導入することで、この課題を解決し、より精密な実写化を実現する方法を紹介します。具体的には、以前i2iでスタイル変換を試みた犬のイラストを再度用い、ControlNetによる変換結果とi2iのみの結果を比較することで、その効果を検証します。

      本連載の初回はこちら。前回はこちら目次はこちらです。

      [ComfyMaster25] 画像を自由自在に!ControlNetで完全制御 #ComfyUI

      1. 概要

      今回は、ControlNetを利用して、イラストを実写に変換します。以前にi2i (image-to-image) でスタイル変換を試しましたが、i2iだけの場合、変換元画像の特徴を維持しながらスタイル変換が難しいという課題がありました。この課題をControlNetを使用することで解決します。

      画像

      i2iのみでのスタイル変換との結果を比較するために、i2iで使用した以下の犬のイラストを使用します。

      画像

      2. ControlNetの使用準備

      ControlNetの使用準備については、前回の記事をご覧ください。

      今回は、ControlNetのDepthとLineartを組み合わせて使用します。Depthでは、犬と背景との関係を明示し、Lineartでは、犬や草花の形状を理解させるために使用します。

      3. workflowのノード構成

      以下がworkflowの全体構成になります。このワークフローは、アニメ調のイラストを入力として受け取り、その構図や主要な要素を保持しながら、より現実的で詳細な画像に変換します。ControlNetの使用により、入力画像の構造が出力に強く反映され、同時にプロンプトとモデルの力を借りて現実感のある詳細が付加されます。結果として、元のイラストの魅力を保ちつつ、より写実的な猫の画像が日本の伝統的な部屋の中に描かれることが期待されます。

      画像

      ワークフローのファイルは、文末のリンクよりダウンロードください。

      以下に、このワークフローの主要な部分とその機能を図示し、詳細に説明します。

      1. 入力画像の読み込みと処理
        • Load Imageノード: 犬のイラスト画像を読み込みます。
        • VAE Encodeノード: 入力イラストを潜在空間にエンコードします。
        • Depth Anything V2ノード: 入力画像から深度マップを生成します。
        • Line Artノード: 入力画像から線画を抽出します。
      2. モデルとControlNetの読み込み
        • Load Checkpointノード: 「RealVisXl.safetensors」モデルを読み込みます。
        • Load ControlNet Modelノード: 「controlnet-union-sdxl-1.0.safetensors」を読み込みます。
      3. プロンプト処理 (CLIP Text Encode ノード x2)
        • ポジティブプロンプト: 「realistic, photorealistic, looking_at_viewer, brown_eyes, sitting, closed_mouth, flower, outdoors, day, blurry, tree, no_humans, depth_of_field, animal, sunlight, grass, dog, yellow_flower, fence, purple_flower, animal_focus, lamppost」
        • ネガティブプロンプト: 「anime, illustration,」
          • アニメやイラストの要素を排除するために、ネガティブプロンプトに「anime, illustration,」を入力する
      4. ControlNetの適用 (Apply ControlNet Advanced ノード x2)
        • 1つ目のControlNetはDepthを使用
        • 2つ目のControlNetはLineartを使用
        • 両方とも強度: 0.3 (ControlNetの影響力)
      5. 画像生成 (KSampler ノード)
        • Seed: 860227022998599
        • Steps: 20
        • CFG Scale: 8
        • Sampler: dpmpp_2m
        • Scheduler: karras
        • Denoise: 0.7
      6. 画像のデコードと保存
        • VAE Decode ノード: 生成された潜在表現を実際の画像にデコードします。
        • Save Image ノード: 最終的に生成された画像を 「style_transformer」という名前で保存します。

      3. 生成結果

      以下が生成結果になります。まずは、しっかりと実写に変換できていることが確認できます。

      画像

      次に変換元画像と比較して見ましょう。背景も含めて、かなり正確に変換元画像の特徴を維持していることが分かります。

      画像

      さらにi2iのみの結果とも比較してみます。すべてdenoiseが0.7の時の結果となります。i2iの時は、花が柵になっていたり、犬が少し大人びています。ControlNetを追加した結果では、背景はもちろん、犬の特徴も変換元画像に近いです。

      画像

      4. まとめ

      犬のイラストを題材に、深度マップと線画をControlNetに入力することで、元のイラストの構図や犬の特徴(子犬らしさなど)を維持しながら、背景や被写体をリアルな質感で表現することに成功しました。RealVisXlとcontrolnet-union-sdxlを用い、プロンプトで写実性を強調しつつ、アニメやイラストの要素をネガティブプロンプトで排除することで、より自然な実写化を実現しました。結果として、i2i単体では背景が大きく変化したり、犬の年齢が変化するなど、元のイラストの特徴が失われていたのに対し、ControlNetを用いた手法では、これらの特徴を保持したまま、高精度な実写化が達成されました。 これにより、ControlNetがイラストの実写化において、元の画像の特徴を維持しつつ、より精密な変換を可能にする強力なツールであることが示されました。

      次回は、写真やイラストを線画にする方法を紹介します。乞うご期待!
      X(Twitter)@AICUai もフォローよろしくお願いいたします!

      画像生成AI「ComfyUI」マスターPlan

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。
      ✨️オトクなメンバーシップについての詳細はこちら


      この記事の続きはこちらから https://note.com/aicu/n/n4fafc970da0a

      Originally published at https://note.com on Oct 20, 2024.

    2. [ComfyMaster25] 画像を自由自在に!ControlNetで完全制御

      求める画像を生成するために、プロンプトだけでは物足りないですよね?
      そんな時、ControlNetが助けになります!
      ControlNetは画像生成の制御性を大幅に向上させる革新的な技術として注目を集めています。特に、最新のSDXL(Stable Diffusion XL)モデルと組み合わせることで、その威力は一層増しています。

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第25回目になります。
      本記事では、ComfyUIを使用してSDXLでControlNetを活用する方法を、初心者の方にも分かりやすく解説していきます。

      前回はこちら
      [ComfyMaster24] LoRAで表現をもっと自由に! スタイルを使いこなそう

      1. ControlNetとは何か?

      ControlNetは、既存の画像生成モデルに「制御」の要素を加える技術です。従来の画像生成AIは、プロンプト(テキストによる指示)のみをネットワークに画像を生成していました。そのため、言語で表現しきれない要素はランダム性が強く、ユーザーの意図通りにならないことも多々ありました。ControlNetは、この問題を解決するために開発されました。

      ControlNetを使用すると、プロンプトに加えて、追加の情報をAIに与えることができます。この追加情報には、画像の輪郭線、深度情報、ポーズ、セグメンテーションマップなど、様々な種類があります。AIはこれらの情報をもとに、よりユーザーの意図に合致した画像を生成することができるようになります。

      画像

      簡単に言えば、従来のモデルが「自由に絵を描くアーティスト」だとすれば、ControlNetは「具体的な指示を出せるアートディレクター」のような役割を果たします。

      2. 各種ControlNetの説明と用途

      ControlNetには、様々な種類があります。それぞれが異なる種類の条件に対応しており、用途も異なります。ここでは、代表的なControlNetの種類とその用途について解説します。

      Canny Edge(キャニーエッジ)

      入力画像からエッジ(輪郭線)を検出し、そのエッジを元に画像を生成します。エッジ検出には、Cannyアルゴリズムと呼ばれる手法が用いられます。Cannyアルゴリズムは、ノイズの影響を受けにくく、正確なエッジを検出することができるため、ControlNetで広く利用されています。

      画像

      主に以下のような用途で使用されます。

      • 特定の形状を維持したまま、スタイルやテクスチャを変更したい場合: 例えば、建物の写真からエッジを検出し、そのエッジを元に、建物のスタイルを和風や洋風に変更することができます。
      • スケッチや線画を元に、リアルな画像を生成したい場合: 手描きのスケッチや線画からエッジを検出し、そのエッジを元に、写真のようなリアルな画像を生成することができます。
      • ロゴやイラストのトレース: ロゴやイラストをスキャンしてエッジを検出し、そのエッジを元に、ベクター画像を作成することができます。
      画像

      Depth Map(深度マップ)

      入力画像の奥行き情報を利用して、立体感のある画像を生成します。奥行き情報は、画像中の各ピクセルがカメラからどれだけ離れているかを表す情報です。深度マップは、白黒画像で表現され、白い部分が近く、黒い部分が遠くを表します。

      画像

      主に以下のような用途で使用されます。

      • 3D的な表現や、奥行きを強調したい場合: 例えば、風景写真から深度マップを生成し、その深度マップを元に、より奥行き感のある風景画を生成することができます。
      • ミニチュア風写真: 通常の写真から深度マップを生成し、その深度マップを元に、ミニチュア模型のような写真を作成することができます。
      • 背景のぼかし: 深度マップを利用して、被写体以外をぼかした写真を作成することができます。
      画像

      Pose Estimation(ポーズ推定)

      入力画像から人間の骨格情報(ポーズ)を推定し、そのポーズを元に画像を生成します。ポーズ推定には、OpenPoseなどのAIモデルが用いられます。OpenPoseは、画像から人間の関節の位置を検出し、骨格を推定することができます。

      画像

      主に以下のような用途で使用されます。

      • キャラクターデザインやイラスト制作で、特定のポーズを表現したい場合: 例えば、人物の写真からポーズを推定し、そのポーズを元に、アニメキャラクターや漫画キャラクターを生成することができます。
      • ダンスやスポーツの動きを分析: ビデオからポーズを推定することで、ダンスやスポーツの動きを分析することができます。
      • モーションキャプチャ: 人間の動きを計測し、その動きを3DCGキャラクターに反映させることができます。
      画像

      Scribble(落書き)

      簡単な手描きの線画から、詳細な画像を生成します。Scribble ControlNetは、線画を元に、画像の内容を推定し、その内容に沿った画像を生成します。

      画像

      主に以下のような用途で使用されます。

      • アイデアのスケッチを元に、具体的なビジュアルを得たい場合: 例えば、新しい製品のアイデアをスケッチし、そのスケッチを元に、製品の完成イメージを生成することができます。
      • ラフ画からイラストを生成: 簡単なラフ画を元に、詳細なイラストを生成することができます。
      • ストーリーボード作成: 映画やアニメのストーリーボードを作成する際に、Scribble ControlNetを利用して、各シーンのイメージを生成することができます。
      画像

      Segmentation Map(セグメンテーションマップ)

      入力画像を複数の領域に分割し、各領域にラベルを付けたものです。セグメンテーションマップは、画像中のどの部分がどのオブジェクトに対応するかをAIに教えるために使用されます。

      画像

      主に以下のような用途で使用されます。

      • シーン全体の構成をコントロールしたい場合: 例えば、風景写真をセグメンテーションマップで分割し、「空」・「海」・「山」などのラベルを付けることで、それぞれの領域の色やテクスチャを個別に制御することができます。
      • 画像編集: セグメンテーションマップを利用して、特定のオブジェクトだけを切り抜いたり、色を変更したりすることができます。
      • 自動運転: 自動運転システムでは、セグメンテーションマップを利用して、道路、歩行者、信号機などを認識しています。
      画像

      HED boundary

      HED boundary(Holistically-Nested Edge Detection)は、画像からエッジ(境界線)を検出するControlNetです。Canny Edgeと同様に画像の輪郭を捉えますが、HED boundaryはより繊細で複雑なエッジを検出することに特化しています。これは、人物の髪の毛や衣服の細かい模様、自然風景の複雑な葉っぱの形状など、Canny Edgeでは捉えきれない微細なエッジを検出できることを意味します。

      画像

      主に以下のような用途で使用されます。

      • より写実的な画像生成: HED boundaryは、より詳細なエッジ情報を捉えるため、生成される画像のリアリティを高めるのに役立ちます。特に、人物のポートレートや自然風景など、細部まで描き込みたい場合に効果的です。
      • 複雑なテクスチャの再現: 衣服の織り目や木の葉の葉脈など、複雑なテクスチャをより忠実に再現したい場合に適しています。
      • アニメ・漫画風画像の生成: 線画の質感を重視するアニメや漫画風の画像を生成する場合にも、HED boundaryは有効です。
      画像

      Normal map (法線マップ)

      Normal map(法線マップ)は、画像の表面の向きを表す情報です。各ピクセルに、その地点における表面の法線ベクトル(表面に対して垂直なベクトル)の情報が格納されています。法線マップは、3Dグラフィックスで物体の表面の陰影や反射を表現するために広く使われています。

      画像

      ControlNetにおけるNormal mapは、この法線マップの情報を利用して、立体感や陰影をより精密に制御することができます。

      主に以下のような用途で使用されます。

      • 3Dモデルのような立体的な画像生成: 法線マップの情報を利用することで、光源の位置や強さを考慮した、リアルな陰影表現が可能になります。
      • 金属やガラスなどの質感表現: 法線マップは、金属の光沢やガラスの透明感など、材質感を表現するのにも役立ちます。
      • 彫刻やレリーフのような表現: 法線マップを利用することで、画像に彫刻やレリーフのような凹凸感を表現することもできます。
      画像

      Lineart

      Lineartは、画像から線画を抽出するControlNetです。Canny EdgeやHED boundaryも線画を検出できますが、Lineartは特にアニメや漫画のような線画スタイルの画像に特化しています。

      画像

      主に以下のような用途で使用されます。

      • アニメ・漫画風画像の生成・編集: 線画を強調したイラストを作成したり、既存の画像を線画化したりすることができます。
      • イラストの着色: 線画を抽出後、ControlNetと組み合わせて自動的に着色したり、手動で着色したりすることができます。
      • 線画のクリーンアップ: スキャンした線画のノイズ除去や線の補正など、線画の編集作業に利用できます。
      画像

      Pidi (Softedge)

      Pidi (Softedge) は、画像からソフトなエッジを検出するControlNetです。Canny EdgeやHED boundaryのようなシャープなエッジではなく、ぼかしのかかったような滑らかなエッジを抽出します。Pidiは、softedgeという別名でも知られています。

      画像

      主に以下のような用途で使用されます。

      • 水彩画やパステル画のような、柔らかいタッチの画像生成: ソフトなエッジは、水彩画やパステル画など、境界線がぼやけた表現に適しています。
      • 被写体の輪郭を強調しながら、自然な雰囲気を保ちたい場合: シャープなエッジでは硬すぎる印象になる場合に、Pidiを用いることで、より自然で優しい雰囲気の画像を生成できます。
      • 写真から絵画風に変換: 写真のエッジをPidiでソフトにすることで、絵画のような風合いを出すことができます。
      画像

      TEED

      TEEDは、Tiny and Efficient Edge Detector の略称で、軽量ながらも高精度なエッジ検出を行うControlNetです。わずか58Kのパラメータ数で、最先端モデルと比較してサイズが0.2%未満と非常に軽量なのが特徴です。

      ControlNetにおいては、TEEDは入力画像からソフトなエッジを抽出し、それを元に画像生成を行います。Canny Edgeなどとは異なり、境界線がぼやけた、より自然で滑らかなエッジ検出を得意としています。特にSDXLとの組み合わせに最適化されています。

      画像

      主に以下のような用途で使用されます。

      • SDXLを用いた、ソフトエッジを強調した画像生成: 水彩画、パステル画、印象派の絵画など、ソフトなタッチの画像を生成する際に効果的です。
      • 入力画像の雰囲気を維持した画像生成: 画像全体の構図や色調を維持しつつ、異なる要素を追加したり、スタイルを変更したりすることができます。
      • プロンプトエンジニアリングの負担軽減: プロンプトなしで、入力画像のエッジ情報を元に画像生成ができるため、プロンプト作成の手間を省くことができます。
      画像

      MLSD

      MLSD (Multi-Level Line Segment Detector) は、画像から直線を検出することに特化したControlNetです。建物や道路、家具など、直線的な要素が多い画像から、正確な直線情報を抽出することができます。

      画像

      主に以下のような用途で使用されます。

      • 建築物や都市景観の画像生成: 建物の輪郭や道路のラインなどを正確に捉え、リアルな都市景観を生成できます。
      • 幾何学模様のデザイン: 直線や多角形を組み合わせた幾何学模様のデザインを作成する際に役立ちます。
      • パースペクティブの修正: 写真の歪みを修正したり、パースペクティブを強調したりする際に利用できます。
      画像

      Tile

      Tile は、入力画像をタイル状に繰り返し配置して、シームレスなパターンを生成するControlNetです。元絵の構図や特徴を維持した状態で画像生成が可能なため、

      画像

      主に以下のような用途で使用されます。

      • 画像のアップスケール:低解像度の画像を高解像度に変換する際に使用されます。Tileモデルは、画像の細部を補正し、テクスチャを改善することで、より高品質な画像を生成します。
      • 細部の補正:生成された画像の細部を修正する際に使用されます。Stable Diffusionが細部の調整に苦手な場合、ControlNet Tileを使用して、画像の細部を微調整することができます。
      • 質感やテクスチャの変更:画像の質感やテクスチャを変更する際に使用されます。ControlNet Tileは、肌の質感を調整したり、アニメ風にしたり、自由度の高い変更が可能です。
      画像

      3. ControlNetの使用準備

      カスタムノードのインストール

      ControlNetを使用するために、「ComfyUI’s ControlNet Auxiliary Preprocessors」をインストールします。標準ノードだけでもControlNetを使用できますが、本記事で紹介したControlNetの一部しか実現できません。そのため、カスタムノードをインストールし、使用できるControlNetの幅を広げます。ComfyUI’s ControlNet Auxiliary Preprocessorsは、ComfyUI Managerからインストール可能です。

      画像

      以下がリポジトリになります。
      https://github.com/Fannovel16/comfyui_controlnet_aux

      https://cdn.iframe.ly/Q5NLoiy?v=1&app=1

      プリプロセッサーモデルのダウンロード

      ControlNetの使用には、プリプロセッサーモデルが必要になるため、そのモデルをダウンロードします。SDXLには、controlnet-union-sdxl-1.0という、これまでに紹介した各種ControlNetを1つに集約した便利なモデルがあります。今回は、このモデルを使用します。以下のリンクよりファイルをダウンロードし、Google Colabを使用しているDriveで「ComfyUI/models/controlnet」フォルダに格納してください。
      https://huggingface.co/xinsir/controlnet-union-sdxl-1.0/resolve/main/diffusion_pytorch_model.safetensors

      参照元画像

      ControlNetの参照元画像として以下の画像を使用します。

      画像

      画像ファイルは、以下よりダウンロードください。

      https://note.com/api/v2/attachments/download/c6c1a646ad8faf1778658c65e1ccde89

      workflowは文末にて。

      4. ワークフロー解説

      このワークフローは、入力された女性の画像の構造(深度情報)を保持しながら、指定されたプロンプトに基づいて男性の特徴を持つ新しい画像を生成します。結果として、元の画像の構図や照明条件を維持しつつ、全く異なる人物(男性)の画像が生成されることが期待されます。これは、ControlNetと深度マップを組み合わせた高度な画像変換・生成の例といえます。

      画像

      以下に、このワークフローの主要な部分とその機能を図示し、詳細に説明します。

      画像
      1. 入力画像の読み込みと深度マップ生成
        • Load Imageノード: 「girl-for-controlnet.jpeg」を読み込みます。
        • Depth Anything V2 – Relativeノード: 入力画像から深度マップを生成します。
        • 使用モデル: 「depth_anything_vitl14.pth」
        • 解像度: 512
        • Preview Imageノード: 生成された深度マップをプレビューします。
      2. モデルとControlNetの読み込み
        • Load Checkpointノード: 今回は「RealVisXl.safetensors」モデルを使用。
        • Load ControlNet Modelノード: 「controlnet-union-sdxl-1.0.safetensors」を読み込みます。
      3. プロンプト処理 (CLIPTextEncode ノード x2)
        • ポジティブプロンプト: 「1boy, solo, looking_at_viewer, brown_hair, spiky_hair, no_glasses, confident_expression, hoodie, indoors, sunlight, soft_lighting, detailed_background, aesthetic」
        • ネガティブプロンプト: 「bad hand,bad anatomy,worst quality,ai generated images,low quality,average quality, nsfw, nude, naked,」
      4. ControlNetの適用 (Apply ControlNet (Adovanced) ノード)
        • 深度マップ、ControlNet、およびプロンプトの条件付けを組み合わせます。
        • 強度: 0.40 (ControlNetの影響力)
      5. 潜在画像の準備 (Empty Latent Image ノード)
        • 「girl-for-controlnet.jpeg」と同じサイズである「1024×768」を設定
      6. 画像生成 (KSampler ノード)
        • Seed: 860227022998597
        • Steps: 20
        • CFG Scale: 8
        • Sampler: dpmpp_2m
        • Scheduler: karras
      7. 画像のデコードと保存
        • VAE Decode ノード: 生成された潜在表現を実際の画像にデコードします。
        • Save Image ノード: 最終的に生成された画像を “controlnet_lineart” という名前で保存します。

      5. ワークフローの検証

      それでは、ワークフローを実行してみましょう。ControlNetの強度を0.40で生成してみます。以下が生成結果です。しっかりプロンプトに従った画像になっています。

      画像

      参照元画像と比較してみましょう。構図を維持しながら、人物を変えることに成功しています。

      画像

      次にControlNetの強度を0.80にしてみます。そうすると、参照元画像の女性に近づき、ポニーテールの中性的な男性の画像が生成されました。

      画像

      反対に強度を0.10と低くしてみます。今度は参照元画像から離れ、体勢も変わってしまっています。

      画像

      以下が強度別の生成結果になります。強度が高くなるにつれ、参照元画像に近づき、強度が小さくなるにつれ、参照元画像に似なくなっていることが分かります。

      画像

      6. まとめ

      ControlNetは、画像生成AIの可能性を飛躍的に広げる革新的な技術です。輪郭線、深度情報、ポーズなど様々な条件をAIに与えることで、これまで以上にユーザーの意図を反映した画像生成が可能になります。この記事では、Canny Edge、Depth Map、Pose Estimationなど主要なControlNetの種類とその用途を紹介し、具体的なワークフロー例を通して、その驚くべき効果を実証しました。ControlNetを使いこなすことで、マーケティング素材の作成、イラストやデザイン制作、3Dモデリングなど、様々な分野で創造性を加速させることができます。ぜひ、ControlNetの力を体感し、あなたのクリエイティブな活動を新たなステージへと導いてください。

      次回は、 ControlNetでイラストを精密に実写化!を紹介します。
      乞うご期待!

      https://note.com/aicu/n/n4fafc970da0a

      X(Twitter)@AICUai もフォローよろしくお願いいたします!

      画像生成AI「ComfyUI」マスターPlan

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。
      ✨️オトクなメンバーシップについての詳細はこちら


      この記事の続きはこちらから https://note.com/aicu/n/n151f019bcc92

      Originally published at https://note.com on Oct 17, 2024.