投稿者: media

  • [ComfyMaster30] AWS上にComfyUI環境を構築しよう!(知識編) 

    こんにちわ!AICU media編集部です。
    このたびAICUは「AWS ジャパン 生成AI 実用化推進プログラム」に採択されました!

    クリエイティブAIで「つくるひとをつくる」をビジョンに、「わかるAIを届ける」をコンセプトに活動しているAICU mediaは、高い技術力と、わかりやすい記事を通して今後もより一層力を入れて、AWS(Amazon Web Services)の企業での社内開発やプロフェッショナル向けの使いこなし事例を当事者目線でお届けしていきます。


    この記事の続きはこちらから https://note.com/aicu/n/nf89a72982ddb

    Originally published at https://note.com on Nov 5, 2024.

  • [ComfyMaster29] 参照画像でAIをコントロール!IPAdapterの使い方

    理想のビジュアルをAIに伝えたいのに、テキストだけでは限界を感じていませんか?
    IPAdapterなら、参照画像を使って視覚的に指示できます。

    こんにちわ、AICU media編集部です。
    ComfyUI マスターガイド」第29回目になります。
    本記事では、1枚の画像から高度に画風を適用できる「IPAdapter」(アイピーアダプター)の解説です。例えば、「劇画風のしらいはかせ」画像を使うとこんな画像がプロンプトだけで生成できます。

    画像

    本稿ではIPAdapterの仕組みとComfyUIでの活用方法をステップバイステップで解説し、参照画像に基づいた高品質な画像生成を行えるようになることを目指します。気になる倫理面についても配慮していきましょう。

    本連載の初回はこちら。前回はこちら、目次はこちらです。

    [ComfyMaster28] 落書きが画像に!ControlNet Scribble入門 #ComfyUI

      1. 概要

      IPAdapterは、テキストプロンプトに加えて参照画像を入力することで、AIによる画像生成をより精密に制御する技術です。画像のスタイル、特定の視覚要素、全体的な構図など、テキストでは表現しきれないニュアンスをAIに伝えることを可能にし、生成画像の品質、一貫性、再現性を向上させます。

      本記事では、IPAdapterの仕組み、ComfyUI上での具体的なワークフロー、そして生成結果を通して、その効果と活用方法を解説します。蝶の画像を参考に人物画像を生成する例を通して、IPAdapterの強度や適用方法による変化、linear、style transfer、ease_inといった異なる重みタイプの効果の違いを検証します。

      2. IPAdapterとは

      IPAdapterは、テキストベースのプロンプトと視覚的な参照画像を組み合わせることで、AIに対してより詳細で正確な指示を与えることを可能にする技術です。この手法により、生成される画像の品質、スタイルの一貫性、特定の視覚要素の再現性が大幅に向上します。

      技術的背景

      IPAdapterの核心は、画像エンコーダーとテキストエンコーダーの出力を効果的に統合する能力にあります。この過程は以下のように要約できます。

      1. 画像エンコーディング: 入力された参照画像は、畳み込みニューラルネットワーク(CNN)などの画像エンコーダーによって処理され、高次元の特徴ベクトルに変換されます。
      2. テキストエンコーディング: 同時に、テキストプロンプトは言語モデルによって処理され、同じく高次元の特徴ベクトルに変換されます。
      3. 特徴の融合: 画像とテキストから得られた特徴ベクトルは、複雑な方法で結合されます。この過程では、注意機構(Attention Mechanism)などの技術が用いられることがあります。
      4. 潜在空間への投影: 融合された特徴は、Stable Diffusionの潜在空間に投影されます。この空間内で、画像生成プロセスが行われます。
      5. 画像生成: 最後に、潜在表現から実際の画像ピクセルへのデコードが行われ、最終的な出力画像が生成されます。

      IPAdapterの利点

      1. 精密な視覚情報の伝達: テキストだけでは表現しきれない細かいニュアンスや視覚的特徴を、AIモデルに効果的に伝達できます。
      2. スタイルの一貫性: 特定のアーティストのスタイルや、製品デザインなどを高い一貫性で再現することが可能です。
      3. 学習効率の向上: 新しい視覚概念や複雑な構図を、画像を通じてAIモデルに効率的に「教える」ことができます。
      4. 創造性の拡張: 視覚的なインスピレーションを直接AIに伝えることで、より革新的で予想外の結果を得られる可能性が高まります。

      3. ワークフローの使用準備

      カスタムノード

      • ComfyUI IPAdapter plus: IPAdapterをComfyUI上で使用できるようにしたカスタムノードです。ComfyUI Managerからインストール可能です。このカスタムノードの詳細を知りたい方は、以下のリポジトリを参照してください。

      https://github.com/cubiq/ComfyUI_IPAdapter_plus

      モデル

      • RealVisXL V5.0: 実写系を得意とするモデルで、商用利用可能(画像の販売、サービスへの組み込み可能)になります。このモデルを以下のリンクよりダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

      https://civitai.com/models/139562/realvisxl-v50?modelVersionId=789646

      画像素材

      今回は、以下の画像をIPAdapterで参照します。

      画像

      画像ファイルは、以下よりダウンロードしてください。

      4. ワークフロー解説

      以下がワークフローの全体構成になります。

      GPU不要でComfyUIを簡単に起動できる
      AICU特製Colabノートブック(ConrolNetつき)はこちら
      https://j.aicu.ai/ComfyCN

      画像

      今回作成したワークフローのファイルは、文末のリンクよりダウンロードください。
      以下に、このワークフローの主要な部分とその機能を図示し、詳細に説明します。

      画像
      1. 入力画像の読み込みと前処理
        • Load Image ノード: 「butterfly_01.png」という画像を読み込みます。
      2. モデルとIP-Adapterの読み込み
        • Load Checkpoint ノード: 「RealVisXl.safetensors」モデルを読み込みます。
        • IPAdapter Model Loader ノード: 「ip-adapter-plus_sdxl_vit-h.safetensors」を読み込みます。
        • Load CLIP Vision ノード: 「CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors」を読み込みます。
      3. プロンプト処理 (CLIP Text Encode ノード x2)
        • ポジティブプロンプト: 「realistic, photorealistic, 1girl, t-shirt, black_hair, long_hair,」
        • ネガティブプロンプト: 「bad hand, bad anatomy, worst quality, ai generated images, low quality, average quality, nsfw, nude, naked,」
      4. IP-Adapterの適用 (IPAdapter Advanced ノード)
        • 入力画像、IP-Adapter、CLIP Visionモデルを組み合わせて、元のStable Diffusionモデルを調整します。
        • 重み: 1.0 (IP-Adapterの最大影響力)
        • ノイズ追加方法: linear
        • モード: concat
        • 適用範囲: V only (Value embeddings only)
      5. 潜在画像の準備 (Empty Latent Image ノード)
        • サイズ: 1024×1024
        • バッチサイズ: 1
      6. 画像生成 (KSampler ノード)
        • Seed: 860227022998597
        • Steps: 20
        • CFG Scale: 8
        • Sampler: dpmpp_2m
        • Scheduler: karras
        • Denoise: 1.0 (完全に新しい画像を生成)
      7. 画像のデコードと保存
        • VAE Decode ノード: 生成された潜在表現を実際の画像にデコードします。
        • Save Image ノード: 最終的に生成された画像を “ipadapter” という名前で保存します。

      IPAdapter Model Loderと IPAdapter Advancedの拡大です。パラメーターの参考にどうぞ。

      画像

      5. 生成結果

      以下が生成結果になります。左がIPAdapter非適用の画像、右がIPAdapterの強度を0.50で適用した結果です。IPAdapterを適用することで、シャツに学習元である蝶の模様が浮かんだり、背景が自然の風景になっています。

      画像

      IPAdapter Advancedノードのweight_typeがlinearの場合の強度ごとの生成結果一覧です。0.80になると、蝶が全面に現れてしまい、人物がいなくなってしまいます。

      画像

      これをweght_typeをstyle transfer、強度を1.0に変更して生成してみました。style transferの場合は、蝶の形状自体は継承しないので、蝶が前面に現れることなく、蝶の模様のみが反映されています。参照元画像のスタイルだけを適用したい場合は、weght_typeをstyle transferにした方が効果的です。

      画像

      weght_typeがlinearやease_inなどのスタイルと形状の両方を参照させるタイプの用途は、例えば左のパーカーの画像を参照し、右の画像のように生成した人物に着せることが考えられます。しかし、あくまで参照なので、完全に左の洋服を再現することは難しいです。
      補足として、右の画像は、weght_typeをease_in、強度を9.5にして生成した画像です。ease_inにすることで、最初はIPAdapterの効きを弱くし、後から効果が上がるようにすることで、プロンプトを反映させつつ、IPAdapterの効果も効かせるようにしています。

      画像

      6. まとめと倫理面への配慮

      本記事では、ComfyUIとIPAdapterを用いて、参照画像に基づいた高品質な画像生成を行う方法を解説しました。IPAdapterは、テキストプロンプトだけでは難しい、微妙なニュアンスや視覚的特徴の再現を可能にします。特に、IPAdapterの強度調整とweight_typeの選択によって、参照画像の要素をどのように反映させるかを細かく制御できることを示しました。linearでは形状とスタイルの両方を、style transferではスタイルのみを、ease_inでは徐々にIPAdapterの効果を強めることで、プロンプトと参照画像のバランスを調整できることを実例を通して確認しました。

      これらの技術を活用することで、AIによる画像生成の可能性は大きく広がり、より創造的で自由な表現が可能になります。今後の展望として、更なるモデルの改良や新たなカスタムノードの登場によって、IPAdapterの適用範囲はますます拡大していくことが期待されます。より高度な活用方法の探求や、他のモデルとの組み合わせなど、更なる実験を通して、IPAdapterの潜在能力を引き出し、自身の創作活動に役立ててください。

      一方では、「IPAdapter」の名前からも、IP、すなわち知的財産やキャラクタービジネスにとっては、著作権法違反、つまり違法行為や迷惑行為の原因となる技術でもあります。「技術的に出来る/できない」といった視点とは別に、Load Imageにおいて利用する画像の権利や、客観的に見た「依拠性」や「類似性」についても評価を行っておく習慣は大切です。この解説の中でも、weightパラメーターが0.5以上であれば、それは元の画像と同じものに近くなっていきます。パラメータを0.5以上にすることは「原作に対する類似と依拠を同時に認めているという証拠」とも言えますので、画像生成を行う際には、その責任をしっかりと認識して利用してください。

      AICUでは画像生成AIクリエイター仕草(v.1.0)といった形で、モラル面も啓蒙活動を行っていますが、IPAdapterの使用についてはより高度な倫理観をもっていくことを推奨します。

      次はいよいよLoRA編がはじまります。
      そしてその前に、特別編が予定されています!
      X(Twitter)@AICUai もフォローよろしくお願いいたします!

      画像生成AI「ComfyUI」マスターPlan

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。
      ✨️オトクなメンバーシップについての詳細はこちら

      動画で一気に学びたい方は、こちらのColoso講座もオススメです

      ボーナストラック

      有料・メンバーシップ向けのボーナストラックには今回解説したワークフローの完成品ダウンロードリンクに加えて、お楽しみ画像です。

      某有名漫画家のアシスタントさんに書いていただいた劇画風しらいはかせをIPAdapterに使ったら…!?生成画像を収録しています。

      画像

      この記事の続きはこちらから https://note.com/aicu/n/nc6164bdae138

      Originally published at https://note.com on Nov 4, 2024.

    1. AICUマガジン Vol.6はエンタメ技術とAI特集!

      AICU Magazine Vol.6 「Entertainment x AI」

      「つくる人をつくる」あなたをアップデートするクリエイティブAIエンターテイメントマガジン「AICU Magazine Vol.6」特集は「Entertainment x AI」。

      【Kindleで無料】 https://j.aicu.ai/MagV6

      2024年9月26~29日に開催され、過去最多出展者数を記録した東京ゲームショウ(TGS2024)から、感情を分析するスマートウォッチ「OVOMIND」、新型モーションキャプチャー「NOKOV」、そしてレトロなガンシューティングゲームの機械学習技術によるリノベーション「タイムクライシス」、キャラクターデザイン、チャットボット、科学者の先端研究、そして、ゲームAIの研究開発を長年リードされてきた、三宅陽一郎氏をゲストライターにお迎えして構成します。

      【CONTENTS】
      Creative AI Trends – 2024 年10月
      特集: Entertainment x AI
      ・感情がゲームを動かす「OVOMIND」
      ・融合型モーションキャプチャー「NOKOV」
      ・懐かしの「タイムクライシス」AI 技術で再誕!?
      ・期間限定無料「ガンマミィ・ジェネレーター」を提供開始!
      ・全力肯定彼氏くん [LuC4] に訪れたサービス開始以来の最大の危機
      ・先端研究が挑む「AI 時代の創作」
      ・特別寄稿「著作を振り返って」三宅陽一郎(ゲーム AI 開発者・研究者)

      https://j.aicu.ai/MagV6

      「突撃レビュー!AIツール」
      ・日本語で魔法のように GAS 開発がはかどる「GASSISTANT」
      ・Stable Assistant Day1 無料トライアル 3 日間でこんなにお得!?
      ・Stable Assistant Day2 案件に AI で提案してみた
      ・Stable Assistant Day3 商用利用と倫理 TIPS
      ・「CGWORLD vol.315」画像生成 AI による表紙メイキング、大公開。

      「イベントレポート」
      ・ComfyUI を開発する「Comfy Org」が東京・渋谷で初のミートアップを開催。
      ・「なんかいい展」レポート

      「読者のひろば」
      ・AICU×BlendAI ガンマミィ誕生記念イラストコンテスト結果 発表!
      ・連載漫画: ウワサの大型新人 (2) By わらさん (@wara_hirono)
      ・編集長とGeminiたん: 商用で画像生成AIをしていないとできない体験

      はるしね〜しょん:編集後記

      表紙「ガンマミィ誕生」by犬沢某さん @insbow

      本書は2024年10月30日初版です。約1ヶ月の校正期間を持ちながら、ePub版とペーパーバック版をアップデートしていきます。

      そして前号、AICUマガジン Vol.5「Stability AI Forever!」もペーパーバック版がリリースされました!
      https://amzn.to/4ftX8Wd

      Originally published at https://note.com on Nov 2, 2024.

    2. [note.com/aicu] 2024年10月好アクセスランキング!

      2024年も残すところあと2ヶ月を切りました!
      AICU mediaのこの1ヶ月のアクセスランキングと時系列でのニュースをみて、最近のトレンドを分析していきたいと思います。

      【最速レビュー】Stability AI 最新ベースモデル「Stable Diffusion 3.5」リリース!Stability AI APIで「日本人の生成」を試してみた!

      さすがの Stability AIの新モデルです!
      その後 SD3.5 Mediumの公開や、指の問題の解決に貢献する「SLG」なども公開され、開発者コミュニティではにぎわいを見せています。

      img2img入門(1) i2iでできることを知ろう

      今月の特徴として、なぜかAUTOMATIC1111に関連する記事が多く読まれています。

      韓国の学生が作ったブラウザだけで動くAIモーションキャプチャ「Metive」

      これはすごい、インパクトが有りました。ブラウザだけで利用できる動画分析からのキャラクターアニメーションツールです。

      AUTOMATIC1111 v1.10.xリリース – Stable Diffusion 3 Mediumをサポート

      日本人が開発した「Regional Prompter」がなかなかすごい!

      https://note.com/aicu/n/n832941df99c5

      [保存版] Animagine XL 3.1 生成比較レポート

      日本語で魔法のようにGAS開発がはかどる「GASSISTANT」 #サクッと先取り !クリエイティブAIツール

      その後、開発者の横田さんからプロモーションコードのご提案をいただきました。近日発売予定の「AICUマガジン vol.6」にて収録します!

      「ComfyUI V1」デスクトップアプリのリリース告知!新UI、カスタムノードのマーケットプレイス機能[CNR]も。

      「CGWORLD vol.315」画像生成AIによる表紙メイキング、大公開。 #デジタルハリウッド30周年

      Stable Diffusion – ControlNet入門(2) ControlNet をダウンロード・準備する

      https://note.com/aicu/n/na48f6b8f3b2d

      【初心者向け!】Runway Gen-3 Alphaでプロンプト自動生成して簡単動画制作

      漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!

      公開順で振り返る2024年10月!

      AICU Magazine Vol.5 初版リリース!! 特集は「Stability AI Forever!」KDPで無料 (2024-10-01)

      祝note1,000人超え! データ公開[成長し続けるAICU]の秘密は…? (2024-10-02)

      東京ゲームショウ2024でみつけたエンタメxAI技術!懐かしの「タイムクライシス」AI技術で再誕!? (2024-10-03)

      運や勘に頼らない「クリエイティブAI」のススメ – 電通ワークショップ実施報告 (2024-10-04)

      [ComfyMaster22] レイアウトそのままにアニメを実写化!image-to-imageとスタイル変換で実写化レベルを制御 #ComfyUI (2024-10-05)

      【超入門】Stability AI APIの革新的機能(2)Edit APIの活用 (2024-10-06)

      【超初心者向け】DreamStudioを無料で試してみよう – 画像生成レッスン (2024-10-07)

      日本語で魔法のようにGAS開発がはかどる「GASSISTANT」 #サクッと先取り !クリエイティブAIツール (2024-10-08)

      【解説】LINE-ChatGPT倫理問題を整理する – 全力肯定彼氏くん[LuC4]に訪れたサービス開始以来の最大の危機 #LINEDC (2024-10-10)

      期間限定無料「ガンマミィ・ジェネレーター」を提供開始! (2024-10-11)

      [ComfyMaster23] 特別編: 画像の髪型を自由自在に変えてみよう! #ComfyUI (2024-10-12)

      先端研究が挑む「AI時代の創作」 (2024-10-13)

      「Stable Assistant を 知らないの?」Day2: 案件にAIで提案してみた (2024-10-14)

      Adobe Max 2024開催!みんな知ってる!? Adobeに搭載されているAI機能100 (2024-10-15)

      [ComfyMaster24] LoRAで表現をもっと自由に! スタイルを使いこなそう (2024-10-16)

      [ComfyMaster25] 画像を自由自在に!ControlNetで完全制御 #ComfyUI (2024-10-17)

      【速報】ガンマミィ誕生記念! イラストコンテストBlendAI賞・まいにち投稿達成賞の発表! (2024-10-17)

      INDEST(東京科学大学 田町キャンパス)にて「あんしんAIセミナー」開催 (2024-10-18)

      AICU×BlendAIガンマミィ誕生記念イラストコンテスト結果発表! #ガンマミィ (2024-10-19)


      [ComfyMaster26] ControlNetでイラストを精密に実写化! #ComfyUI (2024-10-20)

      「Stable Assistant を 知らないの?」Day3:商用利用と倫理TIPS (2024-10-21)

      「ComfyUI V1」デスクトップアプリのリリース告知!新UI、カスタムノードのマーケットプレイス機能[CNR]も。 (2024-10-22)

      【最速レビュー】Stability AI 最新ベースモデル「Stable Diffusion 3.5」リリース!Stability AI APIで「日本人の生成」を試してみた! (2024-10-23)

      あんしんなクリエイティブAIで「陽のあたる場所」をつくる #AIクリエイターに訊く #生成AI倫理 (2024-10-24)

      [ComfyMaster27] 写真もイラストも線画に!ComfyUIとControlNetによる線画抽出ワークフロー #ComfyUI (2024-10-25)

      韓国の学生が作ったブラウザだけで動くAIモーションキャプチャ「Metive」 (2024-10-26)

      Magazine Vol.5 紙版リリース!! 特集は「Stability AI Forever!」 [2024-10-27]

      紙版のリリースは10月30日を予定しております
      ご購入は j.aicu.ai/MagV5 から

      画像

      ペーパーバック版も本日リリースです!

      https://amzn.to/4fw2Erm


      Coloso講座第2弾「初級者:広告企画から動画制作までのプロセス」配信開始!! (2024-10-28)

      Google Colab 初手の初手 – GPUいらずでパワフルなAI開発環境を手に入れよう #画像生成Lesson (2024-10-29)

      Stable Diffusion 3.5 Medium 登場! 盛り上がる開発者コミュニティ、LoRAやSkip Layer Guidance (SLG)で指も改善? (2024-10-30)

      「なんかいい展」開催レポート (2024-10-31)

      そして本日、10月の内容をギュッとまとめたAICUマガジン Vol.6特集「Entertainment x AI」Kindle版がストア審査通過しました!表紙は「ガンマミィ」です。順次アップデートされますので、お楽しみに!

      https://amzn.to/4eeHihp

      10月のカバーアートは、ないとっちさん「秋の妖精」でした。

      画像

      11月~12月のカバーアートも募集中です!
      メンバーシップ掲示板でお問い合わせください

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/1aa202bf314a?from=self

      Originally published at https://note.com on Nov 2, 2024.

    3. [ComfyMaster28] 落書きが画像に!ControlNet Scribble入門

      頭の中のイメージを、絵心がなくても、まるで魔法のように高品質な画像に変換できるとしたら?
      最新のAI技術、ControlNetの「Scribble」がそれを可能にします!
      シンプルな線画を描くだけで、あとはAIがあなたの意図を読み取り、驚くほどリアルで美しい画像を生成してくれるのです。

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第28回目になります。
      本記事では、この革新的なScribble機能の使い方を、具体的な手順と豊富な作例を交えて分かりやすく解説します。AIによる画像生成の世界を、あなたも体験してみませんか?

      本連載の初回はこちら。前回はこちら、目次はこちらです。

      [ComfyMaster27] 写真もイラストも線画に!ComfyUIとControlNetによる線画抽出ワークフロー #ComfyUI

        1. 概要

        この記事では、ControlNetのScribble機能を使って、簡単な線画から高品質な画像を生成するワークフローを解説します。具体的な手順、使用したモデルやパラメータ、そして異なる強度設定による生成結果の違いなどを示し、Scribbleの効果と活用方法を理解することを目的とします。

        以前の記事で解説したControlNetの基本設定を前提に、今回は「scribble_01.png」というサンプル線画を用いて、人物画像を生成する例を紹介します。生成にはSDXL、RealVisXlモデル、controlnet-union-sdxl-1.0モデルを使用し、プロンプトによる調整も行います。最終的には、ControlNetの強度パラメータを調整することで、線画の反映度合いを制御し、思い通りの画像生成を実現する方法を学びます。

        2. ワークフローの使用準備

        ControlNet

        ControlNetの使用準備については、以下の記事をご覧ください。

        今回は、ControlNetのScribbleを使用します。Scribbleは、線画を元に、画像の内容を推定し、その内容に沿った画像を生成します。

        画像素材

        今回は、以下の画像をScribbleに使用します。

        画像

        画像ファイルは、以下よりダウンロードしてください。

        3. ワークフロー解説

        以下がワークフローの全体構成になります。

        画像

        ワークフローのファイルは文末のリンクよりダウンロードしてください。
        以下にワークフローの主要な部分とその機能を図示し、詳細に説明します。

        1. 入力画像の読み込みと前処理
          • Load Image ノード: 「scribble_01.png」というスケッチ画像を読み込みます。
          • Scribble ノード: 入力スケッチを処理し、ControlNetに適した形式に変換します。
            • 出力解像度: 1024×1024
        2. モデルとControlNetの読み込み
          • Load Checkpoint ノード: 「RealVisXl.safetensors」モデルを読み込みます。
          • Load ControlNet Model ノード: 「controlnet-union-sdxl-1.0.safetensors」を読み込みます。
        3. プロンプト処理 (CLIP Text Encode (Prompt) ノード x2)
          • ポジティブプロンプト: 「realistic, photorealistic, 1girl, t-shirt, black_hair, long_hair,」
          • ネガティブプロンプト: 「bad hand, bad anatomy, worst quality, ai generated images, low quality, average quality, nsfw, nude, naked,」
        4. ControlNetの適用 (Apply ControlNet (Advanced) ノード)
          • 前処理されたスケッチ画像を使用してControlNetを適用します。
          • 強度: 0.4 (中程度の影響力)
        5. 潜在画像の準備 (EmptyLatentImage ノード)
          • サイズ: 1024×1024
          • バッチサイズ: 1
        6. 画像生成 (KSampler ノード)
          • Seed: 860227022998597
          • Steps: 20
          • CFG Scale: 7
          • Sampler: dpmpp_2m
          • Scheduler: karras
          • Denoise: 1.0 (完全に新しい画像を生成)
        7. 画像のデコードと保存
          • VAEDecode ノード: 生成された潜在表現を実際の画像にデコードします。
          • SaveImage ノード: 最終的に生成された画像を「controlnet_scribble」という名前で保存します。

        4. 生成結果

        以下がScribbleの生成結果です。ControlNetの強度を0.10〜0.80まで変化させながら生成を行い、その違いを一覧化しました。

        画像

        まず、0.10は、ほとんどScribbleが効いていないようです。0.20から少し効果が出てきているようで、0.30-0.40で良い具合で効いているように見えます。0.50からは、反対に効果が出過ぎていて、形状が崩れていっています。0.70からは落書きが強く反映されてしまっています。

        強度を0.40にし、プロンプトを変更して色々と画像を生成してみました。

        画像

        5. まとめ

        Scribbleは、落書きやラフ絵をプロンプトで指定した画像に変換してくれる、特に絵を描きたい人に有効なControlNetです。今回は、私の適当な落書きで試しましたが、もう少ししっかりしたラフ絵であれば、より良い画像を生成できると思います。ぜひ色々なラフ絵でお試しください!

        次回は、IPAdapterでの生成画像のコントロールの方法を紹介します。乞うご期待!
        X(Twitter)@AICUai もフォローよろしくお願いいたします!

        画像生成AI「ComfyUI」マスターPlan

        画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

        • メンバー限定の会員証が発行されます
        • 活動期間に応じたバッジを表示
        • メンバー限定掲示板を閲覧できます
        • メンバー特典記事を閲覧できます
        • メンバー特典マガジンを閲覧できます
        • 動画資料やworkflowといった資料への優先アクセスも予定

        ゼロから学ぶ「ComfyUI」マガジン

        https://note.com/aicu/m/md2f2e57c0f3c

        マガジン単体の販売は1件あたり500円を予定しております。
        2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

        https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

        もちろん、初月は無料でお試しいただけます!
        毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
        退会率はとても低く、みなさまにご満足いただいております。
        ✨️オトクなメンバーシップについての詳細はこちら

        ワークフローのファイルは以下のリンクよりダウンロードしてください。


        この記事の続きはこちらから https://note.com/aicu/n/n8f82a5f619f1

        Originally published at https://note.com on Nov 1, 2024.

      1. 「なんかいい展」開催レポート

        「AIの現物展示をしよう」
        「なんかいい」という、「曖昧で深い言葉」、なにか心に引っかかる。
        6人のAIイラストレーターが集まって、「なんかいい展」が2024年10月26日に開催されました。
        「つくる人をつくる」をビジョンにするAICUでは開催を応援する意味で、参加クリエイターにロングインタビューを実施しました。
        各クリエイターの作品や、次回の開催についての情報もあり!
        最後まで味わってお読みください。

        画像
        画像
        画像
        展示会場の様子 (左: Sentaku さんの作品 / 中: Naf / 右:高高度墜落 さんの作品)

        参加クリエイター3名に1時間半のロングインタビューを実施しました。

        「なんかいい展」

        AI illustration group exhibition “kind of like ******”
        東京の門前仲町で、2024年10月26日に1日だけ開催されました。

        いままで大きな企業や展示会でしか企画されていなかったAI画像祭といった企画を「最初はミニマムに」ということで深川ガレージさんをお借りして小規模に実施したかった、ということです。
        素敵なウェルカムボードをご紹介。

        画像

        ”なんかいい”って、曖昧なようでいて、実は深い言葉だと思いませんか?
        はっきり言えないけど、なぜか気になる、なにか心に引っかかる。
        でも、だからこそ価値がある。
        今回は6人のイラストレーターが、この”なんかいい”をテーマに、
        それぞれの視点で新しい感覚を探求しました。

        AIが作るアートに価値はあるのか?
        人間の創造性を奪うのでは?
        AIに魂はないのでは?

        そういう疑問の声もあります。
        けれど、私達はこう考えます。
        AIアートは、人間が想像しなかった視点を提示してくれる。
        偶然が生む美しさや、予測不可能な世界が広がっている。
        それが今の時代に生まれる新しい「なんかいい」かもしれません。

        この展示で、あなたの心にも”なんかいい”が見つかることを願っています。

        【メンバーの紹介】

        集まったメンバー6人は、Sentakuさんの呼びかけにより、SNSもしくはdiscordコミュニティで集まってくれたそうです。

        Sentaku(せんたく) さん

        画像

        Xアカウント:@sentakusound
        https://x.com/sentakusound

        廃材 さん

        画像

        Xアカウント:@haiz_ai
        https://x.com/haiz_ai

        marukichi(まるきち) さん

        画像

        Xアカウント:@marukichi667944
        https://x.com/marukichi667944

        ☆今回のインタビューに参加できなかったメンバーさんからは、メッセージ・プロフ、作品展示写真をご許諾とともに頂いております。

        Naf さん

        画像

        アカウント:@naf_aiart
        https://x.com/naf_aiart

        【Naf】
        初めまして、Nafです。
        AIを使ってイラストを生成しています。

        少女というキャラクターを通して
        その場の空気や温度を感じられるような
        作品を作りたいと思っています。

        人には色々な感情があって
        背景には必ずその理由があります。

        皆さんの目に触れた時に
        心に残る何かがあれば幸いです。

        高高度墜落/kkdfall さん

        画像

        アカウント:@kkdfall
        https://x.com/kkdfall

        【高高度墜落/kkdfall】
        aiをツール化したい墜落さんです。あの日見た景色から落下しています。
        日常の少し隣にある瞬間を捉えたいと考えて取り組んでいます。

        Takoyama さん

        画像

        アカウント:@takoyama9zo
        https://x.com/takoyama9zo

        読者のみなさま、はじめましてTakoyamaです。
        私は色彩とアルゴリズムの交差点に身を投じ、コードと創造が交わる場所で美しいなにかを見たいと願い、日々模索しています。
        AIが考える命の美しさが何かの拍子に現れたらいいなと考えています。

        【どうして「なんかいい展」を開催したの?】

        画像
        (看板)

        ――インタビュワーのAICU media編集長・しらいはかせ です。このたびは「なんかいい展」のご開催おめでとうございます。まずは普段どんな活動をして、何を考えているのか、また何故「なんかいい展」を開催したのかについてお聞かせください。

        Sentaku「みんなに会って話したい」

        ――今回のグループ展の発起人となったSentakuさんですが、どういうモチベーションだったのでしょうか。

        Sentaku:ふだんはテレビ業界のサウンドデザイナをしています。けっこうAIは、この仕事と近いところがあって、自分は「サウンドデザイナーをしているけど楽器はできない」という人材なんです。AIでイラストレーションを作っていくのもとても似ているところがあって。仕事はいつもクライアントワークなので「自分を表現するところが欲しい」とおもってAIアート活動をはじめました。最近は「みんなに会って話したい」、「コミュニティとしてみんなに会ってみたい」と思って企画しました。

        ――その芽生え……。なるほど興味深いです。楽器とかも結局そうなんですよね。演奏するっていういわゆる演奏家の人がいたとしても、楽器を上手に扱えるか 扱えないかみたいなところの軸も当然あるし、さらにそのお客さんに対しての「商品性がある演奏」とか「楽曲などがやれるかどうか」みたいなところの軸もあって……。運よくそのテレビ業界で生業になり糧なりを得ているんだけれども、やはり「表現したい」、「自分の考えたことを表現したい」と思った、と。道具を使いこなして演奏するみたいなところから、画像生成 AI の演奏家として、ひとりひとりのクリエイターとして成立していて、さらにそれが「他の人たちに会いたい」、「作品を通して人に会いたい」っていうモチベーションに育っていったってことなんですね 。

        画像
        Sentaku さんの作品

        marukichi「自分の好きなものに”手綱”をとってもらう」

        marukichiです。普段はIT系でカスタマーサクセスを担当しています。イラストレーションは我流ですが、画材を使って描いたり、立体造形、工芸などをやってきました。AI画像生成とは MidJourney を2022年夏頃から触っていて、デザイン関係でロゴとかを作ったりして「時短ツール」として使って来ました。いままで作ってきたもの、表現できるようになってきたこともあり、X(Twitter)で公開し始めたのは2023年の7月ぐらい。最初はジャンル問わず出していたのだけど、ここ半年ぐらいは「青とメガネ」にこだわっています。

        画像
        会場の様子 (左: marukichiさんの作品 / 右: Sentakuさんの作品)

        ――「最初はジャンル問わず出していたのだけど」ということなんですが、「AIアートならではのスランプ」みたいなのに入ることってありますよね。なんでも出せちゃうし、みんなとの差も生まれづらいですし。

        marukichi:そうなんです。「自分の好きなものに”手綱”をとってもらう」という感じです。

        ――たしかに、その「好きなものドリブン」って大事ですよね。AICUの所属クリエーター・犬澤某さん(@insbow)も「(個人作品では)オーバーオールを着た犬しか描かない」って言ってシバリを入れてますし、そういう「制約」って、クリエイターにとってはとてもいい挑戦になるんですよね。

        画像
        会場の様子(左: Nafさん / 中央左: 高高度墜落さん / 中央: Takoyamaさん / 右: 廃材さん)

        廃材「”AIイラストレーター”という表現にも、複雑な想い」

        ――廃材さんは、どんな活動をされてきたのですか?

        廃材:AIの流行が始まってすぐの頃は、叩かれがちだったり、著作権問題だったりが、重くありました。
        その中で自分としては「クリエイティブをネットに廃棄していく」というスタンスで活動してきたんです。いわゆる『AI絵師』と自分は違う、「廃材」として。でも『捨てている』というスタンスを取っている反面、魂を込めて作品を作っているので、『どこかの誰かの心に触れてほしい』という気持ちも長く持ち続けてきました。「なんかいい展」というグループ展を通して、それを感じてみたいと思いました。”AIイラストレーター”という表現にも、複雑な想いがあります。

        ――いいですね!とても複雑で、いいと思います!AICU mediaも生成AIでの発信活動を2年ぐらい続けて来ましたが、商品としてパブリッシングを行うメディアによって「AI画像生成を”描く”と表現しない」とか、セミリアル、フォトリアルのみを扱い「イラストレーションを扱わない」といった制約を行ったメディアもあります。でも、社会との対話を作品を通して行いたい、という気持ちが芽生えていく姿はとても尊いですね。

        画像
        高高度墜落さん作品
        画像
        Nafさん作品

        【やってみて、どうだった?】

        「なんかいい展」は「見に来る人もお金がかからないように」ということで、「来場無料、グッズ販売などもなしで」、というコンセプトで実施されたそうです。

        ――制作の過程での苦労などをお聞かせください。

        Marukichi:もともと手でアナログアートをやっていたんです。でも時間がかかるので、だんだん、できなくなってきている。それが「AIでイラストを生成できる」という時代がやってきて、「好きなものをトンマナにしよう」と決めて、最近は「青色と眼鏡」でこだわっています。

        ▼展示1枚目

        ▼展示2枚目

        ――ほんとうに!青色と眼鏡、なんですね。ネットでの反応も共感が多く見られますね。

        画像
        展示された marukichiさんの作品

        ――廃材さんは、”普通のプリントではない作品”なのですね!?

        廃材:アクリルの塗料を使って立体感を加えました。キャラクターの眼の部分など。これは、やってみて、お客さんからも反応が良かったです。

        画像
        立体的な質感を持つ廃材さんの作品(スタッフ撮影)

        ――廃材さん、いかがでした?社会に自分の物としての作品を発信してみた、ということなのですが。

        廃材:ホント、一人ではできなかったと思うので、Sentakuさんには感謝です。

        画像
        Takoyamaさん作品

        【お金、どれぐらいかかりました?】

        ―― 来場無料で開催されているのですが、クリエーター側はどのような費用感なのでしょうか?

        Sentaku:ひとりおよそ2万円ぐらいかかっていますね。ギャラリーの場所代が6万円、印刷費用はA2サイズが1枚5,000円、といったところです。

        ―― ギャラリーも大判印刷もけっこうかかりますからね……。ちなみに印刷所についてもお聞きしていいですか?

        Sentaku:今回は「ソクプリ」さんですね  https://www.ooban-senmon.com/

        廃材さん:私は実はたくさん失敗しているので、もっとかかっていますね。

        ―― ああ~!でもそれってたぶん「上手になっても何度もプリントして品質あげちゃうやつ」ですよね……僕も写真出身なのでわかります……!!!

        画像
        廃材さんの作品

        やってみる前は「不安」、やってみたら「みんなあたたか」。

        ―― 来場された方々の反応はいかがでしたか?

        Marukichi:一言でいうと、やって見る前は「不安」、やってみたら「みんなあたたか」、という感じです。来場された方々にも、画像生成でイラストレーションを作っている方々も多くいらっしゃって、「こうやってます」と、変に自分を隠す人もいないし、むしろ「アピールされた」という感想があります。作ってる中の人のことを聞きたい、みんな「やりたい人はたくさんいるんだな」、それを肌で感じました。

        ―― それはおもしろいですね(笑)

        Sentaku:AIアートに対する批判もあるかと思ったのだけど、「なんかいい」に共感する方、共通することが多くて。これこそがアートだと思いました。
        「なんで呼んでくれなかったんですが」とか、「次は声かけてください」とか言ってくださって。それがうれしかった。みんな表現したいんだ、とか「実物を通して伝わったんだ」と思いました。

        ―― 一番大変だった事って何ですか?

        Sentaku「この企画を、とにかく、成立させるんだ!」……これをメインに考えていましたね。全部が初めてだったので。(お客さんが)AIイラストを見た人がどう感じるのか。AIで、デジタルだったものを、物体化してみんなに見せるってことが一番大変だったことかもしれない。

        (僕は仕事柄、AI クリエイターの人たちをたくさん見てるところもあるのですが)ソロでやっている方は「心理的不安」みたいな「まだ同人誌レベルには一般化していないかも」といった不安がある中で、「やる前 、やった後」つまり、やる前は『すげえ 大変だ』と思ったけど、やってみたら『いい話』といったエピソードってありませんか?

        廃材:深川ガレージ(Fukagawa Garage)さんが、ギャラリーの道路沿いに大きな看板を出してくださって……これを見て来場された方々がいらっしゃいました。「開催した」ってことに、価値があると思っています。

        AIアートがギャラリーイベントを通して社会との接点を得る瞬間をみた

        ―― 白井:ネットで出会いようのない人たち、「深川ガレージでしかありえなかった出会い」とか、いただいた意外な感想とか 、あれば。

        Marukichi:サラリーマン、仕事帰り、という感じの方が写真を撮ってふむふむ、という感じで帰っていた。そういうのもいいとおもいました。

        Sentaku:オーナーさんの娘さん(未就学児か小学校低学年ぐらい)が見に来てくれたのが嬉しかったですね。で、「かわいい!」「かわいいけど女の子ばっかり!」って。

        ―― あるあるですね(笑)!女の子じゃないの モチーフにしたらどうなんだろう? みたいな発想はまさに「社会に作品を出してみて初めて気づく新たなチャレンジ」みたいな感じで尊いですね。
        AIアートがギャラリーイベントを通して社会との接点を得ていく瞬間』みたいな……。 

        画像
        会場となった 深川ガレージ(Fukagawa Garage)さん

        Sentaku:プロジェクターを使ってPCの映像を写して…ということもやっていました。その場でNijiJourneyをいじってみたりしてみました。その後、お客さんが「NijiJourneyはじめました」って言ってくれたりもして。

        ―― なるほどそういうワークショップとか需要ありそう。AICUとしてはぜひ 提供したいですね。

        廃材:スクリーンさえあれば、リアルタイムで飾れるわけですよね。AIアートならではの展示方法もありそう。

        ―― さいごに告知等ございましたらどうぞ!

        Sentaku:Sentaku 、廃材、marukichiの3人が「第3回 オオカミの森」展の東京開催にAIイラストを出品します。販売もあります。

        アートで紡ぐ『オオカミ』の新たな物語

        https://forest-of-wolf.crywolves.net

        画像

        🐺第3回「オオカミの森」東京開催🐺
        日時:11/5(tue)~11(mon)
        場所:西武渋谷展 B館5階
        時間:10:00~20:00

        『オオカミ』ってこんなにもカッコよくもあり、愛らしい存在だと知ってほしい!
        そして、日本から姿を消したオオカミが帰ってこれる森を創っていく。
        そんなきっかけになるイベントを目指しています。
        オオカミ好きのクリエーターたちが創る、オオカミ関連のアート、グッズ、雑貨などの作品が一堂に集結するPOPUP。

        おもしろそうな展示会ですね!しかももうすぐ開催ですね!これは楽しみです。

        Sentakuさん、廃材さん、marukichiさん。お忙しいところロングインタビューにご参加いただき本当にありがとうございました!

        AICU mediaは「つくる人をつくる」を応援しています。

        展示会やクリエイティブAIイベントの告知や開催レポートの掲載ご相談・ご出稿はこちらのフォームか、 X@AICUai までお問い合わせください。

        https://j.aicu.ai/pubreq

        ☆こちらの記事はAICU media編集部の方針で期間限定無料配信とさせていただきます

        印刷版「AICU Magazine Vol.6」に収録予定です。
        https://ja.aicu.ai/mag

        もちろん本記事をご購入いただく事は歓迎です!
        ☆シェアしていただいたほうが嬉しいです☆


        この記事の続きはこちらから https://note.com/aicu/n/nb669d5eca8f6

        Originally published at https://note.com on Oct 31, 2024.

      2. Stable Diffusion 3.5 Medium 登場! 盛り上がる開発者コミュニティ、LoRAやSkip Layer Guidance (SLG)で指も改善?

        2024年10月29日(日本時間)、Stability AIから予告通り、最新の画像生成モデル「Stable Diffusion 3.5 Medium」がオープンリリースされました。

        Stable Diffusion 3.5 Medium が登場しました!

        このオープンモデルは、25億のパラメータを持ち、消費者向けハードウェア上で「箱から出してすぐに」動作するように設計されています。

        ブログにMediumの内容を追加しています。ぜひご覧ください。

        https://x.com/StabilityAI_JP/status/1851268389140119774

        https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

        「消費者向けハードウェア…!?」というドヨメキがAICU media編集部に響き渡ったのですが、Stability AI公式が具体的なモデル名とGPU製品名で推奨動作表を提供しています。

        画像
        https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

        Stable Diffusion 3.5 Medium (以下、SD3.5M) は 2.5B(25億パラメータ)のモデルであり、NVIDIA GeForce RTX 3080 (VRAM 10GB以上) が推奨になっています。NVIDIA GeForce RTX 4060 (VRAM 6GB)では、[!] という黄色いマークがつけられており、「[!] indicates the model requires performance – compromising optimizations, such as quantization or sequential offloading, to run on this device.」(モデルをこのデバイスで実行するには、量子化や順次オフロードなどのパフォーマンスを犠牲にした最適化が必要であることを示します)と書かれています。

        ダウンロードはこちらから、ファイルサイズは4.75GBです。

        https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/resolve/main/sd3.5_medium.safetensors?download=true

        なお、SD3.5 Large (80億パラメータ)も配布されています(ファイルサイズとしては16.5GB!です)。動作させるには32GB VRAMを搭載した NVIDIA H100クラスのGPUが必要とのことです。

        https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/sd3.5_large.safetensors

        https://github.com/Stability-AI/sd3.5

        Google Colab上でweightをダウンロードするテクニック!

        Google Colab上で、HuggingFaceに置かれたStable Diffusion 3.5 MediumやLargeを活用したい!でもHuggingFaceでの認証が通らないのでwgetすることができない…なんて諦めてしまったひとはいませんか?

        AICU AIDX Labではこんな方法で、自動でダウンロードできるスクリプトを組んでいます。
        まずはGoogle Colabの「シークレット機能」を使って、HuggingFaceのAPIキーを保存します。ここでは「HF_TOKEN」という名前にしてあります。

        画像

        Google Colabノートブック上でこちらのHF_TOKENにアクセスを許可して、以下のようなコードを書きます。

        #!wget -c https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/resolve/main/sd3.5_medium.safetensors  -P ./models/checkpoints
        # %cd /content/drive/MyDrive/ComfyUI/models/checkpoints
        !pip install huggingface_hub
        
        import os 
        from google.colab import userdata
        os.environ['HF_TOKEN'] = userdata.get('HF_TOKEN')
        !huggingface-cli login --token $token
        
        token = userdata.get('HF_TOKEN')
        from huggingface_hub import hf_hub_download
        hf_hub_download(repo_id="stabilityai/stable-diffusion-3.5-medium", filename="sd3.5_medium.safetensors", local_dir="/content/drive/MyDrive/ComfyUI/models/checkpoints")
        

        hf_hub_download(repo_id=”stabilityai/stable-diffusion-3.5-medium”, filename=”sd3.5_medium.safetensors”, local_dir=”/content/drive/MyDrive/ComfyUI/models/checkpoints”)

        と書くことで、HuggingFaceにログインした状態でファイルを指定ディレクトリに直接ダウンロードできます!これは便利。

        画像

        参考:その他のHuggingFaceの使いこなしはこの記事でも扱っています。

        盛り上がる開発者コミュニティ

        AICU media編集部でもSD3.5のリリース直後から評価に入っています。

        日本人などの人種や肌の多様性は確認できましたが、一方で「指の正確さ」については難があるという印象を得ましたが、実はその後、急速にコミュニティ内で改善が見られるので共有したいと思います。

        まずは、sampler をEuler Ancestral (Euler_a) にする!

        集合知的に様々なノウハウが集まってきていますが、SD3.5でMMDiT-Xにモデルが変わっていることもあり、サンプラーについても見直しが必要なようです。

        指に関しては、Euler Ancestral (Euler_a)がよいという説があります。

        世界のKohya氏、LoRA対応を追加。

        LoRA学習スクリプト「sd-scripts」を開発し、世界中のStable Diffusionコミュニティの英雄ともいえるKohya氏がSD3.5M対応をGitHubリポジトリにプッシュしました。

        https://github.com/kohya-ss/sd-scripts/pull/1719

        コメントでは世界中の開発者からの検証結果が寄せられ始めています。

        Civitaiによるマニュアル・ワークフローの提供

        SD3公開直後、荒れた瞬間があったCivitaiコミュニティですが、SD3.5については公式のエデュケーションブログやワークフローの公開が提供されています。

        せっかくなので翻訳を提供していきたいと思います。最新のモデルと専門用語を学ぶうえでも大変役に立ちます。

        Stable Diffusion 3.5 Mediumクイックスタートガイド

        Stable Diffusion 3.5 Mediumは、画質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の向上を実現する、マルチモーダル拡散トランスフォーマー(MMDiT-x)をベースにしたテキスト画像生成モデルです。

        注記: このモデルはStability Community Licenseの下でリリースされています。商用ライセンスについては、Stability AIのサイトをご覧いただくか、当社までお問い合わせください。

        モデルの説明

        • 開発元: Stability AI
        • モデルの種類: MMDiT-Xテキスト画像生成モデル
        • モデルの説明: このモデルは、テキストプロンプトに基づいて画像を生成します。3つの固定の事前学習済みテキストエンコーダー、トレーニングの安定性を向上させるためのQK正規化、および最初の12個のトランスフォーマーレイヤーにおけるデュアルアテンションブロックを使用する改良版マルチモーダル拡散トランスフォーマー(https://arxiv.org/abs/2403.03206)です。

        ライセンス

        • コミュニティライセンス: 年間総収益が100万ドル未満の組織または個人の研究、非商用、および商用利用は無料です。詳細はコミュニティライセンス契約をご覧ください。https://stability.ai/license で詳細をご覧ください。
        • 年間収益が100万ドルを超える個人および組織の場合:エンタープライズライセンスを取得するには、当社までお問い合わせください。

        実装の詳細

        • MMDiT-X: トランスフォーマーの最初の13レイヤーに自己注意モジュールを導入し、マルチ解像度生成と全体的な画像の整合性を強化します。
        • QK正規化: トレーニングの安定性を向上させるためにQK正規化技術を実装します。
        • 混合解像度トレーニング:
          • プログレッシブトレーニングステージ:256→512→768→1024→1440の解像度
          • 最終段階には、マルチ解像度生成パフォーマンスを向上させるための混合スケール画像トレーニングが含まれていました
          • 低解像度ステージでは、位置埋め込み空間を384×384(潜在)に拡張
          • 混合解像度とアスペクト比の全範囲にわたるトランスフォーマーレイヤーの堅牢性を強化するために、位置埋め込みにランダムクロップ拡張を採用しました。たとえば、64×64の潜在画像が与えられた場合、トレーニング中に192×192の埋め込み空間からランダムにクロップされた64×64の埋め込みをxストリームへの入力として追加します。

        これらの機能強化は、マルチ解像度画像生成、一貫性、および様々なテキスト画像タスクへの適応性におけるモデルのパフォーマンス向上に総合的に貢献しています。

        • テキストエンコーダー:
          • CLIP:OpenCLIP-ViT/G、CLIP-ViT/L、コンテキスト長77トークン
          • T5:T5-xxl、トレーニングのさまざまな段階でのコンテキスト長77/256トークン
        • トレーニングデータと戦略:
          • このモデルは、合成データやフィルタリングされた公開データなど、様々なデータでトレーニングされました。

        元のMMDiTアーキテクチャの技術的な詳細については、研究論文を参照してください。

        使用方法と制限事項

        • このモデルは長いプロンプトを処理できますが、T5トークンが256を超えると、生成された画像の端にアーティファクトが発生する場合があります。ワークフローでこのモデルを使用する場合はトークン制限に注意し、アーティファクトが目立ちすぎる場合はプロンプトを短くしてください。
        • MediumモデルはLargeモデルとはトレーニングデータの分布が異なるため、同じプロンプトに同じように反応しない場合があります。
        • より良い構造と解剖学的整合性を得るためには、Skip Layer Guidanceを使ったサンプリングを推奨します。

        実装の詳細

        • MMDiT-X: トランスフォーマーの最初の13層に自己関心モジュールを導入し、マルチ解像度生成と全体的なイメージの一貫性を強化。
        • QK正規化: トレーニングの安定性を向上させるために、QK正規化技術を導入。
        • 混合解像度トレーニング:
          • 段階的なトレーニングステージ:256 → 512 → 768 → 1024 → 1440解像度
          • 最終段階では、マルチ解像度生成性能を高めるために、混合スケール画像のトレーニングを実施
          • 低解像度段階では、位置埋め込み空間を384×384(潜在)に拡張
          • 混合解像度およびアスペクト比の全範囲にわたってトランスフォーマー層の頑健性を強化するために、位置埋め込みにランダムなクロップ拡張を採用しました。例えば、64×64の潜在画像が与えられた場合、192×192の埋め込み空間からランダムにクロップした64×64の埋め込みを、xストリームへの入力としてトレーニング中に追加します。

        これらの強化により、多様なテキストから画像へのタスクにおける、マルチ解像度の画像生成、一貫性、適応性の向上というモデルのパフォーマンス改善に総合的に貢献しています。

        • テキストエンコーダー:
          • CLIPs: OpenCLIP-ViT/GCLIP-ViT/L、文脈の長さ77トークン
          • T5: T5-xxl、トレーニングの異なる段階における文脈の長さ77/256トークン
        • トレーニングデータと戦略:
        • このモデルは、合成データやフィルタリングされた公開データなど、さまざまなデータでトレーニングされています。

        MMDiT-X

        Stable Diffusion 3.5 Medium は、画像品質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の向上を特徴とする、改良された Multimodal Diffusion Transformer with improvements (MMDiT-X; マルチモーダル拡散トランスフォーマー)によるテキストから画像へのモデルです。

        画像

        MMDiTのオリジナルアーキテクチャの技術的な詳細については、研究論文を参照してください。

        使用法と制限事項

        • このモデルは長いプロンプトを処理できますが、T5トークンが256を超えると、生成の端にアーティファクトが発生することがあります。このモデルをワークフローで使用する際はトークン制限に注意し、アーティファクトが顕著になる場合はプロンプトを短くしてください。
        • 中規模モデルは大規模モデルとは異なるトレーニングデータの分布であるため、同じプロンプトに対して同じように反応しない場合があります。
        • より良い構造と解剖学的整合性を得るために、Skip Layer Guidanceでサンプリングすることをお勧めします。

        Skip Layer Guidance (SLG)の推奨

        Stability AIが提案している方法としてはSkip Layer Guidance (SLG)です。Skip Connection(残差接続)についてはこちらの日本語解説が詳しいです。これによって指の改善がStability AIによって提案されており、ComfyUIやHuggingFaceでも試されています。

        https://github.com/comfyanonymous/ComfyUI/pull/5404

        https://github.com/huggingface/candle/issues/2588

        スキップ レイヤー ガイダンス (SLG) は、特定の範囲のサンプリング ステップで元の CFG に追加のガイダンスを追加するサンプリング手法です。追加のガイダンスは、元のモデルからの正の DiT モデル出力から、特定のレイヤー (たとえば、Stable Diffusion 3.5 Medium の場合はレイヤー 7、8、9) が削除されたバリアント モデルからの正のモデル出力を減算して比較することによって計算されます。

        SLG はオプションの選択肢のように見えますが、SAI は Stable Diffusion 3.5 Medium に対して SLG を有効にすることを公式に推奨しているようです。証拠には以下が含まれます:HuggingFace Hub の公式リポジトリでは、 SLG が有効になっているComfyUI ワークフローが提供されています。
        公式リファレンス デザイン GitHub リポジトリStability-AI/sd3.5には、SD3.5-medium の SLG をサポートする最近の変更が含まれています。
        Stable Diffusion 3.5 Medium での SLG の使用について取り上げたReddit (例:こちら) および Twitter/X (例:こちら) の投稿では、SLG の使用は「解剖学的失敗の可能性を減らし、全体的な一貫性を高める」ために重要であると思われると示唆されており、複数の独立した投稿がこの主張を相互検証しています。

        HuggingFaceにおいてワークフローが配布されています。

        https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/resolve/main/SD3.5M_SLG_example_workflow.json?download=true

        さいごに


        今後も、Stable Diffusionを中心としたオープンな画像生成モデルとそのコミュニティの熱狂は続きそうです。

        AICUとしては「つくる人をつくる」をビジョンにする専門AIメディアとして今後も、公平に、Stability AIやコミュニティの活動を応援していきたいと考えています。

        Originally published at https://note.com on Oct 30, 2024.

      3. Google Colab 初手の初手 – GPUいらずでパワフルなAI開発環境を手に入れよう

        皆さん、こんにちは!生成AI時代に「つくる人をつくる」で活動しているAICU media編集部です。
        勉強がはかどる秋の夜長ですね!今回は手法を変えて、画像生成だけでなく、Pythonや機械学習の勉強に役立つGoogle Colabの基本操作について解説していきます。GPUいらず、Gmailアカウントさえあれば無料で利用できるパワフルなAI開発環境を手に入れましょう!

        Google Colabとは?

        Google Colabは、ブラウザ上で利用できるGoogleの無料のPython開発環境です。Googleドライブと連携しており、機械学習やデータ分析などの作業に最適な環境を提供しています。

        Google Colabへのアクセス

        ブラウザで「Google Colab」と検索し、検索結果から「Google Colaboratory」をクリックしてアクセスします。

        https://colab.google/

        画像
        画像
        Google Colabのトップページ

        サンプルノートブックの実行

        Google Colabにアクセスすると、最初に「Colaboratoryへようこそ」というサンプルノートブックが表示されます。このノートブックは、Google Colabの基本的な操作方法を学ぶためのものです。

        ノートブックは、コードセルとテキストセルで構成されています。コードセルにはPythonコードを記述し、実行することができます。テキストセルには説明文や注釈などを記述することができます。

        基本操作

        サンプルノートブックで基本的な操作を確認してみましょう。

        1. コードセルの実行

        コードセルを実行するには、セルの左側に表示されている再生ボタンをクリックするか、セル内で「Ctrl + Enter」キーを押します。

        画像
        スクリーンショット:コードセルの実行

        2. 結果の確認

        コードセルを実行すると、その結果がセルの下に表示されます。

        Googleへのログインが済んでいない場合は、Googleへのログインが必要です。

        画像

        3. ランタイムの設定

        Google Colabでは、コンピューターのスペック(CPU、GPU、TPUなど)を選択できます。

        画像
        スクリーンショット:ランタイムの設定

        ランタイムの設定は、ノートブックのメニューから「ランタイム」→「ランタイムのタイプを変更」を選択して行います。

        4. セッションの終了

        Google Colabのセッションを終了するには、ブラウザのタブを閉じます。

        次のステップは…?

        今回は、Google Colabの基本操作について解説しました。Google Colabは、機械学習や大規模言語モデルだけでなく、画像生成AIの学習にも非常に役立つツールです。今後、Google Colabを使って、様々な画像生成AIのモデルを学習していきましょう。

        ここまでの手順はこちらの動画でも解説しております。

        Google Colabも画像生成も学べちゃう 画像生成Lesson(無料動画)

        Google Colabにも公式サンプルやはあるのですが、公式は初心者向けではないかもしれません。特にPythonによる開発環境「Jupyter notebook」に慣れた方であればこちらの基本機能比較が役に立つと思います。https://colab.research.google.com/notebooks/basic_features_overview.ipynb

        「Curated Notebooks」には「ChatGPTとGoogle Geminiの比較」といった玄人ごのみのサンプルもあります。

        https://colab.google/notebooks

        やってみました。
        「日本語英語とフランス語の違い列挙して」

        画像

        上のサンプルの動作確認にはGoogle GeminiのAPIに加えてChatGPTのAPIも必要です(それぞれクレジットカード等の登録が必要になります)。
        ちょっと初心者向けとはいい難いので、やはり無料で試せるStability AIのAPIを使った学習が良いかなと思いました。

        超入門:Stable Diffusionではじめる画像生成AI

        https://j.aicu.ai/coloso1

        Google Colabさえあれば、GPUは不要です!!

        以上、初心者け動画 「#画像生成Lesson」の紹介でした。
        これをみて「これならやれそう…?」という方は、ぜひ上を目指してみましょう。

        「生成AIクリエイティブ AICU」シリーズ
        ■超入門:Stable Diffusionではじめる画像生成AI
        https://j.aicu.ai/AICUXColosoJP
        ■初級者:広告企画から動画制作までのプロセス
        https://j.aicu.ai/ColosoJPXAICU
        ■ComfyUIマスター:カスタムノードとアプリ開発
        https://j.aicu.ai/Coloso3

        Originally published at https://note.com on Oct 29, 2024.

      4. Coloso講座第2弾「初級者:広告企画から動画制作までのプロセス」配信開始!!

        AICUxColosoコラボ企画第2弾「広告企画から動画制作までのプロセス」が2024年10月31日(木)18時に配信開始となります。この講座では、MidJourney, Runway, Sunoなどの生成AIツールを活用した広告の企画から動画と楽曲制作まで、初心者でも制作できるように解説しています。

        AICUのコラボクリエイター 藤吉香帆さんが中心になって製作しています。動画を中心としたデジタルクリエイティブや広告を制作しながら、生成AIの魅力と可能性を世の中に伝えています。

        生成AI時代の動画広告プロダクションを理解

        生成AI時代における動画制作工程のパラダイムシフトに対応するための知識を、各生成AIツールの設定や特徴と共に解説します。

        画像

        https://corp.aicu.ai/ja/runway-gen-3-alpha

        生成AIを活用したプロモーションビデオ制作方法を習得

        MidjourneyとRunway、Sunoを活用したキャッチーなCM動画制作の全プロセスを、基礎から学ぶことができます。

        画像

        プランニングにおける生成AIの活用方法

        動画広告制作の過程やプランニングをする上で、生成AIを活用してより効率的にする方法を、実演を通して分かりやすく解説します。

        画像

        こちらは ぽんずさんの作品です。Coloso番組内ではもっとすごい!

        本講座を通して、生成AIを用いた動画制作に挑戦することで、生成AIの活用法を学んでいただければ幸いです。

        画像
        画像

        生成AIツールを活用した広告企画から動画制作までのプロセスを習得

        講師陣はこちら

        画像

        藤吉香帆:動画クリエイター、セツナクリエイション合同会社 代表取締役。デジタルハリウッド大学 非常勤講師。

        ぽんず:生成AIクリエイター。各種イラスト・動画コンペで受賞歴多数。

        白井暁彦:生成AIクリエイティブAICU代表。デジタルハリウッド大学大学院 特任教授。著書に「AIとコラボして神絵師になる 論文から読み解くStable Diffusion」など。

        こんな方におすすめ

        ・動画広告制作に興味がある方
        ・生成AIを使ったクリエイティブ制作を学びたい方
        ・広告代理店や制作会社で働く方
        ・最先端の広告制作スキルを身につけたい方

        画像

        今ならお得な割引キャンペーン実施中!

        いよいよ、2024年10月31日リリース予定です。
        定価 25,350円
        →現在は 24%offの¥19,013円
        リリース後は割引価格が終了します!

        詳細はこちら: [https://j.aicu.ai/coloso2]

        https://note.com/iamkaho/n/n81b7691db92d

        AICU x Colosoコラボ企画3作はこちら
        【Coloso講座】ComfyUIマスター:カスタムノードとアプリ開発
        ComfyUIを活用したワークフローの構築と画像生成の実践講座

        https://bit.ly/3YsuzCP 👈 

        https://j.aicu.ai/coloso1

        https://note.com/o_ob/n/n4aa82191b566

        Originally published at https://note.com on Oct 28, 2024.

      5. AICU Magazine Vol.5 紙版リリース!! 特集は「Stability AI Forever!」

        「つくる人をつくる」あなたをアップデートするクリエイティブAIエンターテイメントマガジン「AICU Magazine Vol.5」特集は「Stability AI Forever!」です。

        Kindle Unlimitedにて無料です!
        内容もアップデートされています
        (既に購入された方は自動でアップデートされます)

          特集「Stability AI Forever!」

          2022年8月に画像生成AI「Stable Diffusion」をStability AI が無償公開してから2年。API時代の Stability AI 入門から2024年10月22日に公開された「Stable Diffusion 3.5」まで。
          AICU創業前からの研究成果を凝縮し、GPU不要でも高画質・高品質で画像生成が学べる今後長年にわたって役に立つ情報と歴史を込めて「Forever!」とした総力特集です。

          【基礎編】公式サンプルで学ぶ Stability AI APIの基本!

          Stability AI API Guide の基本としてGenerate API と「TextToImage の最近の文法」を総ざらい!Google Colab を使って、基本的な操作に慣れていきましょう。

          【生成編】Stable Diffusion 3.x 時代に知っておきたい新常識

          この記事ではこの先の画像生成の時代に長く役に立つ「モデルとの対話テクニック」とStable Diffusion 3 時代に知っておきたいプロンプトの新常識についてお伝えします。

          画像

          【活用編】Stability AI API の革新的機能「Edit API」

          丁寧に書かれた解説から紹介します!(画面は印刷版になります)

          画像
          画像
          画像

          【告知】Coloso 講座「超入門: Stable Diffusion ではじめる画像生成AI」

          講座内容についての紹介です

          画像

          ▼講座ページはこちらhttps://j.aicu.ai/coloso1
          ▼ティザー動画はこちら 
           https://www.youtube.com/watch?v=J7VikMNfS50

          講座中で紹介している資料なども共有しています。

          画像
          画像

          【3D 編】Stable Fast 3D をGoogle Colab で動かす

          魅力的な機能をたくさん備えた「Stability AI API」を使いこなすシリーズで
          す。今回は、2024 年8 月に公開された「Stable Fast 3D」を使ってみます。このAPI は、単一の2D 入力画像から高品質な3D アセットを生成します。

          画像

          【ツール編】「Stable Assistant」だとこんなに簡単!

          これまでStability AI API について解説してきましたが、業務的な利用ではな
          く、よりカジュアルに使いたいユーザーには「Google Colab は大変そう」と思うかもしれません。そんな方にはこちら、Stability AI がリリースした「Stable Assistant」はいかがでしょうか。画像生成AI「Stable Diffusion」の最新版に加えて、動画生成、音楽生成、テキスト生成までできるオールインワンのAI クリエイティブツールです。

          画像
          画像

          【研究編】 SD3Mチュートリアルから読んだ Stability AIの「新モデル」

          Stability AIのYeo Wangさんによる公式ブログ記事を読みやすく解説。「新モデル」についての情報も。

          画像
          画像

          https://note.com/aicu/n/n4eda1d7ffcdf

          【未来予測】「Stable Diffusion 3.5」リリースと今後の Stability AI

          以上、120 ページ以上にわたって、Stability AI の最新のAPI やツール、研究について紹介しています。本特集を締めくくるに相応しいリリース、「Stable Diffusion 3.5」が、先日2024 年10月22 日23 時(日本時間)にアナウンスされました。AICU 編集部では「日本人の生成」を通してSD3.5 の最速レビューを実施しました。

          ▼【最速レビュー】Stability AI 最新ベースモデル「Stable Diffusion」

          サクッと先取り! クリエイティブAI ツール

          Suno でオリジナル曲を完成させよう!

          AICU コラボクリエイターのぽんず(@ponzponz15) さんによるSuno紹介です。

          オリジナル楽曲の作り方を丁寧に解説しています!

          画像
          画像

          【告知】Coloso 講座第2 弾「広告企画から動画制作」

          Colosoとのコラボラーニングメディア第2弾「初級者:広告企画から動画制作までのプロセス」がいよいよリリースです。今回の講座では、生成AIツールを活用した広告の企画から動画と楽曲制作まで、初心者でも制作できるように解説します。動画を中心としたデジタルクリエイティブや広告を制作しながら、生成AIの魅力と可能性を世の中に伝えています。

          生成AI時代の動画広告プロダクションを理解

          ・生成AI時代における動画制作工程のパラダイムシフトに対応するための知識を、各生成AIツールの設定や特徴と共に解説します。
          ・生成AIを活用したプロモーションビデオ制作方法を習得
          ・MidjourneyとRunway、Sunoを活用したキャッチーなCM動画制作の全プロセスを、基礎から学ぶことができます。

          プランニングにおける生成AIの活用方法

          ・動画広告制作の過程やプランニングをする上で、生成AIを活用してより効率的にする方法を、実演を通して分かりやすく解説します。
          ・本講座を通して、生成AIを用いた動画制作に挑戦することで、生成AIの活用法を学んでいただければ幸いです。

          講座内容
          ・マーケティング戦略に基づいた企画立案
          ・Midjourneyを使ったアイデア出しとビジュアル制作
          ・Runway Gen-3によるハイクオリティな動画生成
          ・Sunoを活用した、広告に最適な楽曲制作
          ・生成AI活用における著作権やリスクマネジメント
          受講特典
          AICUによる画像生成AI講座動画20講(期間無制限)
          ・香水と果物ジュースの2つのテーマで動画広告を制作
          ・講座内容に関するPDFデータなどの資料を提供
          講師紹介

          画像

          藤吉香帆:動画クリエイター、セツナクリエイション合同会社 代表取締役。デジタルハリウッド大学 非常勤講師。

          ぽんず:生成AIクリエイター。各種イラスト・動画コンペで受賞歴多数。

          白井暁彦:生成AIクリエイティブAICU代表。デジタルハリウッド大学大学院 特任教授。著書に「AIとコラボして神絵師になる 論文から読み解くStable Diffusion」など。

          こんな方におすすめ

          ・動画広告制作に興味がある方
          ・生成AIを使ったクリエイティブ制作を学びたい方
          ・広告代理店や制作会社で働く方
          ・最先端の広告制作スキルを身につけたい方

           今ならお得な割引キャンペーン実施中!
          いよいよ、2024年10月31日リリース予定です。発売後は割引価格が終了します!
          詳細はこちら: [https://j.aicu.ai/coloso2]

          https://j.aicu.ai/coloso2

          藤吉香帆さんによるナレーション!
          コロソでお待ちしております。

          ComfyUI とSAM2 でセグメンテーションをマスターしよう

          動画も高精度に!ComfyUIとSegment Anything Model 2(SAM 2)でセグメンテーションをマスターしようYas (@earlyfield8612)による寄稿です。

          イベントレポート

          • 結果発表!!「デルタもん4コマ漫画コンテスト」#デルタもん4コマ #AICU #BlendAI
          • Stability AI も登壇!「AIが変える 美容&ファッションのミライ」 #AIイベント情報

          BlendAI通信

          • BlendAI第1回ファンミーティング潜入レポート!デルタもん誕生秘話から新キャラ「ガンマミィ」、さらに壮大な計画まで明らかに!
          • ガンマミィ誕生記念! イラストコンテストを開催

          連載漫画「ウワサの大型新人」

          画像

          読者のひろば

          • 編集長とGemini たん: AI 開発案件に起きている地殻変動
          • カバーアート 「秋の妖精」 ないとっちさん
          • はるしね~しょん(編集部だより)

          表紙 by犬沢某さん @insbow

          今すぐKindleで手に入れよう!
          Kindle Unlimitedで無料 

          その他

          • Coloso「生成AIクリエイティブ AICU」シリーズ 5,000円割引クーポンコード付き!(有効期限あり)
          • AniFusion初月半額コード付き!

          AICU Magazine Vol.5 は、Stability AI の世界を深く探求したい、クリエイティブな挑戦をしたいあなたのための、まさに”バイブル”と言える一冊です!

          紙版のリリースは10月30日を予定しております

          ご購入は j.aicu.ai/MagV5 から

          https://j.aicu.ai/MagV5

          https://j.aicu.ai/MagV4

          https://j.aicu.ai/MagV3

          Originally published at https://note.com on Oct 27, 2024.