カテゴリー: 画像生成AI

画像生成AIの使い方や最新情報についてお届けします。

  • 【最速レビュー】Stability AI 最新ベースモデル「Stable Diffusion 3.5」リリース!Stability AI APIで「日本人の生成」を試してみた!

    2024年10月22日23時(日本時間)、Stability AI による最新ベースモデル「Stable Diffusion 3.5」のオープンリリースがアナウンスされました。
    AICU編集部では「日本人の生成」を通してSD3.5の評価を実施しました。

    最もパワフルなStable Diffusion 3.5をご紹介します。 このオープンリリースには、そのサイズに対して高度にカスタマイズ可能で、民生用ハードウェアで動作し、寛容なStability AI Community Licenseの下、商用・非商用ともに無料で使用できる複数のバリエーションが含まれています。 Hugging FaceのStable Diffusion 3.5 LargeとStable Diffusion 3.5 Large Turbo、そしてGitHubの推論コードを今すぐダウンロードできます。 Stable Diffusion 3.5 Mediumは10月29日にリリースされる予定です。

    https://x.com/StabilityAI/status/1848729212250951911

    日本語版公式リリースより

    リリースされるもの

    • Stable Diffusion 3.5 Large: 80億のパラメータ、1メガピクセル解像度。
    • Stable Diffusion 3.5 Large Turbo: Stable Diffusion 3.5 Large の蒸留版、わずか4ステップで高品質な画像を生成。Stable Diffusion 3.5 Largeよりもはるかに高速。
    • Stable Diffusion 3.5 Medium (10月29日リリース予定): 26億のパラメータ、改良されたMMDiT-Xアーキテクチャとトレーニング方法により、カスタマイズのしやすさと画質を両立させ、コンシューマー向けハードウェアで「箱から出してすぐに使える」ように設計されています。0.25~2 メガピクセルの解像度の画像を生成できます。

    モデルの特徴(公式リリースより)

    モデルの開発にあたっては、柔軟な基盤を構築できるよう、カスタマイズ性を優先しました。これを実現するために、Query-Key Normalization をトランスフォーマーブロックに統合し、モデルのトレーニングプロセスを改善し、さらにファインチューニングや開発を簡素化しました。
    このレベルの下流での柔軟性をサポートするために、いくつかのトレードオフが必要でした。異なるシードを使用した同じプロンプトからの出力に、より大きなばらつきが生じる可能性があります。これは意図的なもので、ベースモデルにおける幅広い知識ベースと多様なスタイルの維持に役立ちます。しかし、その結果、特定性のないプロンプトでは出力の不確実性が増大し、見た目のレベルにばらつきが生じる可能性があります。
    特にMediumモデルでは、品質、一貫性、およびマルチ解像度生成能力を向上させるために、アーキテクチャとトレーニングプロトコルにいくつかの調整を加えました。

    モデルの優位性

    • カスタマイズ性: 特定のクリエイティブニーズを満たすために、モデルを簡単にファインチューニングしたりカスタマイズされたワークフローに基づくアプリケーションを構築したりすることができます。
    • 効率的なパフォーマンス:特にStable Diffusion 3.5 MediumおよびStable Diffusion 3.5 Large Turbo モデルでは標準的な一般消費者向けのハードウェアで高負荷をかけずに実行できるように最適化されています。
    • 多様な出力:広範な指示を必要とせずに、特定の人物だけでなく、さまざまな肌の色や特徴を持つ世界を代表するような画像を作成します。
    画像
    • 多彩なスタイル:3D、写真、絵画、線画など、幅広いスタイルと美しさを生成することが可能です。また、想像可能なほぼすべての視覚スタイルにも対応しています。
    画像

    Stable Diffusion 3.5 Medium は、他の中型モデルを上回る性能を持ち、プロンプトの再現性と画像品質のバランスに優れていますので、効率的で高品質なパフォーマンスを求める場合の最適な選択肢となりうるでしょう。

    画像

    Stability AI Community license の概要

    https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

    community license の概要は以下の通りです。

    • 非営利目的の場合は無料: 個人および組織は、科学研究を含む非営利目的の場合、無料でモデルを使用することができます。
    • 商用利用も無料(年間収益100万ドルまで):年間収益が100万ドル未満のスタートアップ企業、中小企業、クリエイターは、商用目的でも無料でこのモデルを使用できます。
    • 成果物の所有権:制限付きライセンスを伴うことなく生成されたメディアの所有権を保持します。

    年間収益が100万ドル以上の企業は、エンタープライズライセンスをこちらからお問い合わせください。

    ComfyUIが即日対応

    そしてまさかのComfyUIがリリース即日対応を発表しました。

    まさかこんなことが起こるなんて!Stable Diffusion 3.5がリリースされました!Stable Diffusion 3.5モデルシリーズの初日サポート開始をお知らせできることを嬉しく思います!SD3.5の使用を開始するには、当社のブログをフォローするか、ベータ版の「missing model」機能を使用してモデルをダウンロードしてください。スキルは必要ありません!

    https://x.com/ComfyUI/status/1848728525488197963

    昨日リリースされた内容はこちらです。
    missing model機能について、チェックしていかねばですね!

    いますぐ触りたいアナタに!

    HuggingFace Spacesにて試用環境が公開されています
     Stable Diffusion 3.5 Large (8B)

    https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large

    公開直後のため、流石に混雑しているようです。同時に公開されたTurboのほうが使えそうです。

    Stable Diffusion 3.5 Large Turbo (8B)

    https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large-turbo

    画像

    文字表現についても機能は維持されているようです。
    「gemini boys with a panel written “AICU”」

    画像

    公式APIでの「Stable Diffusion 3.5 Large」

    Stability AI 公式APIマニュアルによると、既にGenerate APIとして提供が始まっています。APIキーを取得し、Open Google Colabにアクセスしてください。

    [AICU版] Stability AI APIガイド
    https://note.com/aicu/n/n4eda1d7ffcdf

    公式Google Colab notebook へのリンク

    デフォルトの解像度は1Mピクセル、1024×1024です。
    modelパラメータのデフォルトが「sd3.5-large」になりました。
    {sd3-large, sd3-large-turbo, sd3-medium, sd3.5-large, sd3.5-large-turbo}
    クレジット消費は「生成成功につき」以下のとおりです。

    ・SD3.5 & 3.0 Largeは一律6.5クレジット
    ・SD3.5 & 3.0 Large Turbo:一律 4クレジット
    ・SD3 Medium:一律3.5クレジット。
    失敗した生成については請求されません。

    AICUによるSD3.5ギャラリー

    SD3.5にて生成
    「gemini girls with a panel which written “AICU”」

    画像
    画像

    SD3.5 Turboにて生成
    「textured palette knife oil painting of a cat riding a surfboard on the beach waves in summer. the cat has a mouse friend who is also riding the surfboard」

    画像

    良いものだけ紹介するのではなく、
    文字の描画を含めた連続生成の歩留まり率を表現してみます。
    「cinematic film still, action photo of a cat with “AICU loves SD3.5”, riding a skateboard through the leaves in autumn. the cat has a mouse friend resting on their head」
    SD3.5・同一プロンプト、Seed=0にて実験

    画像
    画像
    画像
    画像
    画像
    画像
    画像
    画像
    画像
    画像

    「Japanese girls with a panel which is written “AICU loves SD3.5″」

    画像
    画像

    実写系日本人の表現については、結構特徴掴んでいる感じがします。
    指の再現率については工夫が必要そうです。

    画像
    画像
    画像
    画像
    画像

    ネガティブプロンプトの効果を確認します。
    「bad finger, nsfw, ugly, normal quality, bad quality」を入れることで歩留まり率が上がりました。

    画像

    さいごに、ComfyUIのブログにあったプロンプトを紹介します。

    Prompt: A photorealistic 4K image of a woman with transparent, crystal-like skin, glowing from within with a soft golden light.
    NP:bad finger, nsfw, ugly, normal quality, bad quality

    画像
    画像

    AICU編集部のレビュー

    電撃リリースとなったStable Diffusion 3.5です。
    即日対応を実現したComfyUI、そして商用で試用する上で、APIとしての互換性は高く保たれているようなので安心しました。初期レビューとして少し触ってみた範囲ですが、人種の多様性、特に日本人の描写について多様性と表現力があることを確認しました。
    モデルの特性としての「カスタマイズ性」はどのようなところで発揮されるのか、ファインチューニング関係がComfyUIで登場することを期待します。また既存APIでのモデル間比較やEdit API、Style APIとの関係、そして10月29日に予定されているSD3.5Mリリース以降の動向も注目したいところです。

    【PR】商用でも利用できるStability AI APIを学びたいアナタへ
    超入門:Stable Diffusionではじめる画像生成AI

    https://j.aicu.ai/AICUXColosoJP

    Originally published at https://note.com on Oct 22, 2024.

  • 「ComfyUI V1」デスクトップアプリのリリース告知!新UI、カスタムノードのマーケットプレイス機能[CNR]も。

    画像生成AIにおける世界で最も注目されているツール「ComfyUI」を開発する サンフランシスコの団体「Comfy Org」より、「ComfyUI V1」のリリース告知が発表されました!今回のアップデートでは、ワークフローの強化と生産性向上を目的とした、多くの改善と新機能が追加されました。主なアップデート内容は以下の通りです。

    デスクトップアプリ版が登場!

    この2ヶ月間、Comfy OrgはComfyUI のシームレスなデスクトップ体験を提供するために尽力してきました。目標は、技術に詳しくないユーザーでも可能な限りスムーズな体験を楽しめるようにすることです。スタンドアロンパッケージからの改善点は以下の通りです。

    • コード署名済み&セキュア: ComfyUI がセキュリティ警告を発動することなく開けるようになりました。アプリはコード署名されているため、そのバージョンが直接Comfy Orgから提供されたものであることを常に知ることができます。
    • クロスプラットフォーム: Windows / macOS / Linux で利用可能
    • 自動アップデート: 自動アップデートにより、ComfyUI の安定版リリースを常に使用できます。
    • 軽量パッケージ: バンドルはわずか 200MB です!
    • 推奨 Python 環境: 手動設定の手間はもうありません。インストールプロセスをスムーズにするために、推奨される Python 環境を含めました。
    • ComfyUI Manager をデフォルトで搭載: ComfyUI レジストリから直接ノードをインストールし、最新の意味的にバージョン管理されたノードにアクセスできます。ナイトリーバージョンは引き続き最新の Git コミットから入手できます。
    • タブ: 複数のワークフローをタブで開いて、それらを移動できるようになりました。
    • カスタムキーバインド: ブラウザレベルのコマンドの干渉なしに、真のカスタムキーバインドを定義できるようになりました。
    • リソースの自動インポート: インストール中にそのディレクトリを選択することで、既存の ComfyUI を再利用できます。入力、モデル、出力は自動的にインポートされます。
    • 統合ログビューア: デバッグが必要な場合にサーバーログを表示できます。

    現在、クローズドベータ版としてリリースしています。ダウンロードページからウェイティングリストにて、ご登録ください。今後数週間でより多くの方々に展開していく予定で、まもなくオープンベータ版をリリースし、その時点でソースコードはオープンソース化される予定とのことです。

    全く新しいユーザーインターフェース

    デスクトップアプリケーションの新しいインターフェースは、ComfyUI を更新するとすぐに利用できます。V1が一般公開される際には、現在のすべてのユーザーインターフェースは新しいUIに切り替わります。

    • トップメニューバー: 多くのアクションをトップメニューバーに統合し、拡張機能開発者はカスタムメニュー項目を簡単に追加できるようになりました。
    • モデルとログへのアクセスが容易に: トレイアイコンを右クリックするだけで、モデル、カスタムノード、出力ファイル、ログにすばやくアクセスできます。
    • モデルライブラリ: すべてのモデルを簡単に参照し、ライブラリからチェックポイントローダーとして直接ドラッグアンドドロップできます。
    • ワークフローブラウザ: ワークフローをワークフローブラウザに保存してすばやくアクセスできるようになりました。また、別のディレクトリにエクスポートすることもできます。
    • モデルの自動ダウンロード: ComfyUI では、ワークフローにモデルの URL/ID を埋め込み、自動ダウンロードできるようになりました。たとえば、テンプレートを開いていて、モデルがない場合、ComfyUI はワークフローで定義されている不足しているモデルをダウンロードするように促します。例
      この新しい UI は、最新の ComfyUI ですべての人が利用できます。パッケージを更新してください。

    https://github.com/Comfy-Org/ComfyUI_frontend/blob/main/public/templates/default.json?ref=blog.comfy.org#L351

    新しいUIの有効化

    V1 UI を使用するには、次の手順に従います。

    1. ComfyUI を更新します。
    2. 設定メニューで v1 UI を有効にします。

    動画解説はこちら

    Comfy Node Registry (CNR)

    ここ数か月間、Comfy Orgはカスタムノードのレジストリhttps://registry.comfy.org/)に取り組んできました。
    これは NPM に似ています(ノードがセマンティックなバージョンで公開されるという意味で)。目標は、より安全で安定した ComfyUI カスタムノードのユーザーエクスペリエンスを構築することです。すでに 600 を超えるノードと 2,000 を超えるノードバージョンが公開されています。CNR に公開してくださった皆様、ありがとうございます!

    Dr.Lt.Data は、この機能ブランチ(feat)で ComfyUI マネージャーと CNR を統合してきました。
    Electronのアプリとしてリリースされる、レジストリからのインストールをサポートする最初の場所となります。

    カスタムノードの今後の計画:

    • セキュリティスキャン: カスタムノードにおける悪意のある動作の自動スキャンをテストしてきました。将来的には、すべてのカスタムノードがスキャンされ、悪意のあるノードは禁止されます。それらのノードをインストールしたユーザーには通知されます。
    • 依存関係解決の改善: カスタムノードを確実にインストールし、既存のワークフローを実行するのに役立つツールに取り組んでいます。

    FAQ

    標準の Web ComfyUI は引き続き開発されますか?

    Electron アプリは、既存の ComfyUI Web アプリケーションのシンプルなラッパーです。これにより、インストールやファイルシステムに関連する機能を構築できます。場合によっては、デスクトップアプリ専用の機能(タブなど)を開発する場合があります。ただし、すべての主要な機能は、引き続き ComfyUI および ComfyUI_frontend で最初に開発されます。
    デスクトップ版としてリリースされる Electron アプリは、他のすべてのユーザーと同じタイミングでこれらの機能を利用できます。

    ポータブルスタンドアロンはまだ利用できますか?

    これは、Electron デスクトップアプリがより安定するまでしばらくの間サポートされます。

    デスクトップアプリはオープンソースになりますか?

    数週間後にオープンベータ期間が始まると、コードをオープンソース化します。

    元の UI は引き続き開発されますか?

    新しい V1 UI が今後デフォルトのユーザーエクスペリエンスになります。元の UI は現在メンテナンスモードであり、これ以上の機能は追加されません。カスタムノードおよび拡張機能の開発者には、新しい UI をサポートすることをお勧めします。

    お問い合わせ

    ご意見をお聞かせください!いつものように、Discord または hello@comfy.org でご連絡いただけます。

    https://blog.comfy.org/comfyui-v1-release

    AICU編集部より

    先日のComfyUIミートアップ東京でチラ見させていただいたElectronアプリが早くもリリースですね。AICU編集部も期待しています。
    そしてマーケットプレイスにあたる「CNR」のリリースも期待です。セキュリティに関する配慮が高く設定されているのが好印象です。
    そして、ウェブサイトの整備もありがとうございます!
    編集部としては動画作品ギャラリーがお気に入りです。

    https://www.comfy.org/videos

    AICU編集部はこれからも ComfyUI および Comfy Orgを応援していきます!

    https://note.com/aicu/m/md2f2e57c0f3c

    Originally published at https://note.com on Oct 21, 2024.

  • 「Stable Assistant を 知らないの?」Day3:商用利用と倫理TIPS

    Stable Assistantを触りながらココナラで案件を探してみたら、想像以上にいろいろできた…😳✨

    みなさん、毎度ありがとうございます AICUメディア営業部です!
    生成AI時代に「つくる人をつくる」をビジョンに活動するAICUメディアのお手伝いしながら、AICUのナレッジを「もっと売る」をミッションとして活動しております。

    前回までズボラな私が「Stable Assistant」の無料お試しを使って画像生成や画像加工や動画生成、楽曲生成や3D生成をしてココナラにアカウントをつくって実際に案件に応募するまでのお話がこちらです。

    <Day1レポート>無料トライアル3日間でこんなにお得!?

    実際にStable Assistantを使った画像処理でやってみた画像処理がこちらです

    <Day2レポート> 案件にAIで提案してみた

    3日日は、実際にココナラでの案件を Stable Assistant の無料枠で営業していく上での注意点についてお伝えします!

    用意するツールとアカウントの準備

    ココナラのアカウント
    ・クレジットカード
    Stable Assistantのアカウント登録
    Google Gemini (あると嬉しい)
    ・DeepL無料版(なくても大丈夫)

    ココナラのアカウントはこちらから登録すると紹介ポイントが手に入ります。

    まずココナラの検索をするうえでプロフィールを埋めます

    プロフィールはGoogle Gemini「AI Studio」で埋めました。ロングコンテキストが扱えるので便利です。翻訳もこれで問題なし!

    日本で最も有名な画像生成AIのプロフェッショナルの営業部です

    はじめまして!AICUメディア営業部です。 2022年から活動している画像生成AIにおける元祖「Stable Diffusion」を応援し続けて2年を超える画像生成AIのラーニングメディア「AICUメディア」の営業部です。所属クリエイターと最新のクリエィティブAI技術とノウハウによりお客様の大切な案件を予想を上回る速度とクオリティ、スマートに納品させていただいております。 【弊社の特徴】 (1) ブログメディアでの紹介! 生成AI時代に「つくる人をつくる」をコンセプトにして活動させていただいております。 ブログメディアでの紹介をさせていただけることで、単なる「案件」ではなく、AI+人間のクリエイターならではの速度、品質、細やかさ、そして御社の知名度もアップ!を特徴としております。 ✨️「AICU」で検索してみていただければ幸いです。 (2) 作業速度がものすごい 米国に本社があるため日本のカレンダーに依存しない!深夜対応も歓迎です。 (3) お試しいただいてご納得いただいてからの作業着手 可能な限り仕上がりサンプルをご確認いただいてからのご発注プロセスを取っております。 残念ながら不成となった案件は依頼主様等の情報を外した状態で実績としてブログ等で紹介させていただきます。

    https://coconala.com/users/4956128

    Stable Assistantの新機能を紹介!

    Stable Assistantもアップデートを繰り返しています。
    先日、10月20日に背景置き換え機能がリリースされました!

    https://x.com/AICUai/status/1846341417263943730

    画像をアップロードしてツールメニューから「Replace Background」で利用できます。

    この画像が…

    画像

    アップロードしてから選べるカバンメニューで「Replace Background」

    画像

    サンプルどおりに「In the Jungle」に置き換えてみます。

    画像

    これは便利ですね。

    プロンプトの代わりに画像も与えられます。

    画像

    こちらを与えてみます。

    画像

    こんな感じです。

    画像

    Day2で扱ったような中古車販売のような使い道によいかもしれませんね!

    顔をマスクしよう

    さて、前回扱った「Search and Replace」で便利な使い道を発見しました。
    プライバシーを守るための「顔マスク」です。

    画像をアップロードしてカバンメニューから「Search and Replace」です。
    ここに「face」を対象に「mask」を入れるだけ!

    画像

    じゃーん!

    画像

    これでプライバシー保護もバッチリ!?

    さて続いてココナラとStable Assistantを使って案件をこなしていくうえでの倫理関係の考察をしてみたいと思います。

    Stable Assistantは商用利用できますか?

    Stable Assistantの利用規約では、商用利用について明確な禁止事項は明記されていません。しかし、いくつかの点に注意が必要です。

    • 利用規約で許諾されている範囲内での利用: 利用規約では、Stable Assistantの出力(画像、音楽、動画など)について、Stability AIに非独占的なライセンスを付与することになっています。つまり、Stability AIは、あなたの出力を使用する権利を持っています。
    • 知的財産権: Stable Assistantで生成したコンテンツの知的財産権は、基本的にあなたに帰属します。しかし、Stable Assistantが学習したデータの一部が著作権で保護されている可能性があります。
    • 著作権フリー: 生成したコンテンツを商用利用する場合は、著作権の侵害に注意する必要があります。Stable Assistantでは、著作権フリーの画像や音楽を生成することも可能です。
    • 責任の所在: Stable Assistantの出力に基づいて、あなたが何らかの損害や責任を負った場合、Stability AIは責任を負いません。

    商用利用を検討する際は、以下の点も確認しておきましょう。

    • Stable Assistantの利用規約をよく読んで理解する
    • 生成したコンテンツの著作権について調べる
    • 商用利用に適したコンテンツかどうか判断する
    • 必要な法的アドバイスを受ける

    Stable Assistantは、強力なツールですが、商用利用には注意が必要です。上記を参考に、安全にそして適切な形でStable Assistantを活用してください。

    Stable Assistant Terms of Service

    https://stability.ai/stable-app-terms-of-service

    他にも気をつけたこと

    ココナラでの依頼を調べるうえで「いちおう手を動かしてみたけど、これはやめたほうが良いな…」と感じた案件をまとめてみます。

    「生成AI使ってもいいよ」と書かれている案件を選ぶ

    もちろんプロのアーティストさんが描いたほうがよさそう、という案件も多くありますが、その中でも探してみると「生成AI使っていいよ!」という案件はありました。
    また既存の自社サイトやサンプルイメージとしてChatGPT(DALL-E3)での画像を使われていて「もうちょっとどうにかしたい」という趣向でご依頼されている方も多くいらっしゃいました。

    実際のところ、上手な画像を生成するのってテクニック要りますよねぇ…(といって編集部のみなさんの頑張りを眺めています)

    依頼そのものがふわっとしている案件は避ける

    「依頼そのものがふわっとしている…」この辺は発注者としてついやってしまいがちなのですが、避けたいところですね…。
    例えば「前に依頼したのだけど気に入らなかった」とか「見積額による」といった案件ですね。

    この辺は発注者としてついやってしまいがちなのですが、避けたいところですね……。

    1つの案件で複数の依頼をしている案件は避ける

    イラストや似顔絵に時々あるのですが、「1点でXXXX円、2点でXXXX円、5点全部揃ったらXXXXX円」といった依頼です。

    実際、手を動かしてみたのですが、点数が多くなれば多くなるほど難度は上がると思います。

    もちろん、アウトペイント(ズーム機能)で外側を描いたりしてレイアウトを変えるだけだったり、背景削除で置き換えるだけの仕様ならそんなに難しくはないのですが、描く要素が多くなったり、キャラクターデザインの一貫性を維持したうえで複数の画像を用意するのは難しいと思いました。
    ただこれは、考え方とかやり方次第かもしれません。

    たとえば3D化を使って、多視点にしてみたら……あ、できるかも??

    「生成AI+人間の作業です」を伝える

    ココナラは募集している案件に「提案」として作文を書くのですが、そこに「生成AI+人間の作業です」と伝えたほうが良いと思いました。
    今回の調査では「ココナラ」以外の別のクラウドソーシングサイトも調査してみたのですが「生成AIだけ」で「作業単価が10円ぐらい」といった市場もあったりもします。

    こういう依頼を見ていると「生成AI使ったって人間の作業時間があるんだよ!!」という気持ちでいっぱいになります。

    イラストレーターさんがたくさん応募している案件は避ける

    締め切りまでの日数や案件にもよるのですが、すでにたくさんのイラストレーターさんが応募している案件に「生成AIでやります!」といって乗り込んでいくのは勇気がいります。「生成AIが人の仕事を奪う」みたいな言われ方をするのが心外なので…(小心者)。

    それに、イラストレーターさんの手仕事は尊いですよ。
    AICUも「画像生成AIクリエイター仕草(v.1.0)」で言ってます。

    「手仕事とAI」を「市場として混ぜるのは禁止」という感想です。

    納期が不明瞭で直しが無限になりそうな案件は避ける

    この辺は発注者としても避けたいところですね~!
    現行の下請法にも違反ですし、令和6年11月1日から「特定受託事業者に係る取引の適正化等に関する法律(フリーランス・事業者間取引適正化等法)」が施行されています。

    https://www.mhlw.go.jp/content/001278830.pdf

    発注者がココナラ規約違反になる流れもけっこある

    発注者さんが必ずしも悪気があってやっているのではない場合もあります。実はココナラには「外部でやり取りしてはならない」という厳格なルールがあるらしく、Google DriveやGoogle Formを使ったコミュニケーションが入っていると事務局判断で案件が停止されることもあります。
    結構な頻度で起きているので、あまり腹を立てずに付き合いたいところです。

    「スピード重視」「品質重視」「継続依頼あり」「初心者OK」を探す

    画像

    まずは5,000円以下ぐらいの案件からやってみる

    ココナラには出品者ランクがあり、ランクアップすることで信頼度がアップします。レベルを上げるためには小さくても案件をこなしていったほうがいいかもしれません。逆に「5千円…安すぎ!」と思ううちはやめておいたほうがいいいかもしれません。

    画像

    以上、いろいろ述べてしまいましたが、AICU営業部はココナラの活用をこれからも研究していきます。

    画像

    なお、発注者としてクリエイターさんやライターさんへのお仕事募集もしておりますので、フォローよろしくお願いいたします!

    https://coconala.com/requests/3717909

    生成AI時代のクラウドワーカーさんとの出会いが楽しみです!
    初心者も歓迎です。誰もが最初は初心者ですよね。
    以上、AICUメディア営業部がお送りしました

    画像

    https://coconala.com/users/4956128

    #StableAI #StableAssistant #画像生成AI #AI音楽生成 #副業 #ココナラ #AICU営業部

    Originally published at https://note.com on Oct 21, 2024.

  • [ComfyMaster26] ControlNetでイラストを精密に実写化!

    イラストのスタイルを実写に変換する際、従来のimage-to-image (i2i) 手法では、変換元画像の特徴を維持しながらの変換が困難でした。今回は、その課題をComfyUIのConrolNetで解決します!

    こんにちわ、AICU media編集部です。
    ComfyUI マスターガイド」第26回目になります。
    本記事では、ControlNetを導入することで、この課題を解決し、より精密な実写化を実現する方法を紹介します。具体的には、以前i2iでスタイル変換を試みた犬のイラストを再度用い、ControlNetによる変換結果とi2iのみの結果を比較することで、その効果を検証します。

    本連載の初回はこちら。前回はこちら目次はこちらです。

    [ComfyMaster25] 画像を自由自在に!ControlNetで完全制御 #ComfyUI

    1. 概要

    今回は、ControlNetを利用して、イラストを実写に変換します。以前にi2i (image-to-image) でスタイル変換を試しましたが、i2iだけの場合、変換元画像の特徴を維持しながらスタイル変換が難しいという課題がありました。この課題をControlNetを使用することで解決します。

    画像

    i2iのみでのスタイル変換との結果を比較するために、i2iで使用した以下の犬のイラストを使用します。

    画像

    2. ControlNetの使用準備

    ControlNetの使用準備については、前回の記事をご覧ください。

    今回は、ControlNetのDepthとLineartを組み合わせて使用します。Depthでは、犬と背景との関係を明示し、Lineartでは、犬や草花の形状を理解させるために使用します。

    3. workflowのノード構成

    以下がworkflowの全体構成になります。このワークフローは、アニメ調のイラストを入力として受け取り、その構図や主要な要素を保持しながら、より現実的で詳細な画像に変換します。ControlNetの使用により、入力画像の構造が出力に強く反映され、同時にプロンプトとモデルの力を借りて現実感のある詳細が付加されます。結果として、元のイラストの魅力を保ちつつ、より写実的な猫の画像が日本の伝統的な部屋の中に描かれることが期待されます。

    画像

    ワークフローのファイルは、文末のリンクよりダウンロードください。

    以下に、このワークフローの主要な部分とその機能を図示し、詳細に説明します。

    1. 入力画像の読み込みと処理
      • Load Imageノード: 犬のイラスト画像を読み込みます。
      • VAE Encodeノード: 入力イラストを潜在空間にエンコードします。
      • Depth Anything V2ノード: 入力画像から深度マップを生成します。
      • Line Artノード: 入力画像から線画を抽出します。
    2. モデルとControlNetの読み込み
      • Load Checkpointノード: 「RealVisXl.safetensors」モデルを読み込みます。
      • Load ControlNet Modelノード: 「controlnet-union-sdxl-1.0.safetensors」を読み込みます。
    3. プロンプト処理 (CLIP Text Encode ノード x2)
      • ポジティブプロンプト: 「realistic, photorealistic, looking_at_viewer, brown_eyes, sitting, closed_mouth, flower, outdoors, day, blurry, tree, no_humans, depth_of_field, animal, sunlight, grass, dog, yellow_flower, fence, purple_flower, animal_focus, lamppost」
      • ネガティブプロンプト: 「anime, illustration,」
        • アニメやイラストの要素を排除するために、ネガティブプロンプトに「anime, illustration,」を入力する
    4. ControlNetの適用 (Apply ControlNet Advanced ノード x2)
      • 1つ目のControlNetはDepthを使用
      • 2つ目のControlNetはLineartを使用
      • 両方とも強度: 0.3 (ControlNetの影響力)
    5. 画像生成 (KSampler ノード)
      • Seed: 860227022998599
      • Steps: 20
      • CFG Scale: 8
      • Sampler: dpmpp_2m
      • Scheduler: karras
      • Denoise: 0.7
    6. 画像のデコードと保存
      • VAE Decode ノード: 生成された潜在表現を実際の画像にデコードします。
      • Save Image ノード: 最終的に生成された画像を 「style_transformer」という名前で保存します。

    3. 生成結果

    以下が生成結果になります。まずは、しっかりと実写に変換できていることが確認できます。

    画像

    次に変換元画像と比較して見ましょう。背景も含めて、かなり正確に変換元画像の特徴を維持していることが分かります。

    画像

    さらにi2iのみの結果とも比較してみます。すべてdenoiseが0.7の時の結果となります。i2iの時は、花が柵になっていたり、犬が少し大人びています。ControlNetを追加した結果では、背景はもちろん、犬の特徴も変換元画像に近いです。

    画像

    4. まとめ

    犬のイラストを題材に、深度マップと線画をControlNetに入力することで、元のイラストの構図や犬の特徴(子犬らしさなど)を維持しながら、背景や被写体をリアルな質感で表現することに成功しました。RealVisXlとcontrolnet-union-sdxlを用い、プロンプトで写実性を強調しつつ、アニメやイラストの要素をネガティブプロンプトで排除することで、より自然な実写化を実現しました。結果として、i2i単体では背景が大きく変化したり、犬の年齢が変化するなど、元のイラストの特徴が失われていたのに対し、ControlNetを用いた手法では、これらの特徴を保持したまま、高精度な実写化が達成されました。 これにより、ControlNetがイラストの実写化において、元の画像の特徴を維持しつつ、より精密な変換を可能にする強力なツールであることが示されました。

    次回は、写真やイラストを線画にする方法を紹介します。乞うご期待!
    X(Twitter)@AICUai もフォローよろしくお願いいたします!

    画像生成AI「ComfyUI」マスターPlan

    画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

    • メンバー限定の会員証が発行されます
    • 活動期間に応じたバッジを表示
    • メンバー限定掲示板を閲覧できます
    • メンバー特典記事を閲覧できます
    • メンバー特典マガジンを閲覧できます
    • 動画資料やworkflowといった資料への優先アクセスも予定

    ゼロから学ぶ「ComfyUI」マガジン

    https://note.com/aicu/m/md2f2e57c0f3c

    マガジン単体の販売は1件あたり500円を予定しております。
    2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

    https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

    もちろん、初月は無料でお試しいただけます!
    毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
    退会率はとても低く、みなさまにご満足いただいております。
    ✨️オトクなメンバーシップについての詳細はこちら


    この記事の続きはこちらから https://note.com/aicu/n/n4fafc970da0a

    Originally published at https://note.com on Oct 20, 2024.

  • AICU×BlendAIガンマミィ誕生記念イラストコンテスト結果発表!

    2024年10月19日、INDEST(東京科学大学・田町キャンパス)にて開催されたイベント「あんしんAIセミナー」にて AICU×BlendAIガンマミィ誕生記念イラストコンテストの結果発表が行われました。

    画像

    しらいはかせの最新の画像生成をカバーアートにした
    あんしんなクリエイティブAIで「陽のあたる場所」をつくる
    というタイトルの講演の最終パートで発表が行われました。

    すでに最終ノミネート作品と「BlendAI賞」、「まいにち投稿達成賞」は発表されております。

    BlendAI賞を獲得したともっちさん (@tomomaga358)おめでとうございます!副賞としてBlendAIよりクラウドファンディング関連グッズが贈呈されます。

    画像

    まいにち投稿達成賞を受賞した 犬沢某さん (@InsBow)には、後日BlendAIより賞状画像とNFT認定証が授与されます。

    10連投稿で条件を満たすのに、12作作ってきた犬沢某さん作品をギャラリーにしてみました。お楽しみください。

    画像
    画像
    画像

    だんだん洗練されていく様子がわかります…!

    本人コメントです。

    12作達成しました。やったぜ! ガンマミィさんはデルタもんに比べて描きやすい要素も多いのと、一方で難しい要素も多くて楽しませていただきました。 展開性もよいキャラクターなので今後の人気が楽しみです。​

    https://x.com/InsBow/status/1847647134004478073

    「ベストバズ賞」まさかの ねこガンマミィ!

    事務局による集計で締め切り時点での「ベストバズ賞」が審査されました。

    ベストバズ賞: エントリー作品の中でX(Twitter)でもっともリポストされた投稿にAmazonギフト券5000円分をプレゼント!(自己申告+事務局による不正監査あり)

    念のため、RPに加えてファボ、そしてその合計も集計します。
    [RP] [Fav] [合計]
    16 21 37 犬沢某 9作目。ねこガンマミィ。むにゃ~😾
    15 21 36 ともっち 双星幻滅破砕拳の使い手、ガンマミィ!!
    15 16 31 犬沢某 7作目。やはりちびがよい。
    14 15 29 犬沢某 8作目。おはようガンマミィ。今週もガンマっていこ~。
    14 15 29 犬沢某 12作目! #ガンマミィジェネレーター すごいね!
    13 18 31 Yas@Ponotech 湖上のガンマミィ

    以上、僅差で犬沢某さんの「ねこガンマミィ」の勝利となりました!

    画像
    https://x.com/InsBow/status/1843284499922116756/photo/1

    応援者の皆様、リポストにご参加いただきありがとうございました。
    犬沢某さんにはAmazonギフト券5000円分が贈呈されます。

    犬沢某さんのコメント「オーバーオールを着た犬しか描かないAIイラストレーター」なのに…猫で受賞してしまったワン…🐶

    やはりバズを狙うなら、猫は最強!?

    さて気になる「AICU賞」の発表です!

    もりにえさん 「流行の天使界隈ファッション、デス!」

    画像
    https://x.com/kamitashiro_AI/status/1845053911545282897

    作品「流行の天使界隈ファッション、デス!」by もりにえ(@kamitashiro_AI)
    オーバーサイズのジャージ素材で、主に水色や白を基調とした天使界隈と呼ばれる10代から20代に人気のファッションをガンマミィに着てもらいました。コンセプトはオリジナルのガンマミィはそのままでも充分可愛いですが様々な服をガンマミィに着てもらうことによって今まで画像生成AIに興味のなかった方や否定的だった方にも好意的に伝わるよう工夫しました。生成方法としては、日頃AI画像を生成している時と同じくタグをカンマで細かく区切る形のプロンプトを書きそれをガンマミィジェネレーターに入力して生成しました。ガンマミィジェネレーターを期間限定無料提供してくださりありがとうございました。

    御本人によるエントリー資料より

    編集部コメント:「ガンマミィ・ジェネレーター」の活用が素晴らしいです!開発者としては一通りの使い道は想定しているのですが、その遥か上を行く表現力を開拓していただいて感無量です。
    https://gammamygenerator.aicu.ai/

    さらに もりにえさん 御本人よりコメントを頂いております。


    AICU×BlendAIガンマミィ誕生記念イラストコンテストが開催おめでとうございます!

    BlendAI株式会社が「デルタもん」に続き開発、発表したAIキャラクターが「ガンマミィ」です。その情報を知り、画像生成AI歴2年の私も参加させて頂きました。

    私はいわば途中参加で、AICUが2024年9月25日にXにてガンマミィ誕生記念イラストコンテストの応募フォームを公開した時点ではなく、同じくAICUが2024年10月11日にガンマミィ・ジェネレーターを公開した時点での参加となります。

    ガンマミィ・ジェネレーターを実際使用してみた感想としては非常によく出来ているAI画像生成ツールで驚きました。

    ピンク色のツインテールを太い紐状のようなもので結んであるガンマミィの髪型は、日頃使用しているAI画像生成ツールにいちからプロンプトを書き、再現することは私の力量では不可能だろうと考え、期間限定での無料提供の恩恵をありがたく授かり使用させて頂きました。

    私が出力したイラストは例えば「部屋で椅子に座っているガンマミィを描いて下さい。ガンマミィがいる部屋には植木鉢が置いてあります」などとしたプロンプトでもガンマミィ・ジェネレーターならば同じようなイラストは生成できたのではないかと思われます。

    しかし、2年以上飽きずに画像生成AIを楽しんできた身としては、そうして文で指示を出すよりも英単語をタグで区切るほうが馴染みがあります。
    今がチャンスとばかりに、普段使っているAI画像生成ツール(Sea Art AI)との使用感の差を試したくなりました。

    というわけで、ガンマミィ・ジェネレーターでのプロンプトは「(8K,best quality,master piece:1.2),super high resolution,1 girl」から書き始める英語でタグを細かく区切る形のプロンプトを書きました。

    プロンプト「1 girl」の後は「1gilr is Gammamy」と続けることによって髪型の再現の難しさはガンマミィ・ジェネレーターにおまかせ。

    そして、私が今回応募したイラストのコンセプトとして考えていた「ガンマミィはそのままでも充分可愛いけれど様々な服を着たガンマミィを目にする機会が増えれば画像生成AIに興味のなかった方や否定的だった方にも服から先に親しみを持ってもらえないだろうか」という部分をその後のプロンプトで表現しました。

    プロンプト「1 girl is Gammamy」の後は「oversized long sleeve blue hoodie dress,lace」と続けました。

    椅子に座っていることや植木鉢があることなども上記のように指定し完成したのが、今回応募したイラストです。

    基本設定のガンマミィがピンクを基調とした服を着ているのに対し、私が指定したのは全く違う水色の服でしたが表情も含めて可愛いガンマミィが生成できて、自分でもこのイラストはとても気に入っています。

    「ガンマミィ」はSea Art AIで生成するのを初めから諦めてしまったので画像がありませんが、代わりに「画像読み込みをせず、LoRAも使わず、デルタもんの名前をプロンプトに含めることもなく、目で見てプロンプトのみで生成したデルタもん」を紹介します。

    画像
    「画像読み込みをせず、LoRAも使わず、デルタもんの名前をプロンプトに含めることもなく、目で見てプロンプトのみで生成したデルタもん」

    もりにえさん、メッセージありがとうございました!
    メイキング資料のご提供もありがとうございます!!


    さいごに

    コンテストへ作品をご応募いただいたみなさん、ありがとうございました!
    また応援投票や告知協力などでご参加いただいたみなさんもありがとうございました。

    最後にBlendAIさんからお知らせです。

    「ガンマミィ」の3Dモデルと音声の制作を目的としたBlendAIによるクラウドファンディングプロジェクトが残り11日となりました。

    画像

    https://camp-fire.jp/projects/795978/view

    最小の応援価格は PlanAの5,000円から。
    壁紙、声優の清水詩音さんによる30秒程度のお礼ボイス、VRMによる3Dモデルが2025年2月に提供予定されています。

    画像
    画像

    目標金額は2,000,000円です。
    まだ達成まで94%、11日もありますね。
    みなさん、給料日まで待つ必要はないですよね!しっかり応援しましょう。


    おまけ:応援したいけど、お金がない!?そんなあなたに…急募です

    AICUからお仕事も提供します!
    怪しい仕事ではありません
    「オンラインイベントの原稿起こし!」です
    本日開催されたオンラインイベント「あんしんAIセミナー」のイベントアーカイブを元にした記事起こし作業です。初心者歓迎。最大3名募集します。

    INDEST(東京科学大学 田町キャンパス)にて「あんしんAIセミナー」開催

    応募される方はお早めに、 X(Twitter)@AICUai までDMをいただければ幸いです。アーカイブ動画へのアクセスと、報酬規定などもお伝えします。


    この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!
    https://note.com/aicu/   X(Twitter)@AICUai

    このようなイベントのレポートに興味がある方はこちらもオススメ

    https://ja.aicu.ai/category/events

    この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!

    Originally published at https://note.com on Oct 19, 2024.

  • [ComfyMaster25] 画像を自由自在に!ControlNetで完全制御

    求める画像を生成するために、プロンプトだけでは物足りないですよね?
    そんな時、ControlNetが助けになります!
    ControlNetは画像生成の制御性を大幅に向上させる革新的な技術として注目を集めています。特に、最新のSDXL(Stable Diffusion XL)モデルと組み合わせることで、その威力は一層増しています。

    こんにちわ、AICU media編集部です。
    ComfyUI マスターガイド」第25回目になります。
    本記事では、ComfyUIを使用してSDXLでControlNetを活用する方法を、初心者の方にも分かりやすく解説していきます。

    前回はこちら
    [ComfyMaster24] LoRAで表現をもっと自由に! スタイルを使いこなそう

    1. ControlNetとは何か?

    ControlNetは、既存の画像生成モデルに「制御」の要素を加える技術です。従来の画像生成AIは、プロンプト(テキストによる指示)のみをネットワークに画像を生成していました。そのため、言語で表現しきれない要素はランダム性が強く、ユーザーの意図通りにならないことも多々ありました。ControlNetは、この問題を解決するために開発されました。

    ControlNetを使用すると、プロンプトに加えて、追加の情報をAIに与えることができます。この追加情報には、画像の輪郭線、深度情報、ポーズ、セグメンテーションマップなど、様々な種類があります。AIはこれらの情報をもとに、よりユーザーの意図に合致した画像を生成することができるようになります。

    画像

    簡単に言えば、従来のモデルが「自由に絵を描くアーティスト」だとすれば、ControlNetは「具体的な指示を出せるアートディレクター」のような役割を果たします。

    2. 各種ControlNetの説明と用途

    ControlNetには、様々な種類があります。それぞれが異なる種類の条件に対応しており、用途も異なります。ここでは、代表的なControlNetの種類とその用途について解説します。

    Canny Edge(キャニーエッジ)

    入力画像からエッジ(輪郭線)を検出し、そのエッジを元に画像を生成します。エッジ検出には、Cannyアルゴリズムと呼ばれる手法が用いられます。Cannyアルゴリズムは、ノイズの影響を受けにくく、正確なエッジを検出することができるため、ControlNetで広く利用されています。

    画像

    主に以下のような用途で使用されます。

    • 特定の形状を維持したまま、スタイルやテクスチャを変更したい場合: 例えば、建物の写真からエッジを検出し、そのエッジを元に、建物のスタイルを和風や洋風に変更することができます。
    • スケッチや線画を元に、リアルな画像を生成したい場合: 手描きのスケッチや線画からエッジを検出し、そのエッジを元に、写真のようなリアルな画像を生成することができます。
    • ロゴやイラストのトレース: ロゴやイラストをスキャンしてエッジを検出し、そのエッジを元に、ベクター画像を作成することができます。
    画像

    Depth Map(深度マップ)

    入力画像の奥行き情報を利用して、立体感のある画像を生成します。奥行き情報は、画像中の各ピクセルがカメラからどれだけ離れているかを表す情報です。深度マップは、白黒画像で表現され、白い部分が近く、黒い部分が遠くを表します。

    画像

    主に以下のような用途で使用されます。

    • 3D的な表現や、奥行きを強調したい場合: 例えば、風景写真から深度マップを生成し、その深度マップを元に、より奥行き感のある風景画を生成することができます。
    • ミニチュア風写真: 通常の写真から深度マップを生成し、その深度マップを元に、ミニチュア模型のような写真を作成することができます。
    • 背景のぼかし: 深度マップを利用して、被写体以外をぼかした写真を作成することができます。
    画像

    Pose Estimation(ポーズ推定)

    入力画像から人間の骨格情報(ポーズ)を推定し、そのポーズを元に画像を生成します。ポーズ推定には、OpenPoseなどのAIモデルが用いられます。OpenPoseは、画像から人間の関節の位置を検出し、骨格を推定することができます。

    画像

    主に以下のような用途で使用されます。

    • キャラクターデザインやイラスト制作で、特定のポーズを表現したい場合: 例えば、人物の写真からポーズを推定し、そのポーズを元に、アニメキャラクターや漫画キャラクターを生成することができます。
    • ダンスやスポーツの動きを分析: ビデオからポーズを推定することで、ダンスやスポーツの動きを分析することができます。
    • モーションキャプチャ: 人間の動きを計測し、その動きを3DCGキャラクターに反映させることができます。
    画像

    Scribble(落書き)

    簡単な手描きの線画から、詳細な画像を生成します。Scribble ControlNetは、線画を元に、画像の内容を推定し、その内容に沿った画像を生成します。

    画像

    主に以下のような用途で使用されます。

    • アイデアのスケッチを元に、具体的なビジュアルを得たい場合: 例えば、新しい製品のアイデアをスケッチし、そのスケッチを元に、製品の完成イメージを生成することができます。
    • ラフ画からイラストを生成: 簡単なラフ画を元に、詳細なイラストを生成することができます。
    • ストーリーボード作成: 映画やアニメのストーリーボードを作成する際に、Scribble ControlNetを利用して、各シーンのイメージを生成することができます。
    画像

    Segmentation Map(セグメンテーションマップ)

    入力画像を複数の領域に分割し、各領域にラベルを付けたものです。セグメンテーションマップは、画像中のどの部分がどのオブジェクトに対応するかをAIに教えるために使用されます。

    画像

    主に以下のような用途で使用されます。

    • シーン全体の構成をコントロールしたい場合: 例えば、風景写真をセグメンテーションマップで分割し、「空」・「海」・「山」などのラベルを付けることで、それぞれの領域の色やテクスチャを個別に制御することができます。
    • 画像編集: セグメンテーションマップを利用して、特定のオブジェクトだけを切り抜いたり、色を変更したりすることができます。
    • 自動運転: 自動運転システムでは、セグメンテーションマップを利用して、道路、歩行者、信号機などを認識しています。
    画像

    HED boundary

    HED boundary(Holistically-Nested Edge Detection)は、画像からエッジ(境界線)を検出するControlNetです。Canny Edgeと同様に画像の輪郭を捉えますが、HED boundaryはより繊細で複雑なエッジを検出することに特化しています。これは、人物の髪の毛や衣服の細かい模様、自然風景の複雑な葉っぱの形状など、Canny Edgeでは捉えきれない微細なエッジを検出できることを意味します。

    画像

    主に以下のような用途で使用されます。

    • より写実的な画像生成: HED boundaryは、より詳細なエッジ情報を捉えるため、生成される画像のリアリティを高めるのに役立ちます。特に、人物のポートレートや自然風景など、細部まで描き込みたい場合に効果的です。
    • 複雑なテクスチャの再現: 衣服の織り目や木の葉の葉脈など、複雑なテクスチャをより忠実に再現したい場合に適しています。
    • アニメ・漫画風画像の生成: 線画の質感を重視するアニメや漫画風の画像を生成する場合にも、HED boundaryは有効です。
    画像

    Normal map (法線マップ)

    Normal map(法線マップ)は、画像の表面の向きを表す情報です。各ピクセルに、その地点における表面の法線ベクトル(表面に対して垂直なベクトル)の情報が格納されています。法線マップは、3Dグラフィックスで物体の表面の陰影や反射を表現するために広く使われています。

    画像

    ControlNetにおけるNormal mapは、この法線マップの情報を利用して、立体感や陰影をより精密に制御することができます。

    主に以下のような用途で使用されます。

    • 3Dモデルのような立体的な画像生成: 法線マップの情報を利用することで、光源の位置や強さを考慮した、リアルな陰影表現が可能になります。
    • 金属やガラスなどの質感表現: 法線マップは、金属の光沢やガラスの透明感など、材質感を表現するのにも役立ちます。
    • 彫刻やレリーフのような表現: 法線マップを利用することで、画像に彫刻やレリーフのような凹凸感を表現することもできます。
    画像

    Lineart

    Lineartは、画像から線画を抽出するControlNetです。Canny EdgeやHED boundaryも線画を検出できますが、Lineartは特にアニメや漫画のような線画スタイルの画像に特化しています。

    画像

    主に以下のような用途で使用されます。

    • アニメ・漫画風画像の生成・編集: 線画を強調したイラストを作成したり、既存の画像を線画化したりすることができます。
    • イラストの着色: 線画を抽出後、ControlNetと組み合わせて自動的に着色したり、手動で着色したりすることができます。
    • 線画のクリーンアップ: スキャンした線画のノイズ除去や線の補正など、線画の編集作業に利用できます。
    画像

    Pidi (Softedge)

    Pidi (Softedge) は、画像からソフトなエッジを検出するControlNetです。Canny EdgeやHED boundaryのようなシャープなエッジではなく、ぼかしのかかったような滑らかなエッジを抽出します。Pidiは、softedgeという別名でも知られています。

    画像

    主に以下のような用途で使用されます。

    • 水彩画やパステル画のような、柔らかいタッチの画像生成: ソフトなエッジは、水彩画やパステル画など、境界線がぼやけた表現に適しています。
    • 被写体の輪郭を強調しながら、自然な雰囲気を保ちたい場合: シャープなエッジでは硬すぎる印象になる場合に、Pidiを用いることで、より自然で優しい雰囲気の画像を生成できます。
    • 写真から絵画風に変換: 写真のエッジをPidiでソフトにすることで、絵画のような風合いを出すことができます。
    画像

    TEED

    TEEDは、Tiny and Efficient Edge Detector の略称で、軽量ながらも高精度なエッジ検出を行うControlNetです。わずか58Kのパラメータ数で、最先端モデルと比較してサイズが0.2%未満と非常に軽量なのが特徴です。

    ControlNetにおいては、TEEDは入力画像からソフトなエッジを抽出し、それを元に画像生成を行います。Canny Edgeなどとは異なり、境界線がぼやけた、より自然で滑らかなエッジ検出を得意としています。特にSDXLとの組み合わせに最適化されています。

    画像

    主に以下のような用途で使用されます。

    • SDXLを用いた、ソフトエッジを強調した画像生成: 水彩画、パステル画、印象派の絵画など、ソフトなタッチの画像を生成する際に効果的です。
    • 入力画像の雰囲気を維持した画像生成: 画像全体の構図や色調を維持しつつ、異なる要素を追加したり、スタイルを変更したりすることができます。
    • プロンプトエンジニアリングの負担軽減: プロンプトなしで、入力画像のエッジ情報を元に画像生成ができるため、プロンプト作成の手間を省くことができます。
    画像

    MLSD

    MLSD (Multi-Level Line Segment Detector) は、画像から直線を検出することに特化したControlNetです。建物や道路、家具など、直線的な要素が多い画像から、正確な直線情報を抽出することができます。

    画像

    主に以下のような用途で使用されます。

    • 建築物や都市景観の画像生成: 建物の輪郭や道路のラインなどを正確に捉え、リアルな都市景観を生成できます。
    • 幾何学模様のデザイン: 直線や多角形を組み合わせた幾何学模様のデザインを作成する際に役立ちます。
    • パースペクティブの修正: 写真の歪みを修正したり、パースペクティブを強調したりする際に利用できます。
    画像

    Tile

    Tile は、入力画像をタイル状に繰り返し配置して、シームレスなパターンを生成するControlNetです。元絵の構図や特徴を維持した状態で画像生成が可能なため、

    画像

    主に以下のような用途で使用されます。

    • 画像のアップスケール:低解像度の画像を高解像度に変換する際に使用されます。Tileモデルは、画像の細部を補正し、テクスチャを改善することで、より高品質な画像を生成します。
    • 細部の補正:生成された画像の細部を修正する際に使用されます。Stable Diffusionが細部の調整に苦手な場合、ControlNet Tileを使用して、画像の細部を微調整することができます。
    • 質感やテクスチャの変更:画像の質感やテクスチャを変更する際に使用されます。ControlNet Tileは、肌の質感を調整したり、アニメ風にしたり、自由度の高い変更が可能です。
    画像

    3. ControlNetの使用準備

    カスタムノードのインストール

    ControlNetを使用するために、「ComfyUI’s ControlNet Auxiliary Preprocessors」をインストールします。標準ノードだけでもControlNetを使用できますが、本記事で紹介したControlNetの一部しか実現できません。そのため、カスタムノードをインストールし、使用できるControlNetの幅を広げます。ComfyUI’s ControlNet Auxiliary Preprocessorsは、ComfyUI Managerからインストール可能です。

    画像

    以下がリポジトリになります。
    https://github.com/Fannovel16/comfyui_controlnet_aux

    https://cdn.iframe.ly/Q5NLoiy?v=1&app=1

    プリプロセッサーモデルのダウンロード

    ControlNetの使用には、プリプロセッサーモデルが必要になるため、そのモデルをダウンロードします。SDXLには、controlnet-union-sdxl-1.0という、これまでに紹介した各種ControlNetを1つに集約した便利なモデルがあります。今回は、このモデルを使用します。以下のリンクよりファイルをダウンロードし、Google Colabを使用しているDriveで「ComfyUI/models/controlnet」フォルダに格納してください。
    https://huggingface.co/xinsir/controlnet-union-sdxl-1.0/resolve/main/diffusion_pytorch_model.safetensors

    参照元画像

    ControlNetの参照元画像として以下の画像を使用します。

    画像

    画像ファイルは、以下よりダウンロードください。

    https://note.com/api/v2/attachments/download/c6c1a646ad8faf1778658c65e1ccde89

    workflowは文末にて。

    4. ワークフロー解説

    このワークフローは、入力された女性の画像の構造(深度情報)を保持しながら、指定されたプロンプトに基づいて男性の特徴を持つ新しい画像を生成します。結果として、元の画像の構図や照明条件を維持しつつ、全く異なる人物(男性)の画像が生成されることが期待されます。これは、ControlNetと深度マップを組み合わせた高度な画像変換・生成の例といえます。

    画像

    以下に、このワークフローの主要な部分とその機能を図示し、詳細に説明します。

    画像
    1. 入力画像の読み込みと深度マップ生成
      • Load Imageノード: 「girl-for-controlnet.jpeg」を読み込みます。
      • Depth Anything V2 – Relativeノード: 入力画像から深度マップを生成します。
      • 使用モデル: 「depth_anything_vitl14.pth」
      • 解像度: 512
      • Preview Imageノード: 生成された深度マップをプレビューします。
    2. モデルとControlNetの読み込み
      • Load Checkpointノード: 今回は「RealVisXl.safetensors」モデルを使用。
      • Load ControlNet Modelノード: 「controlnet-union-sdxl-1.0.safetensors」を読み込みます。
    3. プロンプト処理 (CLIPTextEncode ノード x2)
      • ポジティブプロンプト: 「1boy, solo, looking_at_viewer, brown_hair, spiky_hair, no_glasses, confident_expression, hoodie, indoors, sunlight, soft_lighting, detailed_background, aesthetic」
      • ネガティブプロンプト: 「bad hand,bad anatomy,worst quality,ai generated images,low quality,average quality, nsfw, nude, naked,」
    4. ControlNetの適用 (Apply ControlNet (Adovanced) ノード)
      • 深度マップ、ControlNet、およびプロンプトの条件付けを組み合わせます。
      • 強度: 0.40 (ControlNetの影響力)
    5. 潜在画像の準備 (Empty Latent Image ノード)
      • 「girl-for-controlnet.jpeg」と同じサイズである「1024×768」を設定
    6. 画像生成 (KSampler ノード)
      • Seed: 860227022998597
      • Steps: 20
      • CFG Scale: 8
      • Sampler: dpmpp_2m
      • Scheduler: karras
    7. 画像のデコードと保存
      • VAE Decode ノード: 生成された潜在表現を実際の画像にデコードします。
      • Save Image ノード: 最終的に生成された画像を “controlnet_lineart” という名前で保存します。

    5. ワークフローの検証

    それでは、ワークフローを実行してみましょう。ControlNetの強度を0.40で生成してみます。以下が生成結果です。しっかりプロンプトに従った画像になっています。

    画像

    参照元画像と比較してみましょう。構図を維持しながら、人物を変えることに成功しています。

    画像

    次にControlNetの強度を0.80にしてみます。そうすると、参照元画像の女性に近づき、ポニーテールの中性的な男性の画像が生成されました。

    画像

    反対に強度を0.10と低くしてみます。今度は参照元画像から離れ、体勢も変わってしまっています。

    画像

    以下が強度別の生成結果になります。強度が高くなるにつれ、参照元画像に近づき、強度が小さくなるにつれ、参照元画像に似なくなっていることが分かります。

    画像

    6. まとめ

    ControlNetは、画像生成AIの可能性を飛躍的に広げる革新的な技術です。輪郭線、深度情報、ポーズなど様々な条件をAIに与えることで、これまで以上にユーザーの意図を反映した画像生成が可能になります。この記事では、Canny Edge、Depth Map、Pose Estimationなど主要なControlNetの種類とその用途を紹介し、具体的なワークフロー例を通して、その驚くべき効果を実証しました。ControlNetを使いこなすことで、マーケティング素材の作成、イラストやデザイン制作、3Dモデリングなど、様々な分野で創造性を加速させることができます。ぜひ、ControlNetの力を体感し、あなたのクリエイティブな活動を新たなステージへと導いてください。

    次回は、 ControlNetでイラストを精密に実写化!を紹介します。
    乞うご期待!

    https://note.com/aicu/n/n4fafc970da0a

    X(Twitter)@AICUai もフォローよろしくお願いいたします!

    画像生成AI「ComfyUI」マスターPlan

    画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

    • メンバー限定の会員証が発行されます
    • 活動期間に応じたバッジを表示
    • メンバー限定掲示板を閲覧できます
    • メンバー特典記事を閲覧できます
    • メンバー特典マガジンを閲覧できます
    • 動画資料やworkflowといった資料への優先アクセスも予定

    ゼロから学ぶ「ComfyUI」マガジン

    https://note.com/aicu/m/md2f2e57c0f3c

    マガジン単体の販売は1件あたり500円を予定しております。
    2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

    https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

    もちろん、初月は無料でお試しいただけます!
    毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
    退会率はとても低く、みなさまにご満足いただいております。
    ✨️オトクなメンバーシップについての詳細はこちら


    この記事の続きはこちらから https://note.com/aicu/n/n151f019bcc92

    Originally published at https://note.com on Oct 17, 2024.

  • 【速報】ガンマミィ誕生記念! イラストコンテストBlendAI賞・まいにち投稿達成賞の発表!

    ガンマミィ誕生記念!
    タイムラインを賑わせたイラストコンテスト

    BlendAIが展開する新AIキャラクター「ガンマミィ」の誕生を祝うイラストコンテストが2024年9月21日~2024年10月15日まで開催されました。

    AICUはコラボ企画として期間限定無料「ガンマミィ・ジェネレーター」を提供しました。もちろんこちらを使った投稿も歓迎です。

      【審査基準】

      審査基準は以下のとおりです。

      • 作品数:期間中、たくさん作品を作った方ほど高評価!
      • クオリティ
      • 発想力
      • ガンマミィの魅力が表現されているか
      • 指定ハッシュタグ「#ガンマミィ #Gammamy #AICUxBlendAIガンマミィ誕生記念イラストコンテスト 」を入れたXでの期間中のポストであること
      • エントリーフォームによる参加同意をすること

      ノミネート作品を一挙公開!

      正式エントリーがあった20件を超える応募の中から、特に優秀作品を選出しました。

      ロボ @SanRobocoさん

      画像
      画像
      画像

      ガンマミィ3タイプ正面・背面 デルタもんとちがい、ガンマミィは「アンドロイドだと思い込んでる人間の子」という事なので、メカ要素控え目であくまで「人間がロボットのコスプレをしている…」というコンセプトで作成しました。メカ部は靴と服のアクセサリー程度とし、手足はなるべく人間っぽく。3番目の3DCGタイプはロボスーツのような厚手のウレタンシートで作った硬い感じの衣装や手のカバーなどを装着し、ややロボ寄りにしました。基本プロンプトは公式設定画をAIに解説させて作成。メカニカルなブーツ、γの字をあしらったリボンや髪型についての指示を書き加えました。髪型の再現がむずかしく、公式のお手本画像を参照画像とし参照率40%以上で特徴的な「γ」型ヘアーを再現しました。

      ロボ @SanRoboco さんによる作品紹介

      Roboco-san 2作目

      画像

      それでいいのかガンマミィ! ガンマミィジェネレーターを使い「バレエを踊るガンマミィ」等の指示で生成しました。背景は「白鳥の湖の舞台セットをイメージせよ」としました。すると、なんと、あの一番の特徴「γ」のアイデンティティをどこかに忘れて来たような、ポニーテールのガンマミィが出てきました。よく見ると、ツインテールの途中を縛った髪の毛の束は背景のカーテンになってるではありませんか!特にネガティブ・プロンプトで意図的に髪型を変えさせようとしたわけでもないのに、このような変わった髪型のガンマミィが出て来たのが面白いと思いました。

      https://twitter.com/SanRoboco/status/1845652418383765586

      オフィスSATOUさん

      画像
      画像
      画像

      全身を強く打つガンマミィ
      徐々に強力になっていくガンマミィの力強さを歪曲的に表現しました。

      オフィスSATOUさんによる作品紹介

      かみたしろさん

      画像

      流行の天使界隈ファッション、デス! オーバーサイズのジャージ素材で、主に水色や白を基調とした天使界隈と呼ばれる10代から20代に人気のファッションをガンマミィに着てもらいました。コンセプトはオリジナルのガンマミィはそのままでも充分可愛いですが様々な服をガンマミィに着てもらうことによって今まで画像生成AIに興味のなかった方や否定的だった方にも好意的に伝わるよう工夫しました。生成方法としては、日頃AI画像を生成している時と同じくタグをカンマで細かく区切る形のプロンプトを書きそれをガンマミィジェネレーターに入力して生成しました。ガンマミィジェネレーターを期間限定無料提供してくださりありがとうございました。

      https://x.com/kamitashiro_AI/status/1845053911545282897

      よながね仔さん

      アイ
      ピンクが基調の、ガンマミィちゃんのの可愛らしい見た目を存分に生かしたイラストを描きました♡

      よながね仔さんによる作品紹介

      ともっち さん

      双星幻滅破砕拳(ツイン・ファントム・ノヴァ・アナイアレイション・フィスト)の使い手、ガンマミィ!! “★作品の概要:中二病全開のガンマミィ。★コンセプト:火星拳(双星幻滅破砕拳(ツイン・ファントム・ノヴァ・アナイアレイション・フィスト))の使い手。★使ったツール:anifusion★工夫した点:火星拳の使い手なので、手から拳を発動しているエフェクトを工夫しました。★火星拳の詠唱はイラストではなく、漫画にして吹き出しに入れたかったのですが、長すぎるので、あえてXの文章にしました。イラスト重視でガンマミィのカッコかわいいを演出しました。

      ともっちさんによる作品紹介

      ともっちさん 2作目

      空飛ぶガンマミィ
      ★作品の概要:中二病のガンマミィが空を飛ぶ★コンセプト:イラストと漫画を同時に見せる事により、よりガンマミィらしさを演出!!(中二病のガンマミィ)★使ったツール:anifusion★工夫した点;イラストでガンマミィのカッコかわいいを見せて、漫画で中二病全開の吹き出しを使いました。オチはデルタもんの吹き出しです。公式設定を飛躍させました。

      ともっちさんによる作品紹介

      Yas@Ponotech さん

      画像
      画像

      湖上のガンマミィ ガンマミィジェネレータで出力した画像をSDXL+ComfyUIでHires.fixした画像です。モデルはRealVisXLを使用しました。RealVisXLを用いたので、アニメ調の絵柄から、若干リアル調に変化させています(低denoiseなので多少の変化)。

      Yasさんによる作品紹介

      【賞】

      • まいにち投稿達成賞: 2024年9月21日以降、10日連続投稿した10名様に賞状画像とNFT認定証をプレゼント!(詳細は別途解説予定)
        • 期間中に10作品投稿すれば対象とします
      • ベストバズ賞: エントリー作品の中でX(Twitter)でもっともリポストされた投稿にAmazonギフト券5000円分をプレゼント!(自己申告+事務局による不正監査あり)
      • AICU賞: AICU media編集部の人力選出により、「つくる人をつくる」を刺激する、もっとも素晴らしい作品にAmazonギフト券1万円分をプレゼント!また入選作品はAICU mediaで作品紹介企画を準備中です。
      • BlendAI賞: 「ガンマミィ」の魅力を最も輝かせた作品に、クラウドファンディング関連グッズをプレゼント!

      さていよいよ結果発表です!
      本日はまず、まいにち投稿達成賞と企業賞「BlendAI賞」からお送りします

      まいにち投稿達成賞

      今回、まさかの10連投稿を達成した犬沢某さん!
      まとめて一気に紹介します。

      いぬさわ・ばう 2作目!

      いぬさわ・ばう ガンマミィ習作3 ちび。おみみのアレをはずしてみた~。習作です。1枚の元絵LoRAからつくっています。

      習作4作目。必殺技とかあるのかな?

      画像
      https://x.com/InsBow/status/1841519662258962777

      犬沢某 5作目。変身シーン的な ガンマミィ 5作目。

      画像
      https://x.com/InsBow/status/1841834941153190089

      犬沢某 6作目。未来都市生成中のガンマミィ 6作目。

      画像
      https://x.com/InsBow/status/1842197324828676167

      犬沢某 7作目。やはりちびがよい。 7作目。

      画像
      https://x.com/InsBow/status/1843086818318627234

      8作目。月曜日の朝です。おはようガンマミィ。
      今週も「ガンマっていこ~。」が流行るといいな。

      画像
      https://x.com/InsBow/status/1843284499922116756

      9作目。ねこガンマミィ。むにゃ~。
      犬沢某 10作目!! 走りきった―!! ちびガンマミイお散歩中。

      画像

      犬沢某 11作目。 まだまだいくよ~ 11作目。 まだまだいくよ~

      画像

      犬沢某 12作目! #ガンマミィジェネレーター すごいね!

      画像

      なんと犬沢某さんはぶっちぎりの12作を提出し、まいにち投稿賞となりました。おめでとうございます!

      審査結果:BlendAI賞の発表

      BlendAI賞を受賞した作品はこちらです

      BlendAI小宮自由さん「公式イラストの画風に忠実な作品が多い中、独自スタイルの新鮮さが受賞の決め手となりました」

      ともっちさんおめでとうございます!!

      画像

      「聞け、滅びゆく人類よ!我が名はガンマミィ。時空を超えし終末衝撃波(アポカリプス・ショックウェーブ)の化身デス!」

      「両腕に宿りし火星の業火よ、今こそ覚醒せよデス! 左手に紅蓮の炎、右手に漆黒の闇、相反する力が入る瞬間、運命の歯車は狂い出すデス!」

      「デルタお姉様の無限叡智に導かれし量子もつれし出る律を破壊する拳デス!」

      「人類よ、絶望に身を守るがいいデス! 存在すら消し去る、滅びの光芒を受けるがいいデス!」

      「双星幻滅破砕拳(ツイン・ファントム・ノヴァ・アナイアレイション・フィスト)!!!」

      デルタもん:「ミィちゃんを止めないと💦」

      https://x.com/tomomaga358/status/1846193511261229118

      続いての「ベストバズ賞」、「AICU賞」については、後日、こちらのイベントで発表とさせていただきます!

      ノミネートとなった作家のみなさんは、 X@AICUai からのDMを受け取れるようにしておいてくださいね!

      Originally published at https://note.com on Oct 17, 2024.

    1. [ComfyMaster24] LoRAで表現をもっと自由に! スタイルを使いこなそう

      生成画像のクオリティをさらに向上させたいと思いませんか?
      そこで注目すべきなのが「LoRA」です。LoRAは、Stable Diffusionなどの大規模言語モデルに、特定のスタイルやキャラクター、オブジェクトなどを効率的に学習させることができる技術です。少ないデータ量と計算リソースで、モデルの表現力を飛躍的に高めることが可能になります。

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第24回目になります。
      本記事では、LoRAの仕組みから、ComfyUIでの具体的な活用方法、そして応用例まで、LoRAを最大限に活用するためのノウハウを詳細に解説します。LoRAをマスターして、画像生成の可能性をさらに広げましょう!

      前回はこちら
      [ComfyMaster23] 特別編: 画像の髪型を自由自在に変えてみよう! #ComfyUI

        1. LoRAとは

        LoRA(Low-Rank Adaptation)は、ファイチューニング特定のタスクやスタイルにモデルを適応させるために使用されます。LoRAは、モデルのパラメータを効率的に調整し、少ないデータで特定の出力を得ることを目的としています。

        LoRAの主な目的は、既存の大規模なAIモデルを特定のニーズに合わせて微調整することです。画像生成においては、LoRAを使用することで特定のスタイルやキャラクターを学習させることができます。これにより、ユーザーは自分の好みに合った画像生成が可能になります。

        LoRAは、モデルの重みを低ランクで調整する手法であり、計算資源を節約しつつ高い性能を維持します。具体的には、元のモデルの重み行列を低ランク近似し、新たなパラメータを追加することで学習を行います。この方法は、従来のファインチューニングよりも少ないデータと計算リソースで済むため、多くのユーザーにとって実用的です。

        LoRAのメリット

        • 軽量: LoRAのファイルサイズは小さく、ダウンロードや共有が容易です。通常のファインチューニング済みモデルと比較して、数十MBから数百MB程度です。
        • 効率的: 計算コストが低いため、GPUのメモリ消費量を抑えながらファインチューニングできます。また、学習時間も短縮できます。
        • 柔軟性: 複数のLoRAを組み合わせることで、様々なスタイルや特徴を表現できます。例えば、キャラクターのLoRAとスタイルのLoRAを組み合わせることで、特定のキャラクターを特定のスタイルで描くことができます。
        • 元のモデルへの影響なし: LoRAは元のモデルのパラメータを変更しないため、他のタスクへの影響を心配する必要がありません。LoRAを適用しない場合は、元のモデルと同じように動作します。
        • 微調整が可能: LoRAの強度は、strength パラメータで調整できます。これにより、LoRAの効果を細かく制御することができます。

        LoRAの具体例

        • スタイルの適用: 特定のアートスタイルやキャラクターの特徴を学習させることができます。例えば、LineAniRedmondPixel Art XLといったスタイル用LoRAモデルが存在します。
        • エフェクトの追加: 画像生成にエフェクトを追加するためにも使用されます。Dissolve StyleGlowNeon XLなどのモデルがあります。
        • 補正機能: 生成された画像に対してディテールや質感を向上させるためにも利用されます。Detail Tweaker XLなどのモデルがあります。
        • キャラクターの安定化: 特定のキャラクターやテーマに基づいた画像生成も可能です。ユーザーが用意したデータセットから学習したLoRAモデルは、そのキャラクター特有の特徴を維持した画像を生成します。例えば、Deltamon Official version1.0」や「ガンマミィ・ジェネレーターがそれに当たります。

        2. LoRAの探し方

        SDXL用のLoRAは、様々なサイトで公開されています。代表的なサイトとしては、以下のようなものがあります。

        • Civitai: 最大規模のStable Diffusionモデル共有サイトです。ユーザーフレンドリーなインターフェースと豊富な検索機能を備えています。各LoRAには、サンプル画像、使用方法、レビューなどが掲載されています。

        https://civitai.com

        • Hugging Face: 機械学習モデルの共有プラットフォームです。SDXLを含む様々なAIモデルのLoRAが公開されています。モデルカードには、LoRAの詳細情報、使用方法、ライセンスなどが記載されています。

        https://huggingface.co

        これらのサイトでは、キャラクター、スタイル、オブジェクト、衣装、背景など、様々なテーマのLoRAが公開されています。キーワード検索やタグ検索で、自分の好みのLoRAを見つけることができます。

        https://note.com/aicu/n/n02de834e3d5c

        https://corp.aicu.ai/ja/event20240516

        https://corp.aicu.ai/ja/vroid-studio-lora

        3. LoRAのインストール

        LoRAのインストールは、LoRAファイルをダウンロードし、「ComfyUI/models/loras」フォルダに格納するだけです。今回は、Dissolve Styleをインストールし、ComfyUIで使用してみます。
        このLoRAは、画像生成時にディゾルブ(溶解)効果(画像に溶解のような効果)を追加するためのモデルです。

        まず、以下のページにアクセスします。

        https://civitai.com/models/245889/dissolve-style-lora-15sdxl

        開いたページから、ダウンロードボタンを押下します。

        画像

        Google Colabの場合、Googleドライブ上の「ComfyUI/models/loras」フォルダにダウンロードしたファイルを格納してください。

        画像

        これでLoRAのインストールは完了です。

        4. LoRAの使い方

        LoRAには、適用すれば即時に発現するものと、プロンプトにトリガーワードを入力することで発現するものがあります。例えば、前述したDetail Tweaker XLのような補正系のLoRAの多くは、適用するだけで発現するものです。一方で、Dissolve Styleは、「ral-dissolve」というトリガーワードをポジティブプロンプトに入力することで効果を発揮します。多くのLoRAは、LoRAの説明ページにその内容が記載されています。LoRAを使用する際は、LoRAの説明をよく読んでから始めましょう。

        画像

        5. ワークフローの構築

        ComfyUIでのLoRAの使用は簡単です。標準ワークフローに標準ノードを1つ追加するだけで使用できます。以下が最終的なワークフローになります。赤枠のノードが標準ワークフローからの変更点になります。

        画像

        ワークフローは文末よりダウンロードください。

        今回追加したノードは、「Load LoRA」ノードです。Load CheckpointノードとCLIP Text Encode (Prompt)ノード、KSamplerノードの間に挿入します。各ウィジェットの用途は以下の通りです。

        • lora_name: 「ComfyUI/models/loras」フォルダ内のLoRAから適用するLoRAを選択します。
        • strength_model: モデルへのLoRAの影響力を設定します。値を高くすると、生成される画像がLoRAのトレーニング画像に似たスタイルを取り入れる傾向があります。
        • strength_clip: CLIPモデルへのLoRAの影響力を設定します。値を高くすると、プロンプト内の特定のキーワードやトリガーワードがLoRAのトレーニングデータから抽出されやすくなります。
        画像

        接続は以下の通りです。

        • Load CheckpointノードのMODEL/CLIP出力をLoad LoRAノードのmodel/clip入力に接続
        • Load LoRAノードのMODEL出力をKSamplerノードのmodel入力に説続
        • Load LoRAノードのCLIP出力を2つのCLIP Text Encode (Prompt)ノードのclip入力に説続
        画像

        最後にポジティブプロンプトの調整です。今回のLoRAを使用するには、「ral-dissolve」をポジティブプロンプトに追加する必要があります。標準ワークフローで使われているプロンプトの先頭に「ral-dissolve」を追加しました。最終的なプロンプトは以下になります。

        ral-dissolve, beautiful scenery nature glass bottle landscape, , purple galaxy bottle,
        画像

        6. ワークフローの実行

        それでは、ワークフローを実行してみましょう。まず、LoRAを適用しないで実行します。生成された画像は以下になります。

        画像

        次にLoad LoRAのstrength_modelstrength_clipを1.0にして生成します。画像に変化が見られましたが、ディゾルブには遠い感じがします。

        画像

        strength_modelを1.1にしてみます。これでディゾルブ効果が見られるようになりました。

        画像

        strength_clipも1.1にしてみます。strength_modelのみが1.1の時と変わりがありませんでした。プロンプトの効果は十分に効いているということでしょう。

        画像

        strength_modelを1.0に戻し、strength_clipを0.1ずつ増加させたところ、1.4でディゾルブ効果が見られました。CLIPの強度の影響度は、モデルの強度よりも弱いようです。

        画像

        最後にstrength_modelstrength_clipの両方とも1.5に設定し、生成を実行しました。かなり強くディゾルブ効果が出ていることが確認できます。

        画像

        以下がLoRAなしとLoRAあり(strength_modelstrength_clipが1.5)の比較画像です。LoRAを使用することで、好みの効果を追加できることが確認できました。

        画像

        他にも多くのLoRAが存在するので、ぜひご自分の好みのLoRAを探してみてください!


        X(Twitter)@AICUai もフォローよろしくお願いいたします!

        画像生成AI「ComfyUI」マスターPlan

        画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

        • メンバー限定の会員証が発行されます
        • 活動期間に応じたバッジを表示
        • メンバー限定掲示板を閲覧できます
        • メンバー特典記事を閲覧できます
        • メンバー特典マガジンを閲覧できます
        • 動画資料やworkflowといった資料への優先アクセスも予定

        ゼロから学ぶ「ComfyUI」マガジン

        https://note.com/aicu/m/md2f2e57c0f3c

        マガジン単体の販売は1件あたり500円を予定しております。
        2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

        画像生成AIなんでも質問コーナー|AICU: AI Creators Union生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するnote.com

        もちろん、初月は無料でお試しいただけます!
        毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
        退会率はとても低く、みなさまにご満足いただいております。
        ✨️オトクなメンバーシップについての詳細はこちら


        この記事の続きはこちらから https://note.com/aicu/n/ndb4d0ed583d7

        Originally published at https://note.com on Oct 16, 2024.

      1. 「Stable Assistant を 知らないの?」Day2: 案件にAIで提案してみた

        Stable Assistantを触りながらココナラで案件を探してみたら、想像以上にいろいろできた…😳✨

        みなさん、毎度ありがとうございます AICUメディア営業部です!生成AI時代に「つくる人をつくる」をビジョンにAICUのナレッジを「もっと売る」をミッションとして活動しております。

        前回ズボラな私が「Stable Assistant」の無料お試しを使って画像生成や画像加工や動画生成、楽曲生成や3D生成をしてココナラにアカウントをつくるまでのお話がこちらです。

        <Day1レポート>「Stable Assistant を 知らないの?」Day1:無料トライアル3日間でこんなにお得!?

        2日日は、実際にココナラで探してきた実在案件に、Stable Assistantの無料枠で試作を行い、実際に提案に使ってみた感想をスクショ付きでご紹介します!

          ✨️ここから先は具体的なお客様の事例ですので、御名前や詳細な内容、掲出先URLなどは伏せさせていただきます✨️

          案件1: SNS用の似顔絵を制作して欲しい

          依頼主:オンライン学習の教室イメージと講師のイメージを親しみやすい画風のSNS画像素材が欲しい。

          「パイロットとしての経験がある男性講師」というプロフィールでしたので、こんな感じのメッセージを Stable Assistantに伝えました。

          最初に「Image:」をつけると画像生成をすぐに実施してくれます。

          image: Male teacher with a beard who has experience as a flight pilot. Deformed as a chibi character wearing a flight pilot’s uniform.

          画像

          プロンプトに「chibi」を入れるとちびキャラっぽく描画してくれますので似顔絵向きの画風になります。

          Geminiで提案作文を生成して、どんどんいきましょう。

          案件2: 中古車の色を変えて欲しい

          続いて「中古車販売なんだけど色と角度を変えて欲しい」という案件です。
          (なぜ色を変えたいのかはよくわかりませんが、おそらく実車を移動させるよりも色を変えたほうが良いこともあるのでしょう)
          「ただし背景を変えないで」という注文が付いていたので、お店っぽい写真の状態を維持したまま色を変える必要がありそうです。

          まずは「Search and Replace」を使って置き換えてみます。

          画像

          「What you want to replace(置き換えたいもの)」には「green car body」とします。
          「Want to generate instead(代わりに生成したもの)」には「brown cream」としてみます。

          何かを間違えたようです。

          画像

          気を取り直して別の機能も探ってみます。

          「Search and Replace」ではなく「Search and Recolor」、つまり色を変えるだけの機能が便利だと気づきました。

          「ライトグリーンの車のボディ(a light green car body)」と明確に指定して、これを「ライトブルー(light blue)」置き換えます。

          画像
          画像
          画像

          ピクセルのズレは全くありません!

          画像

          今度は

          ビンテージカーをピンクゴールドに置き換えてみます。

          画像
          画像

          一部異なる車の色はいかがでしょうか。
          (この車の画像も Stable Assistantによる生成です)

          画像
          画像

          いい感じです。

          人物の置き換え

          画像
          画像

          車内の人物を女の子にしてみます。

          画像
          画像

          これは使い道が多そう!

          ComfyUIで構築していたような高度なシステムの試作も、ちょっとしたものならStable Assistantでできそうな感じがします。

          案件3:LoFiガールのカバーアート

          さて、どんどん提案していきましょう。スピード感と物量が大事な案件を狙ってみます。
          ココナラで「似顔絵」を検索 してみると、いろいろな案件が出てくることに気づきました。
          実際の似顔絵案件は、非常に個性的なアーティストさんがたくさん提案していらっしゃいますので、あえて「個性的な一点もの」ではなく「機械的な再生成に向いている案件」を探してみました。

          「YouTubeチャンネルでLoFiガールのカバーアートが欲しい」
          「毎週欲しい」

          なるほど、これは得意かもしれません。

          プロンプトとしてはこんな感じです
          「image: youtube lofi headset girl」

          画像

          MidJourneyやNijiJourneyで出てこなさそうな雰囲気があります。

          画像
          画像

          Inpaint機能が便利

          インペイントが便利です。
          ヘッドセットに書かれている謎の文字を選択してみます。

          画像

          こんな風にいい感じに消して再生成してくれます。

          画像

          用意するツールとアカウントの準備

          実際に応募するためにはココナラのアカウントが必要です。

          ・ココナラのアカウント
          ・クレジットカード
          ・Stable Assistantのアカウント登録
          Google Gemini (あると嬉しい)
          ・DeepL無料版(なくても大丈夫)

          ココナラのアカウントはこちらから登録すると紹介ポイントが手に入ります。

          画像

          プロフィールはGoogle Gemini「AI Studio」で埋めるといいですね。
          応募への提案文なども、長いコンテキストが得意なので、この先の案件の提案作文やクライアントとのやり取り経緯を扱うのに便利でした。

          モデルは「Gemini1.5 flash」を使用し、プロンプトは以下のような感じです。

          画像

          クラウドソーシングサイトへの応募文章を書きます。
          募集要項に対して、魅力的な作文を生成してください。
          不足している情報があれば対話的に質問してください。

          —以下は回答フォーマットの文例です—
          はじめまして、生成AIクリエイティブ「AICUメディア営業部」受発注担当と申します。
          この度 (応募先の社名)募集内容(No.募集番号)
          「案件名」募集にあたり、
          以下のお見積りと進め方でご提案いたします。

          ・シンプルでわかりやすいデザイン: 情報過多にならないよう、シンプルで見やすく、重要な情報を的確に伝えるデザインを心がけます。
          ・親しみやすく明るいカラーリング: 子どもたちの好奇心を刺激するような、明るくポジティブな色使いを採用いたします。
          ・信頼感を与えるフォント: 読みやすく、信頼感を与えるフォントを選び、学習塾のイメージに合ったデザインに仕上げます。
          ・具体的なメリット訴求: キャッチーなフレーズとビジュアルで表現し、興味関心を高めます。


          【お見積り および 納品内容】

          今回ご提示した提案金額の内訳は以下のようになっております。
          ・印刷物企画制作(修正対応1回まで、著作権のうち複製権を提供): 5,000円
          ・フォント、キャッチコピー、カラーデザイン含む
          ・修正1回:3,000円
          ・Photoshop(RGB)形式 もしくは PDF にて入稿
          納期及び修正回数によってお見積りが変動いたします。
          印刷所入稿データをご希望の場合、印刷所指定フォーマットご提供の上、以上に追加して
          ・印刷所向けフォーマット調整+CMYK変換(Photoshop/Illustrator/PDF)
          ・印刷所からの修正対応 1回(翌日対応):3,000円 特急料金(24時間以内の納品): 5,000円

          【納品までの流れ】
          1. 本メッセージへのご返信(ご希望を添えていただければ幸いです)
          2. 当方による文字打ち版のご提案(初回作業の実施:無料)
          3. (1日以内に)発注合意のお伝え
          4. (翌日)完成版のご提出
          5. フォローアップ期間1週間→以後はデータ廃棄いたしますので新規案件として扱わせていただきます
          印刷所フォーマットへの対応があります場合は別途調整となります。

          【納期の詳細】
          1〜2の完了までは1日間お時間をいただきます。
          その後、テキスト上で再度すり合わせをさせていただきます。
          印刷所フォーマット完了までは1週間程度のお時間をいただければと思います。

          (!)ご注意ください
          ・上記作業は、購入完了後に開始されます。ご希望の納期に間に合わせる場合は、1週間前までにご購入ください。
          ・作業開始から納品完了までの期間は、購入者様からいただく情報のご提供状況、納品物のご確認にかかる時間によっても前後いたしますのでご注意ください。具体的な納期は購入後に再度ご相談・設定いたします。

          【購入前のご確認事項】
          ・修正回数:フォローアップ期間に1回まで(2回以降は追加料金となります)
          ・事前にご用意いただきたいもの:キャッチコピーの素案、文字数、大きさ、色など(購入後にご共有ください)
          当方の素案:
          月6,600円〜でダントツのコスパ!

          【ご検討よろしくお願いいたします】

          ご不明な点やご要望がございましたら、お気軽にお問い合わせください。
          ご依頼をお待ちしております。

          こんな感じのシステムプロンプトを設定しておいたら、あとはココナラの案件の詳細テキストを貼り付けてあげると……いい感じの提案テキストが出来上がります(もちろん清書はしてくださいね!)

          ロングコンテキストが得意なGoogle Geminiならではのテクニックです。

          続いて次回は、Stable Assistant+ココナラでのトラブル対策や倫理面などをレポートしてみたいと思います。

          #StableAssistant
          #AI副業 #AIとやってみた

          Originally published at https://note.com on Oct 14, 2024.

        1. 先端研究が挑む「AI時代の創作」

          2024年10月3日、国の先端科学技術研究を紹介する国立研究開発法人 科学技術振興機構(JST)のYouTubeチャンネル「SCIENCE CHANNEL」において「AI時代の創作の世界 人の感性を支援するデジタル技術」として動画ニュースが配信されました。

          https://scienceportal.jst.go.jp/gateway/videonews/m230001010

          ▼AI時代の創作の世界 人の感性を支援するデジタル技術|Science Portal動画ニュース(2024年10月3日配信) – YouTube

          お気に入りのアニメやマンガ、音楽などを自分でも創作してみたいと思ったことがある人は多いはず。技術やセンスが必要とされるそうした創作活動を、コンピュータで手助けするツールが登場しつつあります。

          という軽い切り口で始まる「すべての人々向け」の動画ニュースですが、紹介されている技術は、日本を代表するこの分野の先端研究者です。

          ■出演・協力機関
          謝浩然(北陸先端科学技術大学院大学 創造社会デザイン研究領域 准教授)
          宮田一乘(北陸先端科学技術大学院大学 創造社会デザイン研究領域 教授)
          森勢将雅(明治大学 総合数理学部 専任教授)

          「アニフェイス・ドローイング」


          紹介された「アニフェイス・ドローイング(AniFace Drawing)」は、手書きのスケッチを、プロが描いたようなアニメ絵に仕上げるようにガイドしてくれるシステムです。

          画像

          線をひいていくと AIの予測に基づいて その線をコンピュータが整えてくれたり ガイドを表示してくれます。

          画像
          画像

          アニメ調の似顔絵が完成していきます。

          北陸先端科学技術大学院大学(JAIST)創造社会デザイン研究領域 謝浩然 准教授 @Jesusxie

          画像

           謝先生「今回の研究は、ひとつの絵を描いて、その描くプロセスひとつひとつをシミュレーションすることができます。そうすると 人間がどんな絵を描いているかを予測することができます。それをもとにして、完全な絵を予測することができます。こういうところは面白いところです。」

          画像

          このシステムは画像生成AIを下書き全体ではなく ユーザーの描いた一本一本の線に対して用います。線を「色」「形」「大きさ」などの特徴ごとに分解した上で、結果を出力する事を実現しました。こうすることで 一方的に結果を提示するのではなく、書き手が描きたかったような絵により近づけていくことができます。

          北陸先端科学技術大学院大学 創造社会デザイン研究領域 宮田一乘 教授 @kazmiyata

          画像

          宮田先生「今の生成系AIですと『入れたらすぐに、一瞬で出てくる』ので結局は自分の能力が全然拡張されてないわけですよね。ですのでコンピュータを使って『あくまで支援』として使ってあげて、『自分の力』というか『潜在能力』を引き出すようなことになれば良いかなと思っています」

          論文:AniFaceDrawing: Anime Portrait Exploration during Your Sketching
          Zhengyu Huang*, Haoran Xie*, Tsukasa Fukusato**, Kazunori Miyata* (JAIST*, Waseda University**) ACM SIGGRAPH 2023

          https://www.jaist.ac.jp/~xie/AniFaceDrawing.html

          この技術は 今まで絵が苦手で諦めていた人が、漫画やアニメの創作に取り組むきっかけになるかもしれません。

          コンピュータは声によっても創作の世界を広げてきました。合成音声です。

          明治大学 総合数理学部 森勢将雅 専任教授 @m_morise

          画像

          明治大学の森勢さんらもこの合成音声の技術を開発しています。
          人の声を分析し数理的な操作で三つの要素に 分解した上で再合成します。

          補足解説:森勢将雅先生は人工合成ボイス「No.7」の開発者さんでもあります。

          [YouTube] No.7と学ぶ信号処理

          ずんだもんとNo.7の楽しい雰囲気で、信号処理を中心とした大学数学を学べる番組を製作されております。

          さて、サイエンスチャンネルでのデモの様子、音声の高さや低さ、フラットにした合成の様子はこちら。

          なおサイエンスチャンネルの動画は「この技術はソースフィルターという数理モデルによるもので実はAIは使っていません 」という衝撃的な流れになっています。

          画像

          森勢先生「いかにきれいに分離させるかというところで、数学的な要素を頑張って作り込むことによって性能を上げていったという流れになります。人間の喋っている声をどのように加工するかでして、AIは関係なく 数学的に信号処理の分野としてやってきました。加工の際に劣化していたので劣化させないように人工知能でうまくフォローする技術を作っていきたいと考えています」

          AIとの連携も模索しながら 森勢さんがめざしているのは『より魅力的な声を作り出す技術』。その関心は どのような声に人は惹きつけられ  魅せられるのかという問いに広がっていきます。

          森勢先生「心理学と音声情報処理の連携・融合研究とでもいうんでしょうか そういったものをやりたいと思っています。『人間と同じ声を作る』というだけでしたら、もう今の技術でできちゃっていまして。となると次は『どんな 豊かな声 を作るか』とか『キャラクター性』とか、一つのコンテンツとして人間の声のコピーはできたけれども『それをより魅力的に見せる』そういったものを『どう広げていくか?』というところが今後出てくるのではないかと思っています。その一つとして 声をデザインするということに 着眼して研究をしています」

          AIと人間の共存、新たな表現の可能性に取り組む研究者たち

          AIが発展していく中で、創作活動がAIに取って代わられるのではないかと不安視する声も耳にするようになりました。しかし、今回の国の科学技術を推進する研究開発機構の動画によって紹介された技術は、AIが時々言われるような「人の創造性を奪う」とか「仕事を奪う」ではなく、人間の創造性を支援し、新たな表現の可能性を広げていくことをこの動画は社会に伝えています。

          謝辞:原作JST サイエンスポータル&サイエンスティーム

          お知らせ:AICUは先端学術研究を応援します

          ここでお知らせです、謝先生や宮田先生が挑戦する世界最大のCG/インタラクティブ技術のトップカンファレンス「SIGGRAPH」のアジア開催「SIGGRAPH ASIA 2024」が、2024年12月3日~6日に東京国際フォーラムで開催されます。東京での開催は3年ぶりになります。

          https://asia.siggraph.org/2024/ja/

          画像

          そしてAICUはオフィシャルプログラムスポンサーです。
          世界レベルのCG・インタラクティブ研究を共有する場を応援できることを誇りに思います。

          AICU media編集部もSIGGRAPH ASIA2024は全力で応援していきますが、プログラムスポンサーとしてAICU Inc.からの先行第1弾として、
          メンバーシップ会員向け「10%OFF登録コード」を配布いたします。

          SIGGRAPH ASIA 2024の当日フルアクセス(Full Access Supporter)は $1300、10月18日までの登録で、$950 – 10% ($95) = $855です。つまり当日登録価格から$445(約66,373円)割引です!他にも展示会と体験エリアのみの「Exhibit & Experience Access」は学生さんやビジネスの方にもオススメで、$20→$18となります。

          画像

          【メンバーシップ向け情報】(全プラン)

          AICUから10% OFFのオファーコードがございます。

          https://registration.asia.siggraph.org/terms_jpn.html

          最後のお会計のタイミングで、「SA24AICU10」入力することで、10%OFFとなります。なにか不具合がございましたら X@AICUai までDMもしくはDiscordにてお問い合わせください。
          招待コード https://j.aicu.ai/JoinDiscord

          Originally published at https://note.com on Oct 13, 2024.