カテゴリー: 画像生成AI

画像生成AIの使い方や最新情報についてお届けします。

  • Stability Matrixで Automatic1111が起動しない…そんなときに試してほしいノウハウ #SD黄色本

    Stability Matrixで Automatic1111が起動しない…そんなときに試してほしいノウハウ #SD黄色本

    大好評の「画像生成AI Stable Diffusionスタートガイド」(通称 #SD黄色本 )ですが、GitHubでのソースコード公開に加えて、discordでのサポート、noteメンバーシップ向け掲示板でのサポートがあります。

    画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

    Amazon.co.jpで購入する

    AICU: AI Creators Union|AICU media


    今回はStability Matrixを使ったローカルGPU、Windows11/Mac(Apple Silicon)環境を中心に discord AICUサーバー「SD黄色本サポート」チャンネルに寄せられたトラブルシューティングノウハウをお送りします。

    ❏書籍「画像生成AI Stable Diffusionスタートガイド」の詳細についてはこちら

    書籍[画像生成AI Stable Diffusionスタートガイド]

    ❏Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について (2024/5/22)

    Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

    ❏Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施

    Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施


    過去の #SD黄色本 記事についてはこちらをご参照ください

    SD黄色本 アーカイブ

    Checkpointの切り替えに失敗する

    M3 MacBook Pro で報告されたケースですが、画像生成AIのモデル、つまり SD1.5やSDXL、もしくは bluePencilXL と言ったモデルの切り替えに失敗することがあります。
    エラーメッセージの例

    changing setting sd_model_checkpoint to bluePencilXL_v600.safetensors [83f960c769]: AttributeError

    Stability Matrixにはこのようなログが表示されます。

    Python 3.10.11 (main, May  7 2023, 17:32:05) [Clang 16.0.3 ]
    Version: v1.9.4
    Commit hash: feee37d75f1b168768014e4634dcb156ee649c05
    ControlNet init warning: Unable to install insightface automatically. Please try run `pip install insightface` manually.
    Launching Web UI with arguments: --medvram-sdxl --api --skip-torch-cuda-test --skip-python-version-check --no-half --gradio-allowed-path /Users/username/apps/StabilityMatrix/Images
    no module 'xformers'. Processing without...
    no module 'xformers'. Processing without...
    No module 'xformers'. Proceeding without it.
    Warning: caught exception 'Torch not compiled with CUDA enabled', memory monitor disabled
    ControlNet preprocessor location: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/extensions/sd-webui-controlnet/annotator/downloads
    2024-06-11 08:11:57,602 - ControlNet - INFO - ControlNet v1.1.449
    Loading weights [1449e5b0b9] from /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/models/Stable-diffusion/animagineXLV31_v30.safetensors
    2024-06-11 08:11:57,929 - ControlNet - INFO - ControlNet UI callback registered.
    Running on local URL:  http://127.0.0.1:7860
    
    To create a public link, set `share=True` in `launch()`.
    Creating model from config: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/repositories/generative-models/configs/inference/sd_xl_base.yaml
    /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/venv/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
      warnings.warn(
    Startup time: 8.8s (prepare environment: 0.4s, import torch: 3.3s, import gradio: 0.8s, setup paths: 1.1s, initialize shared: 0.2s, other imports: 0.9s, load scripts: 0.8s, create ui: 0.5s, gradio launch: 0.4s, add APIs: 0.5s).
    changing setting sd_model_checkpoint to bluePencilXL_v600.safetensors [83f960c769]: AttributeError
    Traceback (most recent call last):
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/options.py", line 165, in set
        option.onchange()
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/call_queue.py", line 13, in f
        res = func(*args, **kwargs)
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/initialize_util.py", line 181, in <lambda>
        shared.opts.onchange("sd_model_checkpoint", wrap_queued_call(lambda: sd_models.reload_model_weights()), call=False)
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 860, in reload_model_weights
        sd_model = reuse_model_from_already_loaded(sd_model, checkpoint_info, timer)
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 793, in reuse_model_from_already_loaded
        send_model_to_cpu(sd_model)
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 662, in send_model_to_cpu
        if m.lowvram:
    AttributeError: 'NoneType' object has no attribute 'lowvram'
    
    Loading VAE weights specified in settings: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/models/VAE/sdxl_vae.safetensors
    Applying attention optimization: sub-quadratic... done.
    Model loaded in 28.7s (load weights from disk: 0.8s, create model: 1.3s, apply weights to model: 10.7s, apply float(): 8.3s, load VAE: 2.0s, load weights from state dict: 0.1s, hijack: 0.6s, load textual inversion embeddings: 0.7s, calculate empty prompt: 3.9s).

    基本的にはこのようなログをChatGPTやClaude、Gemini、Perplexityなどに貼り付けていただけると解決する事も多いですのでぜひやってみてください。

    以下はChatGPT-4oでの上記のログの回答例です。

    AttributeError:

    • AttributeError: ‘NoneType’ object has no attribute ‘lowvram’: このエラーはsd_modelがNoneであることを示しています。つまり、モデルが正しくロードされていない可能性があります。この問題は、モデルのロードプロセスで何かが失敗しているか、チェックポイントファイルが正しくないか、または欠落しているために発生することがあります。

    ひとえに「メモリが足りない」という原因が多かったりします。もちろん、動作中に多くのコマンドや操作を投げることは避けたほうがいいです。多くのケースではケースでは起動しているChromeなどのWebブラウザ、不要なタブを閉じて再起動したり、再度選択を試してみたらできた、という事もよくあります。

    ロードするモデルはSDXL系ですと4-6GBのファイルサイズがあり、VRAMやメインメモリにそれをロードするだけの容量がなければエラーになります。起動時オプションで「lowvram」というオプションがありますので、8GB以下のVRAMであればチェックオンしておくと動作の不安定を回避することができるかもしれません。

    よくある他の事例としては
    ・checkpointが正しい場所にあるか
    →modelsフォルダ、その下の「Stable Diffusion」です
    StabilityMatrix-win-x64\Data\Models\StableDiffusion

    ・ダウンロードの途中で終わってしまっている(ファイルが壊れている)
    →削除してやり直し

    といったケースがあります。いずれにしてもモデルの切り替えに失敗しているときはStability MatrixのコンソールやAutomatic1111右下に表示されていますのでエラーログを確認しましょう。
    コツは「あきらめないこと」です!特にMac版。

    ModuleNotFoundError: No module named ‘jsonmerge’

    2024/7/12にご報告いただいたケース
    (新品のWindows11)
    > Stable Diffusion Web UI v1.9.4をパッケージに追加して、Launchを押すと、いろいろ文字が出て、最後に

    File “C:\Data\Packages\stable-diffusion-webui\repositories\k-diffusion\k_diffusion\config.py”, line 6, in <module>
    from jsonmerge import merge
    ModuleNotFoundError: No module named ‘jsonmerge’

    と表示されて止まってしまいます。

    まず、基本的なところで、Stability Matrixを利用すると、個別にPythonをインストールする必要はなくなります。
    つまり、想像するに、ローカルで既にインストールされたPython環境とぶつかっている可能性があります。

    もしWindows + R →「cmd」でコマンドプロンプトを起動して、 python -V と打って Enter ボタンを押して、上記のように Python 3.10.6 と出るか、もしくは「コマンドが見つかりません」というエラーが出れば問題なしですが、他のバージョンのPythonが出てくるようですと、まずはいったん、Pythonをアンインストールしたほうがいいと思います。

    ・Stability MatrixのAutomatic1111を更新する
    →Packageでで確認できます

    ・Stability MatrixのAutomatic1111を削除してインストールし直す
    →生成済みの画像も削除される可能性がありますので一旦退避しましょう。

    ・Stability Matrixをアンインストールして入れ直す

    ・[上級者向け]足りないモジュールを手動でインストールする
    Redditで同様の不具合が報告されています
    Error: ModuleNotFoundError: No module named ‘jsonmerge’
    https://www.reddit.com/r/StableDiffusion/comments/13e6srs/error_modulenotfounderror_no_module_named/

    ・[非常に簡単な方法]Windows11に新ユーザをつくる
    設定→アカウント→その他のユーザー→「アカウントの追加」で解決することが多いです。
    これは「demo」というユーザを作成している例です。

    画像

    解決策:Google Colabを並列にする

    Stability Matrixは手元のGPUで使えて嬉しいのですが、本格的に画像生成をしたりオリジナルのLoRAを学習させたりといった複数の作業を行うときは、1台のPCでも辛くなってきます。
    Google Colab Proの環境は有料ではありますが、Proのライセンスであればクリーンなインストール環境、高速なGPU、高速な回線であり、特に困ることは少なくなります。
    ローカルのGPUをメインで使う場合も問題分析がしやすくなります。

    本書ではGoogle Colabでの環境構築やColabで動くノートブックも並列で解説・メンテナンスしていますので、ぜひとも使ってみてくださいね!

    画像

    以上、「画像生成AI Stable Diffusionスタートガイド」のトラブルシューティング情報でした!

    画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

    Amazon.co.jpで購入する

    書籍のサポートリポジトリやAICU Inc. discord サーバー「SD本サポート」チャンネル ⁠はこちら(有料)

    https://note.com/aicu/n/n08c33f7102ab

  • 描画工程を推論する「Paints-Undo」、Google Colabで実際に動作させてみた

    日本時間で2024年7月10日、スタンフォード大学の博士課程の学生である「Fooocus」や「Omost」「Style2Paint」の開発者Lvmin Zhang さん(GitHubアカウント: lllyasviel)らの研究グループが、興味深い研究成果を発表しました。Google Colabで試せる実験コードも紹介します。

    https://note.com/aicu/n/n8990c841e373

    圧巻のデモ

    ぜひこちらのデモサイトで結果を観てください

    https://lllyasviel.github.io/pages/paints_undo

    この Web ページのすべての入力画像は AI によって生成されたものであることに注意してください。それらの「グラウンド・トゥルース」つまり「正解の描画プロセス」は存在しません。画像生成によって生成された1枚の画像をベースに「それが描かれたであろう工程」を、まるでイラストレーターの作業配信動画(タイムラプス)のように生成しています。

    画像

    美少女イラスト以外の分野での実験。

    画像
    画像

    ラフスケッチの生成

    画像

    異なる描画工程の再現

    画像
    画像
    画像

    失敗例

    画像

    以下、公式READMEの翻訳を中心に、解説を補完しながらお送りします。
    https://github.com/lllyasviel/Paints-UNDO
    実際に動作させた例は最後に紹介します。

    画像

    Paints-Undo:デジタルペイントにおける描画動作のベースモデル

    Paints-Undoは、将来のAIモデルが人間のアーティストの真のニーズに沿うことができるように、人間の描画動作のベースモデルを提供することを目的としたプロジェクトです。

    「Paints-Undo」という名前は、モデルの出力がデジタルペイントソフトで「元に戻す」ボタン(通常はCtrl+Z)を何度も押したときのように見えることに由来しています。

    Paints-Undoは、画像を入力として受け取り、その画像の描画シーケンスを出力するモデル群です。このモデルは、スケッチ、インク入れ、着色、シェーディング、変形、左右反転、カラーカーブ調整、レイヤーの表示・非表示の変更、さらには描画プロセス中の全体的なアイデアの変更など、人間のあらゆる行動を表現します。

    利用方法

    PaintsUndoは、以下の方法でローカルにデプロイできます。
    condaのインストールと10GB以上のVRAMが必要です。

    git clone https://github.com/lllyasviel/Paints-UNDO.git
    cd Paints-UNDO
    conda create -n paints_undo python=3.10
    conda activate paints_undo
    pip install xformers
    pip install -r requirements.txt
    python gradio_app.py    

    推論は、Nvidia 4090および3090TIの24GB VRAMでテストされています。16GB VRAMでも動作する可能性がありますが、8GBでは動作しません。私の推定では、極度の最適化(重みのオフロードやスライスアテンションを含む)を行った場合、理論上の最小VRAM要件は約10〜12.5GBです。

    設定にもよりますが、1つの画像を処理するのに約5〜10分かかります。一般的な結果として、解像度320×512、512×320、384×448、または448×384で、FPS 4、25秒のビデオが得られます。

    処理時間は、ほとんどの場合、HuggingFace Spaceのほとんどのタスク/クォータよりも大幅に長いため、HuggingFaceサーバーに不要な負担をかけないように、HuggingFace Spaceにデプロイすることはお勧めしません。

    必要な計算デバイスがなく、それでもオンラインソリューションが必要な場合は、Colabノートブックがリリースされるのを待つという選択肢があります(ただし、Colabの無料枠で動作するかどうかはわかりません)。

    モデルに関する注意事項

    現在、 paints_undo_single_frame と paints_undo_multi_frame の2つのモデルをリリースしています。それぞれをシングルフレームモデル、マルチフレームモデルと呼ぶことにします。

    シングルフレームモデルは、1つの画像と操作ステップを入力として受け取り、1つの画像を出力します。1つのアートワークは常に1000の人間の操作で作成できると仮定し(たとえば、1つのブラシストロークが1つの操作、操作ステップは0から999までの整数)。第0番は完成した最終アートワーク、第999番は真っ白なキャンバスに最初に描かれたブラシストロークとします。このモデルは、「元に戻す(Undo/Ctrl+Z)」モデルと理解することができます。最終的な画像を入力し、「Ctrl+Z」を何回押したいかを示すと、モデルはそれらの「Ctrl+Z」が押された後の「シミュレートされた」スクリーンショットを表示します。操作ステップが100の場合、この画像に対して100回「Ctrl+Z」をシミュレートして、100回目の「Ctrl+Z」後の外観を取得することを意味します。

    マルチフレームモデルは、2つの画像を入力として受け取り、2つの入力画像間の16の中間フレームを出力します。結果はシングルフレームモデルよりもはるかに一貫性がありますが、はるかに遅く、「創造性」が低く、16フレームに制限されています。

    このリポジトリでは、デフォルトの方法ではこれらを一緒に使用します。最初にシングルフレームモデルを5〜7回推論して5〜7つの「キーフレーム」を取得し、次にマルチフレームモデルを使用してそれらのキーフレームを「補間」して、実際に比較的長いビデオを生成します。

    理論的には、このシステムはさまざまな方法で使用でき、無限に長いビデオを作成することもできますが、実際には最終フレーム数が約100〜500の場合に良好な結果が得られます。

    モデルアーキテクチャ (paints_undo_single_frame)

    このモデルは、異なるベータスケジューラ、クリップスキップ、および前述の操作ステップ条件でトレーニングされたSD1.5の変更されたアーキテクチャです。具体的には、このモデルは、次のベータを使用してトレーニングされています。

          betas = torch.linspace(0.00085, 0.020, 1000, dtype=torch.float64)
        

    比較のために、元のSD1.5は、次のベータを使用してトレーニングされています。

          betas = torch.linspace(0.00085 ** 0.5, 0.012 ** 0.5, 1000, dtype=torch.float64) ** 2
        

    終わりのベータと削除された正方形の違いに気付くでしょう。このスケジューラの選択は、内部ユーザー調査に基づいています。

    テキストエンコーダCLIP ViT-L / 14の最後のレイヤーは完全に削除されます。 操作ステップ条件は、SDXLの追加の埋め込みと同様の方法でレイヤーの埋め込みに追加されます。

    また、このモデルの唯一の目的は既存の画像を処理することであるため、このモデルは、他の拡張なしでWD14 Taggerと厳密に整合性が取れています。入力画像を処理してプロンプトを取得するには、常にWD14 Tagger(このリポジトリにあるもの)を使用する必要があります。そうしないと、結果に欠陥が生じる可能性があります。人間が書いたプロンプトはテストされていません。

    画像

    モデルアーキテクチャ (paints_undo_multi_frame)

    このモデルは、VideoCrafterファミリーから再開することでトレーニングされますが、元のCrafterのlvdmは使用されず、すべてのトレーニング/推論コードは完全にゼロから実装されています。(ちなみに、コードは最新のDiffusersに基づいています。)初期の重みはVideoCrafterから再開されますが、ニューラルネットワークのトポロジーは大幅に変更されており、ネットワークの動作は広範なトレーニングの後、元のCrafterとは大きく異なります。

    全体的なアーキテクチャは、3D-UNet、VAE、CLIP、CLIP-Vision、Image Projectionの5つのコンポーネントを持つCrafterのようなものです。

    • VAE:VAEは、ToonCrafterから抽出されたのと同じアニメVAEです。Craftersに優れたアニメの時間的VAEを提供してくれたToonCrafterに感謝します。
    • 3D-UNet:3D-UNetは、アテンションモジュールのリビジョンを含むCraftersのlvdmから変更されています。コードのいくつかのマイナーな変更以外に、主な変更点は、UNetがトレーニングされ、空間的自己注意レイヤーで時間ウィンドウをサポートするようになったことです。 diffusers_vdm.attention.CrossAttention.temporal_window_for_spatial_self_attentionおよびtemporal_window_typeのコードを変更して、3つのタイプのアテンションウィンドウをアクティブ化できます。
      • “prv”モード:各フレームの空間的自己注意は、前のフレームの空間的コンテキスト全体にも注意を払います。最初のフレームは自分自身だけに注意を払います。
      • “first”モード:各フレームの空間的自己注意は、シーケンス全体の最初のフレームの空間的コンテキスト全体にも注意を払います。最初のフレームは自分自身だけに注意を払います。
      • “roll”モード:各フレームの空間的自己注意は、torch.rollの順序に基づいて、前後のフレームの空間的コンテキスト全体にも注意を払います。
    • CLIP:SD2.1のCLIP。
    • CLIP-Vision:位置埋め込みを補間することで、任意のアスペクト比をサポートするClip Vision(ViT / H)の実装。線形補間、ニアレストネイバー、および回転位置エンコーディング(RoPE)を試した後、最終的な選択はニアレストネイバーです。これは、画像を224×224にサイズ変更または中央トリミングするCrafterメソッドとは異なることに注意してください。
    • Image Projection:2つのフレームを入力として受け取り、各フレームに16の画像埋め込みを出力する小さなトランスフォーマーの実装。これは、1つの画像のみを使用するCrafterメソッドとは異なることに注意してください。

    免責事項

    このプロジェクトは、人間の描画動作のベースモデルを開発し、将来のAIシステムが人間のアーティストの真のニーズをより適切に満たせるようにすることを目的としています。ユーザーはこのツールを使用してコンテンツを自由に作成できますが、地域の法律を遵守し、責任を持って使用する必要があります。ユーザーは、虚偽の情報を生成したり、対立を扇動したりするためにツールを使用してはなりません。開発者は、ユーザーによる misuseの可能性について、いかなる責任も負いません。

    実際に動作させてみた

    ✨️Google Colabで動作するコードは社会的影響を鑑みて、当面は文末にてメンバーシップのみの公開とさせていただきます✨️

    gradio_app.pyの最終行を以下のように変更してください
    #block.queue().launch(server_name=’0.0.0.0′)

    block.queue().launch(server_name=’0.0.0.0′, share=True)

    チュートリアル

    Gradioインターフェースに入ったら:

    ステップ0:画像をアップロードするか、ページの下部にある[作例画像]をクリックします。

    画像

    ステップ1:「ステップ1」というタイトルのUIで、[プロンプトの生成]をクリックして、グローバルプロンプトを取得します。

    画像

    ステップ2:「ステップ2」というタイトルのUIで、[キーフレームの生成]をクリックします。左側でシードやその他のパラメータを変更できます。

    画像

    ステップ3:「ステップ3」というタイトルのUIで、[ビデオの生成]をクリックします。左側でシードやその他のパラメータを変更できます。

    オリジナル画像でやってみた

    AICU所属のイラストレーター・犬沢某さんに素材をご提供いただきました。

    画像
    画像
    画像
    画像
    画像
    画像

    動画はこちらです

    犬沢某さん「なんだか最初のほう、悩みながら描いてるのがそれらしくていいですね・・・」

    描画工程を推論する技術は、様々なクリエイティブ工程に役立つツールが生み出せる可能性があります。
    オープンな技術として公開していただいた lllyasvielさん、Paints-Undo Teamに感謝です。

    https://github.com/lllyasviel/Paints-UNDO

    Google Colabで condaをインストールし、Paints-UNDOを利用するnotebook

    社会的影響を鑑み、当面はメンバーシップのみの提供とさせていただきます
    くれぐれも悪用禁止でお願いいたします。
    フェイク動画や、素手で描かれるイラストレーターさんのお気持ちを害するような使い方は誰にとっても利がありません。

    原作の免責事項(disclaimer)を再掲しておきます

    このプロジェクトは、人間の描画動作のベースモデルを開発し、将来のAIシステムが人間のアーティストの真のニーズをより適切に満たせるようにすることを目的としています。ユーザーはこのツールを使用してコンテンツを自由に作成できますが、地域の法律を遵守し、責任を持って使用する必要があります。ユーザーは、虚偽の情報を生成したり、対立を扇動したりするためにツールを使用してはなりません。開発者は、ユーザーによる misuseの可能性について、いかなる責任も負いません。

    この記事の続きはこちらから https://note.com/aicu/n/n7e654dcf405c

    Originally published at https://note.com on July 9, 2024.

  • 2024年6月のnote好アクセスランキング+6月の振り返り #AICU_media

    2024年6月のnote好アクセスランキング+6月の振り返り #AICU_media

    AICU media 6月のまとめ

    よく読まれた記事ランキング

    6月中によく読まれた記事を紹介します

    1. [保存版] Animagine XL 3.1 生成比較レポート

    [保存版] Animagine XL 3.1 生成比較レポート

    1. Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    1. img2img入門(1) i2iでできることを知ろう

    img2img入門(1) i2iでできることを知ろう

    1. Stable Diffusion – ControlNet入門(2) ControlNet をダウンロード・準備する

    Stable Diffusion – ControlNet入門(2) ControlNet をダウンロード・準備する

    1. 日本人が開発した「Regional Prompter」がなかなかすごい!

    日本人が開発した「Regional Prompter」がなかなかすごい!

    Animagine 3.1 / 3.0の記事は相変わらず恒例ですね。

    今月はStable Diffusion 3の新しいモデルであるStable Diffusion 3 Mediumがリリースされました。その際に出た用語である「weights」について気になる方が多かったようです。

    また、i2iやControlNetなど画像生成における基本的な技術についてもよく読んでいただけました。

    AICU編集部が選ぶ、6月のおすすめ記事

    6月に投稿した記事でAICU編集部がお勧めしたい記事をピックアップしてみました。

    まだほかの人が知らない、生成AIの情報を読んでみませんか?

    • Stable Diffusion 3 で最高の結果を得る方法

    Stable Diffusion 3 で最高の結果を得る方法

    • Googleから電撃リリースされたGemma2が有能 – Gemma2自身に解説させてみた!

    Googleから電撃リリースされたGemma2が有能 – Gemma2自身に解説させてみた!

    • AICUインキュベーション「NISHIKI-E:アニメレガシー補完計画」のご紹介

    AICUインキュベーション「NISHIKI-E:アニメレガシー補完計画」のご紹介

    • Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

    Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

    • DiffSynth StudioとDiffutoon:拡散モデルによる高分解能・編集可能なトゥーンシェーダー

    DiffSynth StudioとDiffutoon:拡散モデルによる高分解能・編集可能なトゥーンシェーダー

    AICUマガジン6月号の予告

    最後にAICUマガジン6月号の特集について紹介します。

    今月は半年のまとめとして特集を2つ用意しました。

    • AICU media 上半期人気記事ランキング
    • いまこそ知りたい画像生成AIの社会と倫理

    6月号は現在リリースに向けた準備中です。どうぞお楽しみに!

    AICUマガジンはkindle unlimitedに加入されている方は無料で、加入されていない方は電子版の購入ができます。ぜひ読んでください!

    バックナンバーはこちらです

    https://j.aicu.ai/Mag2405

    https://j.aicu.ai/Mag2404

    AICU media 6月のイベント報告

    6/26 19:00〜20:30「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップを開催しました!

    「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップを開催しました!テーマは【生成AIの社会と倫理】です!

    現在アーカイブ配信を準備中です。

    詳しくはこちらをご覧ください。

    • 【生成AIの社会と倫理】「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップ 2024/6/26(水)19:00〜20:30開催

    なお、画像生成AI Stable Diffusion スタートガイドには、生成AIにかかわる法律や倫理について解説があります。

    見逃した!復習したい!という方はとして読まれてみてはいかがでしょうか?

    https://j.aicu.ai/SBXL

    最後に

    AICU mediaでは生成AIに関する情報をこれからも皆さんにお届けしてまいります。

    面白い!参考になった!と感じていただけましたら、ぜひいいねやフォローをお願いします

    7月もAICU mediaをよろしくお願いします!

    先月のアクセスランキングはこちら

    2024年5月の好アクセスランキング+おすすめ記事を紹介! #AICU_media

  • ブラウザだけでAI漫画が作れる「AniFusion」がサービスイン

    ブラウザだけでAI漫画が作れる「AniFusion」がサービスイン

    ブラウザだけで本格的な漫画が描ける話題の海外サービス「AniFusion」がついにサービスインしました。実際にさわってレポートしてみます。

    Anifusion

    ・テキストから画像
    ・インペイント
    ・顔の改善
    ・ポーズコントロール
    ・AI漫画

    画像

    こんな感じの画像が作れます。

    画像

    チュートリアルは無料

    AniFusionはドイツ/フィリピンでLLMと拡散モデルを研究するコンピュータサイエンスの大学院生 Nucleusさん @EsotericCofe が開発しています。

    画像

    チュートリアルの内容を説明していきます。

    まず画面右上にプロンプトを並べていきます。Danbooruスタイルのタグを使うことで最高の結果が得られるそうです。

    画像

    画像の縦横比率を決めます。

    画像

    ツールバーの十時ツールでオブジェクトを移動させます。数字キーの[1]~[5]で切り替えられます(後ほど解説します)

    画像

    下にあるメニューバーでズームしたりパンニング(✋️)できます。パンニングはスペースバーやマウス中ボタンでもできます。ズームはControlキーを押しながらでも切り替えできます。

    画像

    Generateボタンでdiffusionレイヤーを新規作成します。押してみましょう。

    画像

    レイヤー共通の操作は画面の上部にレイヤーオプションが現れます。右クリックで同様のメニューを表示できます。

    画像

    ここから先はサブスクリプションが必要です!

    画像

    ・月額20USDの課金で1日あたり300画像生成できます。
    ・ワークスペースのキャンバスを保存できます。
    ・複数のモデルをサポート
    ・複数のLoRAをサポート
    ・新機能へのアーリーアクセス

    実際にさわってみた!

    Generate

    基本的にはGenerateを使って画像を生成していきます。

    カンマで区切られたプロンプトを右上の「Prompt」に貼り付けるとタグになります。

    画像

    「Tag Mode」をオフにすると、テキストになります。

    画像

    レイヤーとパネル(おそらく漫画のコマに当たる要素)の関係ですが、現状は上下させるだけで、従属させる機能はなさそうです。
    ※鍵🔐がありますが、位置関係のみのようです。

    画像

    1,2,3,4,5のキーを押すとツールを以下を切り替えられます
    [1] 移動ツール
    [2] インペイントエリア選択ツール
    [3] インペイント領域ドローイングツール
    [4] ダミーポーズ作成ツール
    [5] パネル作成ツール

    インペイント

    画像

    smileとしてInpaintすると…

    画像

    笑ってくれました!

    なお表情のエンハンス機能はGenerateタブの隣りにあり、顔だけを良くする機能として独立しています。

    画像

    ダミーポーズ作成ツール

    ControlNetのOpenPoseようなポージングを指定できます。
    これは便利そうですね
    作者の Nucleus( @EstericCofe )さんによるデモ

    ControlNetを使える環境を用意しようと思うと、けっこうなVRAM搭載のAutomatic1111環境が必要です。

    ブラウザだけでこれができるのは感動がありますね。

    画像
    画像

    右クリックメニュー

    画像を右クリックすることでもメニューが表示されます。

    画像

    ・レイヤーをダウンロード
    ・複製
    ・削除
    ・上層/下層へ移動
    ・再生成
    ・アップスケール
    ・バリエーションを生成
    ・顔を改善
    ・ポーズを分析
    ・背景を変える
    ・背景を除去する
    ・情報を表示する
    ・ロックする

    テキストツール

    セリフなどの文字を打つことができます。
    文字は縦書きも使えるようですが…

    画像

    どうやら句読点の位置や改行にバグがあるようです。

    画像

    💬吹き出しを描く機能はまだないようです💭

    作例

    画像

    その他


    LoRAはCivitAIのURLで指定するようです

    画像

    実際に指定してみると…

    chibi comic style Q版小漫画 – v1.0 | Stable Diffusion LoRA | Civitai

    画像

    使えるモデルは6種類

    画像

    サポートはDiscordにて

    画像

    Join the Anifusion Discord Server!

    AICU media 編集部が気になった点

    ・画像の枠線によるクリップを簡単にできると良さそう
    ・オブジェクトの拡大縮小機能が欲しい
    ・全体の画像を保存する機能はない
    ・フォントを選べない
    ・背景だけを生成する機能がほしい
    ・縦書きテキストにバグが有る
    ・モデルの商用ライセンスは解決済みなのだろうか?
    ・Animagine XL 3.0が欲しい

    などなど
    まだまだ発展途上な感じはしますが、今後の機能実装と用途によっては$20/月は悪くないかもしれないですね。

    なお画像生成部分は「fal」というサービスを使っているようです。

    https://fal.ai

  • 今月のAICU公式イベント「生成AIの社会と倫理」がスゴイ!見逃し厳禁の3つの理由

    今月のAICU公式イベント「生成AIの社会と倫理」がスゴイ!見逃し厳禁の3つの理由

    「生成AIの社会と倫理」と聞いて、あなたはどんなイメージを持つでしょうか? 難しい専門用語が飛び交う、堅苦しいイベント? 実は、そんなことはありません! 今月のAICU公式イベントは、生成AIの技術的な側面だけでなく、社会や倫理的な側面も深く掘り下げ、誰でも理解できる内容となっています。
    今回は、このイベントがなぜスゴイのか、3つの理由を詳しく解説します。

    2024/06/26(水)19:00〜20:30
    参加登録はこちらから https://techplay.jp/event/946209

    【生成AIの社会と倫理】「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップ TECH PLAY

    1. 生成AIの最新知識を専門家から学べる!

    つくる人をつくる!AICU代表で「画像生成AI Stable Diffusion スタートガイド」の主著者である白井暁彦から最新知識を直接学べます。

    画像

    イベントでは、SD黄色本監修の弁護士・柴山吉報氏が登壇し、書籍の内容を解説しながら、生成AIの社会と倫理に関する最新情報を分かりやすく解説します。
    法律や倫理という難しいテーマを、具体的な事例を交えながら解説してくれるので、生成AIに興味はあるけど、どこから手をつければいいか分からないという方でも安心です。
    「生成AIって便利だけど、実際どう使えばいいの?」
    「著作権とか、何か問題ないの?」
    そんな疑問も、この機会に解決できます!

    書籍で扱っている内容を紹介します
    「画像生成AI Stable Diffusionスタートガイド」より引用

    画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

    Amazon.co.jpで購入する

    Q1: 生成 AI の利用に関しては、主にどのようなことが問題になるか、全体像を教えてください。

    Q2:知的財産権とはどういった権利なのでしょうか。生成 AI の利用にあたって特に重要になる権利は何ですか。

    Q3: 著作権とはどのような権利でしょうか。画像生成 AI の利用との関係で特に 知っておくべきポイントを教えてください。

    Q4:画像生成 AI を活用するにあたって、著作物性が認められるためにはどうすればよいでしょうか。また、自分が作成したコンテンツについて、著作物で あることを証明するにはどのようなことが必要でしょうか。

    Q5:画像生成 AI の AI 生成物が既存の第三者の著作物に類似してしまった場合にはどのような問題が生じますか。さらに、類似した既存のコンテンツが画像生成 AI によって生成されていた場合は、どのような問題が生じますか。

    Q6: 現在、学習の場面ではなく入力の場面において第三者の著作物を使用する方法(img2img や ControlNet と呼ばれる方法)に関してトラブルになってい るケースがあります。このような行為は何らかの権利侵害にあたるのでしょうか?

    Q7:法律・倫理的な観点から AI の学習用データセットを作る際に注意しておくべきことはどんなことがありますか?

    Q8: 生成 AI の利用にあたり、学習データが存在する地域、学習時の処理を行う サーバーがある地域、ユーザーが画像生成を行う地域が異なる場合が想定さ れる点について、主にどのようなリスクが考えられますか。

    Q9: 今後、AI の利用に関してどういった議論がなされる可能性があるでしょうか。

    画像

    Q10: 生成 AI 関連の法律はどこで最新の情報を得ることができるのでしょうか?また、何らかのトラブルが発生した場合や、自身の著作権が侵害されたと感じた場合はどのような対処をするべきでしょうか?

    全部この本に書いてありますが!

    画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

    Amazon.co.jpで購入する

    2. 生成AIの「陽のあたる場所」を拡げる質問

    こんな質問に答えていきます!

    ・変化する法律問題、いろんな情報がごちゃごちゃしていてキャッチアップしにくいです。なにを基準または、どういう視点でAIについての法律情報をキャッチアップすればいいですか?

    ・ControlNetと著作権侵害の関係について質問させて頂けたらと存じます。特に注意すべきControlNetの機能がありましたら教えて頂けますと幸いです。
    ・「クリーンなAIモデル」とは?
    ・誰が契約者であるべき?
    ・ライセンスの継承
    ・中間生成物の著作権

    生成AIの「陽のあたる場所」を拡げていくことができるのか?
    ライブで弁護士さんに問うてみます。

    3. 参加者同士で交流できる!

    イベントでは、質疑応答タイムやオンライン交流会も用意されています。
    生成AIについて、専門家や他の参加者と意見交換したり、疑問を解消したりする絶好のチャンスです。
    「生成AIを使ってこんなものを作ってみたけど、どう思う?」
    「この法律、よく分からないんだけど…」
    参加者同士の活発な意見交換を通じて、新たな発見や学びを得られるでしょう。

    お申し込みは今すぐ!


    オンデマンド/事後試聴(1,000円・クレジットカード払い可)もございます
    https://techplay.jp/event/946209

    画像

    みなさまのご参加を楽しみにしております。

  • 【文字が描ける!?】Anima_pencil-XL-v5.0.0リリース。作者ぶるぺん氏「ここ数年で最高クラス」

    【文字が描ける!?】Anima_pencil-XL-v5.0.0リリース。作者ぶるぺん氏「ここ数年で最高クラス」

    本日はAICU編集部が開発した書籍「画像生成AI Stable Diffusionスタートガイド」についての話題をお送りします。「#SD黄色本」として親しまれ発売から3ヶ月が経過しました本書ですがおかげさまで好評で編集部も胸をなでおろしております。
    ところで、書籍の中でイラストレーション生成用のモデルとして中心的に紹介している「blue_pencil-XL」の作者・ぶるぺんさんより新しいモデルの最新バージョンがリリースされたようです。

    「ここ数年で最高クラスの出来、前作に匹敵する仕上がり」

    とのことですので早速使ってみたいと思います。

    ライセンスは Fair AI Public License 1.0-SD

    Easy, Simple, High Quality (with a slight trade-off in variety)
    blue_pencil-XL meets ANIMAGINE XL 3.0 / ANIMAGINE XL 3.1
    License: Fair AI Public License 1.0-SD
    You should share the merge recipe if you release a model merged with anima_pencil-XL.
    This license does not add any restrictions on your generated images.
    For more details, please see the license section of ANIMAGINE XL 3.0.
    Please see the “About this Version” section for information on each version.
    `No generation services` only apply to v2.0.0
    HuggingFace: https://huggingface.co/bluepen5805/anima_pencil-XL
    Why not merge ANIMAGINE XL 3.X into blue_pencil-XL?
    I want to provide blue_pencil-XL under the CreativeML Open RAIL++-M license.

    簡単、シンプル、高品質(バラエティは若干犠牲になりますが)
    blue_pencil-XL は ANIMAGINE XL 3.0 / ANIMAGINE XL 3.1に出会った
    (訳注:meetはどういう意味なんだろう?つまりマージではなく参考にした、とかブレンドした、という解釈ですが、作者さんにきいてみたい)

    ライセンス Fair AI Public License 1.0-SD
    anima_pencil-XLでマージしたモデルをリリースする場合は、マージレシピを共有する必要があります。
    このライセンスは、あなたの生成した画像に制限を加えるものではありません。
    詳細はANIMAGINE XL 3.0のライセンスの項をご覧ください。
    各バージョンの情報は「このバージョンについて」をご覧ください。
    「生成サービスへの利用は禁止」はv2.0.0にのみ適用されます。
    HuggingFace: https://huggingface.co/bluepen5805/anima_pencil-XL
    ANIMAGINE XL 3.Xをblue_pencil-XLにマージしないのはなぜ?
    blue_pencil-XLをCreativeML Open RAIL++-Mライセンスで提供したいので

    https://civitai.com/images/17129585 
    AICU参考訳

    AICU media編集部の解釈

    このモデル「Anima_pencil-XL」は ANIMAGINE XL 3.0(CreativeML Open RAIL++-M)ではなく、ANIMAGINE XL 3.1と同じFair AI Public License 1.0-SD で配布されています。
    つまりぶるぺん氏のオリジナル「blue_pencil-XL」をベースモデルであるSDXLと同じ「CreativeML Open RAIL++-M」で配布し続けつつ、その学習に使ったデータセットをANIMAGINE 3.0と3.1の表現能力を有した別モデルとして提供するという試みと理解します。

    ぶるぺん氏によるサンプル画像とプロンプト

    画像

    1girl, solo, cute, white short hair, red eyes, wizard hat, close-up, dynamic angle, smug face, :3, (drooling:0.6), (“I AM RICH”:1.2) printed shirt, pleated long skirt, pantyhose, holding bills, hand on own hip, floating, scattered bills, gambling, crowd, light particles, sparkles, depth of field, masterpiece, best quality, masterpiece, best quality

    画像

    squid on the ground in the dark

    ぶるぺん氏は、美少女だけでなく、このような愛らしいキャラクターを普段はよく生成されております。

    画像

    1girl, solo, armpits, belt, black background, black belt, black dress, blue background, blunt bangs, brown hair, buttons, closed mouth, dress, gun, hand up, handgun, holster, holstered, light smile, looking at viewer, one eye closed, red eyes, revolver, short hair, upper body, utility belt, v, v-shaped eyebrows, watch, masterpiece, best quality

    画像

    1girl, solo, indoors, black background, black hair, blue eyes, blunt bangs, bob cut, breath, brown coat, coat, duffel coat, eyelashes, fur trim, fur-trimmed hood, gradient hair, green hair, hood, looking at viewer, looking back, medium hair, multicolored eyes, multicolored hair, parted lips, pink eyes, streaked hair, upper body, winter clothes, winter coat, masterpiece, best quality

    AICU media編集部による追従

    Civitaiには「Remix」を選ぶことで詳細なパラメータを引き継いで再生成させる機能がありますが、モデルが「SDXL」しか選択できないので、今回は Stability Matrixを使ってローカルPCで生成を試みます。

    画像

    Stability Matrixの場合は [🧠Model Browser] から直接「anima_pencil」を検索することでダウンロードが簡単にできます。
    (設定からCivitai APIキーの設定が必要です)

    画像

    「インポート」します

    画像

    カバーアートですが、胸に「I AM RICH」と描かれているのが気になります。
    Civitai上で画像をクリックすると右側にGeneration Dataが表示されるので注目してみます。

    画像

    1girl, solo, cute, white short hair, red eyes, wizard hat, close-up, dynamic angle, smug face, :3, (drooling:0.6), (“I AM RICH”:1.2) printed shirt, pleated long skirt, pantyhose, holding bills, hand on own hip, floating, scattered bills, gambling, crowd, light particles, sparkles, depth of field, masterpiece, best quality, masterpiece, best quality
    Steps: 30, CFG scale: 5, Sampler: DPM++ 2M SDE, Seed: 223644773, RNG: CPU, Size: 896×1344, Model: anima_pencil-XL-v5.0.0, Version: v1.9.4-180-ga65dd315, Emphasis: No norm, Pad conds: True, Model hash: 896faa18cd, Hires upscale: 2, Schedule type: Align Your Steps, Hires upscaler: SwinIR_4x, Denoising strength: 0.5, Discard penultimate sigma: True

    1girl, ソロ, キュート, 白いショートヘア, 赤い目, 魔法使いの帽子, クローズアップ, ダイナミックアングル, ドヤ顔, :3, (よだれ:0.6), (“I AM RICH”:1.2) プリントシャツ, プリーツロングスカート, パンスト, お札を持つ, 自分の腰に手を当てる, 浮く, 散らばるお札, ギャンブル, 群衆, 光の粒子, きらめき, 被写界深度, 傑作, 最高品質, 傑作, 最高品質

    以下の設定を変更します
    (Stability Matrix 2.11.3/AUTOMATIC1111 version: v1.9.4)
    Step:20→30
    CFG Scale: 7→5
    Sampling method: DPM++ 2M SDE
    Hires upscaler: SwinIR_4x
    Denoising strength: 0.5
    Seed: 223644773

    画像

    animaPencilXL_v2.0.0の出力結果

    参考まで、過去のv2.0.0ですが、こちらも十分素敵。

    画像

    animaPencilXL_v5.0.0 [896faa18cd]の出力結果

    Seed:223644773
    残念ながらサンプルの絵にはなりませんでしたが、確かにレイアウトや味わいが変わっていますね。胸の文字は描けていないようです(文字っぽい模様があります)。

    画像

    ここから先はSeedを-1(ランダム)にして
    ネガティブプロンプト:worst quality, nsfw, normal quality, ugly
    を設定して、何回か挑戦してみます。

    (たぶん続きます、文字が出るまで…!)

    まだ中間ですが出てるかも!?

    画像
    画像
  • すべての画像生成AIを過去にするStable Image Ultra (Stable Diffusion 3 8B+) が凄絶すぎた件

    すべての画像生成AIを過去にするStable Image Ultra (Stable Diffusion 3 8B+) が凄絶すぎた件

    image_2-55AE7.jpg

    Stable Diffusion開発元の、Stability AI Japan – External AdvocateのD̷ELLさんによる寄稿です。

    Stable Diffusion開発元の、Stability AI Japan – External AdvocateのD̷ELLと申します。
    今回、Stable Diffusion最高モデル Stable Diffusion 3 80億パラメータ(8B) を搭載したAPI「Stable Image」の、最上位サービス 「Stable Image Ultra」の体験会 第2回を実施しました。
    実施内容をレポートにまとめましたので、報告させて頂きます。

    概要

    • Stability AIからStable Diffusion 3 2B のモデルがリリースされ、世界を席巻した
    • Stability AI APIでは、最上位モデルの Stable Diffusion 3 8B が利用可能
    • 性能を体験してもらうために、たくさんの人にまた利用してもらったらやっぱり凄かった

    経緯

    先日、Stable Diffusion最高モデル Stable Diffusion 3 8B を搭載したAPI「Stable Image」の、最上位サービス 「Stable Image Ultra」 の体験会を実施しました。ご協力頂いた Discordサーバー AI声づくり技術研究会様、ありがとうございます。

    前回は突発での開催でしたが、今回は事前にアナウンスを行い、40名以上の方にご参加いただきました。

    https://j.aicu.ai/SD3UC

    どなたでもご利用可能ですので、ぜひこの機会にStable Image APIをお試しください。

    image.png

    生成画像集

    みなさまの生成された画像と、プロンプト、利用コメントを頂いております。
    個性の出ている、多種多様な画像を生成いただいておりますので、ぜひお楽しみください。

    こちらのNotionでも、当日生成された140枚の画像とプロンプトを閲覧できます。 まとめて頂きましたゆんたん様、ありがとうございます。

    yutoさん

    生成のボタンを押すたびにワクワクする。初めてStable Diffusionを触ったときの感情を思い出した。

    download-53290.jpg
    download-95B7F.jpg
    download-74983.jpg
    download-BE70F.jpg
    download-25501.jpg

    holy-fox/小狐さん

    凄すぎて感想が言語化できないw

    BVxMJdem4AAAAAElFTkSuQmCC-00E05.jpg
    image.png
    image_1-96896.jpg

    ゆんたんさん

    image_11-6D88C.jpg
    image_10-B38A6.jpg

    シャケさん

    image_7-2F438.jpg
    image_18-C8ECD.jpg
    image_19-D5AFA.jpg

    うんわさん

    想像力の限界へ

    image-8AEA7.jpg
    Untitled-1E3EA.jpg

    エクスヴェリアさん

    これまでの画像生成を過去にする
    ウルトラすごいハイパーすごいえーあいです

    image-FC5CF.jpg
    image-1C31A.jpg
    image-A079E.jpg
    image-3FCCB.jpg
    image-4D251.jpg
    image-F75F0.jpg
    image.png
    image.png

    雫さん

    一つのモデルでいろんな絵が出せるのがすごい

    aR9Md9HyXfvvevtXrfvP9JV8xIovtuql06mKat9p53-41756.jpg
    AcfGbDZrDlzAAAAAElFTkSuQmCC-8A5ED.jpg
    DzuYikcPXHQAAAABJRU5ErkJggg-B74D7.jpg
    15-F6F35.jpg

    なかむらしっぽさん

    やっぱりUltraはMediumとは全く次元が違う

    image_26-BDA66.jpg
    image_27-715AE.jpg
    image-0C3FB.jpg
    image_19-AC088.jpg
    image_22-5B5F9.jpg

    Art Natureさん

    一つのモデルでこれだけ幅広い出力ができるのがすごい。長文対応と出力の良さも高い。

    image_2-62EE7.jpg
    image_19-D5D6B.jpg
    image_24-47145.jpg
    image_28-0AFF2.jpg
    image_30-3FFB6.jpg

    うみせさん

    画像がほしい?ならUltraでしょ

    image-7271C.jpg
    image-EBAA7.jpg
    image-F5F5C.jpg
    image.png
    image-ABA44.jpg

    やなぎ(Yanagi)さん

    いままで触ったモデルの中で一番広い表現力を感じました!
    自然言語で使えるのも直感的でたのしいです!

    image.png
    image-F98C5.jpg
    image_2-C9823.jpg

    やまとーるさん

    1 girlから初めていろいろ追加をしていったらちゃんと出力してくれたので楽しかったです

    52-BDFFB.jpg
    60-3DCBA.jpg
    41-DD317.jpg
    57-A849B.jpg

    flyfrontさん

    まだまだ隠れた性能がいろいろありそう!

    bf-08860.jpg
    image.png

    TylorShineさん

    描ける!使える!!Stable!! 文字表現に忠実な画像が出てくる!!感動!!

    image-276A4.jpg
    image_10-232F2.jpg
    image_6-A3AA6.jpg

    kokurenさん

    従来のタグの組み合わせメインでの画像生成から自然言語での自由な生成の時代が来たことを実感できました。

    image-FBCFD.jpg
    image-45DB5.jpg
    image-74DDD.jpg

    れみおさん

    リアル系も出来てすごい!

    image_8-6D94C.jpg
    image_9-91D14.jpg
    image_37-62CF8.jpg
    image_17-439CD.jpg
    image_12-50770.jpg
    image_15-5EB4C.jpg

    へむろっくさん

    週末はSD3でステイブろう

    37-76127.jpg
    image.png
    image.png
    image.png

    ハニーさん

    image-D68ED.jpg
    image.png
    image.png
    image-60AE6.jpg
    image.png
    image.png

    ひつきさん

    SD3を使わせて頂きありがとうございます🙇‍♂️
    使ってみた感想としましては従来のSD1.5やSDXLに比べ、単純なプロンプトでも破綻しづらくて使いやすかったです!✨

    image-B991E.jpg

    Shinjuboshiさん

    image.png

    ぼうりきさん

    image_1-F4632.jpg

    マッキーさん

    image_1.jpg

    Gongonさん

    NSFWを回避しながら癖に刺さるイラストを生成するの楽しい

    image_6-750C0.jpg
    image_9-E5CF4.jpg
    image_25-0F384.jpg

    おやつさん

    日本風アニメへの造詣が深くて凄いなーと思いました。ほとんど最新のアニメ絵まで出せるんじゃないかな

    image_15-52BB6.jpg

    Akikazeさん

    クォリティが高くてAIとは思えないです・・・!

    はるさん

    いろんなものがぽんぽん出てくる宝石箱でした~~。

    生の声

    ChatGPTとの連携

    前回、プロンプトは、ChatGPTに生成してもらったという方が多くおられました。

    そのため、今回はプロンプト作成用特設 GPTs を うみせさんに作成していただきました。

    https://chatgpt.com/g/g-C8XsG8POL-huronhutomasuta

    今回のイベント用に作成されたオリジナルです。ぜひこちらもご利用くださいませ。

    また、Stable Diffusion 3 は自然言語処理に対応しておりますので、一般的な英文でも高品質な画像が生成できます。詳細はこちらをご覧ください。

    https://qiita.com/nqdior/items/bd980e2664966871272e

    まとめ

    いかがでしょうか?ひとつのモデルで、ここまで幅の広い画像を生成可能です。
    また、今回実装されたWEB-UIにより、APIの機能をすべて利用可能となりました。

    ぜひこの機会に、全世界最高峰・最上位の画像生成AIをお試しくださいませ。

    ご協力いただいたみなさまに感謝申し上げます。
    最後までご覧いただき、ありがとうございました。

    こちらの記事はDELL氏にご寄稿いただいた記事を読みやすく推敲させていただきました。価値あるレポートを作成いただいたDELL氏に編集部より御礼申し上げます。

    すべての画像生成AIを過去にする Stable Image API (Stable Diffusion 3 8B+) が凄絶すぎた件 – Qiita

  • DiffSynth StudioとDiffutoon:拡散モデルによる高分解能・編集可能なトゥーンシェーダー

    DiffSynth StudioとDiffutoon:拡散モデルによる高分解能・編集可能なトゥーンシェーダー

    Diffutoon(ディフュトゥーン)は素晴らしいトゥーンシェーディングアプローチで、アニメスタイルのフォトリアリスティックなビデオを変換することを目的としています。非常に高い解像度と高速なモーションを扱うことができます。ソースコードはDiffSynth-Studioで公開されており、技術レポートも公開されています。

    Diffutoon: the Next Generation of Toon Shading

    論文やコード自体は5ヶ月前に公開されていましたが、この分野のハッカーであるCamenduru氏が紹介したことで突然注目されました。

    美しい動画の一覧はこちらにファイルがあります

    https://github.com/ECNU-CILAB/DiffutoonProjectPage/tree/main/videos

    大本の文献はこちら

    Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models

    和訳版

    Diffutoon:拡散モデルによる高分解能編集可能なToon陰影【JST・京大機械翻訳】

    注目すべきは DiffSynth Studio

    DiffSynth Studio は Diffusion エンジンです。Text Encoder、UNet、VAE などのアーキテクチャを再構築し、オープンソースコミュニティのモデルとの互換性を維持しながら、計算性能を向上させています。多くの興味深い機能を提供しています。

    modelscope/DiffSynth-Studio: Enjoy the magic of Diffusion models!

    インストールにはPython, Conda環境が必要で、以下の技術によって構成されています。

  • Stable Diffusion 3 で最高の結果を得る方法

    Stable Diffusion 3 で最高の結果を得る方法

    Stable Diffusion開発元の、Stability AI Japan – External AdvocateのD̷ELLさんによる寄稿です。

    先日、Stable diffusion 3 Mediumのモデルが公開され、Stable Image APIでもLargeモデルが利用可能となりました。

    Stable Diffusion 3の真の性能を発揮するには、既存のStable Diffusionとは違うテクニックが必要なことをご存知でしょうか?今回は、Stable Diffusion 3の性能を最大限に引き出す方法 をご紹介したいと思います。
    ※ 本記事の内容は、Replicate, Inc.fofr氏によって執筆された記事を和訳したものです。

    Stable Diffusion 3で変わった重要なポイント

    記事によると、SD3で変わった重要なポイントは以下の3点です。

    • 長いプロンプトに対応し、テキストエンコーダーにより異なる品質の画像を生成できる
    • プロンプトは詳細かつ具体的に記述し、 ネガティブプロンプトは使用しないこと
    • 推奨設定は 28ステップ、3.5~4.5のCFG、dpmpp_2m sgm_uniformスケジューラー付きサンプラー、3.0シフト

    どういうことなのか、ぜひ記事本文をご覧ください。

    【和訳】Stable Diffusion 3 で最高の結果を得る方法

    How to get the best results from Stable Diffusion 3
    Posted June 18, 2024 by @fofr
    https://replicate.com/blog/get-the-best-from-stable-diffusion-3

    Stability AI は最近、2億パラメータのテキストから画像へのモデルである Stable Diffusion 3 Medium の重みをリリースしました。このモデルは、フォトリアリズム、タイポグラフィ、およびプロンプトの追従に優れています。

    公式の Stable Diffusion 3 モデルを Replicate で実行できますし、商用利用も可能です。また、私たちは Diffusers と ComfyUI の実装をオープンソース化しました(ComfyUI ガイドを読む)。

    このブログ投稿では、Stable Diffusion 3 (SD3) を使用して最高の画像を得る方法、特に以前の Stable Diffusion モデルとは少し異なるプロンプトの方法について説明します。

    実験を助けるために、ここで議論したすべての設定を公開している SD3 エクスプローラーモデル を作成しました。

    SD3 のバージョンの選び方

    Stability AI は、できるだけ多くのデバイスで実行できるように、SD3 Medium をさまざまな方法でパッケージ化しました。

    SD3 は3つの異なるテキストエンコーダーを使用します。(テキストエンコーダーは、プロンプトを受け取り、モデルが理解できる形式に変換する部分です)。これらの新しいテキストエンコーダーの1つは非常に大きく、多くのメモリを使用します。 SD3 Hugging Face Weight を見ると、異なるテキストエンコーダー構成の4つのオプションが表示されます。利用可能な VRAM に基づいて、どれを使用するかを選択する必要があります。

    sd3_medium_incl_clips_t5xxlfp8.safetensors

    このエンコーダーには、モデルの重み、2つの CLIP テキストエンコーダー、および圧縮 fp8 フォーマットの大きな T5-XXL モデルが含まれています。シンプルで最高の結果を得るために、これらの重みをお勧めします。

    sd3_medium_incl_clips_t5xxlfp16.safetensors

    sd3_medium_incl_clips_t5xxlfp8.safetensors と同じですが、T5 部分がそれほど圧縮されていません。fp8 の代わりに fp16 を使用することで、画像品質がわずかに向上しますが、メモリ使用量が増加します。

    sd3_medium_incl_clips.safetensors

    このバージョンでは T5 要素を完全に排除しています。2つの CLIP テキストエンコーダーだけで重みを含みます。VRAM が少ない場合に良いオプションですが、完全版とは大きく異なる結果が得られる可能性があります。このバージョンでは、プロンプトの追従性が低下し、画像内のテキストの品質も低下する可能性があります。

    sd3_medium.safetensors

    このモデルはテキストエンコーダーなしの基本的な重みだけです。これらの重みを使用する場合は、テキストエンコーダーを別々に読み込むようにしてください。Stability AI はこれに対する ComfyUI ワークフローの例 を提供しています。

    プロンプトの作成

    SD3 の使用における大きな変化はプロンプトの作成です。非常に長く詳細なプロンプトを入力しても、プロンプトに非常に忠実な画像を返すことができます。もう CLIP テキストエンコーダーの77トークンの制限を気にする必要はありません。

    プロンプトは10,000文字、または1,500語以上にすることができます。実際にはそのような長さは必要ありませんが、プロンプトの長さを心配する必要はありません。

    非常に長いプロンプトの場合、現時点では画像にどの部分が反映されるかを予測するのは難しいです。プロンプトのどの部分にモデルが注意を払うかは明確ではありません。しかし、プロンプトが長く複雑になるほど、何かが欠ける可能性が高くなります。

    ネガティブプロンプトを使用しないでください

    SD3 はネガティブプロンプトでトレーニングされていません。ネガティブプロンプトは SD3 では期待通りに機能しません。すでに SD3 を試したことがある場合、ネガティブプロンプトを与えると画像が変わることに気付いたかもしれませんが、その変化は意味のあるものではありません。ネガティブプロンプトは不要な要素を除去するのではなく、コンディショニングにノイズを加え、単に出力を変動させるだけです。

    プロンプト技術

    長いプロンプトが許可されるようになった今、望む画像を説明するために平易な英語の文章と文法を使用できます。以前のようにカンマで区切られたキーワードを使用することもできますが、具体的なものを目指す場合は、プロンプトを詳細かつ明確にすることが重要です。このレベルのプロンプトは、Midjourney バージョン6や DALL·E 3 のプロンプトの方法に似ています。

    画像の要素を説明するときは、その説明が画像の他の部分にも適用されないようにするために、曖昧さのない言葉を使うようにしてください。

    以下は、SD3 で良好なプロンプト追従性を示す長く詳細なプロンプトの例です:

    a man and woman are standing together against a backdrop, the backdrop is divided equally in half down the middle, left side is red, right side is gold, the woman is wearing a t-shirt with a yoda motif, she has a long skirt with birds on it, the man is wearing a three piece purple suit, he has spiky blue hair(例を見る

    画像

    a man wearing 1980s red and blue paper 3D glasses is sitting on a motorcycle, it is parked in a supermarket parking lot, midday sun, he is wearing a Slipknot t-shirt and has black pants and cowboy boots (例を見る

    画像

    a close-up half-portrait photo of a woman wearing a sleek blue and white summer dress with a monstera plant motif, has square white glasses, green braided hair, she is on a pebble beach in Brighton UK, very early in the morning, twilight sunrise(例を見る

    画像

    各テキストエンコーダーに異なるプロンプトを使用

    3つのテキストエンコーダーを持つようになったため、技術的には各エンコーダーに異なるプロンプトを渡すことができます。例えば、CLIP テキストエンコーダーには画像の一般的なスタイルとテーマを渡し、T5 部分には詳細な主題を渡すことができます。我々の実験では、まだ特別な

    技法は見つかっていませんが、引き続き試行しています。

    CLIP と T5 エンコーダーに異なるプロンプトを渡した例はこちら

    triple_prompt_t5
    the words written across the sky say “hello world”, written in clouds from a plane, above the dog
    空一面に書かれた文字は「hello world」と書いてあります。

    triple_prompt_clip_g
    a cartoon, dreamy anime background, a photo of a dog
    漫画、夢のようなアニメの背景、犬の写真

    triple_prompt_clip_l
    a cartoon, dreamy anime background, a photo of a dog
    漫画、夢のようなアニメの背景、犬の写真

    画像
    https://replicate.com/p/vmp5h000c9rgj0cg5d6813mmnr

    設定

    SD3 では、画像出力を変更するための多くの新しい設定があります。以下に良いデフォルト設定をいくつか推奨しますが、自分の好みに合わせて実験することをお勧めします。

    要約すると、以下の設定から実験を開始することをお勧めします(詳細は後述します):

    • 28ステップ
    • 3.5から4.5の CFG
    • dpmpp_2m sgm_uniform スケジューラー付き サンプラーと
    • 3.0 のシフト

    幅と高さ

    SDXL と同様に、SD3 は約1メガピクセルで最高の出力を提供します。解像度は64で割り切れる必要があります。以下の一般的なアスペクト比に対して、次の幅と高さを推奨します:

    • 1:1 – 1024 x 1024(正方形の画像)
    • 16:9 – 1344 x 768(シネマティックおよびワイドスクリーン)
    • 21:9 – 1536 x 640(シネマティック)
    • 3:2 – 1216 x 832(風景のアスペクト比)
    • 2:3 – 832 x 1216(ポートレートのアスペクト比)
    • 5:4 – 1088 x 896(風景のアスペクト比)
    • 4:5 – 896 x 1088(ポートレートのアスペクト比)
    • 9:16 – 768 x 1344(長い縦長の画像)
    • 9:21 – 640 x 1536(非常に背の高い画像)

    以前に Stable Diffusion 1.5 や SDXL をトレーニングされた解像度よりも大きな解像度で使用したことがある場合、歪んだ画像、複数の頭、繰り返しの要素など、奇妙な出力に馴染みがあるかもしれません。(以前の SDXL ガイドでいくつかの例を見られます。)これは SD3 では発生しません。SD3 では、予想される解像度よりも大きくすると、中央に合理的な画像があり、周辺には奇妙な繰り返しのアーティファクトが表示されます(ここに大きすぎる画像の推論結果の例があります)。同様に、解像度が小さすぎると、画像が厳しくトリミングされます(ここに小さすぎる画像の推論例があります)。

    画像
    大きすぎる画像の推論結果の例
    画像
    小さすぎる画像の推論例

    ステップ数

    この設定は、モデルが画像を生成する際のノイズ除去ステップの数です。SDXL では通常この値は20前後であり、Lightning モデルでは4ステップです。ステップ数は画像生成にかかる時間の主要な要因です。ステップが多いほど良い画像、ステップが少ないほど早く画像が生成されます。

    SD3 では28ステップを推奨します。この数値は、興味深い前景と背景を持ち、VAE アーティファクト(生成された画像に見られるノイズパターン)が少ないシャープな画像を提供し、それほど時間もかかりません。

    ステップを増やすことの効果

    ステップが画像品質に与える影響は、以前の Stable Diffusion モデルとは異なります。従来のモデルでは、ステップが品質を段階的に向上させ、ある点で効果が頭打ちになり、画像がほぼ静的になるのが一般的でした。しかし、SD3 ではステップが増えると異なる現象が見られます。

    SD3 は通常、8〜10ステップである程度見栄えのする画像を生成できます(ここに10ステップの推論結果の例があります)。

    画像
    10ステップの推論による画像


    ただし VAE ノイズアーティファクトや一部の画像が一貫性を欠く場合があります。これはプロンプトとシードにも依存します。ステップが増えると、より一貫性があり興味深い画像が得られます。最適な範囲は26〜36ステップです。

    画像とその主題は、ステップ値によって劇的に変わることもあります。例えば、人の曖昧なプロンプトの場合、ステップが増えるにつれて年齢、性別、民族が変わることがあります。これらの2つの出力を比較してください:10ステップのものと、同じ設定とシードを使用した 32ステップのもの

    ガイダンススケール

    ガイダンススケール(または CFG、classifier-free guidance)は、出力がプロンプトにどれだけ似ているべきかをモデルに指示します。SD3 では、SD 1.5 や SDXL よりも低い値を使用する必要があります。

    3.5から4.5の範囲を推奨します。出力が「焼けた」ように見え、コントラストが強すぎる場合は CFG を下げてください(CFG が高すぎる場合の焼けた画像の例)。

    また、CFG を低くすると、異なるテキストエンコーダーオプション間で出力の類似性が高まることも指摘しておく価値があります(つまり、T5 テキストエンコーダーを fp8、fp16 で使用するかどうかに関係なく)。非常に低い CFG を使用する場合、大きな T5 エンコーダーを省略しても画像品質にはほとんど影響しません。例えば、同じシードと CFG 1.5 を使用した2つの出力を比較してください:fp16 を使用した出力と、非常に似ている CLIP のみの出力

    サンプラーとスケジューラー

    異なるツールではこれらのラベルが異なりますが、基本的にはモデルがノイズを管理するために使用するアルゴリズムです。異なるアルゴリズムは異なる画像を生成します。

    SD3 では、ComfyUI で dpmpp_2m サンプラーと sgm_uniform スケジューラーを使用することを推奨します。Automatic1111 では dpm++ 2M を使用します。Euler も良い結果をもたらすことがあります。

    一部のサンプラーとスケジューラーは SD3 では機能しません。特に ancestral と sde サンプラー、および人気のある SDXL ノイズスケジューラー karras は機能しません。

    シフト

    シフトは、SD3 で変更できる新しいパラメーターです。これはタイムステップスケジューリングシフトを表し、シフト値が高いほど高解像度でノイズをうまく管理できます。基本的には、ノイズがよりよく処理され、シフトを使用すると見栄えの良い画像が得られます。タイムステップスケジュールシフトの理論については、SD3 の研究論文 を参照できます。

    3.0 は人間の好みの評価に基づく推奨デフォルト値ですが、もちろん変更することもできます。ComfyUI では、「ModelSamplingSD3」ノード

    でこの値を見つけることができ、Diffusers では FlowMatchEulerDiscreteScheduler にシフトパラメーターを渡すことができます。

    シフト値 6.0 は人間の評価で高評価を得ており、試す価値があります。2.0 や 1.5 のような低い値を使用すると、より生の「未処理」な見た目の画像が得られ、特定のプロンプトにはうまく機能します。

    結論

    これらのヒントを使用して Stable Diffusion 3 を楽しんで実験してください!SD3 を使用する際の詳細については、最近のブログ投稿をチェックしてください:

    解説

    プロンプトの作成

    Stable Diffusion 3の大きな特徴は、そのプロンプトの柔軟性です。以前のバージョンではプロンプトの長さが制限されていましたが、今回のバージョンでは10,000文字, 1,500語以上まで入力できます。これにより、非常に詳細で複雑な指示が可能になり、具体的なイメージをより正確に生成できるようになりました。

    例として、途中でいくつかサンプルが出てきましたね。

    a man and woman are standing together against a backdrop, the backdrop is divided equally in half down the middle, left side is red, right side is gold, the woman is wearing a t-shirt with a yoda motif, she has a long skirt with birds on it, the man is wearing a three piece purple suit, he has spiky blue hair

    これを和訳すると、以下のようになります。

    男性と女性が背景を背にして立っています。背景は中央で左右に均等に分かれており、左側は赤、右側は金色です。女性はヨーダのモチーフが描かれたTシャツを着ており、鳥のデザインが入った長いスカートを履いています。男性は3ピースの紫のスーツを着ており、青いとがった髪をしています。

    既存のStable Diffusionのプロンプトに直すと、こんな感じでしょうか。

    2 characters, man, woman, standing, red background, gold background, split background, Yoda T-shirt, bird design skirt, long skirt, purple suit, 3-piece suit, blue spiky hair

    ですが、Stable Diffusion 3では、サンプルのような細かいプロンプトが指定可能となりました。
    前回の記事でご紹介したような、ChatGPTを用いてプロンプトを生成する方法は、意図せず有効打だったことが判明しましたね。

    参考:ChatGPTを用いたプロンプト生成例

    Stable Diffusion Prompterを利用

    画像

    テキストエンコーダー

    テキストエンコーダーの構成も重要なポイントです。Stable Diffusion 3は3つの異なるテキストエンコーダーを使用しますが、その中でも特に大きなT5エンコーダーは多くのメモリを必要とします。このエンコーダーを使うと、より高品質な画像が得られます。メモリが限られている場合は、CLIPエンコーダーだけを使うオプションもあります。※ その場合はプロンプトの追従性や画像内のテキストの品質が少し落ちるかもしれません

    ご自身の環境に合わせた調整ができることにより、可能性が広がりますね。

    プロンプト技術

    プロンプトの作成方法についても注意が必要です。Stable Diffusion 3はネガティブプロンプトには対応していないので、**ネガティブプロンプトを使用しても期待通りの結果は得られません。**代わりに、プロンプトを詳細かつ具体的に記述することで、より良い結果を得ることができます。
    先に記載したように、「赤と青の3Dメガネをかけた男性がバイクに座っている」といった具体的な描写を使うと、モデルがより正確にイメージを生成してくれます。

    設定

    推奨される設定は以下の通りです。

    • ステップ数:28ステップ。これは画像のノイズ除去ステップの数で、増やすとよりシャープで詳細な画像が得られます。
    • CFG(ガイダンススケール):3.5から4.5。この値が高すぎると画像が「焼けた」ように見えることがありますので、注意が必要です。
    • サンプラー:dpmpp_2m。これはノイズを管理するためのアルゴリズムで、異なるサンプラーを試すことで画像の雰囲気が変わります。
    • スケジューラー:sgm_uniform。これもノイズ管理に関する設定で、この組み合わせが安定した結果をもたらします。
    • シフト:3.0。タイムステップスケジューリングシフトの値で、これを調整することで高解像度の画像のノイズ管理が改善されます。

    これらの設定を基にして、自分の好みに合わせて実験してみると良いですね。特に、ステップ数やCFGを微調整することで、より自分のイメージに近い結果が得られるはずです。

    まとめ

    いかがでしたか?新しい設定や技術を活用することで、これまで以上に素晴らしい画像が生成できると思います。

    Stable Diffusion 3 Mediumは、以下のURLからダウンロードが可能です。

    最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表 — Stability AI Japan

    Stable Diffusion 3 Large以上のモデルは、以下の記事を参考にAPIをご利用ください。

    みなさまがより新しい画像生成体験ができることを祈っております。最後までご覧いただき、ありがとうございました。

    こちらの記事はDELL氏にご寄稿いただいた記事を読みやすく推敲させていただきました。価値あるレポートを作成いただいたDELL氏および原作のfofr氏に編集部より御礼申し上げます。

    あなたはStable diffusion 3 の真の性能を発揮できていない – Qiita

  • #広告業界で使えるAI! Stable Image Ultraテクニック(2)実は個性的な「Origami」でトンマナを探ろう

    #広告業界で使えるAI! Stable Image Ultraテクニック(2)実は個性的な「Origami」でトンマナを探ろう

    AICUでお世話になっております、はねごろう です。
    長年、広告映像やバーチャルライブなどのお仕事をしてきた経験を「つくる人をつくる」の時代に活かしていくプロデューサーのしごとをしています。

    先日AICU AIDX Labの技術の方々が Stable Diffusion公式APIで1,800枚の画像を生成してくれたのですが、実際にどれぐらい使えそうな絵があるか、選定するテクニックも含めて広告業界のビジュアルとしての使い方を複数回に分けて探っていきたいと思います。

    #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

    Stable Diffusion – Generate API https://platform.stability.ai/

    各モデルの公称特性

    Stable Image Ultra 1メガピクセル生成(以下、Ultra)
    Stable Image Core 1.5メガピクセル生成(以下、Core)
    Stable Diffusion 3 Large 80億パラメータモデル(以下SD3L)
    Stable Diffusion 3 Medium 20億パラメータモデル(以下、SD3M)

    左上がSD3L、右上がUlta、左下がSD3LとUltraの合成、右下が3Mです。UltraとSD3LはAPIではなく文字プロンプトでスタイルを指定し、共通のシードでは同じような絵が出る傾向があります。
    技術チームの印象としては、「cinema, analog filmなどの実写スタイル、SD3LとUltraの間での比較を商業的価値でレビューしてみてほしい」という所見を頂きましたので挑戦していきます。

    評価方法

    映画やVFXなどの評価と同じく、生成した静止画をつなげた(ラッシュ)を以下のツールを使って再生していきます。

    ❏動画再生ツール Keyframe MP https://zurbrigg.com/keyframe-mp

    1枚づつラッシュを確認し、以下の基準で分類していきます。

    ❏評価基準は以下の3段階です。
    [Bad]画面内で画風の統一がない、不快なアナトミー破綻、中指を突き立てている(商品性・グロ・NSFW)
    [Good]商品性、キャッチーな構図、明らかなアナトミー破綻がない、検討に値する。
    [Best]クライアント直行できるレベル、トップ画像に使える、絵としてほぼ修正が必要ない。

    評価対象は多様なスタイルのうち、以下のリアル系スタイルです。

    ここでの「スタイル」はAPIでUltraを指定し、プロンプトにスタイルを書くだけ、というとても簡単なものです。

    詳しい生成方法は AICU media の過去記事「#10分で学べるAI」をご参照ください。
    (シリーズの最後にまとめて生成できるスクリプトを紹介します)

    Origami スタイル

    本来は折り紙(国際語:Origami)風の画風になるOrigamiスタイル。Stable Diffusion Ulraでのスタイルとしての安定感は低いのですが、派手な絵や「不可能な服」が生成されて、使い道次第ではデザインのトンマナ(トーンとマナー)を探る際に使えそうな”スーパーショット”が生成されやすい個性的なスタイルとして推せます。

    Best

    ビビッドなカラー、髪色、パーカー、表情が魅力的です。

    画像

    某有名キャラクターを連想させつつも、売ってなさそうなパーカー、そして意味深なメッセージカードで隠された表情が魅力的です。

    画像

    Origamiはなぜか指の破綻が少ない傾向にあります。
    色がシンプルなのでレタッチしやすいという利点もあります。

    画像

    リアル系の絵とアニメ系のグラフィックが50%ぐらいの確率で生成されます。

    画像
    画像
    画像
    画像

    こちらは条件を完璧に満たしていて、AICUのカバーアートとしても使えるビジュアル。

    画像

    一方で「Origami」要素はないので、Ultraの場合は「Origami」というスタイルは特に強く学習されているわけではないが、ビビッドなカラーで比較的安定して良い絵が出るプロンプトであることが理解できましたでしょうか。

    Bad

    実は、Badが出づらい。なんと21枚中5枚、しかも非常に惜しいです。アナトミー破綻が少なく、背景のボケが良いせいかもしれません。
    グラフィックデザインと実写系が50%ぐらいの確率で出ますので「実写系?」のみを期待して使うと損をしますね。

    表情もライティングも指の演技も良い…掌だけが惜しかった。

    画像

    演技も表情もいいけど、指がスレンダーすぎて残念。

    画像

    これぐらいならレタッチで消せますね。

    画像

    アニメっぽい?いやいや、こういう自然派おねえさんのイラスト素材は需要ありますよね。左手の指はレタッチで消せますね。

    画像

    指が難しいことになっていますが、大胆なレイアウト、ファッションとイラストレーションとしては好ましい方向ではあります。

    画像

    以上、使い道次第ではデザインのトンマナ(トーンとマナー)を探る際に使えそうな”スーパーショット”が生成されやすい個性的なスタイルとして推せる Stable Image Ultraの「Origami」スタイルを紹介しました。
    「Origami」要素はないので、Ultraの場合は「Origami」というスタイルは特に強く学習されているわけではないのですが、ビビッドなカラーで比較的安定して良い絵が出るプロンプトであること、Badでも多様で個性的、かつレタッチで修正可能な絵が出やすいという事がわかりました。

    ところで本来の「Origami」スタイルとはどんな絵なのでしょうか?APIでスタイル指定ができる Stable Image Core で試してみたテストシーケンスがこちらになります。

    念の為、同様の実験をSD3Largeにおいてプロンプトで指定しました(SD3LargeはAPIでのスタイル指定はありません)。

    同じようにインパクトがほしい、実写系なのかイラストレーションなのか…どれぐらいのリアリズムが欲しいのか?などトンマナを探りたいときに、まず試してもらいたいスタイルです。

    はねごろうのスタイル探求は続く!

    #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

    その他の全画像はこちらのアルバムで確認できます。
    Google Photo https://j.aicu.ai/SD3GP

    せっかくなので「SD3美女コンテスト」を開催したいと思います。
    上記のアルバムの画像において、著作権は主張しませんので、良い画像があったら ハッシュタグ #SD3GP で紹介してください。

    AICU AIDX Labにイケてる男子版もつくってもらおうっと!

    読者のみなさんもなにかリクエストがございましたら X@AICUai へメンション、DMいただけると幸いです。
    Stable Diffusionを使った画像生成やVFX、広告技術についての技術的なお問い合わせについては AICU AIDX Lab – sai@aicu.ai  までどうぞ

    <続きます>

    画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)j.aicu.ai

    2,640円(2024年06月10日 11:09時点 詳しくはこちら)

    Amazon.co.jpで購入する