タグ: SD

  • Stability Matrixで Automatic1111が起動しない…そんなときに試してほしいノウハウ #SD黄色本

    Stability Matrixで Automatic1111が起動しない…そんなときに試してほしいノウハウ #SD黄色本

    大好評の「画像生成AI Stable Diffusionスタートガイド」(通称 #SD黄色本 )ですが、GitHubでのソースコード公開に加えて、discordでのサポート、noteメンバーシップ向け掲示板でのサポートがあります。

    画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

    Amazon.co.jpで購入する

    AICU: AI Creators Union|AICU media


    今回はStability Matrixを使ったローカルGPU、Windows11/Mac(Apple Silicon)環境を中心に discord AICUサーバー「SD黄色本サポート」チャンネルに寄せられたトラブルシューティングノウハウをお送りします。

    ❏書籍「画像生成AI Stable Diffusionスタートガイド」の詳細についてはこちら

    書籍[画像生成AI Stable Diffusionスタートガイド]

    ❏Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について (2024/5/22)

    Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

    ❏Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施

    Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施


    過去の #SD黄色本 記事についてはこちらをご参照ください

    SD黄色本 アーカイブ

    Checkpointの切り替えに失敗する

    M3 MacBook Pro で報告されたケースですが、画像生成AIのモデル、つまり SD1.5やSDXL、もしくは bluePencilXL と言ったモデルの切り替えに失敗することがあります。
    エラーメッセージの例

    changing setting sd_model_checkpoint to bluePencilXL_v600.safetensors [83f960c769]: AttributeError

    Stability Matrixにはこのようなログが表示されます。

    Python 3.10.11 (main, May  7 2023, 17:32:05) [Clang 16.0.3 ]
    Version: v1.9.4
    Commit hash: feee37d75f1b168768014e4634dcb156ee649c05
    ControlNet init warning: Unable to install insightface automatically. Please try run `pip install insightface` manually.
    Launching Web UI with arguments: --medvram-sdxl --api --skip-torch-cuda-test --skip-python-version-check --no-half --gradio-allowed-path /Users/username/apps/StabilityMatrix/Images
    no module 'xformers'. Processing without...
    no module 'xformers'. Processing without...
    No module 'xformers'. Proceeding without it.
    Warning: caught exception 'Torch not compiled with CUDA enabled', memory monitor disabled
    ControlNet preprocessor location: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/extensions/sd-webui-controlnet/annotator/downloads
    2024-06-11 08:11:57,602 - ControlNet - INFO - ControlNet v1.1.449
    Loading weights [1449e5b0b9] from /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/models/Stable-diffusion/animagineXLV31_v30.safetensors
    2024-06-11 08:11:57,929 - ControlNet - INFO - ControlNet UI callback registered.
    Running on local URL:  http://127.0.0.1:7860
    
    To create a public link, set `share=True` in `launch()`.
    Creating model from config: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/repositories/generative-models/configs/inference/sd_xl_base.yaml
    /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/venv/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
      warnings.warn(
    Startup time: 8.8s (prepare environment: 0.4s, import torch: 3.3s, import gradio: 0.8s, setup paths: 1.1s, initialize shared: 0.2s, other imports: 0.9s, load scripts: 0.8s, create ui: 0.5s, gradio launch: 0.4s, add APIs: 0.5s).
    changing setting sd_model_checkpoint to bluePencilXL_v600.safetensors [83f960c769]: AttributeError
    Traceback (most recent call last):
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/options.py", line 165, in set
        option.onchange()
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/call_queue.py", line 13, in f
        res = func(*args, **kwargs)
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/initialize_util.py", line 181, in <lambda>
        shared.opts.onchange("sd_model_checkpoint", wrap_queued_call(lambda: sd_models.reload_model_weights()), call=False)
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 860, in reload_model_weights
        sd_model = reuse_model_from_already_loaded(sd_model, checkpoint_info, timer)
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 793, in reuse_model_from_already_loaded
        send_model_to_cpu(sd_model)
      File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 662, in send_model_to_cpu
        if m.lowvram:
    AttributeError: 'NoneType' object has no attribute 'lowvram'
    
    Loading VAE weights specified in settings: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/models/VAE/sdxl_vae.safetensors
    Applying attention optimization: sub-quadratic... done.
    Model loaded in 28.7s (load weights from disk: 0.8s, create model: 1.3s, apply weights to model: 10.7s, apply float(): 8.3s, load VAE: 2.0s, load weights from state dict: 0.1s, hijack: 0.6s, load textual inversion embeddings: 0.7s, calculate empty prompt: 3.9s).

    基本的にはこのようなログをChatGPTやClaude、Gemini、Perplexityなどに貼り付けていただけると解決する事も多いですのでぜひやってみてください。

    以下はChatGPT-4oでの上記のログの回答例です。

    AttributeError:

    • AttributeError: ‘NoneType’ object has no attribute ‘lowvram’: このエラーはsd_modelがNoneであることを示しています。つまり、モデルが正しくロードされていない可能性があります。この問題は、モデルのロードプロセスで何かが失敗しているか、チェックポイントファイルが正しくないか、または欠落しているために発生することがあります。

    ひとえに「メモリが足りない」という原因が多かったりします。もちろん、動作中に多くのコマンドや操作を投げることは避けたほうがいいです。多くのケースではケースでは起動しているChromeなどのWebブラウザ、不要なタブを閉じて再起動したり、再度選択を試してみたらできた、という事もよくあります。

    ロードするモデルはSDXL系ですと4-6GBのファイルサイズがあり、VRAMやメインメモリにそれをロードするだけの容量がなければエラーになります。起動時オプションで「lowvram」というオプションがありますので、8GB以下のVRAMであればチェックオンしておくと動作の不安定を回避することができるかもしれません。

    よくある他の事例としては
    ・checkpointが正しい場所にあるか
    →modelsフォルダ、その下の「Stable Diffusion」です
    StabilityMatrix-win-x64\Data\Models\StableDiffusion

    ・ダウンロードの途中で終わってしまっている(ファイルが壊れている)
    →削除してやり直し

    といったケースがあります。いずれにしてもモデルの切り替えに失敗しているときはStability MatrixのコンソールやAutomatic1111右下に表示されていますのでエラーログを確認しましょう。
    コツは「あきらめないこと」です!特にMac版。

    ModuleNotFoundError: No module named ‘jsonmerge’

    2024/7/12にご報告いただいたケース
    (新品のWindows11)
    > Stable Diffusion Web UI v1.9.4をパッケージに追加して、Launchを押すと、いろいろ文字が出て、最後に

    File “C:\Data\Packages\stable-diffusion-webui\repositories\k-diffusion\k_diffusion\config.py”, line 6, in <module>
    from jsonmerge import merge
    ModuleNotFoundError: No module named ‘jsonmerge’

    と表示されて止まってしまいます。

    まず、基本的なところで、Stability Matrixを利用すると、個別にPythonをインストールする必要はなくなります。
    つまり、想像するに、ローカルで既にインストールされたPython環境とぶつかっている可能性があります。

    もしWindows + R →「cmd」でコマンドプロンプトを起動して、 python -V と打って Enter ボタンを押して、上記のように Python 3.10.6 と出るか、もしくは「コマンドが見つかりません」というエラーが出れば問題なしですが、他のバージョンのPythonが出てくるようですと、まずはいったん、Pythonをアンインストールしたほうがいいと思います。

    ・Stability MatrixのAutomatic1111を更新する
    →Packageでで確認できます

    ・Stability MatrixのAutomatic1111を削除してインストールし直す
    →生成済みの画像も削除される可能性がありますので一旦退避しましょう。

    ・Stability Matrixをアンインストールして入れ直す

    ・[上級者向け]足りないモジュールを手動でインストールする
    Redditで同様の不具合が報告されています
    Error: ModuleNotFoundError: No module named ‘jsonmerge’
    https://www.reddit.com/r/StableDiffusion/comments/13e6srs/error_modulenotfounderror_no_module_named/

    ・[非常に簡単な方法]Windows11に新ユーザをつくる
    設定→アカウント→その他のユーザー→「アカウントの追加」で解決することが多いです。
    これは「demo」というユーザを作成している例です。

    画像

    解決策:Google Colabを並列にする

    Stability Matrixは手元のGPUで使えて嬉しいのですが、本格的に画像生成をしたりオリジナルのLoRAを学習させたりといった複数の作業を行うときは、1台のPCでも辛くなってきます。
    Google Colab Proの環境は有料ではありますが、Proのライセンスであればクリーンなインストール環境、高速なGPU、高速な回線であり、特に困ることは少なくなります。
    ローカルのGPUをメインで使う場合も問題分析がしやすくなります。

    本書ではGoogle Colabでの環境構築やColabで動くノートブックも並列で解説・メンテナンスしていますので、ぜひとも使ってみてくださいね!

    画像

    以上、「画像生成AI Stable Diffusionスタートガイド」のトラブルシューティング情報でした!

    画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

    Amazon.co.jpで購入する

    書籍のサポートリポジトリやAICU Inc. discord サーバー「SD本サポート」チャンネル ⁠はこちら(有料)

    https://note.com/aicu/n/n08c33f7102ab

  • Stability AI、新コミュニティライセンス「Stability AI Community License」を発表 – 研究・非商用・小規模事業者の商用利用を無償化

    Stability AI、新コミュニティライセンス「Stability AI Community License」を発表 – 研究・非商用・小規模事業者の商用利用を無償化

    ニュースです。2024年7月5日、Stability AIが「Stability AI Community License」を発表しました。当初 SD3 に関連付けられていた商用ライセンスがコミュニティ内で混乱と懸念を引き起こしていたことを受け止め、個人クリエイターと中小企業向けのライセンスが改訂されました。
    公式リリースよりお送りします。

    Community License — Stability AI

    Stability AIは、新しく「Stability AI Community License」を発表しました。このライセンスでは、研究、非商用、商用利用を無償で許可されます。年間収益が100万米ドル(現在のレートで約1億6千万円)を超え、Stability AIのモデルを商用製品やサービスに使用する場合のみ、有料のエンタープライズライセンスが必要となります。

    今回の発表は、Stability AIの利用者とオープンソースの基本原則に忠実でありたいと考えている行動の表明、とされています。

    • アーティストフレンドリーでクリエイターの自由を尊重
    • 研究によりそい
    • 透明性と明確性を備えたライセンス
    • コミュニティ重視と価値創出に基づいたオープンソース哲学
    • ユーザーとの継続的なコミュニケーションとエンゲージメントへの貢献

    コミュニティへのアップデート

    Stability AIは、高品質の生成AIモデルとテクノロジーを開発し、生成AIのイノベーターとメディアクリエイターのコミュニティに広く共有することに尽力しています。しかしながら、最新のリリースであるSD3 Mediumは、コミュニティの皆様の高い期待に沿えなかったことを認識しています。

    皆様からのフィードバックを受け止め、懸念事項に対処し、オープンソースコミュニティへのサポートを継続するために改善を行いました。

    ライセンスを改訂します

    SD3に関連して当初設定していた商用ライセンスが、コミュニティ内で混乱と懸念を引き起こしたことを認識し、個人クリエイターと中小企業向けのライセンスを改定しました。

    新しい「Stability AI Community License」の下でリリースされるモデルは、以前のライセンスよりもはるかに幅広く、無料で使用できます。このライセンスは、SD3 Mediumを含む最近のStability AIモデルを網羅しています。

    今回のライセンス改定の目的:

    • 非商用利用は引き続き無料: 自分のデバイスにStability AIモデルをインストールして実行する個人や組織 (直接、またはそれらを含む無料のオープンソースパッケージをインストールすることを介して) は、非商用利用の場合、引き続き無料で使用できます。これは、無料で研究成果を発表する研究者、無料のオープンソース開発者、常勤の学生、教師、趣味で利用する方々、モデルを改良して配布する「ファインチューナー」など、コミュニティの大部分を対象としています。
    • 個人利用と中小企業に適した無料の商用利用: 年間収益が100万米ドル (または現地通貨換算) を超えない限り、「Stability AIコミュニティライセンス」の下でStability AIのモデルを使用する場合、派生物 (Stable Diffusion 3のファインチューンなど) を作成する場合、または製品やサービスにモデルを統合する場合、無料で利用できます。
    • 制限の緩和: Stability AIコミュニティライセンス契約書では、作成できるメディアファイル (画像、動画など) の数に制限はありません。このライセンスが適用される限り、違法行為やライセンスまたは利用規約に明らかに違反する行為に使用しない限り、Stability AIが結果として得られた画像、ファインチューン、またはその他の派生物を削除するように要求することはありません。たとえStability AIに料金を支払わなかった場合でも同様です。
    • 商用ユーザーのみが自己申告を必要とする: Stability AIのモデルまたは派生物を独自の商用製品またはサービスに統合し、年間収益が100万米ドル未満の場合、Stability AIに料金を支払う必要はありません。ただし、この簡単なフォームに記入し、最も関心のあるモデルを指定してください。年間収益が100万米ドル (または現地通貨換算) を超えた場合は、Stability AIに連絡して、個別のエンタープライズライセンスを取得する必要があります。

    モデル品質の向上について

    SD3 Mediumのリリース前に行った初期テストでは、プロンプトの遵守、多様性、ディテール、全体的な品質の点で、SDXLと比較して、ほとんどの場合、はるかに優れたベースモデルであることが示されました。しかし、コミュニティはすぐに、主にトレーニングセットであまり見られなかった体のポーズや単語に関連する、いくつかの重大な品質の問題を特定しました。

    これらの懸念に対処するため、Stability AIは2つの主要な分野に焦点を当てています。

    • 継続的な改善: SD3 Mediumはまだ開発途上のモデルです。今後数週間のうちに、大幅に改善されたバージョンをリリースすることを目指しています。
    • モデルの使用方法: Stability AIは、この新しいアーキテクチャとモデルを最大限に活用する方法を研究しています。モデルを使用するための最良の方法と、それを微調整する方法についてさらに詳しく知ったことは、コミュニティの他のユーザーと同様に、Stability AIの調査結果も共有していく予定です。

    今後の展開

    ライセンスの更新が完了次第、FAQに追加の詳細情報を掲載する予定です。

    今後とも、オープンな生成AIの限界を押し広げていきますので、ご支援のほどよろしくお願いいたします。

    — Stabilityチーム


    ▶Stability AIのソリューションを使ったPoCシステム開発やカスタマイズ、画質向上やコスト分析などの案件は sai@aicu.ai までどうぞ。

    Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

    Stable Diffusion 3 を Google Apps Scriptで利用する


    ■生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携

    [S.] 過去の関連記事はこちら!

    Stability AI Fan!|AICU media|noteStability AIのサービスを応援するマガジンです

    画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

    • 【文字が描ける!?】Anima_pencil-XL-v5.0.0リリース。作者ぶるぺん氏「ここ数年で最高クラス」

      【文字が描ける!?】Anima_pencil-XL-v5.0.0リリース。作者ぶるぺん氏「ここ数年で最高クラス」

      本日はAICU編集部が開発した書籍「画像生成AI Stable Diffusionスタートガイド」についての話題をお送りします。「#SD黄色本」として親しまれ発売から3ヶ月が経過しました本書ですがおかげさまで好評で編集部も胸をなでおろしております。
      ところで、書籍の中でイラストレーション生成用のモデルとして中心的に紹介している「blue_pencil-XL」の作者・ぶるぺんさんより新しいモデルの最新バージョンがリリースされたようです。

      「ここ数年で最高クラスの出来、前作に匹敵する仕上がり」

      とのことですので早速使ってみたいと思います。

      ライセンスは Fair AI Public License 1.0-SD

      Easy, Simple, High Quality (with a slight trade-off in variety)
      blue_pencil-XL meets ANIMAGINE XL 3.0 / ANIMAGINE XL 3.1
      License: Fair AI Public License 1.0-SD
      You should share the merge recipe if you release a model merged with anima_pencil-XL.
      This license does not add any restrictions on your generated images.
      For more details, please see the license section of ANIMAGINE XL 3.0.
      Please see the “About this Version” section for information on each version.
      `No generation services` only apply to v2.0.0
      HuggingFace: https://huggingface.co/bluepen5805/anima_pencil-XL
      Why not merge ANIMAGINE XL 3.X into blue_pencil-XL?
      I want to provide blue_pencil-XL under the CreativeML Open RAIL++-M license.

      簡単、シンプル、高品質(バラエティは若干犠牲になりますが)
      blue_pencil-XL は ANIMAGINE XL 3.0 / ANIMAGINE XL 3.1に出会った
      (訳注:meetはどういう意味なんだろう?つまりマージではなく参考にした、とかブレンドした、という解釈ですが、作者さんにきいてみたい)

      ライセンス Fair AI Public License 1.0-SD
      anima_pencil-XLでマージしたモデルをリリースする場合は、マージレシピを共有する必要があります。
      このライセンスは、あなたの生成した画像に制限を加えるものではありません。
      詳細はANIMAGINE XL 3.0のライセンスの項をご覧ください。
      各バージョンの情報は「このバージョンについて」をご覧ください。
      「生成サービスへの利用は禁止」はv2.0.0にのみ適用されます。
      HuggingFace: https://huggingface.co/bluepen5805/anima_pencil-XL
      ANIMAGINE XL 3.Xをblue_pencil-XLにマージしないのはなぜ?
      blue_pencil-XLをCreativeML Open RAIL++-Mライセンスで提供したいので

      https://civitai.com/images/17129585 
      AICU参考訳

      AICU media編集部の解釈

      このモデル「Anima_pencil-XL」は ANIMAGINE XL 3.0(CreativeML Open RAIL++-M)ではなく、ANIMAGINE XL 3.1と同じFair AI Public License 1.0-SD で配布されています。
      つまりぶるぺん氏のオリジナル「blue_pencil-XL」をベースモデルであるSDXLと同じ「CreativeML Open RAIL++-M」で配布し続けつつ、その学習に使ったデータセットをANIMAGINE 3.0と3.1の表現能力を有した別モデルとして提供するという試みと理解します。

      ぶるぺん氏によるサンプル画像とプロンプト

      画像

      1girl, solo, cute, white short hair, red eyes, wizard hat, close-up, dynamic angle, smug face, :3, (drooling:0.6), (“I AM RICH”:1.2) printed shirt, pleated long skirt, pantyhose, holding bills, hand on own hip, floating, scattered bills, gambling, crowd, light particles, sparkles, depth of field, masterpiece, best quality, masterpiece, best quality

      画像

      squid on the ground in the dark

      ぶるぺん氏は、美少女だけでなく、このような愛らしいキャラクターを普段はよく生成されております。

      画像

      1girl, solo, armpits, belt, black background, black belt, black dress, blue background, blunt bangs, brown hair, buttons, closed mouth, dress, gun, hand up, handgun, holster, holstered, light smile, looking at viewer, one eye closed, red eyes, revolver, short hair, upper body, utility belt, v, v-shaped eyebrows, watch, masterpiece, best quality

      画像

      1girl, solo, indoors, black background, black hair, blue eyes, blunt bangs, bob cut, breath, brown coat, coat, duffel coat, eyelashes, fur trim, fur-trimmed hood, gradient hair, green hair, hood, looking at viewer, looking back, medium hair, multicolored eyes, multicolored hair, parted lips, pink eyes, streaked hair, upper body, winter clothes, winter coat, masterpiece, best quality

      AICU media編集部による追従

      Civitaiには「Remix」を選ぶことで詳細なパラメータを引き継いで再生成させる機能がありますが、モデルが「SDXL」しか選択できないので、今回は Stability Matrixを使ってローカルPCで生成を試みます。

      画像

      Stability Matrixの場合は [🧠Model Browser] から直接「anima_pencil」を検索することでダウンロードが簡単にできます。
      (設定からCivitai APIキーの設定が必要です)

      画像

      「インポート」します

      画像

      カバーアートですが、胸に「I AM RICH」と描かれているのが気になります。
      Civitai上で画像をクリックすると右側にGeneration Dataが表示されるので注目してみます。

      画像

      1girl, solo, cute, white short hair, red eyes, wizard hat, close-up, dynamic angle, smug face, :3, (drooling:0.6), (“I AM RICH”:1.2) printed shirt, pleated long skirt, pantyhose, holding bills, hand on own hip, floating, scattered bills, gambling, crowd, light particles, sparkles, depth of field, masterpiece, best quality, masterpiece, best quality
      Steps: 30, CFG scale: 5, Sampler: DPM++ 2M SDE, Seed: 223644773, RNG: CPU, Size: 896×1344, Model: anima_pencil-XL-v5.0.0, Version: v1.9.4-180-ga65dd315, Emphasis: No norm, Pad conds: True, Model hash: 896faa18cd, Hires upscale: 2, Schedule type: Align Your Steps, Hires upscaler: SwinIR_4x, Denoising strength: 0.5, Discard penultimate sigma: True

      1girl, ソロ, キュート, 白いショートヘア, 赤い目, 魔法使いの帽子, クローズアップ, ダイナミックアングル, ドヤ顔, :3, (よだれ:0.6), (“I AM RICH”:1.2) プリントシャツ, プリーツロングスカート, パンスト, お札を持つ, 自分の腰に手を当てる, 浮く, 散らばるお札, ギャンブル, 群衆, 光の粒子, きらめき, 被写界深度, 傑作, 最高品質, 傑作, 最高品質

      以下の設定を変更します
      (Stability Matrix 2.11.3/AUTOMATIC1111 version: v1.9.4)
      Step:20→30
      CFG Scale: 7→5
      Sampling method: DPM++ 2M SDE
      Hires upscaler: SwinIR_4x
      Denoising strength: 0.5
      Seed: 223644773

      画像

      animaPencilXL_v2.0.0の出力結果

      参考まで、過去のv2.0.0ですが、こちらも十分素敵。

      画像

      animaPencilXL_v5.0.0 [896faa18cd]の出力結果

      Seed:223644773
      残念ながらサンプルの絵にはなりませんでしたが、確かにレイアウトや味わいが変わっていますね。胸の文字は描けていないようです(文字っぽい模様があります)。

      画像

      ここから先はSeedを-1(ランダム)にして
      ネガティブプロンプト:worst quality, nsfw, normal quality, ugly
      を設定して、何回か挑戦してみます。

      (たぶん続きます、文字が出るまで…!)

      まだ中間ですが出てるかも!?

      画像
      画像
    • すべての画像生成AIを過去にするStable Image Ultra (Stable Diffusion 3 8B+) が凄絶すぎた件

      すべての画像生成AIを過去にするStable Image Ultra (Stable Diffusion 3 8B+) が凄絶すぎた件

      image_2-55AE7.jpg

      Stable Diffusion開発元の、Stability AI Japan – External AdvocateのD̷ELLさんによる寄稿です。

      Stable Diffusion開発元の、Stability AI Japan – External AdvocateのD̷ELLと申します。
      今回、Stable Diffusion最高モデル Stable Diffusion 3 80億パラメータ(8B) を搭載したAPI「Stable Image」の、最上位サービス 「Stable Image Ultra」の体験会 第2回を実施しました。
      実施内容をレポートにまとめましたので、報告させて頂きます。

      概要

      • Stability AIからStable Diffusion 3 2B のモデルがリリースされ、世界を席巻した
      • Stability AI APIでは、最上位モデルの Stable Diffusion 3 8B が利用可能
      • 性能を体験してもらうために、たくさんの人にまた利用してもらったらやっぱり凄かった

      経緯

      先日、Stable Diffusion最高モデル Stable Diffusion 3 8B を搭載したAPI「Stable Image」の、最上位サービス 「Stable Image Ultra」 の体験会を実施しました。ご協力頂いた Discordサーバー AI声づくり技術研究会様、ありがとうございます。

      前回は突発での開催でしたが、今回は事前にアナウンスを行い、40名以上の方にご参加いただきました。

      https://j.aicu.ai/SD3UC

      どなたでもご利用可能ですので、ぜひこの機会にStable Image APIをお試しください。

      image.png

      生成画像集

      みなさまの生成された画像と、プロンプト、利用コメントを頂いております。
      個性の出ている、多種多様な画像を生成いただいておりますので、ぜひお楽しみください。

      こちらのNotionでも、当日生成された140枚の画像とプロンプトを閲覧できます。 まとめて頂きましたゆんたん様、ありがとうございます。

      yutoさん

      生成のボタンを押すたびにワクワクする。初めてStable Diffusionを触ったときの感情を思い出した。

      download-53290.jpg
      download-95B7F.jpg
      download-74983.jpg
      download-BE70F.jpg
      download-25501.jpg

      holy-fox/小狐さん

      凄すぎて感想が言語化できないw

      BVxMJdem4AAAAAElFTkSuQmCC-00E05.jpg
      image.png
      image_1-96896.jpg

      ゆんたんさん

      image_11-6D88C.jpg
      image_10-B38A6.jpg

      シャケさん

      image_7-2F438.jpg
      image_18-C8ECD.jpg
      image_19-D5AFA.jpg

      うんわさん

      想像力の限界へ

      image-8AEA7.jpg
      Untitled-1E3EA.jpg

      エクスヴェリアさん

      これまでの画像生成を過去にする
      ウルトラすごいハイパーすごいえーあいです

      image-FC5CF.jpg
      image-1C31A.jpg
      image-A079E.jpg
      image-3FCCB.jpg
      image-4D251.jpg
      image-F75F0.jpg
      image.png
      image.png

      雫さん

      一つのモデルでいろんな絵が出せるのがすごい

      aR9Md9HyXfvvevtXrfvP9JV8xIovtuql06mKat9p53-41756.jpg
      AcfGbDZrDlzAAAAAElFTkSuQmCC-8A5ED.jpg
      DzuYikcPXHQAAAABJRU5ErkJggg-B74D7.jpg
      15-F6F35.jpg

      なかむらしっぽさん

      やっぱりUltraはMediumとは全く次元が違う

      image_26-BDA66.jpg
      image_27-715AE.jpg
      image-0C3FB.jpg
      image_19-AC088.jpg
      image_22-5B5F9.jpg

      Art Natureさん

      一つのモデルでこれだけ幅広い出力ができるのがすごい。長文対応と出力の良さも高い。

      image_2-62EE7.jpg
      image_19-D5D6B.jpg
      image_24-47145.jpg
      image_28-0AFF2.jpg
      image_30-3FFB6.jpg

      うみせさん

      画像がほしい?ならUltraでしょ

      image-7271C.jpg
      image-EBAA7.jpg
      image-F5F5C.jpg
      image.png
      image-ABA44.jpg

      やなぎ(Yanagi)さん

      いままで触ったモデルの中で一番広い表現力を感じました!
      自然言語で使えるのも直感的でたのしいです!

      image.png
      image-F98C5.jpg
      image_2-C9823.jpg

      やまとーるさん

      1 girlから初めていろいろ追加をしていったらちゃんと出力してくれたので楽しかったです

      52-BDFFB.jpg
      60-3DCBA.jpg
      41-DD317.jpg
      57-A849B.jpg

      flyfrontさん

      まだまだ隠れた性能がいろいろありそう!

      bf-08860.jpg
      image.png

      TylorShineさん

      描ける!使える!!Stable!! 文字表現に忠実な画像が出てくる!!感動!!

      image-276A4.jpg
      image_10-232F2.jpg
      image_6-A3AA6.jpg

      kokurenさん

      従来のタグの組み合わせメインでの画像生成から自然言語での自由な生成の時代が来たことを実感できました。

      image-FBCFD.jpg
      image-45DB5.jpg
      image-74DDD.jpg

      れみおさん

      リアル系も出来てすごい!

      image_8-6D94C.jpg
      image_9-91D14.jpg
      image_37-62CF8.jpg
      image_17-439CD.jpg
      image_12-50770.jpg
      image_15-5EB4C.jpg

      へむろっくさん

      週末はSD3でステイブろう

      37-76127.jpg
      image.png
      image.png
      image.png

      ハニーさん

      image-D68ED.jpg
      image.png
      image.png
      image-60AE6.jpg
      image.png
      image.png

      ひつきさん

      SD3を使わせて頂きありがとうございます🙇‍♂️
      使ってみた感想としましては従来のSD1.5やSDXLに比べ、単純なプロンプトでも破綻しづらくて使いやすかったです!✨

      image-B991E.jpg

      Shinjuboshiさん

      image.png

      ぼうりきさん

      image_1-F4632.jpg

      マッキーさん

      image_1.jpg

      Gongonさん

      NSFWを回避しながら癖に刺さるイラストを生成するの楽しい

      image_6-750C0.jpg
      image_9-E5CF4.jpg
      image_25-0F384.jpg

      おやつさん

      日本風アニメへの造詣が深くて凄いなーと思いました。ほとんど最新のアニメ絵まで出せるんじゃないかな

      image_15-52BB6.jpg

      Akikazeさん

      クォリティが高くてAIとは思えないです・・・!

      はるさん

      いろんなものがぽんぽん出てくる宝石箱でした~~。

      生の声

      ChatGPTとの連携

      前回、プロンプトは、ChatGPTに生成してもらったという方が多くおられました。

      そのため、今回はプロンプト作成用特設 GPTs を うみせさんに作成していただきました。

      https://chatgpt.com/g/g-C8XsG8POL-huronhutomasuta

      今回のイベント用に作成されたオリジナルです。ぜひこちらもご利用くださいませ。

      また、Stable Diffusion 3 は自然言語処理に対応しておりますので、一般的な英文でも高品質な画像が生成できます。詳細はこちらをご覧ください。

      https://qiita.com/nqdior/items/bd980e2664966871272e

      まとめ

      いかがでしょうか?ひとつのモデルで、ここまで幅の広い画像を生成可能です。
      また、今回実装されたWEB-UIにより、APIの機能をすべて利用可能となりました。

      ぜひこの機会に、全世界最高峰・最上位の画像生成AIをお試しくださいませ。

      ご協力いただいたみなさまに感謝申し上げます。
      最後までご覧いただき、ありがとうございました。

      こちらの記事はDELL氏にご寄稿いただいた記事を読みやすく推敲させていただきました。価値あるレポートを作成いただいたDELL氏に編集部より御礼申し上げます。

      すべての画像生成AIを過去にする Stable Image API (Stable Diffusion 3 8B+) が凄絶すぎた件 – Qiita

    • Stable Diffusion 3 で最高の結果を得る方法

      Stable Diffusion 3 で最高の結果を得る方法

      Stable Diffusion開発元の、Stability AI Japan – External AdvocateのD̷ELLさんによる寄稿です。

      先日、Stable diffusion 3 Mediumのモデルが公開され、Stable Image APIでもLargeモデルが利用可能となりました。

      Stable Diffusion 3の真の性能を発揮するには、既存のStable Diffusionとは違うテクニックが必要なことをご存知でしょうか?今回は、Stable Diffusion 3の性能を最大限に引き出す方法 をご紹介したいと思います。
      ※ 本記事の内容は、Replicate, Inc.fofr氏によって執筆された記事を和訳したものです。

      Stable Diffusion 3で変わった重要なポイント

      記事によると、SD3で変わった重要なポイントは以下の3点です。

      • 長いプロンプトに対応し、テキストエンコーダーにより異なる品質の画像を生成できる
      • プロンプトは詳細かつ具体的に記述し、 ネガティブプロンプトは使用しないこと
      • 推奨設定は 28ステップ、3.5~4.5のCFG、dpmpp_2m sgm_uniformスケジューラー付きサンプラー、3.0シフト

      どういうことなのか、ぜひ記事本文をご覧ください。

      【和訳】Stable Diffusion 3 で最高の結果を得る方法

      How to get the best results from Stable Diffusion 3
      Posted June 18, 2024 by @fofr
      https://replicate.com/blog/get-the-best-from-stable-diffusion-3

      Stability AI は最近、2億パラメータのテキストから画像へのモデルである Stable Diffusion 3 Medium の重みをリリースしました。このモデルは、フォトリアリズム、タイポグラフィ、およびプロンプトの追従に優れています。

      公式の Stable Diffusion 3 モデルを Replicate で実行できますし、商用利用も可能です。また、私たちは Diffusers と ComfyUI の実装をオープンソース化しました(ComfyUI ガイドを読む)。

      このブログ投稿では、Stable Diffusion 3 (SD3) を使用して最高の画像を得る方法、特に以前の Stable Diffusion モデルとは少し異なるプロンプトの方法について説明します。

      実験を助けるために、ここで議論したすべての設定を公開している SD3 エクスプローラーモデル を作成しました。

      SD3 のバージョンの選び方

      Stability AI は、できるだけ多くのデバイスで実行できるように、SD3 Medium をさまざまな方法でパッケージ化しました。

      SD3 は3つの異なるテキストエンコーダーを使用します。(テキストエンコーダーは、プロンプトを受け取り、モデルが理解できる形式に変換する部分です)。これらの新しいテキストエンコーダーの1つは非常に大きく、多くのメモリを使用します。 SD3 Hugging Face Weight を見ると、異なるテキストエンコーダー構成の4つのオプションが表示されます。利用可能な VRAM に基づいて、どれを使用するかを選択する必要があります。

      sd3_medium_incl_clips_t5xxlfp8.safetensors

      このエンコーダーには、モデルの重み、2つの CLIP テキストエンコーダー、および圧縮 fp8 フォーマットの大きな T5-XXL モデルが含まれています。シンプルで最高の結果を得るために、これらの重みをお勧めします。

      sd3_medium_incl_clips_t5xxlfp16.safetensors

      sd3_medium_incl_clips_t5xxlfp8.safetensors と同じですが、T5 部分がそれほど圧縮されていません。fp8 の代わりに fp16 を使用することで、画像品質がわずかに向上しますが、メモリ使用量が増加します。

      sd3_medium_incl_clips.safetensors

      このバージョンでは T5 要素を完全に排除しています。2つの CLIP テキストエンコーダーだけで重みを含みます。VRAM が少ない場合に良いオプションですが、完全版とは大きく異なる結果が得られる可能性があります。このバージョンでは、プロンプトの追従性が低下し、画像内のテキストの品質も低下する可能性があります。

      sd3_medium.safetensors

      このモデルはテキストエンコーダーなしの基本的な重みだけです。これらの重みを使用する場合は、テキストエンコーダーを別々に読み込むようにしてください。Stability AI はこれに対する ComfyUI ワークフローの例 を提供しています。

      プロンプトの作成

      SD3 の使用における大きな変化はプロンプトの作成です。非常に長く詳細なプロンプトを入力しても、プロンプトに非常に忠実な画像を返すことができます。もう CLIP テキストエンコーダーの77トークンの制限を気にする必要はありません。

      プロンプトは10,000文字、または1,500語以上にすることができます。実際にはそのような長さは必要ありませんが、プロンプトの長さを心配する必要はありません。

      非常に長いプロンプトの場合、現時点では画像にどの部分が反映されるかを予測するのは難しいです。プロンプトのどの部分にモデルが注意を払うかは明確ではありません。しかし、プロンプトが長く複雑になるほど、何かが欠ける可能性が高くなります。

      ネガティブプロンプトを使用しないでください

      SD3 はネガティブプロンプトでトレーニングされていません。ネガティブプロンプトは SD3 では期待通りに機能しません。すでに SD3 を試したことがある場合、ネガティブプロンプトを与えると画像が変わることに気付いたかもしれませんが、その変化は意味のあるものではありません。ネガティブプロンプトは不要な要素を除去するのではなく、コンディショニングにノイズを加え、単に出力を変動させるだけです。

      プロンプト技術

      長いプロンプトが許可されるようになった今、望む画像を説明するために平易な英語の文章と文法を使用できます。以前のようにカンマで区切られたキーワードを使用することもできますが、具体的なものを目指す場合は、プロンプトを詳細かつ明確にすることが重要です。このレベルのプロンプトは、Midjourney バージョン6や DALL·E 3 のプロンプトの方法に似ています。

      画像の要素を説明するときは、その説明が画像の他の部分にも適用されないようにするために、曖昧さのない言葉を使うようにしてください。

      以下は、SD3 で良好なプロンプト追従性を示す長く詳細なプロンプトの例です:

      a man and woman are standing together against a backdrop, the backdrop is divided equally in half down the middle, left side is red, right side is gold, the woman is wearing a t-shirt with a yoda motif, she has a long skirt with birds on it, the man is wearing a three piece purple suit, he has spiky blue hair(例を見る

      画像

      a man wearing 1980s red and blue paper 3D glasses is sitting on a motorcycle, it is parked in a supermarket parking lot, midday sun, he is wearing a Slipknot t-shirt and has black pants and cowboy boots (例を見る

      画像

      a close-up half-portrait photo of a woman wearing a sleek blue and white summer dress with a monstera plant motif, has square white glasses, green braided hair, she is on a pebble beach in Brighton UK, very early in the morning, twilight sunrise(例を見る

      画像

      各テキストエンコーダーに異なるプロンプトを使用

      3つのテキストエンコーダーを持つようになったため、技術的には各エンコーダーに異なるプロンプトを渡すことができます。例えば、CLIP テキストエンコーダーには画像の一般的なスタイルとテーマを渡し、T5 部分には詳細な主題を渡すことができます。我々の実験では、まだ特別な

      技法は見つかっていませんが、引き続き試行しています。

      CLIP と T5 エンコーダーに異なるプロンプトを渡した例はこちら

      triple_prompt_t5
      the words written across the sky say “hello world”, written in clouds from a plane, above the dog
      空一面に書かれた文字は「hello world」と書いてあります。

      triple_prompt_clip_g
      a cartoon, dreamy anime background, a photo of a dog
      漫画、夢のようなアニメの背景、犬の写真

      triple_prompt_clip_l
      a cartoon, dreamy anime background, a photo of a dog
      漫画、夢のようなアニメの背景、犬の写真

      画像
      https://replicate.com/p/vmp5h000c9rgj0cg5d6813mmnr

      設定

      SD3 では、画像出力を変更するための多くの新しい設定があります。以下に良いデフォルト設定をいくつか推奨しますが、自分の好みに合わせて実験することをお勧めします。

      要約すると、以下の設定から実験を開始することをお勧めします(詳細は後述します):

      • 28ステップ
      • 3.5から4.5の CFG
      • dpmpp_2m sgm_uniform スケジューラー付き サンプラーと
      • 3.0 のシフト

      幅と高さ

      SDXL と同様に、SD3 は約1メガピクセルで最高の出力を提供します。解像度は64で割り切れる必要があります。以下の一般的なアスペクト比に対して、次の幅と高さを推奨します:

      • 1:1 – 1024 x 1024(正方形の画像)
      • 16:9 – 1344 x 768(シネマティックおよびワイドスクリーン)
      • 21:9 – 1536 x 640(シネマティック)
      • 3:2 – 1216 x 832(風景のアスペクト比)
      • 2:3 – 832 x 1216(ポートレートのアスペクト比)
      • 5:4 – 1088 x 896(風景のアスペクト比)
      • 4:5 – 896 x 1088(ポートレートのアスペクト比)
      • 9:16 – 768 x 1344(長い縦長の画像)
      • 9:21 – 640 x 1536(非常に背の高い画像)

      以前に Stable Diffusion 1.5 や SDXL をトレーニングされた解像度よりも大きな解像度で使用したことがある場合、歪んだ画像、複数の頭、繰り返しの要素など、奇妙な出力に馴染みがあるかもしれません。(以前の SDXL ガイドでいくつかの例を見られます。)これは SD3 では発生しません。SD3 では、予想される解像度よりも大きくすると、中央に合理的な画像があり、周辺には奇妙な繰り返しのアーティファクトが表示されます(ここに大きすぎる画像の推論結果の例があります)。同様に、解像度が小さすぎると、画像が厳しくトリミングされます(ここに小さすぎる画像の推論例があります)。

      画像
      大きすぎる画像の推論結果の例
      画像
      小さすぎる画像の推論例

      ステップ数

      この設定は、モデルが画像を生成する際のノイズ除去ステップの数です。SDXL では通常この値は20前後であり、Lightning モデルでは4ステップです。ステップ数は画像生成にかかる時間の主要な要因です。ステップが多いほど良い画像、ステップが少ないほど早く画像が生成されます。

      SD3 では28ステップを推奨します。この数値は、興味深い前景と背景を持ち、VAE アーティファクト(生成された画像に見られるノイズパターン)が少ないシャープな画像を提供し、それほど時間もかかりません。

      ステップを増やすことの効果

      ステップが画像品質に与える影響は、以前の Stable Diffusion モデルとは異なります。従来のモデルでは、ステップが品質を段階的に向上させ、ある点で効果が頭打ちになり、画像がほぼ静的になるのが一般的でした。しかし、SD3 ではステップが増えると異なる現象が見られます。

      SD3 は通常、8〜10ステップである程度見栄えのする画像を生成できます(ここに10ステップの推論結果の例があります)。

      画像
      10ステップの推論による画像


      ただし VAE ノイズアーティファクトや一部の画像が一貫性を欠く場合があります。これはプロンプトとシードにも依存します。ステップが増えると、より一貫性があり興味深い画像が得られます。最適な範囲は26〜36ステップです。

      画像とその主題は、ステップ値によって劇的に変わることもあります。例えば、人の曖昧なプロンプトの場合、ステップが増えるにつれて年齢、性別、民族が変わることがあります。これらの2つの出力を比較してください:10ステップのものと、同じ設定とシードを使用した 32ステップのもの

      ガイダンススケール

      ガイダンススケール(または CFG、classifier-free guidance)は、出力がプロンプトにどれだけ似ているべきかをモデルに指示します。SD3 では、SD 1.5 や SDXL よりも低い値を使用する必要があります。

      3.5から4.5の範囲を推奨します。出力が「焼けた」ように見え、コントラストが強すぎる場合は CFG を下げてください(CFG が高すぎる場合の焼けた画像の例)。

      また、CFG を低くすると、異なるテキストエンコーダーオプション間で出力の類似性が高まることも指摘しておく価値があります(つまり、T5 テキストエンコーダーを fp8、fp16 で使用するかどうかに関係なく)。非常に低い CFG を使用する場合、大きな T5 エンコーダーを省略しても画像品質にはほとんど影響しません。例えば、同じシードと CFG 1.5 を使用した2つの出力を比較してください:fp16 を使用した出力と、非常に似ている CLIP のみの出力

      サンプラーとスケジューラー

      異なるツールではこれらのラベルが異なりますが、基本的にはモデルがノイズを管理するために使用するアルゴリズムです。異なるアルゴリズムは異なる画像を生成します。

      SD3 では、ComfyUI で dpmpp_2m サンプラーと sgm_uniform スケジューラーを使用することを推奨します。Automatic1111 では dpm++ 2M を使用します。Euler も良い結果をもたらすことがあります。

      一部のサンプラーとスケジューラーは SD3 では機能しません。特に ancestral と sde サンプラー、および人気のある SDXL ノイズスケジューラー karras は機能しません。

      シフト

      シフトは、SD3 で変更できる新しいパラメーターです。これはタイムステップスケジューリングシフトを表し、シフト値が高いほど高解像度でノイズをうまく管理できます。基本的には、ノイズがよりよく処理され、シフトを使用すると見栄えの良い画像が得られます。タイムステップスケジュールシフトの理論については、SD3 の研究論文 を参照できます。

      3.0 は人間の好みの評価に基づく推奨デフォルト値ですが、もちろん変更することもできます。ComfyUI では、「ModelSamplingSD3」ノード

      でこの値を見つけることができ、Diffusers では FlowMatchEulerDiscreteScheduler にシフトパラメーターを渡すことができます。

      シフト値 6.0 は人間の評価で高評価を得ており、試す価値があります。2.0 や 1.5 のような低い値を使用すると、より生の「未処理」な見た目の画像が得られ、特定のプロンプトにはうまく機能します。

      結論

      これらのヒントを使用して Stable Diffusion 3 を楽しんで実験してください!SD3 を使用する際の詳細については、最近のブログ投稿をチェックしてください:

      解説

      プロンプトの作成

      Stable Diffusion 3の大きな特徴は、そのプロンプトの柔軟性です。以前のバージョンではプロンプトの長さが制限されていましたが、今回のバージョンでは10,000文字, 1,500語以上まで入力できます。これにより、非常に詳細で複雑な指示が可能になり、具体的なイメージをより正確に生成できるようになりました。

      例として、途中でいくつかサンプルが出てきましたね。

      a man and woman are standing together against a backdrop, the backdrop is divided equally in half down the middle, left side is red, right side is gold, the woman is wearing a t-shirt with a yoda motif, she has a long skirt with birds on it, the man is wearing a three piece purple suit, he has spiky blue hair

      これを和訳すると、以下のようになります。

      男性と女性が背景を背にして立っています。背景は中央で左右に均等に分かれており、左側は赤、右側は金色です。女性はヨーダのモチーフが描かれたTシャツを着ており、鳥のデザインが入った長いスカートを履いています。男性は3ピースの紫のスーツを着ており、青いとがった髪をしています。

      既存のStable Diffusionのプロンプトに直すと、こんな感じでしょうか。

      2 characters, man, woman, standing, red background, gold background, split background, Yoda T-shirt, bird design skirt, long skirt, purple suit, 3-piece suit, blue spiky hair

      ですが、Stable Diffusion 3では、サンプルのような細かいプロンプトが指定可能となりました。
      前回の記事でご紹介したような、ChatGPTを用いてプロンプトを生成する方法は、意図せず有効打だったことが判明しましたね。

      参考:ChatGPTを用いたプロンプト生成例

      Stable Diffusion Prompterを利用

      画像

      テキストエンコーダー

      テキストエンコーダーの構成も重要なポイントです。Stable Diffusion 3は3つの異なるテキストエンコーダーを使用しますが、その中でも特に大きなT5エンコーダーは多くのメモリを必要とします。このエンコーダーを使うと、より高品質な画像が得られます。メモリが限られている場合は、CLIPエンコーダーだけを使うオプションもあります。※ その場合はプロンプトの追従性や画像内のテキストの品質が少し落ちるかもしれません

      ご自身の環境に合わせた調整ができることにより、可能性が広がりますね。

      プロンプト技術

      プロンプトの作成方法についても注意が必要です。Stable Diffusion 3はネガティブプロンプトには対応していないので、**ネガティブプロンプトを使用しても期待通りの結果は得られません。**代わりに、プロンプトを詳細かつ具体的に記述することで、より良い結果を得ることができます。
      先に記載したように、「赤と青の3Dメガネをかけた男性がバイクに座っている」といった具体的な描写を使うと、モデルがより正確にイメージを生成してくれます。

      設定

      推奨される設定は以下の通りです。

      • ステップ数:28ステップ。これは画像のノイズ除去ステップの数で、増やすとよりシャープで詳細な画像が得られます。
      • CFG(ガイダンススケール):3.5から4.5。この値が高すぎると画像が「焼けた」ように見えることがありますので、注意が必要です。
      • サンプラー:dpmpp_2m。これはノイズを管理するためのアルゴリズムで、異なるサンプラーを試すことで画像の雰囲気が変わります。
      • スケジューラー:sgm_uniform。これもノイズ管理に関する設定で、この組み合わせが安定した結果をもたらします。
      • シフト:3.0。タイムステップスケジューリングシフトの値で、これを調整することで高解像度の画像のノイズ管理が改善されます。

      これらの設定を基にして、自分の好みに合わせて実験してみると良いですね。特に、ステップ数やCFGを微調整することで、より自分のイメージに近い結果が得られるはずです。

      まとめ

      いかがでしたか?新しい設定や技術を活用することで、これまで以上に素晴らしい画像が生成できると思います。

      Stable Diffusion 3 Mediumは、以下のURLからダウンロードが可能です。

      最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表 — Stability AI Japan

      Stable Diffusion 3 Large以上のモデルは、以下の記事を参考にAPIをご利用ください。

      みなさまがより新しい画像生成体験ができることを祈っております。最後までご覧いただき、ありがとうございました。

      こちらの記事はDELL氏にご寄稿いただいた記事を読みやすく推敲させていただきました。価値あるレポートを作成いただいたDELL氏および原作のfofr氏に編集部より御礼申し上げます。

      あなたはStable diffusion 3 の真の性能を発揮できていない – Qiita

    • #広告業界で使えるAI! Stable Image Ultraテクニック(2)実は個性的な「Origami」でトンマナを探ろう

      #広告業界で使えるAI! Stable Image Ultraテクニック(2)実は個性的な「Origami」でトンマナを探ろう

      AICUでお世話になっております、はねごろう です。
      長年、広告映像やバーチャルライブなどのお仕事をしてきた経験を「つくる人をつくる」の時代に活かしていくプロデューサーのしごとをしています。

      先日AICU AIDX Labの技術の方々が Stable Diffusion公式APIで1,800枚の画像を生成してくれたのですが、実際にどれぐらい使えそうな絵があるか、選定するテクニックも含めて広告業界のビジュアルとしての使い方を複数回に分けて探っていきたいと思います。

      #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

      Stable Diffusion – Generate API https://platform.stability.ai/

      各モデルの公称特性

      Stable Image Ultra 1メガピクセル生成(以下、Ultra)
      Stable Image Core 1.5メガピクセル生成(以下、Core)
      Stable Diffusion 3 Large 80億パラメータモデル(以下SD3L)
      Stable Diffusion 3 Medium 20億パラメータモデル(以下、SD3M)

      左上がSD3L、右上がUlta、左下がSD3LとUltraの合成、右下が3Mです。UltraとSD3LはAPIではなく文字プロンプトでスタイルを指定し、共通のシードでは同じような絵が出る傾向があります。
      技術チームの印象としては、「cinema, analog filmなどの実写スタイル、SD3LとUltraの間での比較を商業的価値でレビューしてみてほしい」という所見を頂きましたので挑戦していきます。

      評価方法

      映画やVFXなどの評価と同じく、生成した静止画をつなげた(ラッシュ)を以下のツールを使って再生していきます。

      ❏動画再生ツール Keyframe MP https://zurbrigg.com/keyframe-mp

      1枚づつラッシュを確認し、以下の基準で分類していきます。

      ❏評価基準は以下の3段階です。
      [Bad]画面内で画風の統一がない、不快なアナトミー破綻、中指を突き立てている(商品性・グロ・NSFW)
      [Good]商品性、キャッチーな構図、明らかなアナトミー破綻がない、検討に値する。
      [Best]クライアント直行できるレベル、トップ画像に使える、絵としてほぼ修正が必要ない。

      評価対象は多様なスタイルのうち、以下のリアル系スタイルです。

      ここでの「スタイル」はAPIでUltraを指定し、プロンプトにスタイルを書くだけ、というとても簡単なものです。

      詳しい生成方法は AICU media の過去記事「#10分で学べるAI」をご参照ください。
      (シリーズの最後にまとめて生成できるスクリプトを紹介します)

      Origami スタイル

      本来は折り紙(国際語:Origami)風の画風になるOrigamiスタイル。Stable Diffusion Ulraでのスタイルとしての安定感は低いのですが、派手な絵や「不可能な服」が生成されて、使い道次第ではデザインのトンマナ(トーンとマナー)を探る際に使えそうな”スーパーショット”が生成されやすい個性的なスタイルとして推せます。

      Best

      ビビッドなカラー、髪色、パーカー、表情が魅力的です。

      画像

      某有名キャラクターを連想させつつも、売ってなさそうなパーカー、そして意味深なメッセージカードで隠された表情が魅力的です。

      画像

      Origamiはなぜか指の破綻が少ない傾向にあります。
      色がシンプルなのでレタッチしやすいという利点もあります。

      画像

      リアル系の絵とアニメ系のグラフィックが50%ぐらいの確率で生成されます。

      画像
      画像
      画像
      画像

      こちらは条件を完璧に満たしていて、AICUのカバーアートとしても使えるビジュアル。

      画像

      一方で「Origami」要素はないので、Ultraの場合は「Origami」というスタイルは特に強く学習されているわけではないが、ビビッドなカラーで比較的安定して良い絵が出るプロンプトであることが理解できましたでしょうか。

      Bad

      実は、Badが出づらい。なんと21枚中5枚、しかも非常に惜しいです。アナトミー破綻が少なく、背景のボケが良いせいかもしれません。
      グラフィックデザインと実写系が50%ぐらいの確率で出ますので「実写系?」のみを期待して使うと損をしますね。

      表情もライティングも指の演技も良い…掌だけが惜しかった。

      画像

      演技も表情もいいけど、指がスレンダーすぎて残念。

      画像

      これぐらいならレタッチで消せますね。

      画像

      アニメっぽい?いやいや、こういう自然派おねえさんのイラスト素材は需要ありますよね。左手の指はレタッチで消せますね。

      画像

      指が難しいことになっていますが、大胆なレイアウト、ファッションとイラストレーションとしては好ましい方向ではあります。

      画像

      以上、使い道次第ではデザインのトンマナ(トーンとマナー)を探る際に使えそうな”スーパーショット”が生成されやすい個性的なスタイルとして推せる Stable Image Ultraの「Origami」スタイルを紹介しました。
      「Origami」要素はないので、Ultraの場合は「Origami」というスタイルは特に強く学習されているわけではないのですが、ビビッドなカラーで比較的安定して良い絵が出るプロンプトであること、Badでも多様で個性的、かつレタッチで修正可能な絵が出やすいという事がわかりました。

      ところで本来の「Origami」スタイルとはどんな絵なのでしょうか?APIでスタイル指定ができる Stable Image Core で試してみたテストシーケンスがこちらになります。

      念の為、同様の実験をSD3Largeにおいてプロンプトで指定しました(SD3LargeはAPIでのスタイル指定はありません)。

      同じようにインパクトがほしい、実写系なのかイラストレーションなのか…どれぐらいのリアリズムが欲しいのか?などトンマナを探りたいときに、まず試してもらいたいスタイルです。

      はねごろうのスタイル探求は続く!

      #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

      その他の全画像はこちらのアルバムで確認できます。
      Google Photo https://j.aicu.ai/SD3GP

      せっかくなので「SD3美女コンテスト」を開催したいと思います。
      上記のアルバムの画像において、著作権は主張しませんので、良い画像があったら ハッシュタグ #SD3GP で紹介してください。

      AICU AIDX Labにイケてる男子版もつくってもらおうっと!

      読者のみなさんもなにかリクエストがございましたら X@AICUai へメンション、DMいただけると幸いです。
      Stable Diffusionを使った画像生成やVFX、広告技術についての技術的なお問い合わせについては AICU AIDX Lab – sai@aicu.ai  までどうぞ

      <続きます>

      画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)j.aicu.ai

      2,640円(2024年06月10日 11:09時点 詳しくはこちら)

      Amazon.co.jpで購入する

    • #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

      #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

      AICUでお世話になっております、はねごろう です。
      長年、広告映像やバーチャルライブなどのお仕事をしてきた経験を「つくる人をつくる」の時代に活かしていくプロデューサーのしごとをしています。

      先日AICU AIDX Labの技術の方々が Stable Diffusion公式APIで1,800枚の画像を生成してくれたのですが、実際にどれぐらい使えそうな絵があるか、選定するテクニックも含めて広告業界のビジュアルとしての使い方を複数回に分けて探っていきたいと思います。

      Stable Diffusion – Generate API https://platform.stability.ai/

      各モデルの公称特性

      Stable Image Ultra 1メガピクセル生成(以下、Ultra)
      Stable Image Core 1.5メガピクセル生成(以下、Core)
      Stable Diffusion 3 Large 80億パラメータモデル(以下SD3L)
      Stable Diffusion 3 Medium 20億パラメータモデル(以下、SD3M)

      左上がSD3L、右上がUlta、左下がSD3LとUltraの合成、右下が3Mです。UltraとSD3LはAPIではなく文字プロンプトでスタイルを指定し、共通のシードでは同じような絵が出る傾向があります。
      技術チームの印象としては、「cinema, analog filmなどの実写スタイル、SD3LとUltraの間での比較を商業的価値でレビューしてみてほしい」という所見を頂きましたので挑戦していきます。

      評価方法

      映画やVFXなどの評価と同じく、生成した静止画をつなげた(ラッシュ)を以下のツールを使って再生していきます。

      ❏動画再生ツール Keyframe MP https://zurbrigg.com/keyframe-mp

      1枚づつラッシュを確認し、以下の基準で分類していきます。

      ❏評価基準は以下の3段階です。
      [Bad]画面内で画風の統一がない、不快なアナトミー破綻、中指を突き立てている(商品性・グロ・NSFW)
      [Good]商品性、キャッチーな構図、明らかなアナトミー破綻がない、検討に値する。
      [Best]クライアント直行できるレベル、トップ画像に使える、絵としてほぼ修正が必要ない。

      評価対象は多様なスタイルのうち、以下のリアル系スタイルです。

      ここでの「スタイル」はAPIでUltraを指定し、プロンプトにスタイルを書くだけ、というとても簡単なものです。

      詳しい生成方法は AICU media の過去記事「#10分で学べるAI」をご参照ください。
      (シリーズの最後にまとめて生成できるスクリプトを紹介します)

      Neon-Punk スタイル

      Neon-PunkスタイルはBestもBadも豊作。インパクト、ファッショナブル感、個性があるので、まず試してもらいたい。

      Best

      Bad

      Badの理由…Bestになりそうな品質の高い画像があるにも関わらず、惜しいところで商品性、肌の露出、指のアナトミーの不快感のある破綻、特に中指を突き立てているケースなど。

      画像

      おしい

      画像

      とても惜しい

      画像

      構図も演出も表情もよいが、指の破綻。

      画像

      (中指を突き立てているケースもあるので、その中でも見れる例)

      画像

      以上、最も個性的でBestもBadも豊作、インパクト、ファッショナブル感、個性があるスタイル「Neon-Punk」を紹介しました。

      いろんなプロンプトで、まず試してもらいたいスタイルです。

      その他の全画像はこちらのアルバムで確認できます。
      Google Photo https://j.aicu.ai/SD3GP

      せっかくなので「SD3美女コンテスト」を開催したいと思います。
      上記のアルバムの画像において、著作権は主張しませんので、良い画像があったら ハッシュタグ #SD3GP で紹介してください。

      AICU AIDX Labにイケてる男子版もつくってもらおうっと!

      読者のみなさんもなにかリクエストがございましたら X@AICUai へメンション、DMいただけると幸いです。
      Stable Diffusionを使った画像生成やVFX、広告技術についての技術的なお問い合わせについては AICU AIDX Lab – sai@aicu.ai  までどうぞ

      <続きます>
      ❏  #広告業界で使えるAI! Stable Image Ultraテクニック(2)実は個性的な「Origami」でトンマナを探ろう

      画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)j.aicu.ai

      2,640円(2024年06月10日 11:09時点 詳しくはこちら)

      Amazon.co.jpで購入する

    • Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

      Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

      Stable Diffusion 3 Mediumがリリースされ、画像生成AIの最先端である「Stable Diffusion」にも新しい時代がやってきました。
      Stability AIのご協力のもと1,800枚の画像を生成して比較検証実験を行いました。
      このレポートがみなさまのお役に立てれば幸いです。
      Google Photo https://j.aicu.ai/SD3GP

      Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

      実験前の注目点

      実験前の注目点を整理すると、新しいアルゴリズム、公開されたweightsの特性、オープンソース開発者による取り組みなど、しばらく話題が絶えないAICU media編集部ですが、最近のAICU AIDX Labリサーチ担当が注目しているのは「公式API」、「Stability AI提供の開発者プラットフォームがなかなかすごい!」という点です。
      https://platform.stability.ai/

      画像

      Stability AI – Developer Platformplatform.stability.ai

      Generate APIに新モデル「Ultra」登場

      画像
      • Stable Image Ultra [New!]
      • Stable Image Core
      • Stable Diffusion 3 Large
      • Stable Diffusion 3 Large Turbo
      • Stable Diffusion 3 Medium
      • SDXL 1.0, SD 1.6

      正直、たくさんあって、どれがどう違うのか、良くわかりませんよね!

      ✨️編集部ではアドボケイターやコミュニティのご協力で、すでに2つの記事でユーザーレビューを紹介させていただいております。

      ❏全世界最高峰・最上位の画像生成AI (Stable Diffusion 3 8B+) が凄すぎた件
      https://note.com/aicu/n/n56ae423b222a

      ❏2024年6月現在、世界最高峰の画像生成AI「Stable Diffusion 3 8B+」を試す https://note.com/aicu/n/n21db0870eb40

      実験方法

      今回は、ユーザーさんの印象的なアートの評価とは別に、最新の3つのモデルの性能や特性を定性的に評価するアプローチを取ってみたいと思います。

      各モデルの公称特性

      • Stable Image Ultra 1メガピクセル生成(以下、Ultra)
      • Stable Image Core 1.5メガピクセル生成(以下、Core)
      • Stable Diffusion 3 Large 80億パラメータモデル(以下SD3L)
      • Stable Diffusion 3 Medium 20億パラメータモデル(以下、SD3M)

      最も高度なテキストから画像への生成サービスであるStable Image Ultraは、これまでにない迅速な理解で最高品質の画像を作成します。Ultraは、タイポグラフィ、複雑な構図、ダイナミックな照明、鮮やかな色合い、芸術作品の全体的なまとまりや構成に優れています。Stable Diffusion 3を含む最先端のモデルから作られたUltraは、Stable Diffusionのエコシステムの最高峰を提供します。
      生成される画像の解像度は1メガピクセルです。デフォルトの解像度は1024×1024です。

      Stable Diffusion 3モデル:
      SD3 Medium – 20億パラメータモデル
      SD3 Large – 80億パラメータモデル
      SD3 Large Turbo – 推論時間を短縮した80億パラメータモデル
      このAPIはFireworks AIによって提供されています。
      プロンプトによる生成:一般にtext-to-imageと呼ばれるこのモードは、テキストのみから画像を生成します。必須パラメータはパラメータはプロンプトだけですが、aspect_ratio パラメータもサポートしており、生成される画像の縦横比を制御することができます。
      model – 使用するモデル(SD3 Medium、SD3 Large、SD3 Large Turbo)。
      output_format – 出力画像のフォーマット。
      seed – 生成に使う乱数シード。
      negative_prompt – 出力画像に表示したくないキーワード.
      出力:生成される画像の解像度は1MPです。デフォルトの解像度は1024×1024です。

      Stable Image Core は、テキストから画像への変換を行う当社の主要サービスです。迅速なエンジニアリングは必要ありません!スタイル、シーン、またはキャラクターをリクエストしてみてください。生成される画像の解像度は1.5メガピクセルです。

      Stability Image Coreの入力パラメータはスタイルを受け付けます。他のAPIにくらべて柔軟性や制御性が高いインタフェースを有しているといえます。

      比較的難度が高い、指や視線、文字描画などを含む共通プロンプトを使って、各モデルで各スタイルを横断的に生成させることで、どのような特徴があるか、評価していきます。

      生成画像の公開

      上記のAPI{Ultra, Core, SD3L, SD3M}の4種+SD3Mのスタイル指定方式の違いでモデルとしては5モデル、各18スタイル、各20セットで画像生成を合計1800枚ほど行いましたのでまずは共有します。
      https://j.aicu.ai/SD3GP

      画像
      1800枚の最初の4枚です

      与えたプロンプト

      それぞれの画像のファイル名を見ることで生成する際に使用した情報を知ることができます。

      ベースとなった共通プロンプト:
      {style*} best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad

      {スタイル*}最高品質、アートステーションのトレンド、視聴者を見て、1人の女の子が[AICU]と書かれたパネルを持って、Vサイン、渋谷の交差点で。

      スタイルには以下の17スタイル+無属性(normal/指定せず)を加えています。

      {“”(normal), analog-film, cinematic, neon-punk, origami, modeling-compound, 3d-model, low-poly, isometric, enhance, anime, line-art, digital-art, fantasy-art, comic-book}

      スタイルについて

      この「17スタイル」とは、SDXLにおいてAPIで指定できる画風のことです。
      Clipdropでは画像生成時にプロンプトとともにオプションとして設定できます。
      https://clipdrop.co/text-to-image

      Clipdrop – Text to imageA Leap Forward in AI Image Generationclipdrop.co

      画像

      SD3系でもプロンプトによるスタイルの指定は有効なケースと、そうではなく、シード依存になるケースがあることが予備調査によってわかりましたので、今回の調査ではスタイルの制御性についても評価対象にしておきます。

      APIエンドポイント

      使用したAPI Endpointsは以下のとおりです。
      https://api.stability.ai/v2beta/stable-image/generate/ultra
      https://api.stability.ai/v2beta/stable-image/generate/core
      https://api.stability.ai/v2beta/stable-image/generate/sd3

      生成コスト

      生成コストは以下のようになります。高価な順に
      Ultra(8credits) x 18 styles x 20 sets = 360 pieces, 2880credits = $28.8
      SD3L(6.5credits) x 18 styles x 20 sets = 360 pieces, 2340credits = $23.4
      SD3M(3.5credits) x 18 styles x 20 sets = 360 pieces, 1260credits = $12.6
      Core(3credits) x 18 styles x 20 sets x 2 types = 720 pieces 2160 credits = $21.6
      合計 $86.40 USD = 13,632円
      ✨️Stability AI, Jerry Chiさま、実験へのご協力ありがとうございます✨️

      いずれも失敗した結果に対して課金されることはありません。

      生成方法

      Windows上でバッチファイルを作ることで生成できます。
      サンプルはこちらで公開・解説しています。

      #10分で学べるAI
      ❏バッチファイルでバリエーション広告を生成しよう(2)解説編
      https://ja.aicu.ai/saiimgbat-detail/

      #10分で学べるAI バッチファイルでバリエーション広告を生成しよう(2)解説編 – つくる人をつくる AICU Inc.ja.aicu.ai

      今回は最終的に動画を作ることになりましたので、もし同じ実験を追従される方がいらっしゃいましたら、生成時間の測定、連番ファイルでの生成やデータベースとの連動なんかも考えてみるとその後の活用がしやすいのかなと思いました。特に生成時間はローカルGPUや Google Colabでの生成と比較しても非常に高速で、数秒です。これ自身が価値あると考えます。

      映像制作目的では、Google Apps Script + Google Slidesでのバリエーション広告での活用事例などもご参考にいただければ幸いです。AICU AIDX Labとしては、カスタマイズ依頼も歓迎です。

      Google Slidesでバリエーション広告を大量生成
      https://ja.aicu.ai/aicu-saiad/

      #10分で学べるAI Google Slidesでバリエーション広告を大量生成 – つくる人をつくる AICU Inc.ja.aicu.ai

      結果の確認方法

      All shots available on Google Photo https://j.aicu.ai/SD3GP

      詳細はファイル名に埋め込まれています。
      シード値(APIで指定、乱数はバッチファイルで生成したもの): 1-32768
      モデル(ファイル名の末尾):”U”=Ultra, “Ca”=Core(プロンプトで指定), “Cb”=Core(APIで指定), “3L”=3-Large, “3M”=3-Medium

      Core のみAPI側で指定できるので
      [Ca]プロンプトで指定した場合
      [Cb]APIで指定した場合

      画像
      画像

      この画像の場合には、ファイル名が
      analog-film style, best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad_14117_1_Ca.png となっています。

      つまり、CoreAPIに対して、APIではなく「analog-film style」というプロンプトを設定して共通プロンプトを設定しています。シードは14117。
      Vサインはしていないのですが、指は5本、渋谷らしく日本人的な女性で、非常に自然な絵になっているという評価ができます(CoreAPIには文字を描く能力はない)。

      Google Photoは同じ顔についても検索することができます。
      例えばこちらの画像、

      画像

      modeling-compound style, best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad_9240_5_Ca.png 
      こちらもCa、つまりCoreAPIでプロンプト指定によって生成されています。CoreAPIには文字を描く能力はないはずですが、胸には「ACU」の文字が確認できます。指は本数は5本できちんとVサインをしていますが、掌と親指がちょっと怪しげな結果です。しかしこのぐらいであればPhotoshopや image to image で修正できる可能性は高いと考えます。

      画像

      気に入った画像は気軽に★や♥、コメントなど頂ければ幸いです。
      興味深い結果が多くありますので継続的な評価結果の共有、それから X@AICUai でもフォトコンテストを開催してみたいと思います。

      Google Photo https://j.aicu.ai/SD3GP

      動画版

      Stable Image Ultra API – Quality Testing
      https://youtu.be/4Z0gtKPA1Jk

      Stable Diffusion 3 Large API – Quality Testing
      https://youtu.be/5XIvuQq2W0I

      Stable Diffusion 3 Medium API – Quality Testing
      https://youtu.be/ajjG52YKego

      やってみてわかったこと・今後について

      APIを使って多様な絵を作る技術

      広告やマーケティング、Eコマース、プロダクトデザインといった分野において、従来のMidJourneyやNijiJourneyによる画像の探求をAPIやバッチファイル、Google Apps Script+Google Slidesを使った大量画像生成を使って比較検討、従来手法では不可能なレベルの人間+AIの革新的なワークフローを構築することができる可能性があります。
      例えば今回の実験も1800枚という人間には処理しがたい量の画像を生成して分類処理していますが、スクリプトによる制御がされている状態なので、動画生成や検討する上では見積もり可能な時間で作業ができています。今回の実験も、2回目以降であれば、より自動化が進むと考えます。

      定性的な評価に向けたアプローチ

      今回の実験方法で、プロンプト、ネガティブプロンプトを固定し、スタイルを制御する複数の方法、アナトミーの破綻、NSFW率、プロンプトとAPIによるスタイル指定の制御率、シード値の優位性、構図、ポーズ、指の制御性、StepやSeed、サンプラーについても調査可能と考えます。

      例えばこの動画や静止画データセットを使って、統計的な手法でのプロンプト制御性や、スタイル指定、手・指・掌、文字の描画能力といった評価が可能になると考えます。AICU AIDX Labでも、この画像データセットをChatGPT-4VやGoogle Vision AIによって評価判定する定量的手法についても取り組んでみております。今のところ、評価結果が安定しないので、いったん人間による判定を中心に実施しています。

      モデル間の評価(作業者の印象ベース)

      Coreのよいところ
      ・APIでのスタイル指定(プロンプトでの指定は無視される)
      ・構図やポーズはプロンプトで指定
      ・生成が速い
      ・コストが最も安い(3credit)

      SD3Mのよいところ
      ・文字が描ける
      ・応答速度が速い
      ・クラシックなSD1.x系クオリティプロンプトが有効(素の状態では画質の劣化感がある)
      ・構図やポーズはプロンプトの指定を強くききがち(CFGが高い印象)
      ・コストが安い(3.5credit)

      SD3Lの良いところ
      ・空間文字か描ける
      ・プロンプトでのスタイル指定が有効
      ・コストはフラッグシップモデルとして理解(6.5credit)

      Ultraのよいところ
      ・光や影の品質、肌の質感などの品質が高い
      ・プロンプトでのスタイル指定が有効
      ・構図やポーズはプロンプトで指定できる(シードによって無視されることもある)
      ・得意なスタイルがある
      ・SD3LとUltraの比較結果がほしい

      SD3LとUlta、SD3Mの比較動画

      https://youtube.com/watch?v=vk0iTE52RcQ%3Frel%3D0

      左上がSD3L、右上がUlta、左下がSD3LとUltraの合成、右下が3Mです。
      https://www.youtube.com/watch?v=vk0iTE52RcQ

      画像

      シードとプロンプトが同じ場合、SD3LとUltraは非常に近い結果を出すようです。Ultraのほうが描写力特に、空間、肌、ホクロなどの描きこみが増す傾向にあります。スタイルはNeon-Punkが比較的良い印象ですが、他のスタイルも魅力的です。

      ✨️このデータセットを使った評価に興味がある方は X@AICUai までご連絡ください。

      ✨️Stability AI のソリューションについてのご相談は sai@aicu.ai まで頂ければ幸いです。

    • 2024年6月現在、世界最高峰の画像生成AI「Stable Diffusion 3 8B+」を試す

      2024年6月現在、世界最高峰の画像生成AI「Stable Diffusion 3 8B+」を試す

      Stability AI Japan – External AdvocateのD̷ELLと申します。
      以下の記事を書いているときに気付いたのですが、APIの利用方法を書いていなかったことに気付き、緊急でカメラを回しております。

      多忙な皆さんのために、2分でユーザー登録を済ませて画像生成を楽しみましょう。

      概要

      • Stability AIからStable Diffusion 3 2B のモデルがリリースされ、世界を席巻した
      • 最上位モデルの Stable Diffusion 3 8B は、Stability AI APIでしか利用できない
      • Stability AI APIを利用するための方法の日本語ドキュメントが無いから書いた

      1. ユーザー登録(25秒)

      ① stability.ai | Developer Platformにアクセスする

      https://platform.stability.ai

      ② 右上の [Login] をクリック

      ③ ページ下部の [Don’t have an account? Sign up] より、Sign upをクリック

      ④ [Continue with Google]、もしくはメールアドレスとパスワードを入力して登録
       Google認証が手間が少なくて楽だと思います。推奨。

      ⑤ 画面の誘導通りに進めていけば、登録完了

      ※ 右上に自分のアイコンが表示されていると思います

      Congratulations! stability.ai | Developer Platformに登録完了です。

      2. APIキー取得(5秒)

      ① 右上の自分のアイコンをクリック → APIキーが表示される

      ② コピーマークをクリックしてコピー

      Congratulations! APIキーを取得できました。

      2分でAPI登録するはずが、ここまでの所要時間は30秒ほどでしょうか。
      Opps! 1分30秒余りましたね。せっかくなので画像生成してみましょう

      3. 画像生成(1分)

      ① Colabにアクセスする

      https://j.aicu.ai/SD3UC

      ② [ランタイム] → [すべてのセルを実行] をクリック
       私が日本語化した説明がありますが、無視して実行しましょう。読まなくていいです。

      ③ Enter your API Keyという欄が表示されるので、APIキーを貼り付けてエンター
       体感ですが、実行をクリックしてからだいたい15秒くらいです。

      ④ 生成された画像を見る
       20~30秒ほど待つと、ページ下部に生成した画像が表示されます。
       Congratulations! これでStable Diffusion 3 8Bが使えるようになりました。

      image.png

      デフォルトでは無料で25クレジットもらえます。Ultraは1回8クレジットです。
      あと17クレジット残りますね。2枚、生成を試してみましょう。


      ⑤ Option:プロンプトを変えて再生成してみる
       プロンプトやその他のパラメータを変更して、左側の再生ボタンをクリックしてください。再度画像が生成されます。

      image.png

      なんとここまでで1分30秒です。2回追加で画像生成しても時間が余るくらいですね。
      まぁ、なんでも早い方がいいでしょう。30秒余りましたが、だいたい表題の通り2分です。

      チュートリアルは以上です。全世界最高峰・最上位の画像生成AIを楽しんでください!

      4. Option:クレジットの補充(1分)

      ① Billingページへアクセス
       このリンクをクリックしたら速いです:https://platform.stability.ai/account/credits
       真っ当なアクセス経路は、Developer Platformのマイページにアクセスし、Billingへ遷移です。

      ② 中央部に購入したい金額を入力して[Buy]をクリック

      ③ Stripeで支払い

      Congratulations! クレジットが補充されました。
      クレジットの補充手続きは以上です。ラクチンですね。

      5. 利用料金

      最後に、利用料金についても記載しておきます。

      10ドルで1000クレジットなので、1ドル150円換算ならば、1クレジットは1.5円ですね。
      サービスの利用料金は以下の通りです。Ultraは1回8クレジットを消費しますが、同じ8BモデルのLarge Turboなら半額の4クレジットです。早くて安くて綺麗で、Large Turboが魅力的に感じますね。 どうして普通のLargeより安いんだろう…。

      ServiceDescriptionPrice (credits)
      UltraOur most powerful and flexible workflow, leveraging state of the art models like Stable Diffusion 38
      Stable Diffusion 3 LargeThe 8 billion parameter variant of Stable Diffusion 3, our latest base model6.5
      Stable Diffusion 3 Large TurboThe Turbo variant of Stable Diffusion 3 Large4
      Stable Diffusion 3 MediumThe 2 billion parameter variant of Stable Diffusion 3, our latest base model3.5
      CoreAdvanced workflow for generating high quality images quickly3
      SDXL 1.0Legacy base model – classic, no-frills image generation0.2-0.6
      SD 1.6Legacy flexible-resolution base model0.2-1.0

      その他の機能の料金は以下のページからご参照ください。

      https://platform.stability.ai/pricing

      6. まとめ

      駆け足で説明しましたが、みなさま無事に画像生成できましたか?
      APIを利用すれば、複雑な環境構築も不要で、最高峰のモデルが利用可能です。

      ぜひこの機会に、誰より早く最高峰・最上位の画像生成AIを試してみてください。

      ✨️本記事が面白かったら、X@AICUai, noteのフォロー、シェアをよろしくお願いいたします!

      https://note.com/aicu

      社内Slack等のシェアでも歓迎です。
      また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

      ✨️AICU Inc.は Stability AI 公式パートナーです。
      様々なアプリ開発のご相談も承っております!サービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

      https://corp.aicu.ai/ja/stability-ai-membership

      生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携

      https://prtimes.jp/main/html/rd/p/000000007.000133647.html

      本投稿はこちらの原作より、AICU media編集部に寄稿されたものです。
      寄稿日 2024年06月16日
      ご協力いただいた皆様、ありがとうございます。
      Stability AI Japan – External AdvocateのD̷ELLさんもありがとうございます。
      Stable Diffusionの探求を拡げていけるクリエイターのみなさまに感謝です。

    • 全世界最高峰・最上位の画像生成AI (Stable Diffusion 3 8B+) が凄すぎた件

      全世界最高峰・最上位の画像生成AI (Stable Diffusion 3 8B+) が凄すぎた件

      Stable Diffusion開発元の、Stability AI Japan – External AdvocateのD̷ELLと申します。
      今回、Stable Diffusion最高モデル Stable Diffusion 3 80億パラメータ(8B) を搭載したAPI「Stable Image」の、最上位サービス 「Stable Image Ultra」 の体験会を実施しました。
      実施内容をレポートにまとめましたので、報告させて頂きます。


      概要

      • Stability AIからStable Diffusion 3 2B のモデルがリリースされ、世界を席巻した
      • Stability AI APIでは、最上位モデルの Stable Diffusion 3 8B が利用可能
      • 性能を体験してもらうために、色んな人に利用してもらったら凄かった

      経緯

      先日、Stability AIから待望のStable Diffusion 3 Medium(2Bモデル)が発表され、大きな話題を呼びました。しかし、Stability AI APIではさらに上位の Large / Ultra(8Bモデル) が利用できることをご存知でしょうか?

      先日モデルリリースされた Stable Image Medium は 2B モデルですが、Stable Image Large は その4倍のパラメータを持つ 8Bモデルです。Stable Image Ultra は、8BモデルであるLargeを調整して更に性能を向上させた、名実ともに 全世界最高・最上位の画像生成AI となります。

      Stable Image Ultraの紹介は以下の通りです。

      当社の最も高度なテキストから画像への生成サービスであるStable Image Ultraは、これまでにない迅速な理解で最高品質の画像を作成します。Ultraは、タイポグラフィ、複雑な構図、ダイナミックな照明、鮮やかな色合い、芸術作品の全体的なまとまりや構成に優れています。Stable Diffusion 3を含む最先端のモデルから作られたUltraは、Stable Diffusionのエコシステムの最高峰を提供します。

      Stable Diffusion 3 8Bの性能を最大限に引き出すように調整されたAPI、ということですね。

      その優れた性能をぜひ体験していただきたく、先日Google Colabファイルを提供させていただきました。こちらからご確認いただけます。

      Google Colab notebook への短縮URL
      https://j.aicu.ai/SD3UC

      とはいえ、急に有償のAPIを利用するのは少しハードルが高いかもしれません。そこで今回は、懇意にしている皆様に、APIの最上位モデルである Stable Image Ultra を利用いただき、その感想を伺いました。

      生成画像集

      みなさまの生成された画像と、プロンプト、利用コメントを頂いております。
      多種多様な画像を生成いただいておりますので、ぜひお楽しみください。

      ご協力頂いた Discordサーバー AI声づくり技術研究会様、ありがとうございます。

      スクリーンショット 2024-06-15 223314 - コピー.jpg

      うんわさん

      コメント:「あまりプロンプトを工夫してなくても非常に高品質な画像がパッと出てきて、とてつもない進化を感じました。」

      A soft, plush toy shaped like a smiling face with two round black eyes and a simple curved smile. The toy is light purple and appears to be made of a soft, fuzzy material. It is positioned on a blue quilted surface with a light gray background, cute, kawaii, close-up shot, high detail.

      a breathtaking underwater photo of a hand underwater touching the surface to create a ripple of bright abstract eye galaxy nebula vortex of beauty and nature, sunlight and chaos

      robot girl, android,hanging,female, robot_torso,mechanical parts, cable, masterpiece, in a futuristic robotics lab, deactivated, wires, highly detailed, dynamic lighting, pale skin

      aurora, milky way, night, night sky, shooting star, space, starry sky, galaxy, sky, city lights, constellation, light particles, skyscraper, cityscape, a girl, long hair, skyline, city, standing, twilight, looking at viewer, yellow eye


      an image of a World War II battle scene. Include soldiers in era-specific uniforms, trenches, barbed wire, and debris. Show infantry, tanks, and military vehicles with smoke and fire. Add an overcast sky for a grim atmosphere. Use a muted, gritty color palette.


      へむろっくさん

      コメント:「触ってみな 飛ぶぞ!」

      image.png
      image.png
      image.png
      image.png

      Girls who play games on a gaming PC with multiple monitors at home, willing, aged 20


      Girl taking a selfie with her smartphone in the mirror at home, Young girl dressed in black gothic Lolita fashion, kawaii, anime,


      うみせさん

      コメント:「SD3を使ってみて、先日公開されたmediumよりも良い感じに生成できて楽しかったです。これまでにSD1、SD2、XL、cascadeと試してきましたが、SD3はそれらの良いところをうまく取り入れているように感じました。プロンプトの効きと生成結果がとてもよく、体験としては非常に素晴らしかったです。まだultraはAPIのみでの利用ですが、APIに抵抗がない方にはぜひ試してみてほしいです。」


      At dusk, in a polished, beautiful fantasy city where light and darkness intersect, god rays rain down from high in the sky, illuminating the city.


      A surreal landscape with a giant floating crystal in the sky.


      game screen shot of Open world game with a character in a forest, with game hud


      a concept pixel art of star night, sky full of stars, a person standing on a hill, looking at the sky, japanese anime style, 16bit, Title logo write 「hello world」


      a concept art of Dark soul style weapons, setting sheet,


      1girl, solo, cyberpunk, barcode, black footwear, black jacket, black skirt, boots, braid, brown hair, building, car, character name, crosswalk, full body, green eyes, hand in pocket, high heel boots, high heels, holding, holding umbrella, jacket, long hair, long skirt, motor vehicle, phone, pink umbrella, road, road sign, sign, single braid, skirt, smile, standing, twin braids, umbrella


      Glittering neon signs and flying cars are reflected in the dark, stagnant river. Skyscrapers built high in the sky, cyberpunk city, cyberpunk


      In a vibrant 1990s-style anime illustration, a young girl strikes a fashionable model pose in the heart of a bustling city. She embodies the essence of cyberpunk, dressed in the latest streetwear trends that blend futuristic elements with retro flair. Her outfit features a sleek jacket with neon accents, high-waisted pants, and chunky sneakers, all glowing under the city’s neon lights. She wears stylish sunglasses, reflecting the colorful, electric atmosphere around her. Her confident stance and playful expression capture the spirit of a fashion icon, seamlessly merging the past's nostalgia with the future's edgy vibe. The background is a lively urban scene, filled with towering skyscrapers, bright billboards, and bustling crowds, perfectly encapsulating the dynamic energy of a cyberpunk metropolis.


      yutoさん

      コメント:「未来の技術は今使ってこそ未来の技術と言います。Stable Image API Ultraは今使える未来の技術です!!」


      realistic, natural light, photo, long hair, portrait, asian and caucasin mixed girl, beautiful model, white shirt, having card "Yes I am"


      realistic, natural light, photo, long hair, portrait, asian and caucasin mixed girl, beautiful model, white shirt,


      uthreeさん

      コメント:「メチャクチャクオリティ高いとしか言いようがない」



      a girl falling in the sky, smile, starry night, white hair, anime, vibrant, high quality,


      A detailed anime-style character design, featuring a young girl with long flowing purple hair and bright blue eyes. She is wearing a stylish futuristic outfit with intricate details, including a metallic silver jacket, a neon blue skirt, and knee-high boots. Her expression is cheerful, and she is standing in a vibrant, colorful cityscape with tall buildings and neon signs in the background. The sky is stunningly beautiful, with a gradient of colors from deep blue to vibrant pink, adorned with fluffy white clouds and a glowing sunset. The lighting is dynamic, with a mix of natural and artificial light, giving the scene a lively and energetic atmosphere. The overall style is highly detailed, with a focus on capturing the unique elements of anime art and the breathtaking beauty of the sky.


      1girl, solo, cyberpunk, barcode, black footwear, black jacket, black skirt, boots, braid, brown hair, building, car, character name, crosswalk, full body, green eyes, hand in pocket, high heel boots, high heels, holding, holding umbrella, jacket, long hair, long skirt, motor vehicle, phone, pink umbrella, road, road sign, sign, single braid, skirt, smile, standing, twin braids, umbrella


      A girl, starry night, anime, vibrant, high quality, pixel art


      雫さん

      コメント:「久しぶりに画像生成AIを使いましたが、前に使った時よりすごくプロンプトが効きやすい気がしました。ものすごく楽しかったです。貴重な機会をありがとうございました!」


      Black long hair, Anime, kawaii, 1girl, black eyes, headphone, white clothing, looking down at viewer, standing, building, city, frombelow, upper body, side shot

      image.png


      Anime, Kawaii, ilustrated, 1 girl, purple long hair, crimson eyes, sunset, building, city, Aurora front view


      In an illustration style, Kawaii and animated, it evokes the interior of a Gothic cathedral, with red ambient lighting showing large stained glass windows on either side, and rays of light in the center illuminating the dust in the air, creating a mysterious atmosphere. And a girl with black wings and red eyes floats in the center, looking at us

      image.png
      image.png

      flyfrontさん

      コメント:「長い自然文でもちゃんとイラストに反映されてて良い感じ!」


      illustrated in an anime style with the focus on the upper body, from a slightly angled front view. A Japanese woman wearing a lace trimmed blue evening dress off shoulder style is sitting at the counter of a luxury hotel's top-floor bar. The dress shows a collarbone and the feminine curves of her body. She is wearing a jewely necklace and has her silver hair up and red eyes. With a melancholic expression, she gazes out at the fog and rainy skyscraper cityscape through the window. The woman is holding an envelope in her hand, with the word "Invitation" written on it. The bar is elegantly decorated with dim lighting, cocktail glass on counter table, creating a sophisticated and intimate atmosphere. The city lights and rain outside the window create a reflective and moody ambiance. nega:behind, v-neckline, nsfw


      kawaii anime style. A medieval girl with blonde hair is swinging a katana toward front with the katana's blade gleaming in the light. She is dressed in traditional European white armor with intricate patterns and details, wearing frilled skirt. Her expression is determined and focused. The background is a blend of a serene landscape, featuring flowers in full bloom, and an ancient cathedral.photorealism, cartoon, samurai, cherry blossoms,


      焼肉Yakiinkuさん

      コメント:「プロンプトの反映がとても自然に感じました!頭で考えたイメージや情景をかなりの精度で絵にしてくれる(しかもすごい生成速度早いっ)ので、「すごい!」もそうなのですが「とっても楽しい!」って感じなので時間を忘れて夢中になります・・!楽しいイベントありがとうございます!」


      Anime, kawaii, depth of field, thick fog, smoke, kisser, cigarette, red and white, monotone, petals fused with body, flowers, glamour, Chinese dress, empty eyes, morbid, hair in a bun, long hair, clock tower, crack in space-time,


      Anime, kawaii, girl, solo, depth of field, waves, flat colour, best image quality, symmetrical face, summer, water on dress, water droplets, specular reflection, refracted glass shards, prism, moon celestial body, liquid clothing, long yellow dress, harmony,


      Anime, kawaii,depth of field, thick fog, Full smiles, happiness, hope, white wedding dress, church, disquiet, grey world, bursts of blood, despair, cracks in the world, slaughter, incident, stillness,


      Anime, kawaii, fantasy, Arabian Nights, lamp witch, dragon, fun, flying, magic carpet, light shards, adventure, boy, girl


      代屋モントさん

      A scene where a giant octopus-like monster and a fighting humanoid robot shoot pile bunkers into the octopus.


      An androgynous elementary school boy with a dark atmosphere wearing a gothic dress


      An anime style of a hero wearing a tiger mask standing on a telephone pole.


      (((((((anime))))))) depth of field, wave at the edge of dress, masterpiece, flat color, best quality, BRAKE. ((kawaii)), perfect symmetrical face,summer,wave, ((colorful refraction)), ((beautiful detailed sky)), ((dark intense shadows)), ((cinematic lighting)), ((overexposure)), water on the dress, (water sea red dress blending with sea), from side,beautiful detailed glow, ,detailed lighting, detailed water,(beautiful detailed eyes),(smile), standing in the ocean, detailed wet clothes, partially submerged, Refracting glass fragments, prisms, lunar celestial nature, BRAKE. (liquid clothes:1.2) ,a girl solo: {dress<wave>, {{dissolving dress}},A dress in harmony with the sea,dress floating into sea}, (beautiful detailed girl) (long dress blending with ocean), (yellow long dress:1.5), small breasts, skinny 【Negative】 blur, lowres, bad anatomy, bad hands, text error, missing fingers, extra digits, fewer digits, cropped, worst quality, low quality, standard quality, jpeg artifacts, signature, watermark, username, blurry, glow, slippage, blur, bokeh, pink, multiple views,large breasts, large breasts, medium breasts, huge breasts, enormous breasts ,Hair that doesn't fit into the illustration, blush, flat chest q_version, nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, symmetry, outline(painting),cartoons,sketch,(worst quality:2),(backlight:1.2),bad anatomy,bad hands,double navel,collapsed eyeshadow,multiple eyebrows,freckles,signature,logo,2faces,((3fingers:1.2)),((4fingers:1.2)),((6fingers:1.2)),(laugh line:1.2),


      マッキーさん

      kawaii, anime, 1girl, solo, Very beautiful glowing skin., blue eyes, long hair, gray hair, elf, Huge breasts, looking at viewer, upper body, camisole, absurdres, highres,Detailed background,Outdoor Lakeside

      Create a high-resolution, upper-body image of a cute anime girl with blue eyes and long, flowing gray hair. She has tanned skin and is an elf with delicately pointed ears. She is smiling warmly and looking directly at the viewer, giving a friendly and inviting expression. She is wearing a light, pastel-colored camisole that complements her complexion. Her hair cascades gracefully around her shoulders, with a few loose strands framing her face. The background should depict a sunny lakeside scene with clear blue skies, a sparkling lake, and lush greenery. Ensure the background is detailed yet softly blurred to keep the focus on the character. The style should be kawaii and highly detailed, capturing the charming and whimsical essence of anime art. Ensure the image is high quality and high resolution, with careful attention to the character's features and expression.

      生の声

      https://twitter.com/mckey_draw/status/1801990763578093651

      ChatGPTとの連携

      プロンプトは、ChatGPTに生成してもらったという方が多くおられました。
      GPTsでStable Diffusionのプロンプトを生成できるらしく、ぜひ参考にして頂ければと思います。また、Stable Diffusion 3 は自然言語処理に対応しておりますので、一般的な英文でも高品質な画像が生成できます。

      「どんな呪文を使えばいいかわからない…。」という方でも、安心して本稿のような画像が生成可能です。安心ですね。

      まとめ

      いかがでしょうか?ひとつのAPIで、スタイルの指定など不要で、様々な画像が生成できていることがご覧いただけたかと思います。ユーザーのみなさまは、画像生成のベテランの方から初学者の方まで様々でしたが、望み通りの画像が出力出来たと大好評をいただきました。

      APIの利用方法は、以下の記事にまとめておきました。
      ぜひこの機会に、全世界最高峰・最上位の画像生成AIをお試しくださいませ。

      ご協力いただいたみなさまに感謝申し上げます。
      最後までご覧いただき、ありがとうございました。

      本投稿はこちらの原作より、AICU media編集部に寄稿されたものです。
      寄稿日 2024年06月16日

      ご協力いただいた皆様、ありがとうございます。

      Stability AI Japan – External AdvocateのD̷ELLさんもありがとうございます。
      Stable Diffusionの探求を拡げていけるクリエイターのみなさまに感謝です。