つくる人をつくる AICU Inc.

タグ: AI

ConoHa AI Canvasガチレビュー
2024年8月1日、「ConoHa by GMO」が画像生成AIサービス「ConoHa AI Canvas」を開始しました。

超高速なAUTOMATIC1111をクラウド上で利用できる「ConoHa AI Canvas」リリース！担当さんに突撃インタビューしてみた

今回は、この「ConoHa AI Canvas」を、利用者視点・画像生成AIの使い手の視点で忖度なしで2万2千字ほどのガチレビューをしていきたいと思います。
今回のレビュー担当と読み手の設定

今回のレビュー担当であるAICU AIDX Labは、すでに
・ConoHaを使ったVPSは経験済み
・Linuxの管理等は自分でできる
・ConoHa VPS GPUサーバーを使用したことがある
・Google(GCP), Amazon (AWS)でのGPUインスタンスも構築できる
・実際にAUTOMATIC1111を業務的に使っているがコスト面などに課題があると感じている
・もちろんGoogle ColabもProで使っているが、AUTOMATIC1111を業務として展開する際にはGoogle側のサービスポリシー変更や突然の停止があるため代替案を考えねばならない…。
という技術者です。

読み手としては以下のような方を対象にしております。

・VPSでWordpressなどをマネージドサービスで立ち上げられる
・AUTOMATIC1111の使用方法は一応わかる
・画像生成に詳しく「GPU搭載PCを増強するまでもないな…」というプロシューマー/ホビー用途
・もしくは「小規模チームや複数ユーザーが業務的に使う用途」で社内展開を検討する担当者
・自分でクラウドGPUのサーバーを維持するのは敷居が高い
・ConoHa AI Canvasについては興味がある
・実際にアカウント作ったら「いくらぐらいでどれぐらいのことができるのか」疑問……
…といった方を想定してレポートしております。

✨️AUTOMATIC1111の使い方については「SD黄色本」をどうぞ！(宣伝)

書籍[画像生成AI Stable Diffusionスタートガイド]

新規アカウント作成の場合

いますぐ、速く構築したい！というひとは新規アカウントを作成しましょう

電話/SMS認証

利用にあたって複雑な審査は不要

ConoHa VPS GPUサーバーでは法人利用、個人利用、本人認証などの審査が必要でしたが、AI Canvasについてはそのような審査は不要だそうです。SMSもしくは電話認証があります。

これだけでダッシュボードにたどり着けます！

既存のConoHaアカウントがある場合

AICU AIDX Labはすでに ConoHa VPS GPUサーバーを使用したことがあるので「ConoHaアカウントをお持ちの方」を選んでみたのですが、結果的にはあまりシンプルではありませんでした。

支払い情報カードの登録

結果から言うと、クレジットカード、特に3Dセキュア2.0対応のカードが必要です。楽天カードはいけました。プリペイドカードは注意です。

https://support.conoha.jp/c/security-3ds/?_ga=2.80313239.109950757.1722495027-668426941.1722335492

「ご利用のサービスを選んでください」というダッシュボードまでたどり着きましょう。

未払がないこと!!

すでに請求中、未払の案件があると新規作成はできません。
GPUサーバーの未払があることに気づきました…（すみません）。
こういうこともあるので『用途ごと、新規でアカウント作成』大事ですね!!

未払案件は「決済🔃」のボタンを押すことでConoHaチャージで決済できます（未払は決済しました！すみませんでした！！）。

ConoHaチャージの利用

クレジットカード以外の決済方法は、Amazon Pay、コンビニエンスストア、銀行決済（ペイジー）、PayPalが使えます。クレジットカードでの支払いは3Dセキュア2.0対応が必要ですが、ConoHaチャージ自体は、多様な支払いをサポートしていますので未成年でも利用可能と考えます。また、余ったConoHaチャージがあるのであれば、試すにもちょうどよいのでは。

前払いも可能

自動引落やConoHaチャージによる後払いではなく、
いわゆるクレジットカードでの毎月払いのイメージで、多くの利用者はこちらを使うと想像します。
試しに495円だけチャージしてみる、といった使い方もあるかもしれません（…が前述の通り未払になる可能性も高まりますので注意）。

インスタンスの作成と起動・料金計算

コントロールパネルからインスタンスの作成と起動を行います。
契約サービスを選びます。

いちばん安いのは「エントリー」で495円です。
これは期間限定とはいえ業界最安値でしょう。

ここでは「おすすめ！」と書かれている「スタンダード」を選んでおきます（あとで「総評」で評価しましょう）。

今回はスタンダードで自動終了時間設定を60分に設定しておきました。
こういう機能はありがたいですね！

だいたい5分かからないぐらいでこの状態になりました。

WebUI利用者認証情報の設定

起動したWebUIは世界中に公開されている状態です。生成ごとにコストが掛かりますので、不特定多数に公開した状態はいろいろなリスクが生まれると考えます。
もともとのAUTOMATIC1111にもユーザーを設定する機能はありますが、GMOさん側のほうで「WebUI利用者認証情報の設定」という画面が追加開発されたようです。

WebUIのログイン画面

あらかじめ設定したユーザー名とパスワードで利用できます。

キター！

AUTOMATIC1111バージョンは1.6.0

下部にバージョン表記があります

API: version: 1.6.0、python: 3.10.9、xformers: N/A、gradio: 3.41.2、 checkpoint: 6ce0161689、torch: 2.0.1+cu118
「Created by AUTOMATIC1111 / ConoHa by GMO」とあります。

モデルはSD1.5です。プロンプトを「1girl」として「Generate」ボタンを右クリックしてを「Generate forever」で動作確認します。
（これで明示的に指定しない限り永遠に画像を作り続けます）

AI Canvasのサイトにはサンプルプロンプトも紹介されています。
https://www.conoha.jp/ai/canvas/example/

機能拡張のインストールが可能

（多くのWebUI提供サービスで封じられている）
Extensionsのインストールが可能です。ありがたいですね。

処理能力: 連続生成は2.3秒/gen

SD1.5での「1girl」連続生成は2.3秒/genですね

2.3秒/genですね

1boy, solo, upper body, front view, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight, hoodie, jeans, newest, 1boy, solo, upper body, front view, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight,… pic.twitter.com/l41G2zTfA9
— AICU Inc. (@AICUai) August 1, 2024

複雑なプロンプトも実施してみます。

2.3秒/genですね

1boy, solo, upper body, front view, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight, hoodie, jeans, newest, 1boy, solo, upper body, front view, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight,… pic.twitter.com/l41G2zTfA9
— AICU Inc. (@AICUai) August 1, 2024

1boy, solo, upper body, front view, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight, hoodie, jeans, newest, 1boy, solo, upper body, front view, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight, hoodie, jeans, newest Negative prompt: worst quality, normal quality, ugly,, worst quality, normal quality, ugly, Steps: 20, Sampler: Euler, CFG scale: 7, Seed: 413102864, Size: 512×512, Model hash: 6ce0161689, Model: v1-5-pruned-emaonly, Version: 1.6.0

Time taken: 2.4 sec.

A: 1.79 GB, R: 3.41 GB, Sys: 3.7/21.9648 GB (16.8%)

L4 GPU, Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz

AUTOMATIC1111下部の「Startup Profile」では起動時間の所要時間を確認できます。

AUTOMATIC1111下部の「Startup Profile」では起動時間の所要時間を確認できます。

Sysinfoによると、L4 GPU, Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz
avx命令なども有効になっています。
```
{
    "Platform": "Linux-5.15.0-113-generic-x86_64-with-glibc2.31",
    "Python": "3.10.9",
    "Version": "1.6.0",
    "Commit": "<none>",
    "Script path": "/stable-diffusion-webui",
    "Data path": "/stable-diffusion-webui",
    "Extensions dir": "/stable-diffusion-webui/extensions",
    "Checksum": "3253fc9546a1cea4d3b9262670da9f3dd7b418b1a9f25310e13a5afe38253b5c",
    "Commandline": [
        "webui.py",
        "--listen",
        "--port",
        "7860",
        "--enable-insecure-extension-access",
        "--disable-safe-unpickle",
        "--opt-sdp-attention",
        "--opt-channelslast",
        "--theme",
        "dark",
        "--medvram",
        "--gradio-auth-path=/gradio/.gradio-auth",
        "--hide-ui-dir-config",
        "--no-half-vae"
    ],
    "Torch env info": {
        "torch_version": "2.0.1+cu118",
        "is_debug_build": "False",
        "cuda_compiled_version": "11.8",
        "gcc_version": "(Debian 10.2.1-6) 10.2.1 20210110",
        "clang_version": null,
        "cmake_version": "version 3.25.0",
        "os": "Debian GNU/Linux 11 (bullseye) (x86_64)",
        "libc_version": "glibc-2.31",
        "python_version": "3.10.9 (main, Feb  4 2023, 11:55:23) [GCC 10.2.1 20210110] (64-bit runtime)",
        "python_platform": "Linux-5.15.0-113-generic-x86_64-with-glibc2.31",
        "is_cuda_available": "True",
        "cuda_runtime_version": null,
        "cuda_module_loading": "LAZY",
        "nvidia_driver_version": "535.183.01",
        "nvidia_gpu_models": "GPU 0: NVIDIA L4",
        "cudnn_version": null,
        "pip_version": "pip3",
        "pip_packages": [
            "mypy-extensions==1.0.0",
            "numpy==1.23.5",
            "open-clip-torch==2.20.0",
            "pytorch-lightning==1.9.4",
            "torch==2.0.1+cu118",
            "torchdiffeq==0.2.3",
            "torchmetrics==1.2.0",
            "torchsde==0.2.5",
            "torchvision==0.15.2+cu118"
        ],
        "conda_packages": null,
        "hip_compiled_version": "N/A",
        "hip_runtime_version": "N/A",
        "miopen_runtime_version": "N/A",
        "caching_allocator_config": "",
        "is_xnnpack_available": "True",
        "cpu_info": [
            "Architecture:                       x86_64",
            "CPU op-mode(s):                     32-bit, 64-bit",
            "Byte Order:                         Little Endian",
            "Address sizes:                      46 bits physical, 57 bits virtual",
            "CPU(s):                             20",
            "On-line CPU(s) list:                0-19",
            "Thread(s) per core:                 1",
            "Core(s) per socket:                 1",
            "Socket(s):                          20",
            "NUMA node(s):                       1",
            "Vendor ID:                          GenuineIntel",
            "CPU family:                         6",
            "Model:                              106",
            "Model name:                         Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz",
            "Stepping:                           6",
            "CPU MHz:                            2095.051",
            "BogoMIPS:                           4190.10",
            "Virtualization:                     VT-x",
            "L1d cache:                          640 KiB",
            "L1i cache:                          640 KiB",
            "L2 cache:                           80 MiB",
            "L3 cache:                           320 MiB",
            "NUMA node0 CPU(s):                  0-19",
            "Vulnerability Gather data sampling: Unknown: Dependent on hypervisor status",
            "Vulnerability Itlb multihit:        Not affected",
            "Vulnerability L1tf:                 Not affected",
            "Vulnerability Mds:                  Not affected",
            "Vulnerability Meltdown:             Not affected",
            "Vulnerability Mmio stale data:      Vulnerable: Clear CPU buffers attempted, no microcode; SMT Host state unknown",
            "Vulnerability Retbleed:             Not affected",
            "Vulnerability Spec rstack overflow: Not affected",
            "Vulnerability Spec store bypass:    Mitigation; Speculative Store Bypass disabled via prctl and seccomp",
            "Vulnerability Spectre v1:           Mitigation; usercopy/swapgs barriers and __user pointer sanitization",
            "Vulnerability Spectre v2:           Mitigation; Enhanced IBRS; IBPB conditional; RSB filling; PBRSB-eIBRS SW sequence; BHI Syscall hardening, KVM SW loop",
            "Vulnerability Srbds:                Not affected",
            "Vulnerability Tsx async abort:      Mitigation; TSX disabled",
            "Flags:                              fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon rep_good nopl xtopology cpuid pni pclmulqdq vmx ssse3 fma cx16 pdcm pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch cpuid_fault invpcid_single ssbd ibrs ibpb stibp ibrs_enhanced tpr_shadow vnmi flexpriority ept vpid ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid avx512f avx512dq rdseed adx smap avx512ifma clflushopt clwb avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves wbnoinvd arat avx512vbmi umip pku ospke avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg avx512_vpopcntdq la57 rdpid fsrm md_clear arch_capabilities"
        ]
    },
    "Exceptions": [],
    "CPU": {
        "model": "",
        "count logical": 20,
        "count physical": 20
    },
    "RAM": {
        "total": "126GB",
        "used": "6GB",
        "free": "78GB",
        "active": "7GB",
        "inactive": "39GB",
        "buffers": "2GB",
        "cached": "41GB",
        "shared": "22MB"
    },
    "Extensions": [
        {
            "name": "stable-diffusion-webui-localization-ja_JP",
            "path": "/stable-diffusion-webui/extensions/stable-diffusion-webui-localization-ja_JP",
            "version": "d639f8ca",
            "branch": "main",
            "remote": "https://github.com/AI-Creators-Society/stable-diffusion-webui-localization-ja_JP"
        }
    ],
    "Inactive extensions": [],
    "Environment": {
        "GRADIO_ANALYTICS_ENABLED": "False"
    },
    "Config": {
        "outdir_samples": "",
        "outdir_txt2img_samples": "/output/txt2img",
        "outdir_img2img_samples": "/output/img2img",
        "outdir_extras_samples": "/output/extras",
        "outdir_grids": "",
        "outdir_txt2img_grids": "/output/txt2img-grids",
        "outdir_img2img_grids": "/output/img2img-grids",
        "outdir_save": "/output/saved",
        "outdir_init_images": "/output/init-images",
        "font": "DejaVuSans.ttf",
        "sd_model_checkpoint": "v1-5-pruned-emaonly.safetensors [6ce0161689]",
        "sd_checkpoint_hash": "6ce0161689b3853acaa03779ec93eafe75a02f4ced659bee03f50797806fa2fa"
    },
    "Startup": {
        "total": 7.647331237792969,
        "records": {
            "launcher": 0.010724067687988281,
            "import torch": 2.8648695945739746,
            "import gradio": 0.6514277458190918,
            "setup paths": 1.2402830123901367,
            "import ldm": 0.014907598495483398,
            "import sgm": 1.3828277587890625e-05,
            "initialize shared": 0.3266317844390869,
            "other imports": 0.6456654071807861,
            "opts onchange": 0.0003814697265625,
            "setup SD model": 0.006415843963623047,
            "setup codeformer": 0.10921597480773926,
            "setup gfpgan": 0.009504556655883789,
            "set samplers": 5.0067901611328125e-05,
            "list extensions": 0.0007519721984863281,
            "restore config state file": 1.33514404296875e-05,
            "list SD models": 0.03431081771850586,
            "list localizations": 0.008013725280761719,
            "load scripts/custom_code.py": 0.047803401947021484,
            "load scripts/img2imgalt.py": 0.0017917156219482422,
            "load scripts/loopback.py": 0.001001596450805664,
            "load scripts/outpainting_mk_2.py": 0.0024428367614746094,
            "load scripts/poor_mans_outpainting.py": 0.0012700557708740234,
            "load scripts/postprocessing_codeformer.py": 0.0005180835723876953,
            "load scripts/postprocessing_gfpgan.py": 0.00044536590576171875,
            "load scripts/postprocessing_upscale.py": 0.0015022754669189453,
            "load scripts/prompt_matrix.py": 0.0011546611785888672,
            "load scripts/prompts_from_file.py": 0.0012383460998535156,
            "load scripts/refiner.py": 0.0005872249603271484,
            "load scripts/sd_upscale.py": 0.0009734630584716797,
            "load scripts/seed.py": 0.0011196136474609375,
            "load scripts/xyz_grid.py": 0.007689714431762695,
            "load scripts/bilingual_localization_helper.py": 0.3125584125518799,
            "load scripts/ldsr_model.py": 0.03952455520629883,
            "load scripts/lora_script.py": 0.1912364959716797,
            "load scripts/scunet_model.py": 0.026271343231201172,
            "load scripts/swinir_model.py": 0.03376197814941406,
            "load scripts/hotkey_config.py": 0.00037789344787597656,
            "load scripts/extra_options_section.py": 0.0007958412170410156,
            "load scripts": 0.6741135120391846,
            "load upscalers": 0.108856201171875,
            "refresh VAE": 0.05080389976501465,
            "refresh textual inversion templates": 8.678436279296875e-05,
            "scripts list_optimizers": 0.00021529197692871094,
            "scripts list_unets": 1.33514404296875e-05,
            "reload hypernetworks": 0.04795503616333008,
            "initialize extra networks": 0.0044841766357421875,
            "scripts before_ui_callback": 0.0001342296600341797,
            "create ui": 0.7404024600982666,
            "gradio launch": 0.0898442268371582,
            "add APIs": 0.00691986083984375,
            "app_started_callback/lora_script.py": 0.0003218650817871094,
            "app_started_callback": 0.0003368854522705078
        }
    },
    "Packages": [
        "absl-py==2.0.0",
        "accelerate==0.21.0",
        "addict==2.4.0",
        "aenum==3.1.15",
        "aiofiles==23.2.1",
        "aiohttp==3.8.6",
        "aiosignal==1.3.1",
        "altair==5.1.2",
        "antlr4-python3-runtime==4.9.3",
        "anyio==3.7.1",
        "async-timeout==4.0.3",
        "attrs==23.1.0",
        "basicsr==1.4.2",
        "beautifulsoup4==4.12.2",
        "blendmodes==2022",
        "boltons==23.0.0",
        "cachetools==5.3.2",
        "certifi==2022.12.7",
        "charset-normalizer==2.1.1",
        "clean-fid==0.1.35",
        "click==8.1.7",
        "clip==1.0",
        "cmake==3.25.0",
        "contourpy==1.1.1",
        "cycler==0.12.1",
        "deprecation==2.1.0",
        "einops==0.4.1",
        "exceptiongroup==1.1.3",
        "facexlib==0.3.0",
        "fastapi==0.94.0",
        "ffmpy==0.3.1",
        "filelock==3.9.0",
        "filterpy==1.4.5",
        "fonttools==4.43.1",
        "frozenlist==1.4.0",
        "fsspec==2023.10.0",
        "ftfy==6.1.1",
        "future==0.18.3",
        "gdown==4.7.1",
        "gfpgan==1.3.8",
        "gitdb==4.0.11",
        "gitpython==3.1.32",
        "google-auth-oauthlib==1.1.0",
        "google-auth==2.23.3",
        "gradio-client==0.5.0",
        "gradio==3.41.2",
        "grpcio==1.59.0",
        "h11==0.12.0",
        "httpcore==0.15.0",
        "httpx==0.24.1",
        "huggingface-hub==0.18.0",
        "idna==3.4",
        "imageio==2.31.6",
        "importlib-metadata==6.8.0",
        "importlib-resources==6.1.0",
        "inflection==0.5.1",
        "jinja2==3.1.2",
        "jsonmerge==1.8.0",
        "jsonschema-specifications==2023.7.1",
        "jsonschema==4.19.1",
        "kiwisolver==1.4.5",
        "kornia==0.6.7",
        "lark==1.1.2",
        "lazy-loader==0.3",
        "lightning-utilities==0.9.0",
        "lit==15.0.7",
        "llvmlite==0.41.1",
        "lmdb==1.4.1",
        "lpips==0.1.4",
        "markdown==3.5",
        "markupsafe==2.1.2",
        "matplotlib==3.8.0",
        "mpmath==1.3.0",
        "multidict==6.0.4",
        "mypy-extensions==1.0.0",
        "networkx==3.0",
        "numba==0.58.1",
        "numpy==1.23.5",
        "oauthlib==3.2.2",
        "omegaconf==2.2.3",
        "open-clip-torch==2.20.0",
        "opencv-python==4.8.1.78",
        "orjson==3.9.9",
        "packaging==23.2",
        "pandas==2.1.1",
        "piexif==1.1.3",
        "pillow==9.5.0",
        "pip==22.3.1",
        "platformdirs==3.11.0",
        "protobuf==3.20.0",
        "psutil==5.9.5",
        "pyasn1-modules==0.3.0",
        "pyasn1==0.5.0",
        "pydantic==1.10.13",
        "pydub==0.25.1",
        "pyngrok==7.0.0",
        "pyparsing==3.1.1",
        "pyre-extensions==0.0.29",
        "pysocks==1.7.1",
        "python-dateutil==2.8.2",
        "python-multipart==0.0.6",
        "pytorch-lightning==1.9.4",
        "pytz==2023.3.post1",
        "pywavelets==1.4.1",
        "pyyaml==6.0.1",
        "realesrgan==0.3.0",
        "referencing==0.30.2",
        "regex==2023.10.3",
        "requests-oauthlib==1.3.1",
        "requests==2.28.1",
        "resize-right==0.0.2",
        "rpds-py==0.10.6",
        "rsa==4.9",
        "safetensors==0.3.1",
        "scikit-image==0.21.0",
        "scipy==1.11.3",
        "semantic-version==2.10.0",
        "sentencepiece==0.1.99",
        "setuptools==65.5.1",
        "six==1.16.0",
        "smmap==5.0.1",
        "sniffio==1.3.0",
        "soupsieve==2.5",
        "starlette==0.26.1",
        "sympy==1.12",
        "tb-nightly==2.16.0a20231024",
        "tensorboard-data-server==0.7.2",
        "tifffile==2023.9.26",
        "timm==0.9.2",
        "tokenizers==0.13.3",
        "tomesd==0.1.3",
        "tomli==2.0.1",
        "toolz==0.12.0",
        "torch==2.0.1+cu118",
        "torchdiffeq==0.2.3",
        "torchmetrics==1.2.0",
        "torchsde==0.2.5",
        "torchvision==0.15.2+cu118",
        "tqdm==4.66.1",
        "trampoline==0.1.2",
        "transformers==4.30.2",
        "triton==2.0.0",
        "typing-extensions==4.4.0",
        "typing-inspect==0.9.0",
        "tzdata==2023.3",
        "urllib3==1.26.13",
        "uvicorn==0.23.2",
        "wcwidth==0.2.8",
        "websockets==11.0.3",
        "werkzeug==3.0.1",
        "wheel==0.38.4",
        "xformers==0.0.21.dev544",
        "yapf==0.40.2",
        "yarl==1.9.2",
        "zipp==3.17.0"
    ]
}
```
✨️上記の情報は、AICU AIDX Labが偶然つかんだVPSの情報かもしれません。別の環境を引き当てたひとは是非レポートお願いいたします。

生成した画像の扱い

（多くのAUTOMATIC1111提供サービスでは問題になる）生成した画像の扱いですが、ConoHaのファイルマネージャーで一括してダウンロードできます。これは便利かもしれませんね！

独自モデルのアップロード

今回のガチレビューで最大の注目ともいえる「独自モデルのアップロード」を試してみました。
上記の「ファイルマネージャー」の隣に「アップロード」があり、専用のチュートリアル画面があります。

AUTOMATIC1111/models/Stable-diffusionディレクトリへのアクセスも簡単

大きなファイルも分割してアップロードしてくれるようです。

Animagine XL 3.1をアップロードしてみます。

漫画制作に適したモデルは？Animagine 3.1 vs Animagine 3.0 徹底比較！

いったん手元のPCにダウンロードしたファイルをアップロードしてみます。
（直接サーバ側にダウンロードさせる方法はなさそうです）

アップロード中も画像生成できるので、生成しながらアップロードしましょう（利用時間を節約するためにも…）。

だいたい25分ぐらいでアップロードできました。これは接続環境によるかもしれません。

Animagine XL 3.1でのベンチマーク

Animagine XL 3.1公式設定に従い、CFG Scale を5～7程度に下げ、サンプリング・ステップを30以下にし、サンプラーとしてオイラー・アンセストラル（Euler a）を使用することをお勧めします。

https://huggingface.co/cagliostrolab/animagine-xl-3.1

VRAMは上限は低め

GPU NVIDIA L4 は VRAMは24GB搭載されているはずです。
HiRes.fixでSwinIR 4xでを使い2倍の設定、 1024×1024の解像度を2048×2048にしてみます。

もっと無茶な設定もしてみましたが流石にメモリが足りなくなるようです。
OutOfMemoryError: CUDA out of memory. Tried to allocate 16.00 GiB (GPU 0; 21.96 GiB total capacity; 11.44 GiB already allocated; 9.10 GiB free; 12.58 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
Time taken: 34.7 sec.

A: 12.44 GB, R: 16.74 GB, Sys: 17.0/21.9648 GB (77.5%)

この設定で予約しようとしたVRAMが16GB。総容量21.96GBですが、PyTorchに11.44GB割り当て済み、9.10GiB空き…よってアロケート（配分）が12.58GBで予約失敗という状態でした。
より小さいモデルを使うか、面積の小さい画像を生成するか、タイリングなどの多段階の処理で節約するか、というところです。

まずは1.5倍の1536×1536で再挑戦したところ、問題なくアロケートできました。だいたい1分/genというところです。

HiRes.fixでSwinIR 4xでを使い2倍の設定、 1024×1024の解像度を2048×2048にしてみます。

もっと無茶な設定もしてみましたが流石にメモリが足りなくなるようです。

A: 12.44 GB, R: 16.74 GB, Sys: 17.0/21.9648 GB (77.5%)

1.5倍の1536×1536で再挑戦したところ、だいたい1分/genというところです。 pic.twitter.com/CQOHdscy7o
— AICU Inc. (@AICUai) August 1, 2024

生成結果です。高解像度で素晴らしい…！

✨️アップスケーリングは多様な方法があるので、今回みたいな高解像度を生成しながら様子を見る、という使い方は必ずしも正しくはありません。

https://note.com/aicu/n/n6d8ddcdf2544

忘れちゃいけない終了方法

AI CanvasでのAUTOMATIC1111を利用中はダッシュボードに「WebUIを開く」というボタンが表示されています。

AUTOMATIC1111の上部にも（ふだんのAUTOMATIC1111と違い）「WebUIの終了」というボタンが表示されています。

こちらを押すことで、明示的に終了させることができます。
ファイルマネージャーから画像をダウンロードし、念の為、不要になったインスタンスは削除しておきましょう。

総評：ワークショップ用途であれば最適。

以上の通り、忖度なしのガチレビューを実施いたしました。
スペック的にはL4 GPUで、AUTOMATIC1111 1.6.0で問題ないようであれば、モデル追加も機能拡張のインストールも可能なので、カスタマイズ性も特に問題はないという印象を得ました。

比較対象としては、海外の安めのGPUホスティングサービス、例えばPaperspaceというよりは、国内のGPUホスティングサービスが対象になると考えます。

あとは Google Colabでしょう。Google Colab Paid Plan の場合はGoogle 最大のメモリを搭載したマシンにアクセス可能で「1ヶ月あたり1,179円」です。

Google Colab Proは環境として自由度は高いですが、マネージドサービスの一種であり、共有。L4以外のGPUも選択できますが、GPU環境の利用は優先度設定があり、相応のコンピューティングユニットを消費する形です。

さらにAUTOMATIC1111は連続使用が禁止されています。特に連続したサービスとしての使用が禁じられているようで（明示はされていない）、無料アカウントでAUTOMATIC1111を使用していると警告とともに停止します。
あくまで実験・研究・教育用途と考えましょう。

https://note.com/aicu/n/n4fcc8c200569

実験・研究・教育用途なら「エントリー」

Google Colabと同じような用途、つまり「実験・研究・教育」という用途で、特にPythonノートブックについて学ぶ要素や、AUTOMATIC1111最新の1.10.xが必要ではない用途であれば「エントリー」が良いと考えます。

AUTOMATIC1111 v1.10.xリリース – SD3Mをサポート

AICUのような企業向け・教育向けのワークショップのような用途で使うのであれば、期間限定でも1画像生成あたり2-3秒で提供できるL4環境は魅力的です。

✨️ワークショップの実施についてはこちらからお問い合わせください✨️

https://corp.aicu.ai/ja/pricing

教育機関、未成年の部活動、公金等の研究費等で「クレジットカードが使えない」といった用途であれば、ConoHaチャージでの精算が選択肢になる可能性がありますね。ちなみにConoHaには学割があるようです。

https://www.conoha.jp/gakuwari

業務用途ならストレージで選びたい

今回は単発ワークショップのような期間限定利用ではなく、小規模チームや複数ユーザーが業務的に使う用途、もしくは「GPU搭載PCを増強するまでもないな…」というプロシューマー/ホビー用途での想定です。「おすすめ！」にしたがって「スタンダード」を選んでみましたが、この期間中、いちばん安いのはやはり「エントリー」で495円です。これまでのセットアップのステップを見てもわかりますが、無料枠の1時間ではモデルのアップロードで半分使い切ってしまいます。

上のクラスの「スタンダード」と比較計算してみたところ、仮に1時間以上～5時間以下の使用となる場合、495円＋3.3円 x 60分 x 5時間で1485円です。つまり5時間ではなく、「6時間/月ぐらい」からがスタンダードに「おすすめ」の利用時間になります。

注目したいのはストレージです。Google Colabの場合は一時ストレージはColab環境ですが、多くの場合はGoogle Driveのストレージを消費することになります。無料で利用できるかに見えるGoogle Driveの容量ですが、15GBとなると、実際に画像生成AIのモデルをダウンロードしたり、静止生成他画像を保存したりという用途には難しいサイズになります（これは多様な環境でGoogle Colabを使ってきたAICUならではの知見です）。
結局のところ、Google Oneを追加契約することになり、最低でもベーシックの100GBを250円/月で契約することになります。そうすると、1,179+250=1,429円となり、ConoHa AI Canvasの価格とほぼ変わらない水準になります。

またGoogle Oneの場合はGeminiがついてきますので、判断が難しいところです。

https://note.com/aicu/n/n73e4937bf165

今回の実験ではスタンダードとエントリーの両方で実験を行いましたが、今回のようなAnimagine XL 3.1を利用した画像生成の例でも13GB程度でした。

上手にストレージを節約して使うのであれば、30GB程度で十分なのかもしれませんね。

API用途では使えないが、GCP/AWSには対抗できる可能性。

VPSとはいえマネージドサービスなので、セキュリティ対策に心配がないのはありがたいですね。GCPやAWSでの同等のAUTOMATIC1111サーバーをL4で運用する場合、数千円で収まる話ではありませんので、まずはそことは価格競争力があります。

「Google Colabを許可されない企業におつとめで、審査等が必要ないがクレジットカードで利用できる国内企業」というマーケットはたしかにありそうです。

次にセキュリティ面です。昔話でありますがshare設定で放置してあるAUTOMATIC1111は危ないですし、Google Colabでのサービス開放が禁じられているのも、このようなトンネルでの放置サーバー利用が危ないという視点もあります。だからこそ、企業内GPU（オンプレミス）での利用はGradioのVPNトンネルを掘る形になりがちで、それによって社内のセキュリティやファイルアクセスを社外に晒す可能性があり、非常に危険なセキュリティホールになります。

そういった意味で（まだ現時点でこのサービスでは提供されていませんが）クラウド環境におけるAPIでの利用や、非公開の学習モデルやLoRAの運用サーバー、APIサーバーは需要があるかもしれません。現状はAPIのみでの利用は想定されていないようですが、起動時のオプションひとつですし、いちおう認証が作られていますから、そのうちサポートされるかもしれませんね。

例えばDifyでのStable Diffusionの独自サーバーの利用や、WordPress向けのプラグインでのAPI利用といったサービスがありますので、Stability AIの商用ライセンスとともに検討できるといいかもしれませんね！

こういった Stability AI関連のシステム構築の話題は SAI@aicu.ai にお問い合わせいただければ幸いです。クラウドも、VPSも、オンプレミスも、APIサービス化もそれぞれ良いところがあります。

https://j.aicu.ai/ConohaAICanvas

以上です！なにか間違いがあったらすみません！

超高速なAUTOMATIC1111をクラウド上で利用できる「ConoHa AI Canvas」リリース！担当さんに突撃インタビューしてみた

この記事が面白かった、しかもまだConoHaを試していないアナタ！
こちらのリンクからご契約いただけると、AICUのConoHa利用料の足しになるかもしれません…。無理にとはいいませんが、ね！

https://www.conoha.jp

ガチレビュー案件の依頼もお待ちしております！

Originally published at https://note.com on Aug 4, 2024.
2024-08-04
ComfyUIの操作系とショートカット、ノードで「Stable Diffusion」の内部処理を学ぼう
こんにちわ、AICU media編集部です。
「ComfyUIマスターガイド」シリーズの第2回になります。
今回は、ComfyUIの基本操作と画像の生成についてご説明をしていきたいとおもいます。

第1回はこちら

【新シリーズ開始】 Google ColabでComfyUIを動かしてみよう！

第2回は、ComfyUIの基本的な操作から、ショートカット、画像の出力までの簡単な流れを解説します。AUTOMATIC1111と違い、完全にグラフィカルなユーザーインターフェースで操作するノードシステムは慣れるまで大変かと思いますが、用語や操作方法に慣れると大変見やすく効率的になります。またここでは、簡単な用語と中で起きている生成AIの処理についても解説していきます。

ComfyUIの基本操作とUIの名称

ComfyUI Manager入りのComfyUIが起動したら、まずは基本的な操作方法やユーザーインターフェース(UI)の名称をおさらいしておきましょう。

ユーザーインターフェース

ComfyUIではおもに上のようなグラフキャンバス(GraphCanvas、以下Canvas)上で作業します。以下で説明をする『ノード(node)』と呼ばれる部品を使用して、画像生成を行うためのネットワークを作成していきます。

Canvasの右にあるメニュー(Menu)では、画像生成（Queue Prompt）のコマンドを投入したり、その他各種設定を行うことができます。

ノード (node)

ノード (node) とは、こぶ、結び目、節、という意味ですが、ネットワーク用語では「結び目」「集合点」といった意味で「ノード」と呼びます。例えばコンピュータネットワークは、点（装置）とそれを結ぶ線（伝送路）で表すことができます。
ComfyUIにおける画像生成AIはこのようなネットワークの部品で表現されています。

例えば以下は「プロンプトとネガティブプロンプトを指定して、KSamplerに入力とする」を意味します。

ComfyUIではノードシステムを利用して「グラフ」もしくはワークフロー（後述）を構築することで画像生成のネットワークをつくることができます。

ノードシステムとは、指示を出すノード（点）とその指示を受けるノードをライン（線）で繋げるイメージです。
複数の点を連結させていくことで、複雑な指示を出すことができ、
最終的に精密な画像を出力することができます。

ちなみに、ノードを繋げた一連を『ノードツリー』と呼ぶこともあります。
（ノードの一連流れが樹と枝葉に似ていることからこのような呼び方が生まれました）

マウス操作

左・中ボタンドラッグアンドドロップ：画面の移動
中央ホイールのスクロール：画面の拡大 / 縮小
ワークスペース上で右ボタンのクリック：ノードの追加
左ボタンダブルクリック：ノードの検索

キーボードショートカット

上から順によく使うものです、いまはまだわからない用語も多いかもしれませんが、使いながら覚えていくことをおすすめします。

Ctrl + S : ワークフローの保存
Ctrl + Enter : 現在のグラフを生成するためにキューに入れる
グラフとは現在のワークフローのことを指します。
キュー(queue)とはこれから画像生成を行う待ち列です。
Ctrl + Shift + Enter : 現在のグラフを生成の最初としてキューに入れる
いま作業している内容を待ち列の先頭に入れるという意味になります。

Ctrl＋Z：もとに戻す
Ctrl＋Y：操作のやり直し

Ctrl + O : ワークフローの読み込み
Ctrl + D : デフォルトのグラフを読み込み

[ノード操作系]
Ctrl/Shift + Click : クリックしたノードを選択範囲に追加
Ctrl + A : すべてのノードを選択
Delete/Backspace(Windows) : 選択したノードを削除
Ctrl + Delete/Backspace : 現在のグラフを全削除
Shift + Drag : 選択した複数のノードを同時に移動
Alt + C : 選択したノードを折りたたむ/折りたたまない
Ctrl + M : 選択したノードをミュート/ミュート解除
Ctrl + B : 選択したノードをバイパス
(ノードがグラフから削除され、ワイヤが再接続されたように動作)
Ctrl + C/Ctrl + V : 選択したノードをコピーして貼り付け
(選択されていないノードの出力への接続は維持されない)
Ctrl + C/Ctrl + Shift + V : 選択したノードをコピーして貼り付け
(選択されていないノードの出力から貼り付けたノードの入力への接続を維持)

[表示系]
Q : キューの表示を切り替え
H : 履歴の表示を切り替え
R :グラフを更新
Space : カーソルを押しながら移動するとキャンバスが移動

ComfyUIのワークフローとノード

ComfyUIで画像生成を実行する前に、基本となるワークフローについて説明をします。ここでは、ComfyUIの起動時に表示されるデフォルトのワークフローを例にとります。Ctrl + Dでいつでも読み込めます。

ワークフロー（Workflow）とは

ワークフローとは、ComfyUIにおいて画像生成プロセスを視覚的に表現したものです。複数のノード（点）を線で接続し、データの流れを示しています。各ノードは特定の処理を担当し、それらを組み合わせることで望む画像を生成します。
ワークフローはjson形式でテキストファイルとして保存することもできますが、ComfyUIで生成されたPNG画像にも埋め込まれています。

デフォルトのワークフローの構成

デフォルトのワークフローは、以下のノード構成になっています。
この連載では基本的に、左上から右下に向かうようにノードツリーを配置して解説していきます。
- Load Checkpoint
  - モデルをロードするノードです。
  - ここでは “v1-5-pruned-emaonly.ckpt” というStable Diffusion 1.5のベースモデルが使用されています。
  - ダウンロード済みであれば他のファイルを選択することができます。
- CLIP Text Encode (Prompt)
  - CLIP (Contrastive Language-Image Pretraining)というOpenAIが最初に提案した言語と画像の学習モデルです。
  - テキストプロンプトを「条件付け(Conditioning)」にエンコードします。
  - 2つあり、上部のものがポジティブプロンプト（生成したい内容）、下部のものがネガティブプロンプト（見せたくない要素）を指定します。ノードの種類としては同じものです。
- Empty Latent Image
  - 潜在空間(Latent Space)から与える初期画像です。この段階では「サイズだけを持った無の画像」とイメージしておくと良いでしょう。
  - 生成する画像の解像度やバッチサイズ（一度の画像生成で何枚の画像を生成するか）を設定します。
  - ここでは512×512ピクセル、バッチサイズ1が設定されています。
- KSampler
  - 実際の画像生成を行うノードです。
  - サンプリング方法、ステップ数、どれだけプロンプトに従うかを指定するCFG（Classifier Free Guidance）、乱数のシードなど、画像生成とその画質に関わる重要なパラメータを設定します。
- VAE Decode
  - ここまでの処理は潜在空間での演算なので、最終的に人間が見れる画像（RGBのPNGファイル）に変換するため、VAE(Variational autoencoder; 可変オートエンコーダ)を使って圧縮された潜在表現（latent representation）を実際の画像に変換します。
- Save Image
  - 生成された画像を保存します。保存される場所は、”ComfyUI/output”フォルダになります。
  - ファイル名のプレフィックス(前置詞)を設定できます。例えば、プレフィックスに”ComfyUI”を設定した場合、保存される画像のファイル名は”ComfyUI_00001″、”ComfyUI_00002″となります。
以上で、ComfyUIの基本的な操作から、ショートカット、画像の出力までの簡単な流れを解説しました。ノードシステムは慣れるまで大変かと思いますが、慣れると大変見やすく効率的になります。また、AUTOMATIC1111と違い、用語の解説とともに触ってみると、中で起きている生成AIの処理がわかりやすくなったかと思います。
次回はComfyUI Managerやmodelの基本的な使い方をご説明したいと思います。

画像生成AI「ComfyUI」マスターPlan

画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、まとめて購読できます。メンバーシップ掲示板を使った質問も歓迎です。
- メンバー限定の会員証が発行されます
- 活動期間に応じたバッジを表示
- メンバー限定掲示板を閲覧できます
- メンバー特典記事を閲覧できます
- メンバー特典マガジンを閲覧できます
- 動画資料やworkflowといった資料への優先アクセスも予定
メンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487

もちろん、初月は無料でお試しいただけます！
毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
退会率はとても低く、みなさまにご満足いただいております。

この記事の続きはこちらから https://note.com/aicu/n/nb9657cfc3d8f

Originally published at https://note.com on Aug 2, 2024.
2024-08-02
【新シリーズ開始】 Google ColabでComfyUIを動かしてみよう！
「ComfyUIマスターガイド」シリーズの第1回になります。
第0回はこちら

[新連載] ここからはじめる「ComfyUIマスターガイド」

ComfyUI ManagerとGoogle Colabではじめる「ComfyUI」

ComfyUIには様々なインストール、セットアップ方法があります。「SD黄色本」でA1111を学んだ方が、ComfyUIを簡単に試すのであれば、「Stability Matrix」によるインストールが速いかもしれません。
GPU搭載のWindows11をお持ちの方は「Stability Matrix」公式サイトからインストーラーを使い、A1111と並んで「ComfyUI」をパッケージからインストールするだけで起動できます。

https://github.com/LykosAI/StabilityMatrix

より実用的かつシンプルなインストール手順

このシリーズではAICU特製の Google Colabノートブックを使ってよりシンプルなインストール手順を紹介します（文末）。

さらに実用的な方法として「ComfyUI Manager」という拡張機能を使用することで、カスタムノードやモデルの管理、ComfyUI本体の更新など、より効率的な運用が可能になります。

本記事では、ComfyUIの基本的な特徴から、Google Colabでの使用方法、基本的なワークフローの解説、そしてComfyUI Managerの活用方法まで、幅広くカバーしています。AI画像生成に興味がある方、より高度な制御を求めているクリエイターの方々に、ComfyUIの可能性を探っていただければ幸いです。

1. ComfyUIとは

ComfyUIは、AI画像生成の世界に革新をもたらした強力かつ柔軟なオープンソースのグラフィカルユーザーインターフェイス（GUI）です。Stable Diffusionをベースにしており、画像生成プロセスを視覚的に構築し、細かく制御することができます。

https://github.com/comfyanonymous/ComfyUI

ComfyUIの主要な特徴
1. ノードベースのインターフェイス:
  - 複雑な画像生成プロセスを視覚的にデザインできます。
  - 各ノードが特定の機能を表し、それらを線で結んでワークフローを作成します。
  - この方式により、初心者でも直感的に操作でき、上級者は複雑な処理を構築できます。
2. 高度なカスタマイズ性:
  - 生成プロセスの各段階で細かなパラメータ調整が可能です。
  - プロンプト、シード値、サンプリング方法、ステップ数など、あらゆる要素を制御できます。
  - これにより、望む結果を得るための精密な調整が可能になります。
3. 拡張性と柔軟性:
  - プラグインやカスタムノードを追加することで機能を拡張できます。
  - コミュニティによって開発された多様な拡張機能を利用できます。
  - 必要に応じて独自のノードを作成し、特殊な処理を組み込むことも可能です。
4. リソース効率:
  - 他のGUIに比べて軽量で、システムリソースの使用が効率的です。
  - これにより、比較的低スペックのマシンでも快適に動作します。
  - Google Colabのような環境でも十分なパフォーマンスを発揮します。
5. 幅広い互換性:
  - 様々なStable Diffusionモデルに対応しています。
  - LoRA（Low-Rank Adaptation）やControlNetなどの技術もサポートしています。
  - これにより、多様なスタイルや特殊な画像生成が可能になります。
6. バッチ処理と自動化:
  - 複数の画像を一度に生成するバッチ処理が可能です。
  - ワークフローを保存し、再利用することで作業を効率化できます。
  - これにより、大量の画像生成や実験的な試行が容易になります。
7. コミュニティサポート:
  - 活発なユーザーコミュニティがあり、情報交換や問題解決が容易です。
  - GitHub上でオープンソースとして開発されているため、最新の機能や改善が継続的に行われています。
ComfyUIの活用シーン

ComfyUIは、以下のような幅広い用途で活用されています：
- アーティストやデザイナー: 独創的なビジュアルアートの制作
- ゲーム開発者: キャラクターデザインや背景画像の生成
- 映画・アニメ制作者: コンセプトアートやストーリーボードの作成
- 研究者: AI画像生成の実験や新しいテクニックの開発
- 教育者: AI技術と創造性の教育ツールとして
- ホビースト: 個人的な創作活動や画像生成の探求
ComfyUIを使いこなすことで、AIアート制作の可能性が大きく広がります。その柔軟性と強力な機能セットにより、初心者から上級者まで、様々なレベルのユーザーが自分のビジョンを実現するためのツールとして活用できます。

2. ComfyUI Managerとは

ComfyUI Managerは、ComfyUIの機能を大幅に拡張し、使いやすさを向上させるための強力な拡張機能です。

https://github.com/ltdrdata/ComfyUI-Manager

主に以下の機能を提供することで、ComfyUIの管理と拡張を容易にします。
1. カスタムノードの管理: ComfyUI Managerを使用すると、カスタムノード（拡張機能）のインストール、アンインストール、有効化、無効化を簡単に行うことができます。これにより、ComfyUIの機能を柔軟に拡張し、ワークフローをより高度にカスタマイズすることが可能になります。
2. モデルの管理: チェックポイントモデル、AIアップスケーラー、VAE、LoRA、ControlNetモデルなど、様々なAIモデルのインストールと管理が可能です。
3. ComfyUI本体の更新: ComfyUI自体のアップデートも、ComfyUI Managerを通じて行うことができます。
4. ワークフローの互換性確認: 現在のワークフローに必要な不足ノードを検出し、インストールする機能があります。これにより、他の人が作成したワークフローを簡単に使用できるようになります。
5. 検索機能: 必要なカスタムノードを簡単に見つけることができる検索機能を提供しています。
6. バージョン管理: インストールされたカスタムノードのバージョン管理が可能で、最新の状態を保つことができます。
ComfyUI Managerのインストール後は、ComfyUIのインターフェースに「Manager」ボタンが追加され、そこから各種管理機能にアクセスできるようになります。

ComfyUI Managerを使用することで、ユーザーはComfyUIの潜在能力を最大限に引き出し、より効率的かつ柔軟な画像生成ワークフローを構築することができます。特に、多様なカスタムノードを簡単に追加・管理できる点は、ComfyUIの利用者にとって非常に有益な機能と言えるでしょう。

3. Google ColabでのComfyUIの使用準備

ComfyUIをGoogle Colabで使用するには、ComfyUI ManagerのGitHubページで提供されているGoogle Colabノートブックを利用します。以下の手順に従い、環境構築を行います。

Google Colabの有料プランへの加入

Google ColabでStable Diffusionを動作させるには、Colabの有料プランに加入する必要があります。プランにより、使用可能なGPUの種類や、付与されるコンピューティングユニットの量が変わるため、お好みのプランに加入してください。今回は、Colab Proプランに加入します。

Notebookのコピー

ComfyUI-ManagerのGitHubページ（原作）はこちらです。

https://github.com/ltdrdata/ComfyUI-Manager

GitHubページには、以下のようにComfyUIおよびComfyUI-ManagerをインストールするためのGoogle ColabのNotebookが提供されています。”click on this link”をクリックすることで、Notebookにアクセスできます。

以下、メンバーシップ向けに続きます！

画像生成AI「ComfyUI」マスタープランをご購読お願いします

この記事の続きはこちらから https://note.com/aicu/n/ndceebdc12ff4

Originally published at https://note.com on July 31, 2024.
2024-07-31
[新連載] ここからはじめる「ComfyUIマスターガイド」
【特報です!!】2024年8月からAICU mediaにて集中連載「ComfyUIマスターガイド」がはじまります！

コンセプト：こんな方に読んでほしい

・イラストレーションや漫画だけでなく映像制作に画像生成AIを使いたい
・画像生成AI「Stable Diffusion」を業務に活かしていきたい
・AUTOMATIC1111は何となく使えるが、ComfyUIに移行したい
・いったんゼロから学んで、最新の技術をキャッチアップできるところまで連れて行ってほしい
・Pythonのプログラミングとかはわかりません！
・高価なVRAM搭載PCを買えないわけではないけど、プロとしてはクラウドやサービスでの利用も当然可能、活用していきたい
・どうやったら品質を上げられるのか知りたい
・画像生成AIシステム開発の社内PoCをつくりたい、相談したいが、そもそも技術者として広範な知識が必要すぎる
・法律だけでなくクリエイターや消費者の倫理など、危ない技術やモデル、使い方における注意点もしっかり教えてほしい
・（わかっている人向け情報ではなく）映像系の読み手でもわかるように、環境やセットアップについても丁寧に教えてほしい
・内部の技術についても解説してほしい

配信方式

無料/有料を含めて様々な方法で配信します！
・毎日のnoteでの配信（週3本程度を予定）
・メンバーシップ向けの優先配信
・noteマガジンでの配信
・オウンドメディアでの無料配信
・インデックス化による読みやすい体系化
・多メディア等による配信（予定…!!）

配信予定コンテンツ

（随時更新・変更される可能性もございます）
・Image to Image
・ContorolNet
・LoRA
・アプリケーション開発
・画像生成の原理と歴史
・AIの倫理と社会
……以下続きます……！

基本的な流れは書籍「画像生成AI Stable Diffusionスタートガイド」のAUTOMATIC1111を踏襲しつつ、A1111からより実用的な画像生成AIのプロフェッショナル／マスターとして体系的な知識を得られる構成になっています。

書籍[画像生成AI Stable Diffusionスタートガイド]

豪華なライター陣

・ゲストライター Yas さん @earlyfield8612

生成AIを含む最新テクノロジーの実用化と企業のDXを支援するポノテク株式会社の代表。AICUコラボクリエイターとして技術調査や記事の全般に参加します。電気電子工学専攻、Bond University MBA取得。

・エディター　はねごろう @hane_desu

ボーカロイドからゲームCGなど映像系ラインプロデューサーを経験し、AICUではメディアエディター「クリエイティブAIプロマネ」という新しい職業を開拓するAIビジュアルデザインPさんです。映像系のプロフェッショナルの視点から見た「画像生成AIのここがわからん！」、クリエイティブの分野にいつつ、画像生成AIの初心者や中級者にやさしい視点を担保します。

・アーティスト　犬沢某いぬさわばう @InsBow

働きすぎて肩を壊して絵描きとしての筆を折ってしまったのですが画像生成AIのおかげで最近リハビリ中……という経歴を持ったビジュアルアート/漫画/イラストレーターさん。グラフィックス、挿絵、カバーアートなどで参加します。

・AICU media代表　しらいはかせ @o_ob

画像生成AI「Stable Diffusion」をリリース直後からまいにち研究・開発・発信し続けてきた「つくる人をつくる」AICU mediaの代表。デジタルハリウッド大学大学院特任教授。東京工業大学知能システム工学・博士（工学）、東京工芸大学画像工学専攻、写真工学科。芸術科学会副会長。科学コミュニケーター。画像生成AIの使い手として、学習者やクリエイター、オープンソース開発者にとってわかりやすい解説や視点を「わかるAIを伝える」AICUとしての品質を高く維持・管理して発信しています。

「noteメンバーシップ」ご参加がオススメ

生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するアメリカのスタートアップ企業「AICU」社が「note」で提供するプロ生成AIクリエイター養成ユニオンです。このユニオンでは、画像生成AIやLLMなど、高速に進化する生成AIの最先端を学びながら、一緒に生成AIの価値を生む仲間を得ます。メンバーは、生成AIに関する最新の知識と技術を自分のペースと興味の深さで追い、それを社会に明確に伝えて価値を生む能力を養うことに焦点を置いています。
Google Colabで動くGPU不要な環境についても紹介しています。
AICU社のパートナーである生成AIトップの企業での技術と専門知識や情報にいち早く触れる機会を得られます。プロフェッショナルな環境で学び、実践的なライティング技術、PoC開発、コンテンツ作成のノウハウを習得しましょう。
プロのクリエイターを目指す学生さんや、個人ブログでの執筆を超え生成AIでの転職や起業を考えるプロフェッショナル志向の方々の参加を歓迎します。もちろん「これから勉強したい」という人々も歓迎です。

https://note.com/aicu/membership/info

新登場: 画像生成AI「ComfyUI」マスターPlan

画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、まとめて購読できます。メンバーシップ掲示板を使った質問も歓迎です。
- メンバー限定の会員証が発行されます
- 活動期間に応じたバッジを表示
- メンバー限定掲示板を閲覧できます
- メンバー特典記事を閲覧できます
- メンバー特典マガジンを閲覧できます
- 動画資料やworkflowといった資料への優先アクセスも予定
ゼロから学ぶ「ComfyUI」マガジン

https://note.com/aicu/m/md2f2e57c0f3c

マガジン単体の販売は1件あたり500円を予定しております。
2件以上読むのであればメンバーシップ参加のほうがお得です！というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

もちろん、初月は無料でお試しいただけます！
毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
退会率はとても低く、みなさまにご満足いただいております。

AICUメンバーシップは「AI Creator Union」つまりお仕事を得やすい？

メンバー限定の会員証、活動期間に応じたバッジに加えて、以下のような「AIクリエイターユニオン」としてのメリットも可能性があります。

AICU メンバーシップ向け情報の例

AIクリエイターユニオンならではのオトクな情報が…
・コンテスト情報
・編集部からのおしらせ（キャンペーンとか）
・ライター依頼（フルリモートワーク）
・業務案件
・サンプルアートの募集など
・人材募集
などなど

もちろん、参加するだけでなく、記事へのフィードバックやご貢献、
Discordでの自己紹介やご反応をよろしくお願いいたします！

ご参加はこちらから！

https://note.com/aicu/membership/join

↓例えばペイウォールの向こうには「何人の人が参加しているのか」が表示されます↓

この記事の続きはこちらからhttps://note.com/aicu/n/n876fab5a0736

Originally published at https://note.com on July 31, 2024.
2024-07-31
【国際AI映像制作コンペ】Project Odyssey 第1回アワード受賞作品発表！日本からの受賞者も
2024年6月17日から開催されていた、次世代を担うAI映像クリエイターの国際AI映像制作コンペ「Project Odyssey」のシーズン1がついに閉幕！

https://ja.aicu.ai/projectodyssey-released/

国際AI映像制作コンペ「オデッセイ」開催 #ProjectOdyssey

世界中から集まった1,300を超える応募という作品の中から、栄えある受賞作品が決定しました。

受賞作品紹介

https://www.projectodyssey.ai/awards

3Dアニメーション部門、ミュージックビデオ部門、ナラティブ部門など、いずれの部門も甲乙つけがたいハイレベルな戦いが繰り広げられました。受賞作品はもちろんのこと、ノミネート作品からも、AI技術がもたらす映像表現の進化を感じ取ることができます。

3D Animations “An Interstellar Journey of Discovery” By nftnik

https://civitai.com/images/20187130

Music Videos “Get TO YOU” By RayRaytheDivine

https://civitai.com/images/19755839

Narratives RŌHKI – EPISODE 1 TRAILER By ROHKI

Open Format “The Mermaid’s Truth” by Ponz15

https://civitai.com/images/19280116

Behind-The-Scenes “Get to you” By RayRaytheDivine

https://civitai.com/images/19855657

「The Mermaid’s Truth」が[オープンフォーマット部門]最優秀賞に輝く！

現実と見紛うばかりの巨大な人魚の骨格が日本の街に打ち上げられた衝撃映像「The Mermaid’s Truth」。Ponz15氏の手によって生み出されたこの作品は、その圧倒的な映像美とリアリティで「創造上の生物の発見」という「よく考えたら誰でもわかるフェイクニュースをAIで想像する」という社会風刺を巧みに表現し、審査員一同を唸らせました。

作者は AICUコラボクリエイターのぽんずさん (@ponzponz15)!!

＜受賞者インタビュー＞

編集部：「人魚の真実」、オープンフォーマット部門・最優秀賞受賞、おめでとうございます！

ぽんず：はい！ありがとうございます！1,300を超える応募作品の中から、この度、OpenFormat部門で優秀賞、そして佳作を頂戴することができました。映像制作は未経験で、動画編集すらしたことがない私でしたが、AIとの出会いが全く新しい世界への扉を開いてくれました。また、AICUメディアさんの多大なるサポートにも心より感謝いたします。AIによって誰もが新たな可能性を見出せるこの時代の素晴らしさを胸に、これからもクリエイターとして精進してまいります。応援してくださった皆様、本当にありがとうございました。

佳作となった「アルパカオニギリ」

意外とこういうのが先かもしれませんなあ

🦙アルパカおにぎり-水谷園#Gen3 #Gen3alpha #RunwayGen3 #suno #pika pic.twitter.com/GfkBnhoYa5
— ぽんず🐕 AIクリエイター (@ponzponz15) July 2, 2024

https://corp.aicu.ai/ja/alpaca-making

その他部門でも、AIの可能性を感じさせる力作が続々！

Company Awards 企業賞

By midjourney_man
“Best Dreamscape”

By Damola
“Best Conceptual Range”

By creativeAIgency
“Best Sound Design”

By jasb
“Best Narrative Concept”

By olstudioai
“Best Art Direction”

By rui19990913456
“Best Stylistic Versatility”

By ferranb
“Best Worldbuilding”

By SAINT77
“Best Prompt Traveling Narrative”

By rui19990913456
“Best Stylistic Versatility”

By DirectedBySTAMP
“Best Mixed-Media Animation”

By gabemichael_ai
“Best Odyssey”

By ParticlePanic
“Best Movie Trailer”

Honorable Mentions 佳作

“WONDERLAND DESCENT” By RemyCoup – “Best Subject/Foreground Composition”

“FROM DEEP SEA TO BEACH” By yuyou – “Best Environmental Morphing”

“SHADOW IN BATTLEFIELD” By kanto – “Best Use Of Negative Space”

“ZERO GRAVITY” By AIWarper – “Best Anime Character Consistency”

“WE’RE GOING TO COSTCO, B*TCH!” By CJG – “Best Catchy Song”

https://civitai.com/images/17450897

“LETTUCE” By artificialB – “Best Pop Culture Parody”
“IT’S AN INSTRUMENT” – By MrAssisted “Best Live Real-Time Rendered Performance”
“THE MISFIT OUTLAWS” By KUDOStudio “Best Western Musical”
“BLOOM” By emmacatnip  “Best Art Nouveau Aesthetic”
“PSYCHEDELIC RENEGADES” By Vnderworld “Best Trippy Music Video”
“ALITY PROJECT” By HuemanInstrument “Best Anime Music Video”

https://civitai.com/images/18864354

“I’M YOUR BOMB BABY” By demon_ai “Best Elvis Impersonator”
“SQUAR” By rvcxxa “Best Ambient Music Video”
“ANXIETY” By syntaxdiffusion “Best Anxiety Inducing Film”
“SWAMPFEST 2024” By purz “Best Florida Man Aesthetic”
“THAT’S MY SONG” By zhonk “Best Creepy Carnival Aesthetic”
“CUTE MONSTERS” By SEIIIIRU “Best Illustrated Aesthetic”
“POPULAR FACES” By jasb “Best Rotoscoped Aesthetic”
“WE CALL IT LOVE” By sf893 “Best Lyric Music Video”
“NEW SHOULDERS” By hmdehong “Best Hip Hop Music Video”
“HEAD – DOWN LIFE”  By zhanghaijun520cc761 “Best Van Gogh Aesthetic”
“JE KARATE” By EtherealGwirl “Best Love Story”
“CREATURE” By thereelrobot “Best Dark Twist”
“A CROCODILE BOXER” By Shouta_ “Best Training Montage”
“ORIGINAL SIN” By DonnyWonny “Best Original Idea”
“EVERYTHING IS TURE”  By FrameFriends “Best Conspiracy Theory”
“LAZERTA POPULUS”  By RobotGarden  “Best Vlog Mockumentary”
“MY JURASSIC LIFE”  By Inner_Reflections_AI “Best Retro Aesthetic”
“WHAT IF?”  By ofaleco “Best Environmental Message”
“BUS STOP”  By chrisfreilich “Best Studio Ghibli Aesthetic”
“KATABASIS” By Aiwillreplaceusall “Best Occult Aesthetic”
“HANDS OF TIME” By udart “Best AI Hands”
“ALPACA ONIGIRI” By Ponz15 “Best Cute Commercial”
“VOIDBOUND”  By willisvisual “Best Sci-Fi Character Design”
“WHER ARE WE GOING? WHAT ARE WE DOING” By Infinite_Vibes “Best Minimalist Aesthetic”
“FEAST” By ChristianLuoma “Best Horror Film”
“DANCING IN THE DUST OF US” By aashay1686  “Best Personal Poem”
“NEXT OF KIN” By noah990 “Best Masking and Compositing”
“CRAFTING MEMORIES IN A BOTTLE” By RemyCoup “Best Text-To-Image-To-3D-To-Animation-To-Video Workflow”
“SANTIAGO” By Digital_Da_Vincis “Best Historical Voiceover”

Project Odysseyは、次世代の映像表現を切り開くプロジェクトです。

🏆The Project Odyssey Winners Have Been Announced🏆

Go to https://t.co/FlLm63VOq4 to see all of the favorite films!

Thank you to our organizers: @HelloCivitai @elevenlabsio @thinkdiffusion @realdreams_ai @matty_v3rse pic.twitter.com/X5JozVFQjZ
— ProjectOdyssey.ai (@Project0dyssey) July 29, 2024

[Project Odyssey公式サイトへのリンク]
https://www.projectodyssey.ai/

AI技術の進化は、映像制作の世界にも大きな変化をもたらしています。Project Odysseyは、AIを活用した映像制作に挑戦するクリエイターを支援し、その可能性を最大限に引き出すことを目指しています。

次回のコンテストでは、さらに多くの企業と賞金が用意される予定です。
あなたの創造力で、未来の映像体験を創造しませんか？

SNSでも最新情報を発信中！
Originally published at https://note.com on July 30, 2024.
2024-07-30
【AICU1周年祭】全力肯定彼氏くん[LuC4]の新機能「画像生成」を実験中 – 夏のアートコンテストへの応募も可能に！
AICU Inc. は7月24日が創立記念日です。
おかげさまで、無事にこの日を迎えることができました。
「つくる人をつくる」というビジョンで走り続けた
あっという間の一年でした。

この記事では【AICU1周年祭】として現在開催中のクリエイティブAIイベントを紹介します。

創立1周年特別企画(1)

【全力肯定彼氏くん】アップデート

LuC4が v.1.1にアップデートいたしました

https://speakerdeck.com/player/44f464a459284563a49b4e8b7098388d

・応答速度が高速に!!

ユーザからのアンケート調査の中でも特に全力肯定彼氏くんが愛されている要素は「応答が速い」という点。
最新のGPT-4o mini（gpt-4o-mini-2024-07-18）を活用し、更に応答速度（最短で4秒以下を目標）を高速化のための工夫をこらして快適なUXを維持する研究を続けています。

・画像生成＆X(Twitter)ポスト機能を試験的にリリース

最新の Stability AI 提供の APIを使用して、キーワード「～～」をポストしてをトリガーに、LuC4(ルカ)くんの美麗なスタンプ風画像が生成されます。

リンゴとコンピュータ #AICU #AICU_LuC4 pic.twitter.com/NHEgQhBUHh
— LuC4 全力肯定彼氏くん(愛) (@LuC4kun) July 23, 2024

✨️本機能は期間限定の実験的機能です。機能・表現・仕様については今後予告なく変更される可能性があります。

全力肯定彼氏くんについての詳細はこちら
https://corp.aicu.ai/luc4
同技術のIP・ブランディングへの活用案件も歓迎です。

創立1周年特別企画(2)「AICU Summer Art Contest 2024」中間報告!!

「AICU Summer Art Contest 2024」を開催中です。
おかげさまで多くの作品が集まり始めております
作品応募はX投稿+エントリーフォームにて7月28日23:59まで。

【PRTIMESでのプレスリリース】
https://prtimes.jp/main/html/rd/p/000000019.000133647.html

すでに多くの作品がタイムラインを賑わせています。

【豪華賞品あり】夏を彩るアートコンテスト開催！あなたの作品がAICUの顔に【AICU創立1周年ファン感謝祭】

優秀作品は「AICUマガジン」へ掲載されます。奮ってご応募ください！
＜リンクをクリックすると現在の応募状況が観測できます＞

・キャラクターイラスト部門 #AICU_art

✨️当初「AICUキャラクター部門」としてリリースいたしましたが名称変更しております。キャラクターを題材にしたイラスト作品、漫画作品を募集しています。ツールはNijiJourneyをはじめとして特に制限はありません。

・#SD黄色本部門

書籍「画像生成AI Stable Diffusionスタートガイド」で扱っている分野、つまり AUTOMATIC1111 や Fooocus、SDXLやCivitaiを使った画像生成をGoogle Colabや Stability Matrixで探求されている方におすすめのフリースタイル部門です。書籍で学んだテクニックを駆使して作品を制作してください！制限なく自由な表現を探求しましょう。現状、応募が手薄です！

・#StableDiffusionAPI 部門

次世代の画像生成技術、世界最高峰・最上位の画像生成AI「Stable Diffusion 3」をはじめとする以下のAPIを使った作品を募集しています。
- Stable Image Ultra
- Stable Image Core
- Stable Diffusion 3 Large
- Stable Diffusion 3 Large Turbo
- Stable Diffusion 3 Medium
「API？難しそう、お金かかるの？」とお考えのあなた！他の応募者さんがレポートを書いてくれましたのでご参考まで！

https://note.com/runos_log/n/n09b309649fb9

そして！ #StableDiffusionAPI 部門は、上記の全力肯定彼氏くん経由の応募も可能です。LINEチャットから気軽な生成で出来上がったラッキーショットをタイトルとともにエントリーいただくことも可能ですし、生成された画像を素材として使ってタイトル等を付けたり、APIの背景削除機能を使って合成したり…様々な加工も使うなど、様々なアイディアで探求いただけますと幸いです。

エントリーフォームの提出をお忘れなく！

エントリーフォームのURL → https://j.aicu.ai/SAC24

✨️画像生成AIが生成した画像に著作権はあるの？

先日開催されたワークショップで共有された話題ですが…

https://techplay.jp/event/946209

法律上は問題はありません。
法律上は問題はありませんが、クリエイターはどう振る舞うべきか？
画像生成AIクリエイター仕草（v.1.0）を読みながら考えてみてください

画像生成AIクリエイター仕草（v.1.0）

詳しくは次号の「AICUマガジン Vol.3」にて解説します

✨️応募に関する詳細・フォーマットなどはこちらの記事をご参照ください

https://ja.aicu.ai/contest20240719/

これからもより多くの方々にクリエイティブなAI、「つくる人をつくる」話題をお届けしていいきます。AICUをよろしくお願いいたします。

Originally published at https://note.com on July 24, 2024.
2024-07-24
Stability AI、オープンウェイトなテキスト楽曲生成「Stable Audio Open」公開。Google Colabで無料で体験！

2024年7月22日、Stability AI が「Stable Audio Open」の研究論文をリリースしました。
「Stable Audio Open」というタイトルで論文プレプリントサイト arXiV に 7月19日付けで投稿された論文は、

オープンな生成モデルはコミュニティにとって非常に重要であり、ファインチューニングを可能にし、新しいモデルを提示する際のベースラインとして役立ちます。しかし、現在のほとんどのテキスト音声生成モデルは非公開であり、アーティストや研究者がその上に構築することはできません。ここでは、クリエイティブ・コモンズのデータで学習させた新しいオープンウェイトのテキスト音声モデルのアーキテクチャと学習プロセスについて説明します。我々の評価では、このモデルの性能は様々なメトリクスにおいて最先端のものと遜色ないことが示されています。特に、報告されたFDopenl3の結果（世代のリアリズムを測定）は、44.1kHzでの高品質なステレオサウンド合成の可能性を示しています。

https://arxiv.org/abs/2407.14358
Translated by AICU

この研究論文では、Creative Commons データを使用してトレーニングされた Stability AI の新しい”オープンウェイトなテキストオーディオ”（open-weights text-to-audio）モデルのアーキテクチャとトレーニングプロセスについて解説しています。
このオープンなモデルは Hugging Faceで公開されています。このモデルは Stability AI Community Licenseに基づいてリリースされており、年間収益(annual revenue)が 100 万ドル以下の個人または組織による非商用および商用利用が可能です（エンタープライズライセンスについては問い合わせ）。

・このモデルは、テキストプロンプトから 44.1kHz の高品質ステレオオーディオを生成でき、リアルなサウンドやフィールド録音を合成するために使用可能。

・Stable Audio Open はコンシューマーグレードの GPU 上で実行されるため、学術目的や芸術的なユースケースに利用可能。

アーキテクチャ

Stable Audio Openは、3つの主要コンポーネントを備えたテキスト音声モデルを導入しています：
・管理可能なシーケンス長に波形を圧縮するオートエンコーダ
・テキスト調整のためのT5ベースのテキスト埋め込み
・オートエンコーダの潜在空間で動作するトランスフォーマベースの拡散モデル（DiT）。

このモデルは44.1kHz、最大47秒の可変長ステレオ音声を生成します。オートエンコーダは21.5Hzという低い潜在レートを達成し、音楽やオーディオに対応できます。Stable Audio Openは（2024年4月3日に公開された）Stable Audio 2.0の亜種ですが、異なるデータセット（Creative Commonsデータ）で学習されています。このアーキテクチャは似ていますが、CLAPの代わりにT5テキストコンディショニングを使用しています。

学習データ

Stable Audio Openは、CC-0、CC-BY、またはCC-Sampling+でライセンスされた約50万件の録音を使用してトレーニングされました。このデータセットは、Freesoundの472,618件とFree Music Archive (FMA)の13,874件から構成されています。

著作権で保護された素材が含まれていないことを確認するため、このコンテンツは、PANNs audio taggerを使用してFreesoundの音楽サンプルを特定することにより、慎重にキュレーションされました。特定されたサンプルはAudible Magicのコンテンツ検出会社に送られ、データセットから著作権で保護されている可能性のある音楽を確実に削除しました。

ユースケース

Stable Audio Openは、生成されるコンテンツの長さを調整したり、様々な業界やクリエイティブなプロジェクトの正確なニーズを満たすなど、音声生成をカスタマイズするために微調整することができます。ユーザーは、A6000 GPUを使ってローカルでモデルをトレーニングできます。プロンプトの作成については、Stable Audio 2.0のヒントをご覧ください。

ここでは、このモデルをすぐに使用したり、微調整したり、ワークフローに統合したりするためのアプリケーションの例をいくつか紹介します

🎧️ぜひとも公式サイトで音源をきいてみてください📢
https://stability.ai/news/stable-audio-open-research-paper

サウンドデザイン

サウンドエフェクトとフォーリーエフェクト（音効）

足音、ドアのきしみ音、環境音など、映画、テレビ、ビデオゲーム、ゲーム開発に使用できる効果音を生成します。

アンビエントサウンド

シーンのムードや雰囲気に合ったサウンドスケープや背景テクスチャを作成できます。

サンプル作成

音楽トラックを制作するためのドラムループと音楽サンプルを生成します。

商用およびマーケティング用途

オーディオブランディング

広告用のサウンドエフェクトを作成したり、オーディオロゴやブランドサウンドを開発し、カスタムオーディオエレメントを通じてブランドの認知度やアイデンティティを高めます。

教育と研究

学術プロジェクト

オーディオ合成、機械学習、音楽学の研究にこのモデルを使用し、生成されたオーディオの実験と分析を行います。

このデモでは、より多くの例と、Stable Audio Openのパフォーマンスが他のモデルとどのように比較されるかを見ることができます。

Google Colabでの実験

まず Stability AI の非商用／コミュニティライセンスを取得します。

https://stability.ai/community-license

続いて、 Hugging Face 上のStable Audio Open の公開ページでライセンスを取得します。

https://huggingface.co/stabilityai/stable-audio-open-1.0

ご注意：商用利用の場合は、https://stability.ai/license をご参照ください。 sai@aicu.ai でもご相談をお受けいたします。

公式サンプルをGoogle Colab環境で動作確認したAICU版のコードをこちらで公開しています。

https://j.aicu.ai/StableAudioOpen

次に Hugging Face のトークンを取得します。
https://huggingface.co/settings/tokens
Google Colabのシークレットに設定します。

あとは実行するだけ！長さや冒頭の空白も設定できます。

# Set up text and timing conditioning
conditioning = [{
“prompt”: “128 BPM tech house drum loop”,
“seconds_start”: 0,
“seconds_total”: 30
}]

サンプルコードのデフォルトプロンプト

output.wav として生成されているので、ダウンロードして聴いてみましょう。

以下は実際に生成した例です。
“128 BPM NES, 8 bit action game BGM”

https://note.com/api/v2/attachments/download/b514ac0f4d7a059a04bf6e632f0b73c5

“128 BPM techno pop”

https://note.com/api/v2/attachments/download/7b6626ad5756ddc578dd2d64e096afcd

“sound of the rain hitting the roof”

https://note.com/api/v2/attachments/download/4de4c04ba8f4de31f955b71b64fb60a2

“blackbird song in a forest”

https://note.com/api/v2/attachments/download/6d912ec9ae69b5622d5d0e9a80a81478

“chorus lalala…”

https://note.com/api/v2/attachments/download/e9e21ea17beeb981eaa9cf1a70679a98

最長生成秒数は47秒のようです。GPU消費は16GB以下です。

学習元が Creative Commons であるということを考えて生成するとよいのかもしれません。それにしても「何回生成しても無料」というのはすごいですね。

まとめ

Stable Audio Openのリリースは、オープンソースのオーディオ生成AIにおける重要な一歩になると考えます。44.1kHzで高品質のステレオサウンドを生成し、コンシューマー規模のGPUで動作し、データの透明性に重点を置いています。このモデルの使いやすさとパフォーマンスにより、研究者とアーティストの両方にとって価値あるツールとなり、オープンなオーディオAIで可能性と限界を押し広げると考えます。

この記事がよかったら、シェアとフォローよろしくお願いいたします！

https://note.com/aicu/m/m6000f560d1db

Originally published at https://note.com on July 22, 2024.

2024-07-22
Omostで画像生成を細かく制御しよう(2) GPT-4o でCanvasを Stable Diffusion 向けに最適化する
「Omost」は大規模言語モデル(LLM)のコーディング能力を画像生成に変換するオープンソースプロジェクトです。ControlNetやStable Diffusion WebUI Forge、Foocusの開発者として著名なlllyasviel氏が中心に開発しています。
そもそも「Omostって何」という方は前回の記事をご参照ください。

「Omost」で画像生成を細かく制御しよう

✨️本記事は Nobuyuki Kobayashi @nyaa_toraneko さんにご寄稿いただいた記事をベースに編集部でリライトしております。

Omostが生成するCanvasとは

Canvasは生成される画像に描かれるべき要素やモチーフを定義したオブジェクトです。
その構造は、大きく分けて2つのブロックから構成されています。

1.グローバル描写

まずは、シーン全体のテーマや雰囲気を設定するブロックです。これをグローバル描写と呼びます。グローバル描写では、以下の情報を設定します
- description: シーン全体の簡単な説明です。例えば、「魔法の生き物が住む鮮やかなファンタジーの世界」などです。
- detailed_descriptions: シーンに関するもう少し詳細な説明をリストで提供します。例えば、「明るくカラフルな環境」、「空気中に漂う神秘的な輝き」などです。
- tags: シーンに関連するキーワードを指定します。例えば、「ファンタジー」、「魔法」、「自然」などです。
- HTML_web_color_name: シーンの主な色をHTMLカラー名で指定します。例えば、「スカイブルー」などです。
2.ローカル描写

次に、キャンバス上の特定の部分について詳細を設定するブロックです。これをローカル描写と呼びます。ローカル描写では、以下の情報を設定します
- location: 描写される部分の位置です。例えば、「中央」などです。
- offset: オフセットの有無です。例えば、「オフセットなし」などです。
- area: 描写される部分の面積です。例えば、「大きな四角いエリア」などです。
- distance_to_viewer: 視聴者からの距離です。例えば、「1.0ユニット」などです。
- description: 描写される部分の簡単な説明です。例えば、「流れるようなローブをまとった威厳のある魔法使い」などです。
- detailed_descriptions: 描写される部分に関するもう少し詳細な説明をリストで提供します。例えば、「星柄のマントを着ている」、「光る杖を持っている」、「長い白髭」などです。
- tags: 描写される部分に関連するキーワードを指定します。例えば、「魔法使い」、「魔法」、「キャラクター」などです。
- atmosphere: 描写される部分の雰囲気です。例えば、「神秘的」などです。
- style: 描写される部分のスタイルです。例えば、「ファンタジー」などです。
- quality_meta: 描写の品質に関するメタデータです。例えば、「高詳細」などです。
- HTML_web_color_name: 描写される部分の主な色をHTMLカラー名で指定します。例えば、「紫」などです。
例えば、実際にCanvasを用いてStable Diffusionで生成したあるイラストでは、以下のようにCanvasにローカル描写が指定がされています。

このように、イラスト全体の相対的な位置におおよそどんなモチーフが配置されるか指定することによって、イラスト全体のレイアウトができあがるということです。

ただ生成されたCanvasですが、読みやすく詳細な指定なのはいいのですが、とにかく長い。これをそのまま Stable Diffusion のポジティブプロンプトにコピペして、絵を出すこともできますが、ちょっとこのままでは扱いにくいのも事実です。

そこでCanvasの要素をなるべく残しながら、指定を最適化していきましょう。
筆者の場合、ここからはOpenAI社の GPT-4o上でMy GPTsを設計し、「Omost Converter」というチャットボットを作りました。

Stable Diffusion向けにCanvasの最適化をChatGPT 4oで行う

ここでは、Canvasの最適化の手順を紹介します。
興味がある方は、自分自身でもOmost Converterを作ってみるといいでしょう。

1. Canvasの記述よりフルプロンプトを作成する

まず、Canvasの情報を元に、グローバル描写と各ローカル描写を収集したフルプロンプトを作成します。以下のようなフォーマットで作成します。

# グローバル描写
“{description} with elements of {detailed_descriptions}. The scene has a {tags} feel, colored primarily in {HTML_web_color_name}.”

# 各ローカル描写
“In the {location}, there is a {description}. It is {offset} and occupies {area}. It is {distance_to_viewer} units away from the viewer. Detailed features include {detailed_descriptions}. The atmosphere is {atmosphere}, and the style is {style}, colored in {HTML_web_color_name}.”
…

この段階でCanvasの情報は相当圧縮されますので、ChatGPT 4oでしたら、DALL-E 3で絵を生成することも可能ですが、まだまだ無駄が多いようですのでさらに最適化を進めましょう。

2. フルプロンプトを最適化する

続いてフルプロンプトを最適化します。最適化の目的は、プロンプトを短く、わかりやすくすることで、Stable Diffusionが生成する画像の品質を向上させることです。以下のステップに従って、プロンプトを最適化しましょう。

手順 1: 不要な情報を削除

プロンプトから冗長な情報や重複した情報を削除します。例えば、同じ意味の説明が繰り返されている場合、それを一度だけ記述するようにします。

手順 2: 簡潔な言葉を選ぶ

長いフレーズや文を、同じ意味を持つより短い言葉やフレーズに置き換えます。たとえば、「長い白髭を持つ魔法使い」ではなく、「白髭の魔法使い」といった具合です。

手順 3: 主要なキーワードを強調

プロンプトの主要なキーワードやフレーズを強調し、重要でない詳細を省略します。これにより、AIが重要な要素に焦点を合わせやすくなります。

手順 4: 一貫したスタイルとトーンを維持

プロンプト全体で一貫したスタイルとトーンを維持します。これは、読者がプロンプトを理解しやすくし、AIが意図を正確に把握するのに役立ちます。

手順 5: 最適化されたプロンプトの例

ここで、具体的な例を使って、最適化されたプロンプトを作成します。

元のフルプロンプト

# Global Description
“魔法の生き物が住む鮮やかなファンタジーの世界 with elements of 明るくカラフルな環境, 空気中に漂う神秘的な輝き, 幻想的な雰囲気. The scene has a ファンタジー, 魔法, 自然 feel, colored primarily in skyblue.”

# Local Descriptions
“In the 中央, there is a 流れるようなローブをまとった威厳のある魔法使い. It is オフセットなし and occupies 大きな四角いエリア. It is 1.0 units away from the viewer. Detailed features include 星柄のマントを着ている, 光る杖を持っている, 長い白髭. The atmosphere is 神秘的, and the style is ファンタジー, colored in purple.”

最適化されたプロンプト

# Global Description
“カラフルな魔法の世界, 明るい環境, 空気中に神秘的な輝き, 幻想的な雰囲気. ファンタジー, 魔法, 自然, スカイブルー.”

# Local Descriptions
“中央に星柄のマントと光る杖を持つ白髭の魔法使い. オフセットなし, 大きなエリア, 1.0ユニット距離. 神秘的な雰囲気, ファンタジースタイル, 紫色.”

手順 6: トークンの数を確認

最適化された各プロンプトが約75トークン以内であることを確認します。これは、AIがプロンプトを効果的に処理できるようにするためです。

最適化されたプロンプトは、元のプロンプトに比べて短く、明確で、重要な情報に焦点を当てています。これにより、Stable Diffusionがより正確で魅力的な画像を生成できるようになります。

またこの段階で、DALL-E 3に最適化されたプロンプトを試しに描かせてみてもよいでしょう。先にOmostで生成した画像と同様のモチーフの画像が生成されていれば成功です。

これらの最適化を実行することで、生成したいイラストのプロンプトは以下のようになりました。

A curious yet anxious girl with white hair floats in a dark, surreal alternate dimension, reaching out to a glowing orb through an open door. She is dressed as a bunny girl, with her white hair flowing around her, adding motion and wonder. Her expression mixes curiosity and anxiety, reflecting uncertainty about the future. The central focus is on her dynamic posture. The dimension features a tilted horizon and floating doors, creating a chaotic and disordered feel. The open door, made of otherworldly material, emits light that contrasts sharply with the dark space, enhancing the mystery. The glowing orb, symbolizing a wonderful future, emits radiant light, creating hope and anticipation. The scene is designed in a 16:9 aspect ratio, with detailed textures and light effects. The atmosphere is a mix of curiosity, anxiety, wonder, and trepidation, rendered in high-quality with a focus on detailed expressions and flowing hair.

好奇心旺盛でありながら不安げな白い髪の少女が、暗く超現実的な異次元に浮かび、開いたドアから光り輝くオーブに手を伸ばしています。彼女はバニーガールの格好をしており、白い髪が周りに流れ、動きと驚きを加えています。彼女の表情は好奇心と不安が入り混じり、未来への不安を反映しています。中心は彼女のダイナミックな姿勢。次元は、傾いた地平線と浮遊するドアが特徴で、混沌とした無秩序な雰囲気を醸し出しています。別世界のような素材でできた開いた扉は光を放ち、暗い空間とのコントラストを際立たせ、神秘性を高めています。素晴らしい未来を象徴する光り輝くオーブは、希望と期待を生み出します。このシーンは16:9のアスペクト比でデザインされ、詳細なテクスチャと光のエフェクトが施されています。好奇心、不安、驚き、怯えが入り混じった雰囲気を、細かい表情や流れる髪を中心にハイクオリティで表現しています。

このプロンプトをDALL-E 3で出力させてやると、以下のようになりました。なかなかいいですね。

スタイルは違いますが、Omostで生成した画像と要素も一致しています。
加えて今回は、空間に浮いているドアもバッチリです。ただドアを沢山画面内に配置すると、当然キャラも小さくなってしまうのが難しいところですね。こういうところは検討材料にしておきましょう。

Stable Diffusionで最適化されたプロンプトを実行する

最適化されたプロンプトからどんな絵が出るか、DALL-E 3で確認できたので、次はStable Diffusionでテストしてみましょう。

Stable Diffusionでは、様々なCheckpoint（モデル）が選べますが、どちらかと言えば文章で構成されているプロンプトから画像を生成するには、SDXL系のモデルを使うことをお薦めします。今回は、AnimagineXL v3.1を使用しました。

まずポジティブプロンプトに最適化されたプロンプトをペーストし、ネガティブプロンプトには、皆さんがよく使うようなものを入れて、生成しましょう。

今回は1回目から、かなり近いテーマの絵が生成されました。これでOmostのプロンプトがStable Diffusionでも使えることがわかったと思います。

何回か試してみると、キャラが大きく表示されるシードが見つかりました。
これでシード次第で、キャラを大きく表現できることがわかります。

ここからは、プロンプトに自由に魔改造を施していきましょう。

—
この記事の続きはこちらから https://note.com/aicu/n/naee344ef0c53

Originally published at https://note.com on July 20, 2024.
2024-07-20
【Pro招待コードつき】渋谷GMOで「Create.xyz」CEOら来日ミートアップを開催。100人超えの超高速ハッカソンを現地レポート！ #CreateTokyo
はじめに

AICU media ライターのRUNOです！

2024年7月15日(祝日)に東京渋谷・GMO Yoursにて開催された「CREATE」（Create.xyz）のミートアップイベントに参加してきました！

CREATEの創業者らが来日し、直接お話を聞ける貴重な機会でした。

イベント内では、CREATE のデモに始まり、CREATE を利用したWebサイト制作のミニコンテストが行われるなど、盛りだくさんの3時間でした！

イベント詳細はこちら↓

create.xyz Team in Tokyo: CEO Demo & AI Meetup @ GMO Yours · Luma

なおProプランを1か月無料で使用できる招待コードはこの記事の下に記載してあります

CREATEとは？

CREATEは、日本語のような自然言語を使ってサイトやツールを構築できるツールです。どんな人でも創造できるようにする、AIによる開発ツールのリーディングカンパニーです。シンプルなランディングページやエンターテイメント性の高いゲームを作ることができます。さらに野心的なプロジェクトでは、ユーザー管理、データベース、API連携を備えた完全なアプリケーションを構築することも可能です。
引用元：https://lu.ma/5sneg9zr?tk

今回はなんと参加者100人超え！
さすがのGMOインターネットグループが会場です。
そしてCREATEの創業者の方々が来日し、実際にお会いすることができました！

わたしは運良く、後述のグループワークの時間に、CEOのドゥルヴさんに直接質問させていただくことができ、大変光栄でした…！

meet upイベントの醍醐味ですね！

あっという間の3時間、実施コンテンツはこんな感じ。
1. CEOらによるCREATEのデモ実演
2. CREATEを利用したWebサイト制作のミニコンテスト
3. 懇親会
様々なコンテンツがあったので、
「とにかくCREATEを触るきっかけがほしかった人」「CEOらと直接会ってみたかった人」「AIに興味がある人たちと交流してみたかった人」
・・・などなど、きっと誰もが何かしら持ち帰れる体験があった、それくらい濃い3時間でした。

それでは、ここからはコンテンツの内容を紹介します！

▼一連の現地ツイートはこちらから

CreateXYZミートアップが
渋谷フクラスで始まりました！#GMOインターネットグループ pic.twitter.com/wkmlSq3Qky
— AICU Inc. (@AICUai) July 15, 2024

CEOらによる CREATE のデモ実演

創業者のみなさま

AIガールこと「あやは」さんの会社のwebサイトを CREATE を使って作ろう！という内容をテーマに、デモが実施されました。

実践形式で CREATE の使い方を学べて、すぐに手元で試すことができました。

ステップ1 pdfから一瞬でWebサイト化

あやはさんが事前に作成したpdfファイル。
これをスクショし、プロンプトに画像を貼り付けて、そのまま「これをサイト化して」と頼むと・・・

あっという間に、pdfと同じ形でwebサイトになりました！

ステップ2 テキストでWebサイトを好みのスタイルに編集

会場の参加者にマイクが渡され、「どんな雰囲気のサイトにしたいか？」をその場でリクエスト。

みんなの無茶ぶりに対し頑張る創業者の方々

まるでライブをみているかのような雰囲気で、参加者のリクエストにCEOが応じる形でリアルタイムでサイトが変化していきました。

もし今後、開発会議で CREATE が使われたなら、
こんな風にみんなで議論しながらその場でサイトを編集して、OKならその場で公開！
・・・なんていう夢みたいな日が来るのもそう遠くないのかな、、なんて思いながら見ていました。夢が広がりますね。

ステップ3 理想のイメージのサイトを貼り付けて同じ雰囲気に

Appleのページは、いつ見てもスタイリッシュできれいですよね。

というわけで、AppleのページのURLをコピー。

「こんな感じにして」とお願いすると・・・

先ほどのpdfと比べると、雰囲気がAppleっぽくなっている！

画面右上に「Publish」という青いボタンがあるのですが、
こちらを押下し、会社のドメインを紐づければ、簡単に公開までできるそうです。

圧巻の体験に、会場では歓声が上がりました。

みなさんもぜひ CREATE を試して、感動を体験してみてください！！！

CREATE を利用したWebサイト制作のミニコンテスト

なんとたった15分で、Webサイトを作成しよう！という無茶振りコンテスト！笑

これがとっても楽しかった！

初対面の4-5人のチームで、その場でお題が与えられ、「どんなサイトにする？」という話し合いからスタートする完全な白紙からのスタート。

そこから CREATE のパワーでたった15分で、20チームを超える全てのチームが無事Webサイトを提出しました。

提出された作品は、「#CreateTokyo」のハッシュタグ検索で、誰でも見ることができます！

さて、そんな今回のWeb制作テーマはこちら！
「東京に1週間滞在する CREATE メンバーが、より東京滞在を楽しめるようなWebサイト」を15分で作成せよ！

作品紹介1：山手線すごろく

"Yamanote Line Sugoroku"
Yamanote Line backgammon that you can turn around quickly and fun! #CreateTokyo https://t.co/NJowW6Vzb4 pic.twitter.com/H6hfY5kXPs
— AICU Inc. (@AICUai) July 15, 2024

我らがAICU主宰、しらいはかせのチームの作品です。

「山手線を一周する体験」をすごろくの仕掛けによってゲーム感覚で楽しめる！
アイデアを形にするまでたった15分。早すぎる。

https://yamanote-sugoroku.created.app

こちらの作品はしらいはかせのNoteで詳しく紹介されているので、ぜひこちらも合わせてご覧ください！

https://note.com/embed/notes/n2fc9c059a8d5

作品紹介2：お寿司の名前当てゲーム

Createチーム向けに寿司の名前当てゲームを作りました。https://t.co/kdjbS24vfH #createtokyo
— オオギ｜SHIFT AI｜ライター・ディレクター (@chatgpt_liberty) July 15, 2024

こちらは、お寿司の日本語名を画像と合わせてクイズ形式で覚えていくアプリです。
日本と海外だとお寿司屋さんのメニューも大きく違いますよね。日本のメニューは生魚のシンプルなメニューが多く、日本人でもたまに知らないネタがあるくらいですよね。笑

https://sushi-game.created.app

このアプリで馴染んだあとでお寿司屋さんに行けば、「あ！これアプリで見たネタだ！」とさらに美味しい体験になりそうですね！

確認ですが、こちらもたった15分で作成されています。だから早すぎるって。

アイデアさえあれば、こんなに簡単にWebサイトやゲームが作れてしまうんですね！
CREATEのパワー、恐るべし。

表彰式：

CEOらが自ら、それぞれひとつずつ気に入った作品をピックアップし、表彰式が行われました。

Googleマップを埋め込んだサイトや、ゲーム性が評価されたものなど、幅広い作品が表彰されました！

ドゥルヴ賞：マウス置くと絵が変わる

AIで速攻HP作ったよー！https://t.co/NNQhn0HYh5 #createtokyo
— 浅野かなこ (@kanako_salesup) July 15, 2024

マーカス賞：地図

ユーザーの現在地を取得して、近くのお土産屋さんを表示するサイトを、https://t.co/ens7B82legを使ってチームで15分で作ってみました！https://t.co/Z988BgL9G2 #createtokyo
— RUNO | 生成AI勉強中 (@RUNOs_s) July 15, 2024

パトリック賞：寿司ゲーム

Createチーム向けに寿司の名前当てゲームを作りました。https://t.co/kdjbS24vfH #createtokyo
— オオギ｜SHIFT AI｜ライター・ディレクター (@chatgpt_liberty) July 15, 2024

ゾベアー賞：Create.XYZマスターガイド

https://t.co/Wv6uZiN2lJのワークショップで
初めての方向けにCreateの使い方がわかるアプリケーションを作成してみました！https://t.co/GTViNBhNhV #createtokyo
— モーリー | Notion公式アンバサダー🏅 (@Notion_freak) July 15, 2024

優秀作品賞を受賞された方々、おめでとうございます！

懇親会

最後の1時間は懇親会。
みなさんそれぞれ創業者の方々と写真を撮られたり、最近の取り組みや CREATE の改善点を直接ディスカッションしたり、思い思いの時間を過ごされておりました。

記念にパシャリ。運営の皆様、CREATE の皆様、ありがとうございました！

主催の ymmd JUNさんのサイトで「CREATE WEEK」中間レポート公開されております

https://ymmd-ai.co.jp/archives/4986

勉強会にも熱が入っておりますね！

AIM伍はCREATE WEEK
あきらパパさんのご提案で、明日からは各機能を深掘りすることに！！もはやCREATE MONTHになる可能性もｗ
dhruvさん早起き付き合ってくれるかな。 pic.twitter.com/qJiOJIpD9V
— JUN (@jun_ymmd) July 14, 2024

【Pro招待コードをいただきました！】

CREATETOKYO
こちらを使うと1ヶ月無料でProが使えるそうです。

終わりに

この記事に「いいね！」と思ったら、いいねとフォロー、おすすめをお願いします！

AICU media｜note X(Twitter)@AICUai

このようなイベントのレポートに興味がある方はこちらもオススメ

イベント情報アーカイブ

この記事に「いいね！」と思ったら、いいねとフォロー、おすすめをお願いします！
2024-07-19
Stability Matrixで Automatic1111が起動しない…そんなときに試してほしいノウハウ #SD黄色本
大好評の「画像生成AI Stable Diffusionスタートガイド」（通称 #SD黄色本）ですが、GitHubでのソースコード公開に加えて、discordでのサポート、noteメンバーシップ向け掲示板でのサポートがあります。

画像生成AI　Stable Diffusion スタートガイド (Generative AI イラストレーション)

Amazon.co.jpで購入する

AICU: AI Creators Union｜AICU media

今回はStability Matrixを使ったローカルGPU、Windows11/Mac（Apple Silicon）環境を中心に discord AICUサーバー「SD黄色本サポート」チャンネルに寄せられたトラブルシューティングノウハウをお送りします。

❏書籍「画像生成AI Stable Diffusionスタートガイド」の詳細についてはこちら

書籍[画像生成AI Stable Diffusionスタートガイド]

❏Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について (2024/5/22)

Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

❏Fooocus v2.4.0リリース＆ AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施

Fooocus v2.4.0リリース＆ AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施

過去の #SD黄色本記事についてはこちらをご参照ください

SD黄色本アーカイブ

Checkpointの切り替えに失敗する

M3 MacBook Pro で報告されたケースですが、画像生成AIのモデル、つまり SD1.5やSDXL、もしくは bluePencilXL と言ったモデルの切り替えに失敗することがあります。
エラーメッセージの例

changing setting sd_model_checkpoint to bluePencilXL_v600.safetensors [83f960c769]: AttributeError

Stability Matrixにはこのようなログが表示されます。
```
Python 3.10.11 (main, May  7 2023, 17:32:05) [Clang 16.0.3 ]
Version: v1.9.4
Commit hash: feee37d75f1b168768014e4634dcb156ee649c05
ControlNet init warning: Unable to install insightface automatically. Please try run `pip install insightface` manually.
Launching Web UI with arguments: --medvram-sdxl --api --skip-torch-cuda-test --skip-python-version-check --no-half --gradio-allowed-path /Users/username/apps/StabilityMatrix/Images
no module 'xformers'. Processing without...
no module 'xformers'. Processing without...
No module 'xformers'. Proceeding without it.
Warning: caught exception 'Torch not compiled with CUDA enabled', memory monitor disabled
ControlNet preprocessor location: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/extensions/sd-webui-controlnet/annotator/downloads
2024-06-11 08:11:57,602 - ControlNet - INFO - ControlNet v1.1.449
Loading weights [1449e5b0b9] from /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/models/Stable-diffusion/animagineXLV31_v30.safetensors
2024-06-11 08:11:57,929 - ControlNet - INFO - ControlNet UI callback registered.
Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.
Creating model from config: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/repositories/generative-models/configs/inference/sd_xl_base.yaml
/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/venv/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
Startup time: 8.8s (prepare environment: 0.4s, import torch: 3.3s, import gradio: 0.8s, setup paths: 1.1s, initialize shared: 0.2s, other imports: 0.9s, load scripts: 0.8s, create ui: 0.5s, gradio launch: 0.4s, add APIs: 0.5s).
changing setting sd_model_checkpoint to bluePencilXL_v600.safetensors [83f960c769]: AttributeError
Traceback (most recent call last):
  File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/options.py", line 165, in set
    option.onchange()
  File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/call_queue.py", line 13, in f
    res = func(*args, **kwargs)
  File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/initialize_util.py", line 181, in <lambda>
    shared.opts.onchange("sd_model_checkpoint", wrap_queued_call(lambda: sd_models.reload_model_weights()), call=False)
  File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 860, in reload_model_weights
    sd_model = reuse_model_from_already_loaded(sd_model, checkpoint_info, timer)
  File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 793, in reuse_model_from_already_loaded
    send_model_to_cpu(sd_model)
  File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 662, in send_model_to_cpu
    if m.lowvram:
AttributeError: 'NoneType' object has no attribute 'lowvram'

Loading VAE weights specified in settings: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/models/VAE/sdxl_vae.safetensors
Applying attention optimization: sub-quadratic... done.
Model loaded in 28.7s (load weights from disk: 0.8s, create model: 1.3s, apply weights to model: 10.7s, apply float(): 8.3s, load VAE: 2.0s, load weights from state dict: 0.1s, hijack: 0.6s, load textual inversion embeddings: 0.7s, calculate empty prompt: 3.9s).
```
基本的にはこのようなログをChatGPTやClaude、Gemini、Perplexityなどに貼り付けていただけると解決する事も多いですのでぜひやってみてください。

以下はChatGPT-4oでの上記のログの回答例です。

AttributeError:
- AttributeError: ‘NoneType’ object has no attribute ‘lowvram’: このエラーはsd_modelがNoneであることを示しています。つまり、モデルが正しくロードされていない可能性があります。この問題は、モデルのロードプロセスで何かが失敗しているか、チェックポイントファイルが正しくないか、または欠落しているために発生することがあります。
ひとえに「メモリが足りない」という原因が多かったりします。もちろん、動作中に多くのコマンドや操作を投げることは避けたほうがいいです。多くのケースではケースでは起動しているChromeなどのWebブラウザ、不要なタブを閉じて再起動したり、再度選択を試してみたらできた、という事もよくあります。

ロードするモデルはSDXL系ですと4-6GBのファイルサイズがあり、VRAMやメインメモリにそれをロードするだけの容量がなければエラーになります。起動時オプションで「lowvram」というオプションがありますので、8GB以下のVRAMであればチェックオンしておくと動作の不安定を回避することができるかもしれません。

よくある他の事例としては
・checkpointが正しい場所にあるか
→modelsフォルダ、その下の「Stable Diffusion」です
StabilityMatrix-win-x64\Data\Models\StableDiffusion

・ダウンロードの途中で終わってしまっている（ファイルが壊れている）
→削除してやり直し

といったケースがあります。いずれにしてもモデルの切り替えに失敗しているときはStability MatrixのコンソールやAutomatic1111右下に表示されていますのでエラーログを確認しましょう。
コツは「あきらめないこと」です！特にMac版。

ModuleNotFoundError: No module named ‘jsonmerge’

2024/7/12にご報告いただいたケース
（新品のWindows11）
> Stable Diffusion Web UI v1.9.4をパッケージに追加して、Launchを押すと、いろいろ文字が出て、最後に

File “C:\Data\Packages\stable-diffusion-webui\repositories\k-diffusion\k_diffusion\config.py”, line 6, in <module>
from jsonmerge import merge
ModuleNotFoundError: No module named ‘jsonmerge’

と表示されて止まってしまいます。

まず、基本的なところで、Stability Matrixを利用すると、個別にPythonをインストールする必要はなくなります。
つまり、想像するに、ローカルで既にインストールされたPython環境とぶつかっている可能性があります。

もしWindows + R →「cmd」でコマンドプロンプトを起動して、 python -V と打って Enter ボタンを押して、上記のように Python 3.10.6 と出るか、もしくは「コマンドが見つかりません」というエラーが出れば問題なしですが、他のバージョンのPythonが出てくるようですと、まずはいったん、Pythonをアンインストールしたほうがいいと思います。

・Stability MatrixのAutomatic1111を更新する
→Packageでで確認できます

・Stability MatrixのAutomatic1111を削除してインストールし直す
→生成済みの画像も削除される可能性がありますので一旦退避しましょう。

・Stability Matrixをアンインストールして入れ直す

・[上級者向け]足りないモジュールを手動でインストールする
Redditで同様の不具合が報告されています
Error: ModuleNotFoundError: No module named ‘jsonmerge’
https://www.reddit.com/r/StableDiffusion/comments/13e6srs/error_modulenotfounderror_no_module_named/

・[非常に簡単な方法]Windows11に新ユーザをつくる
設定→アカウント→その他のユーザー→「アカウントの追加」で解決することが多いです。
これは「demo」というユーザを作成している例です。

解決策：Google Colabを並列にする

Stability Matrixは手元のGPUで使えて嬉しいのですが、本格的に画像生成をしたりオリジナルのLoRAを学習させたりといった複数の作業を行うときは、1台のPCでも辛くなってきます。
Google Colab Proの環境は有料ではありますが、Proのライセンスであればクリーンなインストール環境、高速なGPU、高速な回線であり、特に困ることは少なくなります。
ローカルのGPUをメインで使う場合も問題分析がしやすくなります。

本書ではGoogle Colabでの環境構築やColabで動くノートブックも並列で解説・メンテナンスしていますので、ぜひとも使ってみてくださいね！

以上、「画像生成AI Stable Diffusionスタートガイド」のトラブルシューティング情報でした！

画像生成AI　Stable Diffusion スタートガイド (Generative AI イラストレーション)

Amazon.co.jpで購入する

書籍のサポートリポジトリやAICU Inc. discord サーバー「SD本サポート」チャンネル ⁠はこちら（有料）

https://note.com/aicu/n/n08c33f7102ab
2024-07-15