タグ: a1111

  • ConoHa AI Canvasガチレビュー

    2024年8月1日、「ConoHa by GMO」 が画像生成AIサービス「ConoHa AI Canvas」を開始しました。

    今回は、この「ConoHa AI Canvas」を、利用者視点・画像生成AIの使い手の視点で忖度なしで2万2千字ほどのガチレビューをしていきたいと思います。

      今回のレビュー担当と読み手の設定

      今回のレビュー担当であるAICU AIDX Labは、すでに
      ・ConoHaを使ったVPSは経験済み
      ・Linuxの管理等は自分でできる
      ConoHa VPS GPUサーバーを使用したことがある
      ・Google(GCP), Amazon (AWS)でのGPUインスタンスも構築できる
      ・実際にAUTOMATIC1111を業務的に使っているがコスト面などに課題があると感じている
      ・もちろんGoogle ColabもProで使っているが、AUTOMATIC1111を業務として展開する際にはGoogle側のサービスポリシー変更や突然の停止があるため代替案を考えねばならない…。
      という技術者です。

      読み手としては以下のような方を対象にしております。

      ・VPSでWordpressなどをマネージドサービスで立ち上げられる
      ・AUTOMATIC1111の使用方法は一応わかる
      ・画像生成に詳しく「GPU搭載PCを増強するまでもないな…」というプロシューマー/ホビー用途
      ・もしくは「小規模チームや複数ユーザーが業務的に使う用途」で社内展開を検討する担当者
      ・自分でクラウドGPUのサーバーを維持するのは敷居が高い
      ・ConoHa AI Canvasについては興味がある
      ・実際にアカウント作ったら「いくらぐらいでどれぐらいのことができるのか」疑問……
      …といった方を想定してレポートしております。

      ✨️AUTOMATIC1111の使い方については「SD黄色本」をどうぞ!(宣伝)


      新規アカウント作成の場合

      いますぐ、速く構築したい!というひとは新規アカウントを作成しましょう

      画像
      画像

      電話/SMS認証

      利用にあたって複雑な審査は不要

      ConoHa VPS GPUサーバーでは法人利用、個人利用、本人認証などの審査が必要でしたが、AI Canvasについてはそのような審査は不要だそうです。SMSもしくは電話認証があります。

      画像

      これだけでダッシュボードにたどり着けます!

      既存のConoHaアカウントがある場合

      画像
      画像

      AICU AIDX Labはすでに ConoHa VPS GPUサーバーを使用したことがあるので「ConoHaアカウントをお持ちの方」を選んでみたのですが、結果的にはあまりシンプルではありませんでした。

      支払い情報カードの登録

      結果から言うと、クレジットカード、特に3Dセキュア2.0対応のカードが必要です。楽天カードはいけました。プリペイドカードは注意です。

      https://support.conoha.jp/c/security-3ds/?_ga=2.80313239.109950757.1722495027-668426941.1722335492

      「ご利用のサービスを選んでください」というダッシュボードまでたどり着きましょう。

      画像

      未払がないこと!!

      すでに請求中、未払の案件があると新規作成はできません。
      GPUサーバーの未払があることに気づきました…(すみません)。
      こういうこともあるので『用途ごと、新規でアカウント作成』大事ですね!!

      画像

      未払案件は「決済🔃」のボタンを押すことでConoHaチャージで決済できます(未払は決済しました!すみませんでした!!)。

      ConoHaチャージの利用

      クレジットカード以外の決済方法は、Amazon Pay、コンビニエンスストア、銀行決済(ペイジー)、PayPalが使えます。クレジットカードでの支払いは3Dセキュア2.0対応が必要ですが、ConoHaチャージ自体は、多様な支払いをサポートしていますので未成年でも利用可能と考えます。また、余ったConoHaチャージがあるのであれば、試すにもちょうどよいのでは。

      前払いも可能

      自動引落やConoHaチャージによる後払いではなく、
      いわゆるクレジットカードでの毎月払いのイメージで、多くの利用者はこちらを使うと想像します。
      試しに495円だけチャージしてみる、といった使い方もあるかもしれません(…が前述の通り未払になる可能性も高まりますので注意)。

      画像
      画像

      インスタンスの作成と起動・料金計算

      コントロールパネルからインスタンスの作成と起動を行います。
      契約サービスを選びます。

      いちばん安いのは「エントリー」で495円です。
      これは期間限定とはいえ業界最安値でしょう。

      画像
      画像

      ここでは「おすすめ!」と書かれている「スタンダード」を選んでおきます(あとで「総評」で評価しましょう)。

      画像
      画像

      今回はスタンダードで自動終了時間設定を60分に設定しておきました。
      こういう機能はありがたいですね!

      画像

      だいたい5分かからないぐらいでこの状態になりました。

      画像

      WebUI利用者認証情報の設定

      起動したWebUIは世界中に公開されている状態です。生成ごとにコストが掛かりますので、不特定多数に公開した状態はいろいろなリスクが生まれると考えます。
      もともとのAUTOMATIC1111にもユーザーを設定する機能はありますが、GMOさん側のほうで「WebUI利用者認証情報の設定」という画面が追加開発されたようです。

      画像

      WebUIのログイン画面

      あらかじめ設定したユーザー名とパスワードで利用できます。

      画像

      キター!

      画像

      AUTOMATIC1111バージョンは1.6.0

      下部にバージョン表記があります

      API: version: 1.6.0、python: 3.10.9、xformers: N/A、gradio: 3.41.2、  checkpoint: 6ce0161689、torch: 2.0.1+cu118
      「Created by AUTOMATIC1111 / ConoHa by GMO」とあります。

      モデルはSD1.5です。プロンプトを「1girl」として「Generate」ボタンを右クリックしてを「Generate forever」で動作確認します。
      (これで明示的に指定しない限り永遠に画像を作り続けます)

      画像

      AI Canvasのサイトにはサンプルプロンプトも紹介されています。
      https://www.conoha.jp/ai/canvas/example/

      画像
      画像
      画像
      画像

      機能拡張のインストールが可能

      (多くのWebUI提供サービスで封じられている)
      Extensionsのインストールが可能です。ありがたいですね。

      画像

      処理能力: 連続生成は2.3秒/gen

      SD1.5での「1girl」連続生成は2.3秒/genですね

      複雑なプロンプトも実施してみます。

      1boy, solo, upper body, front view, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight, hoodie, jeans, newest, 1boy, solo, upper body, front view, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight, hoodie, jeans, newest Negative prompt: worst quality, normal quality, ugly,, worst quality, normal quality, ugly, Steps: 20, Sampler: Euler, CFG scale: 7, Seed: 413102864, Size: 512×512, Model hash: 6ce0161689, Model: v1-5-pruned-emaonly, Version: 1.6.0

      Time taken: 2.4 sec.

      A: 1.79 GB, R: 3.41 GB, Sys: 3.7/21.9648 GB (16.8%)

      L4 GPU, Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz

      AUTOMATIC1111下部の「Startup Profile」では起動時間の所要時間を確認できます。

      画像

      AUTOMATIC1111下部の「Startup Profile」では起動時間の所要時間を確認できます。

      画像

      Sysinfoによると、L4 GPU, Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz
      avx命令なども有効になっています。

      {
          "Platform": "Linux-5.15.0-113-generic-x86_64-with-glibc2.31",
          "Python": "3.10.9",
          "Version": "1.6.0",
          "Commit": "<none>",
          "Script path": "/stable-diffusion-webui",
          "Data path": "/stable-diffusion-webui",
          "Extensions dir": "/stable-diffusion-webui/extensions",
          "Checksum": "3253fc9546a1cea4d3b9262670da9f3dd7b418b1a9f25310e13a5afe38253b5c",
          "Commandline": [
              "webui.py",
              "--listen",
              "--port",
              "7860",
              "--enable-insecure-extension-access",
              "--disable-safe-unpickle",
              "--opt-sdp-attention",
              "--opt-channelslast",
              "--theme",
              "dark",
              "--medvram",
              "--gradio-auth-path=/gradio/.gradio-auth",
              "--hide-ui-dir-config",
              "--no-half-vae"
          ],
          "Torch env info": {
              "torch_version": "2.0.1+cu118",
              "is_debug_build": "False",
              "cuda_compiled_version": "11.8",
              "gcc_version": "(Debian 10.2.1-6) 10.2.1 20210110",
              "clang_version": null,
              "cmake_version": "version 3.25.0",
              "os": "Debian GNU/Linux 11 (bullseye) (x86_64)",
              "libc_version": "glibc-2.31",
              "python_version": "3.10.9 (main, Feb  4 2023, 11:55:23) [GCC 10.2.1 20210110] (64-bit runtime)",
              "python_platform": "Linux-5.15.0-113-generic-x86_64-with-glibc2.31",
              "is_cuda_available": "True",
              "cuda_runtime_version": null,
              "cuda_module_loading": "LAZY",
              "nvidia_driver_version": "535.183.01",
              "nvidia_gpu_models": "GPU 0: NVIDIA L4",
              "cudnn_version": null,
              "pip_version": "pip3",
              "pip_packages": [
                  "mypy-extensions==1.0.0",
                  "numpy==1.23.5",
                  "open-clip-torch==2.20.0",
                  "pytorch-lightning==1.9.4",
                  "torch==2.0.1+cu118",
                  "torchdiffeq==0.2.3",
                  "torchmetrics==1.2.0",
                  "torchsde==0.2.5",
                  "torchvision==0.15.2+cu118"
              ],
              "conda_packages": null,
              "hip_compiled_version": "N/A",
              "hip_runtime_version": "N/A",
              "miopen_runtime_version": "N/A",
              "caching_allocator_config": "",
              "is_xnnpack_available": "True",
              "cpu_info": [
                  "Architecture:                       x86_64",
                  "CPU op-mode(s):                     32-bit, 64-bit",
                  "Byte Order:                         Little Endian",
                  "Address sizes:                      46 bits physical, 57 bits virtual",
                  "CPU(s):                             20",
                  "On-line CPU(s) list:                0-19",
                  "Thread(s) per core:                 1",
                  "Core(s) per socket:                 1",
                  "Socket(s):                          20",
                  "NUMA node(s):                       1",
                  "Vendor ID:                          GenuineIntel",
                  "CPU family:                         6",
                  "Model:                              106",
                  "Model name:                         Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz",
                  "Stepping:                           6",
                  "CPU MHz:                            2095.051",
                  "BogoMIPS:                           4190.10",
                  "Virtualization:                     VT-x",
                  "L1d cache:                          640 KiB",
                  "L1i cache:                          640 KiB",
                  "L2 cache:                           80 MiB",
                  "L3 cache:                           320 MiB",
                  "NUMA node0 CPU(s):                  0-19",
                  "Vulnerability Gather data sampling: Unknown: Dependent on hypervisor status",
                  "Vulnerability Itlb multihit:        Not affected",
                  "Vulnerability L1tf:                 Not affected",
                  "Vulnerability Mds:                  Not affected",
                  "Vulnerability Meltdown:             Not affected",
                  "Vulnerability Mmio stale data:      Vulnerable: Clear CPU buffers attempted, no microcode; SMT Host state unknown",
                  "Vulnerability Retbleed:             Not affected",
                  "Vulnerability Spec rstack overflow: Not affected",
                  "Vulnerability Spec store bypass:    Mitigation; Speculative Store Bypass disabled via prctl and seccomp",
                  "Vulnerability Spectre v1:           Mitigation; usercopy/swapgs barriers and __user pointer sanitization",
                  "Vulnerability Spectre v2:           Mitigation; Enhanced IBRS; IBPB conditional; RSB filling; PBRSB-eIBRS SW sequence; BHI Syscall hardening, KVM SW loop",
                  "Vulnerability Srbds:                Not affected",
                  "Vulnerability Tsx async abort:      Mitigation; TSX disabled",
                  "Flags:                              fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon rep_good nopl xtopology cpuid pni pclmulqdq vmx ssse3 fma cx16 pdcm pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand hypervisor lahf_lm abm 3dnowprefetch cpuid_fault invpcid_single ssbd ibrs ibpb stibp ibrs_enhanced tpr_shadow vnmi flexpriority ept vpid ept_ad fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid avx512f avx512dq rdseed adx smap avx512ifma clflushopt clwb avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves wbnoinvd arat avx512vbmi umip pku ospke avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg avx512_vpopcntdq la57 rdpid fsrm md_clear arch_capabilities"
              ]
          },
          "Exceptions": [],
          "CPU": {
              "model": "",
              "count logical": 20,
              "count physical": 20
          },
          "RAM": {
              "total": "126GB",
              "used": "6GB",
              "free": "78GB",
              "active": "7GB",
              "inactive": "39GB",
              "buffers": "2GB",
              "cached": "41GB",
              "shared": "22MB"
          },
          "Extensions": [
              {
                  "name": "stable-diffusion-webui-localization-ja_JP",
                  "path": "/stable-diffusion-webui/extensions/stable-diffusion-webui-localization-ja_JP",
                  "version": "d639f8ca",
                  "branch": "main",
                  "remote": "https://github.com/AI-Creators-Society/stable-diffusion-webui-localization-ja_JP"
              }
          ],
          "Inactive extensions": [],
          "Environment": {
              "GRADIO_ANALYTICS_ENABLED": "False"
          },
          "Config": {
              "outdir_samples": "",
              "outdir_txt2img_samples": "/output/txt2img",
              "outdir_img2img_samples": "/output/img2img",
              "outdir_extras_samples": "/output/extras",
              "outdir_grids": "",
              "outdir_txt2img_grids": "/output/txt2img-grids",
              "outdir_img2img_grids": "/output/img2img-grids",
              "outdir_save": "/output/saved",
              "outdir_init_images": "/output/init-images",
              "font": "DejaVuSans.ttf",
              "sd_model_checkpoint": "v1-5-pruned-emaonly.safetensors [6ce0161689]",
              "sd_checkpoint_hash": "6ce0161689b3853acaa03779ec93eafe75a02f4ced659bee03f50797806fa2fa"
          },
          "Startup": {
              "total": 7.647331237792969,
              "records": {
                  "launcher": 0.010724067687988281,
                  "import torch": 2.8648695945739746,
                  "import gradio": 0.6514277458190918,
                  "setup paths": 1.2402830123901367,
                  "import ldm": 0.014907598495483398,
                  "import sgm": 1.3828277587890625e-05,
                  "initialize shared": 0.3266317844390869,
                  "other imports": 0.6456654071807861,
                  "opts onchange": 0.0003814697265625,
                  "setup SD model": 0.006415843963623047,
                  "setup codeformer": 0.10921597480773926,
                  "setup gfpgan": 0.009504556655883789,
                  "set samplers": 5.0067901611328125e-05,
                  "list extensions": 0.0007519721984863281,
                  "restore config state file": 1.33514404296875e-05,
                  "list SD models": 0.03431081771850586,
                  "list localizations": 0.008013725280761719,
                  "load scripts/custom_code.py": 0.047803401947021484,
                  "load scripts/img2imgalt.py": 0.0017917156219482422,
                  "load scripts/loopback.py": 0.001001596450805664,
                  "load scripts/outpainting_mk_2.py": 0.0024428367614746094,
                  "load scripts/poor_mans_outpainting.py": 0.0012700557708740234,
                  "load scripts/postprocessing_codeformer.py": 0.0005180835723876953,
                  "load scripts/postprocessing_gfpgan.py": 0.00044536590576171875,
                  "load scripts/postprocessing_upscale.py": 0.0015022754669189453,
                  "load scripts/prompt_matrix.py": 0.0011546611785888672,
                  "load scripts/prompts_from_file.py": 0.0012383460998535156,
                  "load scripts/refiner.py": 0.0005872249603271484,
                  "load scripts/sd_upscale.py": 0.0009734630584716797,
                  "load scripts/seed.py": 0.0011196136474609375,
                  "load scripts/xyz_grid.py": 0.007689714431762695,
                  "load scripts/bilingual_localization_helper.py": 0.3125584125518799,
                  "load scripts/ldsr_model.py": 0.03952455520629883,
                  "load scripts/lora_script.py": 0.1912364959716797,
                  "load scripts/scunet_model.py": 0.026271343231201172,
                  "load scripts/swinir_model.py": 0.03376197814941406,
                  "load scripts/hotkey_config.py": 0.00037789344787597656,
                  "load scripts/extra_options_section.py": 0.0007958412170410156,
                  "load scripts": 0.6741135120391846,
                  "load upscalers": 0.108856201171875,
                  "refresh VAE": 0.05080389976501465,
                  "refresh textual inversion templates": 8.678436279296875e-05,
                  "scripts list_optimizers": 0.00021529197692871094,
                  "scripts list_unets": 1.33514404296875e-05,
                  "reload hypernetworks": 0.04795503616333008,
                  "initialize extra networks": 0.0044841766357421875,
                  "scripts before_ui_callback": 0.0001342296600341797,
                  "create ui": 0.7404024600982666,
                  "gradio launch": 0.0898442268371582,
                  "add APIs": 0.00691986083984375,
                  "app_started_callback/lora_script.py": 0.0003218650817871094,
                  "app_started_callback": 0.0003368854522705078
              }
          },
          "Packages": [
              "absl-py==2.0.0",
              "accelerate==0.21.0",
              "addict==2.4.0",
              "aenum==3.1.15",
              "aiofiles==23.2.1",
              "aiohttp==3.8.6",
              "aiosignal==1.3.1",
              "altair==5.1.2",
              "antlr4-python3-runtime==4.9.3",
              "anyio==3.7.1",
              "async-timeout==4.0.3",
              "attrs==23.1.0",
              "basicsr==1.4.2",
              "beautifulsoup4==4.12.2",
              "blendmodes==2022",
              "boltons==23.0.0",
              "cachetools==5.3.2",
              "certifi==2022.12.7",
              "charset-normalizer==2.1.1",
              "clean-fid==0.1.35",
              "click==8.1.7",
              "clip==1.0",
              "cmake==3.25.0",
              "contourpy==1.1.1",
              "cycler==0.12.1",
              "deprecation==2.1.0",
              "einops==0.4.1",
              "exceptiongroup==1.1.3",
              "facexlib==0.3.0",
              "fastapi==0.94.0",
              "ffmpy==0.3.1",
              "filelock==3.9.0",
              "filterpy==1.4.5",
              "fonttools==4.43.1",
              "frozenlist==1.4.0",
              "fsspec==2023.10.0",
              "ftfy==6.1.1",
              "future==0.18.3",
              "gdown==4.7.1",
              "gfpgan==1.3.8",
              "gitdb==4.0.11",
              "gitpython==3.1.32",
              "google-auth-oauthlib==1.1.0",
              "google-auth==2.23.3",
              "gradio-client==0.5.0",
              "gradio==3.41.2",
              "grpcio==1.59.0",
              "h11==0.12.0",
              "httpcore==0.15.0",
              "httpx==0.24.1",
              "huggingface-hub==0.18.0",
              "idna==3.4",
              "imageio==2.31.6",
              "importlib-metadata==6.8.0",
              "importlib-resources==6.1.0",
              "inflection==0.5.1",
              "jinja2==3.1.2",
              "jsonmerge==1.8.0",
              "jsonschema-specifications==2023.7.1",
              "jsonschema==4.19.1",
              "kiwisolver==1.4.5",
              "kornia==0.6.7",
              "lark==1.1.2",
              "lazy-loader==0.3",
              "lightning-utilities==0.9.0",
              "lit==15.0.7",
              "llvmlite==0.41.1",
              "lmdb==1.4.1",
              "lpips==0.1.4",
              "markdown==3.5",
              "markupsafe==2.1.2",
              "matplotlib==3.8.0",
              "mpmath==1.3.0",
              "multidict==6.0.4",
              "mypy-extensions==1.0.0",
              "networkx==3.0",
              "numba==0.58.1",
              "numpy==1.23.5",
              "oauthlib==3.2.2",
              "omegaconf==2.2.3",
              "open-clip-torch==2.20.0",
              "opencv-python==4.8.1.78",
              "orjson==3.9.9",
              "packaging==23.2",
              "pandas==2.1.1",
              "piexif==1.1.3",
              "pillow==9.5.0",
              "pip==22.3.1",
              "platformdirs==3.11.0",
              "protobuf==3.20.0",
              "psutil==5.9.5",
              "pyasn1-modules==0.3.0",
              "pyasn1==0.5.0",
              "pydantic==1.10.13",
              "pydub==0.25.1",
              "pyngrok==7.0.0",
              "pyparsing==3.1.1",
              "pyre-extensions==0.0.29",
              "pysocks==1.7.1",
              "python-dateutil==2.8.2",
              "python-multipart==0.0.6",
              "pytorch-lightning==1.9.4",
              "pytz==2023.3.post1",
              "pywavelets==1.4.1",
              "pyyaml==6.0.1",
              "realesrgan==0.3.0",
              "referencing==0.30.2",
              "regex==2023.10.3",
              "requests-oauthlib==1.3.1",
              "requests==2.28.1",
              "resize-right==0.0.2",
              "rpds-py==0.10.6",
              "rsa==4.9",
              "safetensors==0.3.1",
              "scikit-image==0.21.0",
              "scipy==1.11.3",
              "semantic-version==2.10.0",
              "sentencepiece==0.1.99",
              "setuptools==65.5.1",
              "six==1.16.0",
              "smmap==5.0.1",
              "sniffio==1.3.0",
              "soupsieve==2.5",
              "starlette==0.26.1",
              "sympy==1.12",
              "tb-nightly==2.16.0a20231024",
              "tensorboard-data-server==0.7.2",
              "tifffile==2023.9.26",
              "timm==0.9.2",
              "tokenizers==0.13.3",
              "tomesd==0.1.3",
              "tomli==2.0.1",
              "toolz==0.12.0",
              "torch==2.0.1+cu118",
              "torchdiffeq==0.2.3",
              "torchmetrics==1.2.0",
              "torchsde==0.2.5",
              "torchvision==0.15.2+cu118",
              "tqdm==4.66.1",
              "trampoline==0.1.2",
              "transformers==4.30.2",
              "triton==2.0.0",
              "typing-extensions==4.4.0",
              "typing-inspect==0.9.0",
              "tzdata==2023.3",
              "urllib3==1.26.13",
              "uvicorn==0.23.2",
              "wcwidth==0.2.8",
              "websockets==11.0.3",
              "werkzeug==3.0.1",
              "wheel==0.38.4",
              "xformers==0.0.21.dev544",
              "yapf==0.40.2",
              "yarl==1.9.2",
              "zipp==3.17.0"
          ]
      }

      ✨️上記の情報は、AICU AIDX Labが偶然つかんだVPSの情報かもしれません。別の環境を引き当てたひとは是非レポートお願いいたします。

      生成した画像の扱い

      (多くのAUTOMATIC1111提供サービスでは問題になる)生成した画像の扱いですが、ConoHaのファイルマネージャーで一括してダウンロードできます。これは便利かもしれませんね!

      画像

      独自モデルのアップロード

      今回のガチレビューで最大の注目ともいえる「独自モデルのアップロード」を試してみました。
      上記の「ファイルマネージャー」の隣に「アップロード」があり、専用のチュートリアル画面があります。

      画像
      画像
      画像

      AUTOMATIC1111/models/Stable-diffusionディレクトリへのアクセスも簡単

      画像
      画像

      大きなファイルも分割してアップロードしてくれるようです。

      画像

      Animagine XL 3.1をアップロードしてみます。

      いったん手元のPCにダウンロードしたファイルをアップロードしてみます。
      (直接サーバ側にダウンロードさせる方法はなさそうです)

      画像

      アップロード中も画像生成できるので、生成しながらアップロードしましょう(利用時間を節約するためにも…)。

      画像

      だいたい25分ぐらいでアップロードできました。これは接続環境によるかもしれません。

      Animagine XL 3.1でのベンチマーク

      Animagine XL 3.1公式設定に従い、CFG Scale を5~7程度に下げ、サンプリング・ステップを30以下にし、サンプラーとしてオイラー・アンセストラル(Euler a)を使用することをお勧めします。

      https://huggingface.co/cagliostrolab/animagine-xl-3.1

      VRAMは上限は低め

      GPU NVIDIA L4 は VRAMは24GB搭載されているはずです。
      HiRes.fixでSwinIR 4xでを使い2倍の設定、 1024×1024の解像度を2048×2048にしてみます。

      もっと無茶な設定もしてみましたが流石にメモリが足りなくなるようです。
      OutOfMemoryError: CUDA out of memory. Tried to allocate 16.00 GiB (GPU 0; 21.96 GiB total capacity; 11.44 GiB already allocated; 9.10 GiB free; 12.58 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
      Time taken: 34.7 sec.

      A: 12.44 GB, R: 16.74 GB, Sys: 17.0/21.9648 GB (77.5%)

      この設定で予約しようとしたVRAMが16GB。総容量21.96GBですが、PyTorchに11.44GB割り当て済み、9.10GiB空き…よってアロケート(配分)が12.58GBで予約失敗という状態でした。
      より小さいモデルを使うか、面積の小さい画像を生成するか、タイリングなどの多段階の処理で節約するか、というところです。

      まずは1.5倍の1536×1536で再挑戦したところ、問題なくアロケートできました。だいたい1分/genというところです。

      生成結果です。高解像度で素晴らしい…!

      画像

      ✨️アップスケーリングは多様な方法があるので、今回みたいな高解像度を生成しながら様子を見る、という使い方は必ずしも正しくはありません。

      https://note.com/aicu/n/n6d8ddcdf2544

      忘れちゃいけない終了方法

      AI CanvasでのAUTOMATIC1111を利用中はダッシュボードに「WebUIを開く」というボタンが表示されています。

      画像

      AUTOMATIC1111の上部にも(ふだんのAUTOMATIC1111と違い)「WebUIの終了」というボタンが表示されています。

      画像

      こちらを押すことで、明示的に終了させることができます。
      ファイルマネージャーから画像をダウンロードし、念の為、不要になったインスタンスは削除しておきましょう。

      総評:ワークショップ用途であれば最適。

      以上の通り、忖度なしのガチレビューを実施いたしました。
      スペック的にはL4 GPUで、AUTOMATIC1111 1.6.0で問題ないようであれば、モデル追加も機能拡張のインストールも可能なので、カスタマイズ性も特に問題はないという印象を得ました。

      比較対象としては、海外の安めのGPUホスティングサービス、例えばPaperspaceというよりは、国内のGPUホスティングサービスが対象になると考えます。

      あとは Google Colabでしょう。Google Colab Paid Plan の場合はGoogle 最大のメモリを搭載したマシンにアクセス可能で「1ヶ月あたり1,179円」です。

      画像

      Google Colab Proは環境として自由度は高いですが、マネージドサービスの一種であり、共有。L4以外のGPUも選択できますが、GPU環境の利用は優先度設定があり、相応のコンピューティングユニットを消費する形です。

      画像

      さらにAUTOMATIC1111は連続使用が禁止されています。特に連続したサービスとしての使用が禁じられているようで(明示はされていない)、無料アカウントでAUTOMATIC1111を使用していると警告とともに停止します。
      あくまで実験・研究・教育用途と考えましょう。

      https://note.com/aicu/n/n4fcc8c200569

      実験・研究・教育用途なら「エントリー」

      Google Colabと同じような用途、つまり「実験・研究・教育」という用途で、特にPythonノートブックについて学ぶ要素や、AUTOMATIC1111最新の1.10.xが必要ではない用途であれば「エントリー」が良いと考えます。

      AICUのような企業向け・教育向けのワークショップのような用途で使うのであれば、期間限定でも1画像生成あたり2-3秒で提供できるL4環境は魅力的です。

      ✨️ワークショップの実施についてはこちらからお問い合わせください✨️

      https://corp.aicu.ai/ja/pricing

      教育機関、未成年の部活動、公金等の研究費等で「クレジットカードが使えない」といった用途であれば、ConoHaチャージでの精算が選択肢になる可能性がありますね。ちなみにConoHaには学割があるようです。

      https://www.conoha.jp/gakuwari

      業務用途ならストレージで選びたい

      今回は単発ワークショップのような期間限定利用ではなく、小規模チームや複数ユーザーが業務的に使う用途、もしくは「GPU搭載PCを増強するまでもないな…」というプロシューマー/ホビー用途での想定です。「おすすめ!」にしたがって「スタンダード」を選んでみましたが、この期間中、いちばん安いのはやはり「エントリー」で495円です。これまでのセットアップのステップを見てもわかりますが、無料枠の1時間ではモデルのアップロードで半分使い切ってしまいます。

      上のクラスの「スタンダード」と比較計算してみたところ、仮に1時間以上~5時間以下の使用となる場合、495円+3.3円 x 60分 x 5時間で1485円です。つまり5時間ではなく、「6時間/月ぐらい」からがスタンダードに「おすすめ」の利用時間になります。

      注目したいのはストレージです。Google Colabの場合は一時ストレージはColab環境ですが、多くの場合はGoogle Driveのストレージを消費することになります。無料で利用できるかに見えるGoogle Driveの容量ですが、15GBとなると、実際に画像生成AIのモデルをダウンロードしたり、静止生成他画像を保存したりという用途には難しいサイズになります(これは多様な環境でGoogle Colabを使ってきたAICUならではの知見です)。
      結局のところ、Google Oneを追加契約することになり、最低でもベーシックの100GBを250円/月で契約することになります。そうすると、1,179+250=1,429円となり、ConoHa AI Canvasの価格とほぼ変わらない水準になります。

      画像

      またGoogle Oneの場合はGeminiがついてきますので、判断が難しいところです。

      https://note.com/aicu/n/n73e4937bf165

      今回の実験ではスタンダードとエントリーの両方で実験を行いましたが、今回のようなAnimagine XL 3.1を利用した画像生成の例でも13GB程度でした。

      画像

      上手にストレージを節約して使うのであれば、30GB程度で十分なのかもしれませんね。

      API用途では使えないが、GCP/AWSには対抗できる可能性。

      VPSとはいえマネージドサービスなので、セキュリティ対策に心配がないのはありがたいですね。GCPやAWSでの同等のAUTOMATIC1111サーバーをL4で運用する場合、数千円で収まる話ではありませんので、まずはそことは価格競争力があります。

      「Google Colabを許可されない企業におつとめで、審査等が必要ないがクレジットカードで利用できる国内企業」というマーケットはたしかにありそうです。

      次にセキュリティ面です。昔話でありますがshare設定で放置してあるAUTOMATIC1111は危ないですし、Google Colabでのサービス開放が禁じられているのも、このようなトンネルでの放置サーバー利用が危ないという視点もあります。だからこそ、企業内GPU(オンプレミス)での利用はGradioのVPNトンネルを掘る形になりがちで、それによって社内のセキュリティやファイルアクセスを社外に晒す可能性があり、非常に危険なセキュリティホールになります。

      そういった意味で(まだ現時点でこのサービスでは提供されていませんが)クラウド環境におけるAPIでの利用や、非公開の学習モデルやLoRAの運用サーバー、APIサーバーは需要があるかもしれません。現状はAPIのみでの利用は想定されていないようですが、起動時のオプションひとつですし、いちおう認証が作られていますから、そのうちサポートされるかもしれませんね。

      例えばDifyでのStable Diffusionの独自サーバーの利用や、WordPress向けのプラグインでのAPI利用といったサービスがありますので、Stability AIの商用ライセンスとともに検討できるといいかもしれませんね!

      こういった Stability AI関連のシステム構築の話題は SAI@aicu.ai にお問い合わせいただければ幸いです。クラウドも、VPSも、オンプレミスも、APIサービス化もそれぞれ良いところがあります。

      https://j.aicu.ai/ConohaAICanvas

      以上です!なにか間違いがあったらすみません!

      この記事が面白かった、しかもまだConoHaを試していないアナタ!
      こちらのリンクからご契約いただけると、AICUのConoHa利用料の足しになるかもしれません…。無理にとはいいませんが、ね!

      https://www.conoha.jp

      ガチレビュー案件の依頼もお待ちしております!

      Originally published at https://note.com on Aug 4, 2024.

    1. Stability Matrixで Automatic1111が起動しない…そんなときに試してほしいノウハウ #SD黄色本

      Stability Matrixで Automatic1111が起動しない…そんなときに試してほしいノウハウ #SD黄色本

      大好評の「画像生成AI Stable Diffusionスタートガイド」(通称 #SD黄色本 )ですが、GitHubでのソースコード公開に加えて、discordでのサポート、noteメンバーシップ向け掲示板でのサポートがあります。

      画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

      Amazon.co.jpで購入する

      AICU: AI Creators Union|AICU media


      今回はStability Matrixを使ったローカルGPU、Windows11/Mac(Apple Silicon)環境を中心に discord AICUサーバー「SD黄色本サポート」チャンネルに寄せられたトラブルシューティングノウハウをお送りします。

      ❏書籍「画像生成AI Stable Diffusionスタートガイド」の詳細についてはこちら

      書籍[画像生成AI Stable Diffusionスタートガイド]

      ❏Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について (2024/5/22)

      Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

      ❏Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施

      Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施


      過去の #SD黄色本 記事についてはこちらをご参照ください

      SD黄色本 アーカイブ

      Checkpointの切り替えに失敗する

      M3 MacBook Pro で報告されたケースですが、画像生成AIのモデル、つまり SD1.5やSDXL、もしくは bluePencilXL と言ったモデルの切り替えに失敗することがあります。
      エラーメッセージの例

      changing setting sd_model_checkpoint to bluePencilXL_v600.safetensors [83f960c769]: AttributeError

      Stability Matrixにはこのようなログが表示されます。

      Python 3.10.11 (main, May  7 2023, 17:32:05) [Clang 16.0.3 ]
      Version: v1.9.4
      Commit hash: feee37d75f1b168768014e4634dcb156ee649c05
      ControlNet init warning: Unable to install insightface automatically. Please try run `pip install insightface` manually.
      Launching Web UI with arguments: --medvram-sdxl --api --skip-torch-cuda-test --skip-python-version-check --no-half --gradio-allowed-path /Users/username/apps/StabilityMatrix/Images
      no module 'xformers'. Processing without...
      no module 'xformers'. Processing without...
      No module 'xformers'. Proceeding without it.
      Warning: caught exception 'Torch not compiled with CUDA enabled', memory monitor disabled
      ControlNet preprocessor location: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/extensions/sd-webui-controlnet/annotator/downloads
      2024-06-11 08:11:57,602 - ControlNet - INFO - ControlNet v1.1.449
      Loading weights [1449e5b0b9] from /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/models/Stable-diffusion/animagineXLV31_v30.safetensors
      2024-06-11 08:11:57,929 - ControlNet - INFO - ControlNet UI callback registered.
      Running on local URL:  http://127.0.0.1:7860
      
      To create a public link, set `share=True` in `launch()`.
      Creating model from config: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/repositories/generative-models/configs/inference/sd_xl_base.yaml
      /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/venv/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
        warnings.warn(
      Startup time: 8.8s (prepare environment: 0.4s, import torch: 3.3s, import gradio: 0.8s, setup paths: 1.1s, initialize shared: 0.2s, other imports: 0.9s, load scripts: 0.8s, create ui: 0.5s, gradio launch: 0.4s, add APIs: 0.5s).
      changing setting sd_model_checkpoint to bluePencilXL_v600.safetensors [83f960c769]: AttributeError
      Traceback (most recent call last):
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/options.py", line 165, in set
          option.onchange()
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/call_queue.py", line 13, in f
          res = func(*args, **kwargs)
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/initialize_util.py", line 181, in <lambda>
          shared.opts.onchange("sd_model_checkpoint", wrap_queued_call(lambda: sd_models.reload_model_weights()), call=False)
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 860, in reload_model_weights
          sd_model = reuse_model_from_already_loaded(sd_model, checkpoint_info, timer)
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 793, in reuse_model_from_already_loaded
          send_model_to_cpu(sd_model)
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 662, in send_model_to_cpu
          if m.lowvram:
      AttributeError: 'NoneType' object has no attribute 'lowvram'
      
      Loading VAE weights specified in settings: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/models/VAE/sdxl_vae.safetensors
      Applying attention optimization: sub-quadratic... done.
      Model loaded in 28.7s (load weights from disk: 0.8s, create model: 1.3s, apply weights to model: 10.7s, apply float(): 8.3s, load VAE: 2.0s, load weights from state dict: 0.1s, hijack: 0.6s, load textual inversion embeddings: 0.7s, calculate empty prompt: 3.9s).

      基本的にはこのようなログをChatGPTやClaude、Gemini、Perplexityなどに貼り付けていただけると解決する事も多いですのでぜひやってみてください。

      以下はChatGPT-4oでの上記のログの回答例です。

      AttributeError:

      • AttributeError: ‘NoneType’ object has no attribute ‘lowvram’: このエラーはsd_modelがNoneであることを示しています。つまり、モデルが正しくロードされていない可能性があります。この問題は、モデルのロードプロセスで何かが失敗しているか、チェックポイントファイルが正しくないか、または欠落しているために発生することがあります。

      ひとえに「メモリが足りない」という原因が多かったりします。もちろん、動作中に多くのコマンドや操作を投げることは避けたほうがいいです。多くのケースではケースでは起動しているChromeなどのWebブラウザ、不要なタブを閉じて再起動したり、再度選択を試してみたらできた、という事もよくあります。

      ロードするモデルはSDXL系ですと4-6GBのファイルサイズがあり、VRAMやメインメモリにそれをロードするだけの容量がなければエラーになります。起動時オプションで「lowvram」というオプションがありますので、8GB以下のVRAMであればチェックオンしておくと動作の不安定を回避することができるかもしれません。

      よくある他の事例としては
      ・checkpointが正しい場所にあるか
      →modelsフォルダ、その下の「Stable Diffusion」です
      StabilityMatrix-win-x64\Data\Models\StableDiffusion

      ・ダウンロードの途中で終わってしまっている(ファイルが壊れている)
      →削除してやり直し

      といったケースがあります。いずれにしてもモデルの切り替えに失敗しているときはStability MatrixのコンソールやAutomatic1111右下に表示されていますのでエラーログを確認しましょう。
      コツは「あきらめないこと」です!特にMac版。

      ModuleNotFoundError: No module named ‘jsonmerge’

      2024/7/12にご報告いただいたケース
      (新品のWindows11)
      > Stable Diffusion Web UI v1.9.4をパッケージに追加して、Launchを押すと、いろいろ文字が出て、最後に

      File “C:\Data\Packages\stable-diffusion-webui\repositories\k-diffusion\k_diffusion\config.py”, line 6, in <module>
      from jsonmerge import merge
      ModuleNotFoundError: No module named ‘jsonmerge’

      と表示されて止まってしまいます。

      まず、基本的なところで、Stability Matrixを利用すると、個別にPythonをインストールする必要はなくなります。
      つまり、想像するに、ローカルで既にインストールされたPython環境とぶつかっている可能性があります。

      もしWindows + R →「cmd」でコマンドプロンプトを起動して、 python -V と打って Enter ボタンを押して、上記のように Python 3.10.6 と出るか、もしくは「コマンドが見つかりません」というエラーが出れば問題なしですが、他のバージョンのPythonが出てくるようですと、まずはいったん、Pythonをアンインストールしたほうがいいと思います。

      ・Stability MatrixのAutomatic1111を更新する
      →Packageでで確認できます

      ・Stability MatrixのAutomatic1111を削除してインストールし直す
      →生成済みの画像も削除される可能性がありますので一旦退避しましょう。

      ・Stability Matrixをアンインストールして入れ直す

      ・[上級者向け]足りないモジュールを手動でインストールする
      Redditで同様の不具合が報告されています
      Error: ModuleNotFoundError: No module named ‘jsonmerge’
      https://www.reddit.com/r/StableDiffusion/comments/13e6srs/error_modulenotfounderror_no_module_named/

      ・[非常に簡単な方法]Windows11に新ユーザをつくる
      設定→アカウント→その他のユーザー→「アカウントの追加」で解決することが多いです。
      これは「demo」というユーザを作成している例です。

      画像

      解決策:Google Colabを並列にする

      Stability Matrixは手元のGPUで使えて嬉しいのですが、本格的に画像生成をしたりオリジナルのLoRAを学習させたりといった複数の作業を行うときは、1台のPCでも辛くなってきます。
      Google Colab Proの環境は有料ではありますが、Proのライセンスであればクリーンなインストール環境、高速なGPU、高速な回線であり、特に困ることは少なくなります。
      ローカルのGPUをメインで使う場合も問題分析がしやすくなります。

      本書ではGoogle Colabでの環境構築やColabで動くノートブックも並列で解説・メンテナンスしていますので、ぜひとも使ってみてくださいね!

      画像

      以上、「画像生成AI Stable Diffusionスタートガイド」のトラブルシューティング情報でした!

      画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

      Amazon.co.jpで購入する

      書籍のサポートリポジトリやAICU Inc. discord サーバー「SD本サポート」チャンネル ⁠はこちら(有料)

      https://note.com/aicu/n/n08c33f7102ab

    2. #SD黄色本 サイン本即売会も開催!生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

      #SD黄色本 サイン本即売会も開催!生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

      人気著者が語る生成AIの魅力

      デジタルハリウッド大学の橋本大也教授と、デジタルハリウッド大学特命教授でAICU media編集長でもある白井暁彦CEOが、それぞれのベストセラー書籍をもとに、ChatGPTやStable Diffusionなどの生成AIの最新動向を紹介します。また、イベントでは両著者の最新刊 #SD黄色本のサイン本即売会も実施されます。

      イベント詳細

      日時: 2024年5月30日(木)19:30~21:30(開場19:00)

      会場: デジタルハリウッド大学 駿河台ホール(東京都千代田区神田駿河台4-6 御茶ノ水ソラシティ アカデミア3階)

      参加費: 無料

      定員: 150名

      申込み: イベントページ

      https://ai-maruwakari-night.peatix.com

      登壇者プロフィール

      白井暁彦(Akihiko Shirai, PhD /しらいはかせ)

      エンタメ・メタバース技術の研究開発に関わる研究者、ホワイトハッカー作家、米国スタートアップ「AICU Inc.」「Hidden Pixel Technology Inc.」のCEO。東京工芸大学写真工学科卒、同画像工学専攻修了。キヤノン株式会社とグループの研究所より生まれた英国・Criterion Software にて世界初の産業用ゲームエンジン「RenderWare」の普及開発に参加、その後、東京工業大学知能システム科学専攻に復学。博士学位後、NHK エンジニアリングサービス・次世代コンテント研究室、フランスに渡りENSAM 客員研究員、国際公募展Laval Virtual ReVolution の立ち上げ、日本科学未来館科学コミュニケーター神奈川工科大学情報メディア学科准教授を経て、2018 年よりデジタルハリウッド大学 大学院客員教授 およびグリー株式会社GREE VR Studio Laboratory Director。

      スマートフォン向けメタバース「REALITY」を開発・運用するREALITY 株式会社の立ち上げを通して、Virtual YouTuber などXR ライブエンタメ技術のR&D、国際発信など、メタバースエンタテイメントの未来開発や知財創出を中心に、自らエンタテイメントのライブプレイヤーとして世界に向けた開発・発信活動方法論化しながら世界中のエンタテインメント技術業界に数百人の規模でクリエイターを育成している。2023年よりデジタルハリウッド大学発米国スタートアップ企業「AICU Inc.」CEO。生成AI時代に「つくる人をつくる」をビジョンに英語、日本語、フランス語、プログラミング言語などでオープンな作家活動を続けている。日本バーチャルリアリティ学会IVRC 実行委員会委員。芸術科学会副会長。

      著書に『WiiRemote プログラミング』(オーム社)、『白井博士の未来のゲームデザイン – エンターテインメントシステムの科学-』(ワークスコーポレーション)、『AIとコラボして神絵師になる 論文から読み解くStable Diffusion』(インプレスR&D)他。

      橋本大也(Daiya Hashimoto)

      デジタルハリウッド大学教授兼メディアライブラリー館長。多摩大学大学院客員教授。早稲田情報技術研究所取締役。ブンシン合同会社CEO。翻訳者。IT戦略コンサルタント。ビッグデータと人工知能の技術ベンチャー企業データセクション株式会社の創業者。同社を上場させた後、顧問に就任し、教育とITの領域でイノベーションを追求している。デジタルハリウッド大学大学院では「テクノロジー特論 Bデータ」、多摩大学経営大学院で「先端テクノロジー・マーケティングイノベーション」を教える。2024年1月デジタルハリウッドで生成AI教育プログラムを開発するブンシン合同会社CEOに就任し、生成AIの活用を教える「プロンプト・エンジニアリング・マスターコース」を創設し、自ら主任講師として教鞭をとっている。その他に、洋書を紹介するブログを運営しており、『WIRED』日本版などのメディアに書評を寄稿している。

      書籍の概要

      頭がいい人のChatGPT&Copilotの使い方』(橋本大也 著)

      • 人気のカテゴリー
        • 情報社会
        • メディアと社会
        • ナレッジマネジメント

      画像生成AI Stable Diffusionスタートガイド』(白井暁彦 著)

      • 人気のカテゴリー
        • デザイン
        • コンピュータサイエンス
        • 人工知能

      これらの書籍は大学のメディアライブラリ(図書館)にも配架されています。

      イベント参加のメリット

      このイベントに参加することで、生成AIの最新情報を直接学ぶことができます。また、デジタルハリウッド大学の専門家からの貴重なインサイトを得ることができ、ネットワーキングの機会も豊富です。さらに、#SD黄色本のサイン本を手に入れるチャンスもあります。

      まもなく定員の150名に到達します

      申込みは無料、イベントページへ。

      https://ai-maruwakari-night.peatix.com

      当日はAICU mediaのスタッフに会えるかも?

      書籍:画像生成AI Stable Diffusionスタートガイド

    3. 漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!

      漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!

      4月に入り、X や kindle インディーズで AI で漫画を見かける機会が増えてきました。最近のイラスト系画像生成 AI では、漫画が流行の兆しを見せてきているようです。

      参考:SD黄色本

      書籍[画像生成AI Stable Diffusionスタートガイド] – つくる人をつくる AICU Inc.ja.aicu.ai

      参考:人気AI漫画家・けいすけ氏の「マンガの作り方」

      Amazon.co.jp: AIとCanvaでできる!マンガの作り方 みんなのマンガ物語 eBook : けいすけ: Kindleストア

      そこで AICU media では、「AI で漫画を作ってみたいけど、どのモデルを使えばいいんだろう…」という方向けに、白黒漫画制作に適した Stable Diffusion のモデルを調査しました!

      Animagine 3.1

      まずはアニメ系 SDXL の主流モデルとなっている「Animagine」の最新バージョンである Animagine 3.1 でモノクロイラストを生成してみましょう。

      プロンプト「best quality , monochrome , lineart,1girl, bob cut, flat chest , short hair , school uniform, round_eyewear, hand on hip,looking at viewer,open mouth,white background」

      ネガティブプロンプト「worst quality, low quality,blush, lowres, bad anatomy, bad hands」

      画像
      画像
      カワイイ女子高生は腰に手を当てているだけでカワイイ

      プロンプト通りの要素が生成されていて、質も良いですね!
      インク溜まりのような表現と、影部分の塗りつぶしがかわいいです。

      Animagine 3.0

      試しにひとつ前のバージョンである Animagine 3.0 でも生成してみましょう。
      プロンプトは前回と同様です。

      画像
      画像

      皆さん、気が付きましたか?
      Animagine 3.0 で生成した方が、線がとても綺麗に生成されています!

      画像
      3.0(左)と3.1(右)

      線の解像度が全く違うことがわかります。
      Animagine を使用する場合は、最新バージョンの 3.1 よりもひとつ前の世代の 3.0 を使用するのが良さそうですね。

      Animagine の年代タグを試す

      ここまで Animagine のバージョンを変えて試してみましたが、Animagine というと特徴的なのは年代タグです。年代タグというのは、絵柄の古さを調節できるタグのことです。

      詳しい比較、解説はこちらで行っています。

      https://note.com/embed/notes/n70122ef250d9

      Animagine の年代タグは、Animagine 3.1 の方が効果が反映されやすい感覚がありましたが、漫画を制作するとなるとどの程度絵柄に影響が出るのでしょうか。

      まず、Animagine 3.1 の「oldest(最も古い)」と「newest(最も新しい)」を試してみます。

      プロンプト「best quality , monochrome, lineart, 1girl, school uniform, smile, looking at viewer,open mouth,white background, (年代タグ)」

      oldest (Animagine3.1)

      画像

      Animagine3.1の「oldest」は 「2005 to 2010」とあります。たしかにそういう雰囲気があります。
      シンプルな目や影の濃い鼻、等幅の髪の毛がモノクロにも落とし込まれていますね。

      newest (Animagine3.1)

      画像


      「newest」も、流行りの華やかですっきりとした雰囲気が出ています(2022 to 2023)。

      また年代タグを指定していない時よりも、線が綺麗に生成されているような印象を受けます。そういう特性があるのでしょうか。

      次に、Animagine 3.0 の「oldest」と「masterpiece」を試してみましょう。プロンプトは同じです。

      oldest (Animagine3.0)

      画像

      masterpiece (Animagine3.0)

      画像

      Animagine 3.1 と比較すると、やはり線はこちらの方が若干綺麗であるものの、絵柄の差があまり出ていませんね。Animagine 3.1 の方が「oldest」のインパクトがあります。

      結果発表!

      生成して比較した結果、

      単純に漫画のようなモノクロ画像を生成したい場合:Animagine 3.0
      絵柄を古くしたりなど、年代タグを使いたい場合:Animagine 3.1

      という結果になりました!

      場合によって使い分けるのが最も有効だという結果は予想していなかったので、とても面白い実験になりました。

      公式のモデルカードを調べてみると年代タグについては以下のように微妙に異なりました。

      Animagine 3.0 Year Modifier
      Year Tag Year Range
      newest 2022 to 2023
      late 2019 to 2021
      mid 2015 to 2018
      early 2011 to 2014
      oldest 2005 to 2010

      年号修飾子 また、特定の現代アニメやヴィンテージアニメのアートスタイルにより正確に結果を導くために、年号の範囲を再定義しました。このアップデートでは、現在と過去の時代との関連性に焦点を当て、範囲を簡素化しました。

      Year Tag Year Range
      newest 2021 to 2024
      recent 2018 to 2020
      mid 2015 to 2017
      early 2011 to 2014
      oldest 2005 to 2010

      おまけ

      プロンプトに「comic」を入れて生成すると、漫画っぽい画像が生成できます!画像生成AIあるあるの「文字風の線」も生成されます。興味のある方は試してみてください。

      画像
      上目遣いかわいい!
      画像
      ちょっとこわいけどかわいい

      生成した画像を加工すれば、漫画にも使えますね。

      アイビスペイントを使った漫画の描き方については、
      デジタルハリウッド大学大学院「クリエイティブAIラボ」が技術書典に同人誌としてまとめいらっしゃいますのでこちらもご参考まで。


      メタバースで(ともいき)漫画を描く:DHGS_CAIL デジハリ大学院「クリエイティブAIラボ」
      「メタバースで(ともいき)漫画を描く」 著者: しらいはかせ・Kotone・Itsuki・Lucas・傷だらけのキューティtechbookfest.org

      漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較! | AICU media @AICUai #note https://note.com/aicu/n/n393f2cebfc75


      #AI漫画 #AICU #つくる人をつくる #SD黄色本

      画像
      カワイイけど何言ってるかわからない!
    4. AUTOMATIC1111 v1.9.0リリース

      AUTOMATIC1111 v1.9.0リリース

      2024年4月13日、シンプルな UI で幅広く使われるオープンソース画像生成WebUI「AUTOMATIC1111/Stable Diffusion WebUI」の最新版v1.9.0 がリリースされました。

      主要なリリース日本語訳

      • サンプリングステップではなく、モデルのタイムステップに基づいてリファイナーを切り替えるようにした。
      • ツリービューの代わりに古いスタイルのディレクトリビューを表示するオプションを追加した。
      • コールバックの順序を変更するためのUIを追加し、拡張メタデータでコールバックの順序を指定できるようにした。
      • SDXL-Lightningモデル用のSgm統一スケジューラを整備した。
      • メインUIでのスケジューラ選択をできるようにした。
      • “open images directory “ボタンが実際のディレクトリを開くようにした。

      詳細リリース&修正 日本語訳

      • LyCORIS BOFTネットワークの推論をサポート
      • 追加ネットワークカードの説明をデフォルトでプレーンテキストに
      • 追加ネットワークのハンドルのサイズを変更
      • cmd args: と ( — unix-filenames-sanitization — filenames-max-length)
      • 余分なネットワークのパラメータを生のJSONではなくHTMLテーブルで表示するようにしました
      • LoRA/LHA/LoKrに対するDoRA(weight-decompose)のサポートを追加
      • 最終世代のプロンプト履歴を無効にするコマンド引数’ — no-prompt-history’を追加
      • 置換プレビューのプレビューを更新
      • エクステンションのアクティブなgitブランチの更新のみを取得するようにした
      • アップスケールの後処理UIをアコーディオンにした
      • URLをドラッグドロップしてインフォテキストを読み込めるようにした
      • キャッシュにdiskcacheライブラリを使用
      • エクストラタブでPNG-RGBAを使用可能に
      • safetensorsメタデータに埋め込まれたカバー画像をサポート
      • NNアップスケール使用時の割り込みを高速化
      • エクストラアップスケーラー: 出力画像の最大辺の長さを制限する入力フィールドを追加
      • Extrasタブにポストプロセッシングオプションを非表示にするオプションを追加。

      API関係リリース日本語訳

      • ResizeHandleRow — 列のスケールパラメータをオーバーライド可能に
      • script_callbacks.ui_settings_callbackをより早く呼び出すようにした。extra-options-section組み込みの拡張機能で、存在しない設定を使用した場合にuiが強制終了するのを修正。
      • zoom.jsをwebuiのコンテキスト外で使用できるようにしました。
      • metadata.iniで拡張機能名のバリアントを許可するようにした
      • UIスクリプトのリロードをオプションにし、デフォルトではオフにする。
      • txt2imgと同様に、img2img関数の最初にrequest: gr.Requestを追加。
      • utilとしてのopen_folder
      • 拡張機能のスクリプトファイルをインポートできるようにした (import scripts.<ファイル名>)

      AUTOMATIC1111ユーザー分析

      最近は、Stable Diffusion を使用している人の中で ComfyUI や Fooocus といった Web UI も広く使われてきていますが、A1111 も多くのユーザーに愛されています。

      あわせて Stability Matrix も自動アップデート対応

      原稿執筆時点の最新版 Stability Matrix v.2.10.1においても自動アップデートで対応済みでした。

      A1111の下部にこのように表示されています。

      目立ったUI変更はなさそうです。

      サンプリングステップではなく、モデルのタイムステップに基づいてリファイナーを切り替える点とSDXLのスケジューラーは画作りに微妙な影響がありそうです。
      📁ボタンによって画像保存先が開けるようになったのは嬉しいですね。

      AUTOMATIC1111 で画像生成を学ぶ、Stable Diffusion 解説書はこちら!


      Originally published at https://note.com on April 19, 2024.

    5. GPUなしでもできる「A1111」広告ビジュアル制作(2) – 品質向上プロンプト

      GPUなしでもできる「A1111」広告ビジュアル制作(2) – 品質向上プロンプト

      前半のおさらい

      前回の記事「広告制作チュートリアルで学ぶ!画像生成AIはじめの一歩 前編」では、A1111 を Colab で立ち上げて画像を生成する方法と、クオリティプロンプトと画像サイズを調整しハイクオリティな画像を生成する方法を学びました。

      今回の後半では、広告として機能する画像を生成する方法や編集、モデルや LoRA を変更しもっと柔軟に画像を生成する方法について解説します。

      前半+後半の内容に加え、もっと詳しい解説や画像生成の重要なポイントが学べる書籍の試し読みはこちらから!→https://j.aicu.ai/SBXL

      広告に適したハイクオリティな画像を生成しよう

      前回の記事では、クオリティプロンプトを使うことで画像のクオリティを大きく変えることができることを学びました。

      プロンプト「1girl」

      プロンプト「masterpiece, best quality, high quality, ultra detailed,1girl」

      ネガティブプロンプト「worst quality, low quality, bad anatomy, bad hands」

      広告写真としてのメッセージをプロンプト化

      つまり広告写真としてのフォトグラファーとしてのメッセージをプロンプトとモデルとの対話で実現する経験をしてみましょう。

      これに加え今回の記事では、いくつかテーマを決め、それぞれの広告として適した雰囲気の画像を生成できるプロンプトを探っていきます。

      ここでは例として、

      ・おしゃれな高級レストラン
      ・飲料とドラマ
      ・大人の女性向けの口紅
      ・若い女性向けのポップな眼鏡

      以上の広告表現に挑戦し、プロンプトとモデルでの表現を深掘りしてみます。

      重厚感のある画像を生成する

      先ほどのテーマのうち、

      ・おしゃれな高級レストラン
      ・飲料とドラマ
      ・大人の女性向けの口紅

      このテーマの広告は大人をターゲットにした広告なので、メインビジュアルには重厚感のあるビジュアルが必要です。重厚感を演出するうえで大切な要素のひとつは、人物や被写体のライティングでしょう。まずはライティングを指定するプロンプトを指定してみます。

      具体的なプロンプトの例としては、

      ・cinematic lighting
      ・professional lighting
      ・(天候、時間帯)lighting

      が挙げられます。

      「口紅の広告のメインビジュアル」を想定して、これらのプロンプトを指定したものと指定していないもので比較してみましょう。

      プロンプト「masterpiece, best quality, face focus,1girl, lip, red lip, white skin」(ライティング指定なし)
      ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

      プロンプト「masterpiece, best quality,cinematic lighting, professional lighting, face focus,1girl, lip, red lip, white skin」
      ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

      モデルや全体的な雰囲気の深み、重厚感や瑞々しさが全く違うことがわかるでしょうか。

      またここに「intricate composition」(直訳すると『複雑な構図』)を追加すると、さらにリアルな質感を演出することができます。これは AICU media 編集部の知山が ChatGPT にプロンプトを考えてもらっている時に発見したプロンプトなので、他には出回っていないレア情報だと思われます。皆さんぜひ試してみてください!

      肌の質感が深まりましたね!

      この調子で、おしゃれな高級レストラン、缶ビールもライティングを指定して生成してみましょう。またプロンプトを書くときは、クオリティプロンプト→ライティング、雰囲気→人物、被写体→背景の順に書くとバランスがとりやすいです。

      高級レストラン

      プロンプト「masterpiece, best quality,cinematic lighting,professional lighting, intricate composition, face focus,1girl, dinner, pink lip, dinner,wine,smiling, black formal dress,long sleeves,sophisticated restaurant」
      ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

      飲料とドラマ

      プロンプト「masterpiece, best quality, cinematic lighting, professional lighting, intricate composition, face focus,1girl, drinking beer, can, at home, night」
      ネガティブプロンプト「worst quality, best quality, normal quality, bad anatomy, bad hands」

      深みのある大人っぽい画像が生成できました!

      深みのある大人っぽい画像が生成できました!
      口元が気に入らないときは、image to image (img2img)でインペイントします。ついでにビールではなくジュースに置き換えてみます。

      「人生の酸っぱさ、味わってる?」

      ポップな雰囲気を出す

      次に先ほどとは一風変わって、ポップでカジュアルな雰囲気の画像を生成してみましょう。テーマは「若い女性向けの眼鏡」です。

      今回は3人の女の子を生成してみます。

      「cinematic lighting, intricate composition」を今回も入れつつも、様々な色の小物や髪色を指定することで、深みを出しつつもポップな色が目立つように仕上げていきます。

      複雑なプロンプトになりましたが、ここまできた皆さんなら読み解けるはず!

      プロンプト「masterpiece, best quality, cinematic lighting, intricate composition, looking at viewer, 2girls, kissing cheek, whispering, index finger to index finger raised, looking at another, earrings, short blonde hair, eyewear, purple beret , summer muffler, green brown contact lens,  catch light on the eyes, pink lips, indigo fingernails, <BREAK>looking at viewer, earrings, indigo short bob cut, round glasses, pink beret , blue brown contact lens,  catch light on the eyes, pink lips, indigo fingernails」

      また「BREAK」という大文字の単語を挿入することで、それ以前のトークンというプロンプトのまとまりを打ち切ることができ、BREAK以降のプロンプトが反映されやすくなります。詳しくは2024年3月に発売開始している書籍「画像生成 AI Stable Diffusion スタートガイド」で学ぶことができます。レベルアップしたい方は要チェックです!

      また今回の記事ではイアウト要素については扱いませんでしたが、領域分割については「Regional Prompter」などを使うとよいでしょう。

      https://corp.aicu.ai/ja/regional-prompter

      画像を編集し、広告にしよう

      ここまで画像が生成できたら、あとは文字を挿入して広告にすれば完成です!

      Photoshop などの画像編集ツールで画像の位置などを調節したり、文字を配置したりしてみましょう。

      画像生成AIを使って、広告をつくることができました!
      趣味や仕事での掲示物、実際の広告の案出しなど、様々な場面で応用し、周りと差をつけてみてはいかがでしょうか。

      まとめ

      以上、GPUなしでもできる画像生成AI Stable Diffusion 「AUTOMATIC1111 WebUI」のはじめかたについて紹介しました。

      より深めていきたい方々には3月29日に発売されたばかりの書籍「画像生成AI Stable Diffusion スタートガイド」がおすすめです。今回の記事で解説しきれなかったモデルの変更や LoRA、様々なパラメータの解説や微調整が可能になる書籍です。ぜひ試し読みしてみてください!https://j.aicu.ai/SBXL

      img2imgの解説記事はこちら
      ControlNetの解説記事はこちら

      最新情報はAICU Inc. のX(Twitter)@AICUai をご参照ください。次回をお楽しみに

      映像・広告クリエイティブ業界の公式認定講習会・教育関係者向けの団体講習会のお問い合わせはこちらから

      https://corp.aicu.ai/workshop

    6. GPUなしでもできる「A1111」広告ビジュアル制作(1) – プロ向け画像生成AIはじめの一歩

      GPUなしでもできる「A1111」広告ビジュアル制作(1) – プロ向け画像生成AIはじめの一歩

      新年度になり、ポスターなどの掲示物やバナー広告が新たに必要になってくることはありませんか?

      3月に書籍「画像生成AI Stable Diffusion スタートガイド」を出版したAICU media 編集部ですが、映像業界や広告クリエイティブ方面の読者の方から「漫画やイラストレーション以外の画像も作りたい!」というフィードバックをいただきました。

      そこでこの記事では、AICUクリエイティブ・ディレクターの 知山ことね が中心に、前後編全2回にわたってこれまでのデジタルイラストレーションではなく、広告写真や映像業界、ミュージックビデオなどに使えるアーティスティックな写真、キービジュアルや背景を AI で生成し、文字やロゴを付け足してポスターや広告を制作する手法を画像生成 AI を触ったことがない方に向けて解説します。

      女性AIクリエイターならではの感性にも注目です!

      GPUなしでもできる「A1111」広告ビジュアル制作

      第1回目では画像生成AIをブラウザで利用する「AUTOMATIC1111 WebUI」(以下「A1111」)の起動、操作方法の解説、第2回目ではよりよい画像を生成するプロンプトのコツや画像の編集を学んでいきます。最終的にはこのようなキービジュアルが作れるようになります!

      こちらを最終的な広告クリエイティブに使うことはありませんが、実際のモデル事務所さんに依頼したり、クライアントさんとの打ち合わせに使う「カンプ(comprehensive layout)」としては十分なクオリティと考えます。

      今回はAICUがオリジナルで提供するGPU 搭載 PC が無くてもできるプロセスを紹介していきますので、ぜひハンズオンで一緒に生成してみてください!

      AUTOMATIC1111とは

      AUTOMATIC1111(以下A1111) とは、Stability AI 社が開発している画像生成AI「Stable Diffusion」を Web ブラウザで操作するために開発された Web UI です。オープンソースで開発されており、GiHub で公開されているプログラムを実行することで誰でも無償で利用することができます。

      A1111 はローカルでも実行できますが、Google Colaboratory (以下Colab) で使用できるスクリプトがいくつか開発、公開されています。無料のColabでは動作の保証がされていませんが、月1,179円(2024年4月現在)の Colab Proを使うことで Stable Diffusion を超高速な環境で使用することができます。

      Google Colaboratory Pro を使用する https://colab.research.google.com/signup/pricing?hl=ja

      今回は TheLastBen さんが開発したスクリプトをもとに AICU が開発したこちらのスクリプトを紹介、使用していきます。これは広告用画像を生成するために実写系の画像を生成するモデルを自動でインストールするように作られており、実行するだけですぐに写真のような画像が生成できるようになっています。

      A1111を起動しよう

      まずは Colab で A111 を起動しましょう。先ほどのAICU のスクリプトへのリンクをクリックしてください。すると AICU の GitHub が開きます。

      すると「Preview」画面の左に、「Open in Colab」のボタンが表示されます。ここをクリックすると、Colab でこのノートブックが開きます。

      Colab の画面に移れたら、「ドライブにコピー」をクリックして自分の Google Drive にノートブックをコピーしましょう。実行結果を残すために、自分のドライブに保存した方のノートブックを使用します。

      次にランタイムに接続し、実行していきます。

      「Connect Google Drive」から「Start Stable-Diffusion」までのセルの左上の矢印を上から順番にクリックし、セルを実行していきます(ControlNet は実行しなくてよい)。

      実行すると、Google アカウントへのアクセス許可を求めるウインドウが表示されるので、確認して接続を許可します。

      実行が全て終わると、最後のセル「Start Stable-Diffusion」の実行結果に URL が表示されます。

      これをクリックすると、A1111 の Web UI が開きます。これで起動は終了です。

      画像を生成しよう

      早速画像を生成してみましょう。今回インストールされている画像生成モデル(=画像生成AIにおける脳に当たる巨大なcheckpointファイル)は「yayoi_mix」という こたじろうさん(@AiCreatorS1881)さん開発のモデルで、Stable Diffusion1.5系の日本風の顔立ちの女性を生成するのが得意なモデルになっています(ライセンスはこちら)。

      「Stable Diffusion checkpoint」に「yayoi_mix_v25-fp16.safetensors」が表示されていることを確認したら、プロンプトで画像を生成していきます。Web UI 上部の「Prompt」欄に、生成してほしいものを英単語、英文で入力します。

      まずは、女性を1人生成してみましょう。

      「Prompt」に「1girl」と入力し、画面右のオレンジ色のボタン「Generate」をクリックします。

      右下に画像が生成されました!

      生成した画像は画像右上のダウンロードアイコンで PC にダウンロードできるほか、ドライブにも自動で保存されています。

      PC に保存する場合はこのアイコンをクリックします。

      ドライブの場合は、マイドライブの sd > stable-diffusion-webui > output > txt2img > 日付 のフォルダに格納されています。Colab 上の画面でも確認ができます。

      画面右のフォルダアイコンをクリックしてドライブのファイルを確認できます。画像ファイルはダブルクリックで表示できます。

      A1111 の各種設定を確認しよう

      基本的な画像の生成方法がわかったので、次は画像サイズ等の基本的な設定を確認していきましょう。主な機能は「Generation」タブにあります。

      初心者が覚えておきたい機能は以下の通りです。

      ・Negative Prompt

      プロンプトの逆で、生成したくないものを入力します。

      ・Width, Height 

      生成する画像の縦横サイズを設定します。単位は pixel です。

      ・Batch count

      1 度に生成する画像の枚数を設定します。最大 100 枚まで指定できます。

      ・Batch size

      並行して生成する画像の枚数を指定します。クラウド GPU を利用するなど大容量の VRAM を使えるとき以外は基本的に 1 枚を指定します。

      この他にも A1111 にはたくさんのオプションやできることがあるので、もっと深く学んでみたいという方は、2024年3月に発売開始している書籍「画像生成 AI Stable Diffusion スタートガイド」を参考にしてみてください!

      第3章の103-105ページ近辺で髪型やポーズなどもしっかり紹介しています。もちろんWebを検索すると様々なテクニックも出てくるので調べてみると良いと思います。けっこう英語の勉強になります。

      プロンプトを工夫し、広告のような画像を生成しよう

      それでは、実際に広告として使用できるようなハイクオリティな画像を生成していきましょう。画像のクオリティを上げる上で重要なのは、画像サイズとプロンプトです。順番に見ていきましょう。

      画像サイズのコツ

      Stable Diffusion(今回使用しているのは Stable Diffusion 1.5)は、512×512px の画像を学習しています。そのため512pxを基準とした画像サイズを設定することで、最も質の良い画像を生成することができます。

      画像の縦、横が極端に長いと画像に写る人物が増えたり、崩れたりといったことが起きやすくなります。

      例)720px×512px で生成した画像と1024px×512pxで生成した画像

      プロンプトのコツ

      プロンプトには「クオリティプロンプト」と呼ばれるプロンプトを入力すると、高品質な画像を生成することができるようになります。これは「high quality」「mastarpiece」といったハイクオリティであることを表す単語を指定することで、AI が一定の美学に基づき高品質であると判断した画像の要素を引き出して画像を生成することを可能にする考え方です。

      モデルの種類や好みにより様々な書き方があり、またこれと定まった書き方もありませんが、基本的にはプロンプトに「masterpiece, best quality, high quality, ultra detailed」など、ネガティブプロンプトに「worst quality, low quality, bad anatomy, bad hands」などを入力することが一般的です。

      では、クオリティプロンプトの有無でどのぐらい画像の質が変化するのか確かめてみましょう。seed という画像のランダムさを制御する乱数を固定し、プロンプトを変えて生成してみます。

      プロンプト「1girl」

      プロンプト「masterpiece, best quality, high quality, ultra detailed,1girl」

      ネガティブプロンプト「worst quality, low quality, bad anatomy, bad hands」

      女の子がはっきりと生成されて光の雰囲気もわかりやすくなり、高品質な画像になったことがわかります。

      前半のまとめ

      「広告制作チュートリアルで学ぶ!画像生成AIはじめの一歩」前半では、A1111 を Colab で立ち上げて画像を生成する方法と、クオリティプロンプトと画像サイズを調整しハイクオリティな画像を生成する方法を学びました。

      次回後半では、広告として機能する画像を生成する方法や編集、モデルや LoRA を変更しもっと柔軟に画像を生成する方法について解説します。

      前半+後半の内容に加え、もっと詳しい解説や画像生成の重要なポイントが学べる書籍の試し読みはこちらから→https://j.aicu.ai/SBXL

      img2imgの解説記事はこちら
      ControlNetの解説記事はこちら

      最新情報はAICU Inc. のX(Twitter)@AICUai をご参照ください。次回をお楽しみに

      映像・広告クリエイティブ業界の公式認定講習会・教育関係者向けの団体講習会のお問い合わせはこちらから

      https://corp.aicu.ai/workshop

    7. 最先端の画像生成AIを深掘りする教科書決定版『画像生成AI Stable Diffusion スタートガイド』3月29日発売 #SD黄色本

      最先端の画像生成AIを深掘りする教科書決定版『画像生成AI Stable Diffusion スタートガイド』3月29日発売 #SD黄色本

      Stability AI 公式パートナーによるAI時代のクリエイターのための教科書。東京AI祭での特別イベントも。Amazonでの購入は https://j.aicu.ai/SBXL

      Amazonでの購入は https://j.aicu.ai/SBXL

      『画像生成AI Stable Diffusion スタートガイド』白井暁彦& AICU media編集部 著。AIメイキング解説 フィナス/らけしで

      「つくる人をつくる」デジタルクリエーションの最前線をいく、デジタルハリウッド大学発の米国スタートアップ「AICU Inc.」は、この度、画像生成AIの革新的技術「Stable Diffusion」を徹底解説した教科書『画像生成AI Stable Diffusion スタートガイド』をリリースしました。2024年3月29日にSBクリエイティブより刊行される本書は、AIによる画像生成技術に関心を持つすべての人々に、基礎から応用までを段階的に学べる一冊として開発されました。

      書籍のハイライト:

      AICU Inc.紹介: 「つくる人をつくる」をビジョンに、生成AIクリエイティブの最新の話題やテクニックを楽しい雰囲気の日々のブログで紹介する「AICU media編集部」により執筆。Webデザインや映像、ゲーム、メタバース、VTuber、キャラクターイラストレーションなどに多様に活躍する30年の経験を持つ著者(白井暁彦博士/しらいはかせ)が中心に、教育の現場や、豊富な知見と実績を背景に、未来のクリエイター育成に貢献します。

      技術の解説: 話題の画像生成AI「Stable Diffusion」「Stable Diffusion XL」とオープンソースツール「AUTOMATIC1111」を中心に、画像生成AIの基本からプロフェッショナルな絵作りのための応用テクニック、最新のテクノロジー解説を網羅。

      イラストレーションが好きな人にこそ読んで欲しい: 美しく、楽しい誌面と優しい言葉での解説。スマホで使えるniji・journeyや、最新の簡単インストーラー「Stability Matrix」、プロのイラストレーターの作例、解説、プロンプトのテクニックや背景で動いている技術の仕組み、image2image、ControlNet、LoRAでオリジナルキャラをAIに覚えさせるだけでなく、自分の子供時代の画像を学習させて不可能なコラボレーションを実現する方法など、技術系だけでなく、今後の生成AI時代に大きな進化が期待されるイラストレーターや漫画制作、映像スタジオといった幅広い用途に応用できる技術を丁寧に解説しています。

      実践的学習: GPUや高度なプログラミング知識がなくても、Google Colaboratoryを使って手軽に実践できる内容を収録。学生のアクティブラーニング、集団で学ぶワークショップ、コンピュータサイエンスやコンピュータグラフィックスの研究に入って行くための基盤的な知識や、ニューラルネットワークに関する基礎知識、専門用語などを丁寧に解説。

      クリエイター視点での法律・ライセンス・倫理: 画像生成AIを用いる際の著作権や倫理面での注意点を解説。法律の解釈だけでなく、プロのクリエイターとして安全かつ責任ある使用における注意点やライセンス解説を随所に盛り込んでいます。

      最新情報: 2024年3月時点での最新情報に基づき、動画生成やデジタルイラストレーションの専門技術を長期にわたって理解できる歴史俯瞰や用語解説が満載。

      オープンソースとコミュニティによるアップデート: 書籍だけじゃ終わらない、GitHubやGoogle Colab によるオンラインでの最新ソースへのアクセス、AICU mediaによる楽しい画像生成コミュニティでのサポートやワークショップなどのイベント情報、お仕事情報など、長く、クリエイターとして成長していけるためのパスポートになっています。

      本書の目的と読者層:

      『画像生成AI Stable Diffusion スタートガイド』は、幅広い読者を想定し、中高生、美術・芸術・イラストレーションの学生、クリエイター、そしてAI技術に興味を持つ一般読者まで、幅広い層に向けています。本書を通じて、今後30年のクリエイティブ産業をリードする知識とスキルを身につけることができます。プロフェッショナルだけでなく、趣味で美しい絵を生成したい方や、ビジネスシーンでのプレゼンテーション資料作成に利用したい方にも最適なガイドブックです。

      「画像生成AI Stable Diffusion スタートガイド」出版社情報より:

      定価:2,640円(本体2,400円+10%税)
      発売日:2024年3月29日(金)
      ISBN:978-4-8156-2456-9 サイズ:B5判 ページ数:224
      著者:白井 暁彦、AICU media

      画像生成AIの1つであるStable Diffusionを導入・体験するための入門書です。
      プログラミングが分からない、ネットの情報を見てもうまく使えなかった、そんな悩みを抱えている人でもAIを使った画像生成体験ができるようにしっかりサポートします。

      本書籍では以下の環境で解説します。
      ・Google Colab Pro環境
      ・Windows10/11 NVIDIA GPU環境
      ・MacOS Apple silicon 環境

      本書籍では以下の内容を取り扱います。
      ・拡散モデルによる画像生成の原理
      ・Stable Diffusionを使用するためのWebUI環境構築
      ・テキスト/画像を元に画像を生成する(txt2img/img2img/ControlNet)
      ・Google Colab 上で追加学習を行う(LoRAの作成)

      本書ではソフトウェアの使い方解説だけではなく、自分で設定できるセッティングやパラメータが画像生成にどのように関わっているのかについても解説しているため、AI技術について知識を深めたい人にとってもおすすめです。
      また、既にAIを活用している方にもご満足いただけるように、よりAI画像制作を極めるヒントとなるようなStable Diffusionを含むAI画像生成を利用した作例のメイキング方法やプロンプト構成/生成パラメーターなどの情報を公開・解説しています。ハンズオン形式で最後まで取り組むことで、画像生成AIへの理解をより深めることができる1冊となっています。

      全ての目次とコラムを紹介します!

      Chapter 1 画像生成AI について知ろう

      1-1 AI で画像を生成してみよう
      1-2 画像生成AI の誕生と変遷
      1-3 2024 年での「AI の定義」を考えてみよう
      1-4 ニューラルネットワークについて知っておこう
      1-5 拡散モデルによる画像生成の原理を知っておこう

      Chapter 2 環境構築をしてはじめよう

      2-1 Stable Diffusion を使う環境を用意しよう
      2-2 Google Colab での環境構築
      2-3 Stability Matrix をローカル環境で構築する
      2-4 簡単な言葉で画像を生成する
      2-5 モデルをダウンロードする
      2-6 VAE をダウンロードする

      Chapter 3 プロンプトから画像を生成してみよう

      3-1 プロンプトで意のままの画像を作り出す
      3-2 ネガティブプロンプトを構築する
      3-3 思い通りの画像を生成する
      3-4 画像の解像度を上げよう
      3-5 様々なパラメータを調整しよう
      3-6 様々なプロンプトを試してみよう

      Chapter 4 画像を使って画像を生成してみよう

      4-1 img2img でできることを知ろう
      4-2 Sketch を使って画像を生成しよう
      4-3 Inpaint で画像を編集してみよう
      4-4 Inpaint を応用して画像を修正する
      4-5 Outpainting で画像を拡張する
      4-6 img2img で画像の解像度を上げる
      4-7 拡張機能でアップスケーリングをしてみよう

      Chapter 5 ControlNet を使ってみよう

      5-1 ControlNet について知っておこう
      5-2 ControlNet をダウンロード・準備する
      5-3 ControlNet を使って画像を生成する
      5-4 プリプロセッサの働きを理解しよう

      Chapter 6 LoRA を作って使ってみよう

      6-1 追加学習でできることを知ろう
      6-2 LoRA を使用して画像を生成しよう
      6-3 自分の画風LoRA をつくる
      6-4 様々な種類のLoRA をつくってみよう
      6-5 学習内容を出力させてみよう

      Chapter 7 画像生成AI をもっと活用しよう

      Interview Guest フィナス
      Interview Guest らけしで
      画像生成AI の活用と注意点
      AUTOMATIC1111/WebUI おすすめ拡張機能
      関連用語

      充実したコラム!

      ページ番号とともに紹介します

      使用するGoogle アカウントに注意しよう 14
      変わりゆく社会とAI の関係性 25
      利用しているプログラムについて 43
      Google Colab のエラーに対応しよう 45
      Google Colab の計算資源を有効に管理しよう 47
      パッケージ選択ではエスケープしないように注意しよう 57
      画像の保存場所を変更しよう 62
      コミュニティで質問してみる 63
      StableDiffusion シリーズとは 65
      CLIP のゼロショット転移性 78
      embedding とは 82
      デフォルメキャラ風の画像を生成してみよう 106
      色の変化を抑える設定をしておこう 111
      下書きから画像を生成してみよう 114
      Mask blur を調整して自然に見せる 118
      拡張機能とは 124
      オープンソースライセンスの確認 131
      複数のControlNet を使用する 141
      Openpose をもっと使いこなそう 144
      これからのLoRA の活用方法 149
      LoRA の学習データで気を付けるべきこと 154
      手元に保管しているモデルファイルをLoRA 学習に使う 158
      写真や写実的な画像を学習させる場合 161
      学習の全体像を把握しよう 167

      主著者紹介:
      白井暁彦(Akihiko Shirai, PhD /しらいはかせ )(X アカウント:@o_ob)

      エンタメ・メタバース技術の研究開発に関わる研究者、ホワイトハッカー作家、米国スタートアップ「AICU Inc.」「Hidden Pixel Technology Inc.」のCEO。東京工芸大学写真工学科卒、同画像工学専攻修了。キヤノン株式会社とグループの研究所より生まれた英国・Criterion Software にて世界初の産業用ゲームエンジン「RenderWare」の普及開発に参加、その後、東京工業大学知能システム科学専攻に復学。博士学位後、NHK エンジニアリングサービス・次世代コンテント研究室、フランスに渡りENSAM 客員研究員、国際公募展Laval Virtual ReVolution の立ち上げ、日本科学未来館科学コミュニケーター神奈川工科大学情報メディア学科准教授を経て、2018 年よりデジタルハリウッド大学 大学院客員教授 およびグリー株式会社GREE VR Studio Laboratory Director。スマートフォン向けメタバース「REALITY」を開発・運用するREALITY 株式会社の立ち上げを通して、Virtual YouTuber などXR ライブエンタメ技術のR&D、国際発信など、メタバースエンタテイメントの未来開発や知財創出を中心に、自らエンタテイメントのライブプレイヤーとして世界に向けた開発・発信活動方法論化しながら世界中のエンタテインメント技術業界に数百人の規模でクリエイターを育成している。2023 年よりデジタルハリウッド大学発米国スタートアップ企業「AICU Inc.」CEO。生成AI 時代に「つくる人をつくる」をビジョンに英語、日本語、フランス語、プログラミング言語などでオープンな作家活動を続けている。日本バーチャルリアリティ学会IVRC 実行委員会委員。芸術科学会副会長。著書に『WiiRemote プログラミング』(オーム社)、『白井博士の未来のゲームデザイン – エンターテインメントシステムの科学-』(ワークスコーポレーション)、『AI とコラボして神絵師になる 論文から読み解くStable Diffusion』(インプレスR&D)他。

      アシスタントクリエイター 知山ことね(X アカウント:@ChiyamaKotone)

      デジタルイラストレーション、テクニカルライター、チャットボット開発、Web メディア開発を担当するAICU Inc. 所属のクリエイター。AICU Inc. のAI 社員「koto」キャラクターデザインを担当している。小学校時代に自由帳に執筆していた手描きの雑誌「ザ・コトネ」「ことまがfriends」のLoRA が話題に。技術書典15「自分のLoRAを愛でる本」他。

      AICU Inc. について:Xアカウント@AICUai https://corp.aicu.ai/ja    info@aicu.ai

      「生成AI時代につくる人をつくる」をビジョンに活動する2023年に設立された米国シリコンバレーを本拠地にするデジタルハリウッド大学発のスタートアップ企業です。LINEアカウント「全力肯定彼氏くん」「AI確定申告さん」、Webに住むAIアイドル「AICuty」、クリエイティブAIレポーター「Koto」など楽しみのあるAI体験を開発する「AIDX Lab」、わかるAIを楽しく届ける AI総合メディア「AICU media」、AI人材教育コンテンツ開発、障害者向けワークショップ開発、AIキャラクター開発運用、某有名企業の新技術プロトタイプコンテンツ開発など「クリエイティブAI」ならではのコンテンツ技術開発・体験開発を世界的な企業に展開している価値開発企業。画像生成AI「Stable Diffusion」を開発公開した Stability AI 公式パートナーであり、Google for Startups認定スタートアップでもあります。1994年に杉山知之が創立したデジタルハリウッド大学(愛称「デジハリ」)はCGやデジタルクリエーションを専門に学ぶ学校ですが、開学のころからずっと変わらず伝えていることは『すべてをエンタテインメントにせよ!』 。エンタテイメント技術の研究開発で30年の経験を持つCEO白井暁彦とAI社員、少数精鋭の人間味あふれる多様なスタッフや協力クリエイターとともに、すべてをエンタテインメントにするまで追求する文化が AICUにも息づいています。

      AICU media 編集部   https://note.com/aicu media@aicu.ai

      「わかるAIを楽しく届ける」総合AI情報メディア。AIレポーター「Koto」がクリエイティブAIを中心に24時間365日最新情報をお届けしています。 活動メディアはnote、 X(Twitter)、 動画メディア、各種商用サイトへの記事提供、同人誌・商業書籍・電子書籍など書籍企画との開発、子ども向けからお年寄り向けまで「つくる人をつくる」をビジョンに幅広いワークショップやイベントを開発しています。AI先進企業の新サービスの普及展開のお手伝い、AI活用したい企業の技術検証や社内展開、学校・スクール等のコンテンツ開発についても案件をお待ちしております。

      ファンコミュニティは note.com/aicu/membership

      ご購入とお問い合わせ:

      『画像生成AI Stable Diffusion スタートガイド』は、全国の書店およびオンライン書店でお買い求めいただけます。

      Amazon購入ページ: https://j.aicu.ai/SBXL

      最新情報は AICU media note.com/aicu

      X(Twitter) @AICUai https://twitter.com/AICUai

      @PRTIMES_JP
      最先端の画像生成AIを深掘りする教科書決定版『画像生成AI Stable Diffusion スタートガイド』発売 https://j.aicu.ai/SBXL
      https://prtimes.jp/main/html/rd/p/000000013.000133647.html

    8. AUTOMATIC1111 v1.8.0リリース

      AUTOMATIC1111 v1.8.0リリース


      日本時間2024年3月2日、人気のあるオープンソース画像生成WebUI「AUTOMATIC1111/Stable Diffusion WebUI」の最新版v1.8.0 がリリースされました。

      • Update torch to version 2.1.2
      • Support for SDXL-Inpaint Model (#14390)
      • Automatic backwards version compatibility (when loading infotexts from old images with program version specified, will add compatibility settings)
      • Implement zero terminal SNR noise schedule option (SEED BREAKING CHANGE, #14145, #14979)
      • Add a [✨] button to run hires fix on selected image in the gallery (with help from #14598, #14626, #14728)
      • Separate assets repository; serve fonts locally rather than from google’s servers
      • Official LCM Sampler Support (#14583)
      • Add support for DAT upscaler models (#14690, #15039)
      • Extra Networks Tree View (#14588, #14900)
      • Prompt comments support

      以下、主要な機能の日本語訳です

      torch をバージョン2.1.2に更新
      ソフトインペイント (#14208) を追加
      FP8のサポート (#14031, #14327)
      SDXL-Inpaintモデルのサポート (#14390)
      アップスケーリングと顔復元アーキテクチャにスパンドレルを使用 (#14425, #14467, #14473, #14474, #14477, #14476, #14484, #14500, #14501, #14504, #14524, #14809)
      古いバージョンとの自動互換性 (プログラムバージョンを指定して古い画像からテキスト情報を読み込む場合、互換性設定を追加)
      ゼロターミナルSNRノイズスケジュールオプションを実装 (SEED BREAKING CHANGE, #14145, #14979)
      ギャラリーで選択された画像の hires.fix を実行する[✨]ボタンを追加 (#14598, #14626, #14728からのヘルプ)
      アセットリポジトリを分離し、フォントをgoogleのサーバーからではなくローカルで提供するように。
      公式LCMサンプラーのサポート (#14583)
      DATアップスケーラーモデルのサポートを追加 (#14690, #15039)
      ネットワークツリービューの追加(#14588, #14900)
      NPUのサポート(#14801)
      プロンプトコメントのサポート

      Stability Matrixのほうはまだ対応できていないようです。
      追記:自動アップデートで対応されました。

      破壊的変更#14145 #14978 はともにリファイナーのスケジューラに関するものです。

      1.7.0→1.8.0の全てのコミットログはこちらです

      機能関係

      微細な修正:

      ExtentionsとAPI:

      パフォーマンス

      14507に対処するため、膨大な数のファイルを含むextra networksディレクトリのパフォーマンスを大幅に改善した (#14528)
      余分なnetworkディレクトリの不要な再インデックス作成を削減 (#14512)
      不要なisfile/exists呼び出しを回避 (#14527)

      バグ修正:

      その他:

      現在、Issuesは1899件存在します。

      全てのオープンソースの開発者に敬意を持って・・・応援したい。

      まだまだ元気なAUTOMATIC1111プロジェクトです。
      世界中でも多くの国で使われています。

      これについてはまた別の機会にレポートします。


      Originally published at https://note.com on March 2, 2024.