Stable Diffusion 3.5 Medium (以下、SD3.5M) は 2.5B(25億パラメータ)のモデルであり、NVIDIA GeForce RTX 3080 (VRAM 10GB以上) が推奨になっています。NVIDIA GeForce RTX 4060 (VRAM 6GB)では、[!] という黄色いマークがつけられており、「[!] indicates the model requires performance – compromising optimizations, such as quantization or sequential offloading, to run on this device.」(モデルをこのデバイスで実行するには、量子化や順次オフロードなどのパフォーマンスを犠牲にした最適化が必要であることを示します)と書かれています。
2022年8月に画像生成AI「Stable Diffusion」をStability AI が無償公開してから2年。API時代の Stability AI 入門から2024年10月22日に公開された「Stable Diffusion 3.5」まで。 AICU創業前からの研究成果を凝縮し、GPU不要でも高画質・高品質で画像生成が学べる今後長年にわたって役に立つ情報と歴史を込めて「Forever!」とした総力特集です。
【基礎編】公式サンプルで学ぶ Stability AI APIの基本!
Stability AI API Guide の基本としてGenerate API と「TextToImage の最近の文法」を総ざらい!Google Colab を使って、基本的な操作に慣れていきましょう。
魅力的な機能をたくさん備えた「Stability AI API」を使いこなすシリーズで す。今回は、2024 年8 月に公開された「Stable Fast 3D」を使ってみます。このAPI は、単一の2D 入力画像から高品質な3D アセットを生成します。
【ツール編】「Stable Assistant」だとこんなに簡単!
これまでStability AI API について解説してきましたが、業務的な利用ではな く、よりカジュアルに使いたいユーザーには「Google Colab は大変そう」と思うかもしれません。そんな方にはこちら、Stability AI がリリースした「Stable Assistant」はいかがでしょうか。画像生成AI「Stable Diffusion」の最新版に加えて、動画生成、音楽生成、テキスト生成までできるオールインワンのAI クリエイティブツールです。
SD3.5にて生成 「gemini girls with a panel which written “AICU”」
SD3.5 Turboにて生成 「textured palette knife oil painting of a cat riding a surfboard on the beach waves in summer. the cat has a mouse friend who is also riding the surfboard」
良いものだけ紹介するのではなく、 文字の描画を含めた連続生成の歩留まり率を表現してみます。 「cinematic film still, action photo of a cat with “AICU loves SD3.5”, riding a skateboard through the leaves in autumn. the cat has a mouse friend resting on their head」 SD3.5・同一プロンプト、Seed=0にて実験
「Japanese girls with a panel which is written “AICU loves SD3.5″」
ネガティブプロンプトの効果を確認します。 「bad finger, nsfw, ugly, normal quality, bad quality」を入れることで歩留まり率が上がりました。
さいごに、ComfyUIのブログにあったプロンプトを紹介します。
Prompt: A photorealistic 4K image of a woman with transparent, crystal-like skin, glowing from within with a soft golden light. NP:bad finger, nsfw, ugly, normal quality, bad quality
・画像生成AIサービス 背景・人物:Stability AI API, 主に Stable Image Ultra、Google Colabでの独自開発システムにより生成
・プロンプト(一部抜粋) 背景:hippy style, (photoreal:2), futuristic, orange toned urban sight scene, cyber worlds with a nature fusioned, skyscraper buildings. seed = 59. 人物:cyberpunk-themed mechanical robotic guitar hero, with a headset, neon-lit circuit tattoos on face, glowing white lines, looking at viewer, smile, passionate 40 years old man, prosthetic hand, with artificial respirator, with a super detailed guitar, color scheme of orange, dramatic orange and white lightings, intense expression, super detailed mechanical design,
プロンプトによるtext to imageだけではなく、様々な技術を駆使していますが、まずは画像生成以外の制作の裏側を可能な限りで紹介していきたいと思います。
謝辞:ご依頼いただいた杉山知之先生、クレジット、およびCGWORLD本誌に掲載できなかったメイキング公開へのご快諾、また本寄稿へ「CGWORLD」のロゴ利用などご許諾いただきましたCGWORLD編集部の藤井さま、ありがとうございました。 Stable Diffusion開発チーム、Stability AI APIおよびStability AI Japanの皆様、特にご支援いただいたJerry Chiさん、ありがとうございました。この場をお借りして感謝の意を記させていただきます。
Thank you to the all of Stable Diffusion development team, Stability AI API and Stability AI Japan, and especially to Jerry Chi for your support. I would like to take this opportunity to express my gratitude.