タグ: Stability AI

  • 【超入門】Stability AI API の革新的機能(1)Edit機能からInpaintとOutpaintを便利に使おう!

    こんにちは、AICU media編集部です。ライターのRUNO.がお送りします!

    今回は、Stability AI API Guideの「革新的機能紹介」!
    全4回に分けてお送りします!

      おさらい:プロンプトの文法

      まずはプロンプトの基礎から始めたい!という場合は、
      合わせてこちらの記事をご覧ください!

      「プロンプトの文法」編で、こんなことがわかる!

      • Stability AI APIとは?
      • Stability AI APIの種類と特徴・構成
      • プロンプトの文法基礎
      • [機能紹介] Generate APIとは?
      • [機能紹介] Generate APIよりUpscale機能のデモ

      Stability AI APIの種類と特徴・構成

      「プロンプトの文法」編でもご紹介したように、Stability AI APIの画像生成系の機能は2024年8月現在、4つの機能に大別されています。

      • 「Generate」:いわゆる「TextToImage」です
        • プロンプト(テキスト)によって画像生成を行う
        • 現在6つのモデルが提供されている
      • 「Upscale」:高解像度化
        • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像生成を行う
        • 現在{Creative, Conservative}という2つのモデルが提供されている(加えて、Standardがcoming soonとして予告されている)
      • 「Edit」いわゆるImageToImageです
        • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像再生成を行う
        • 現在{Search and Replace, Inpaint, Outpaint, Remove Background, Erase Object}5つのモデルが提供されている
      • 「Control」こちらも いわゆる ImageToImage です
        • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像再生成を行う
        • 現在{Sketch, Structure, Style}3つのモデルが提供されている(加えて、 Recolorがcoming soonとして予告されている)

      https://platform.stability.ai

      今回扱うInpaintとOutpaintは、このうちの「Edit API」に当たります。

      Edit APIとは?

      Edit APIのAPIリファレンスはこちらから確認できます。

      https://platform.stability.ai/docs/api-reference#tag/Edit

      公式のAPIリファレンスによると、
      Edit機能は「既存の画像を編集するためのツール」です。

      2024年8月現在、全部で5つのEdit機能が公開されています。

      • Erase
        • 画像マスクを必要とする機能です
        • 画像マスクを使用して、元画像の汚れや、机の上のアイテム等の不要なオブジェクトを削除します
      • Inpaint
        • 画像マスクを必要とする機能です
        • 画像マスクを使用して、指定された領域を新しいコンテンツで埋めたり置き換えたりすることで、画像をインテリジェントに変更します
      • Outpaint
        • 画像に追加のコンテンツを挿入して、任意の方向のスペースを埋めます
        • 画像内のコンテンツを拡大する他の手段と比較して、
          Outpaint機能は、元の画像が編集された違和感を最小限に抑えます
      • Search and Replace
        • 画像マスクを必要としない、特殊なバージョンの修復機能です
        • 画像マスクの代わりに、search_promptに置換対象をテキストで指定します
        • この機能は、search_promptに指定されたオブジェクトを自動的にセグメント化し、promptで要求されたオブジェクトに置き換えます
      • Remove Background
        • 画像から前景(背景に対して、手前に位置する要素)を正確に分割し、背景を削除します
        • 結果として、前景を残し、背景が透過された状態の画像が得られます

      今回はこのうちの「Inpaint」と「Outpaint」について詳しく取り扱います。

      Inpaint機能とは?

      入力画像の一部の範囲(マスク)を簡易的に指定し、その部分のみを生成して変化させるImageToImage(img2img)の機能です。

      入力画像の背景や細かいパーツなどを後から追加したり、逆に削除することができます。

      公式が提供しているGoogle Colabでは次のように例が紹介されています。

      prompt: artificer of time and space(時間と空間の錬金術師)

      画像
      inpaint前の元画像
      画像
      inpaint後の画像

      このように、マスキングした画像を入力として与え、そこにどのような描画を施すか?をprompt、つまり文字列で与えることによって、新たな画像を生成してくれる、というのがInpaint機能です。

      実際にInpaintを使ってみよう!

      ここからは、公式が提供しているGoogle Colabを使ってデモを行なっていきます。

      このColabへのアクセス、初期設定の方法は「超入門」編の記事を参考にしてください。

      準備:画像のパスの入手方法

      Inpaintでも、このあと紹介するOutpaintでも、この準備が必要になります。

      まずは、画面左側の「ファイルマーク」をクリックします。
      下に示す画像に従って、順番にクリックしていきましょう。

      画像

      次に、Edit対象の画像を選んで、アップロードします。

      少し待つと、この三角マークを押して表示される「content」フォルダの中にアップロードした画像の名前が表示されます。

      画像

      ここから先、「画像のパスをペーストします」という工程が何度も出てくるのですが、ここで得られるパスを入力してくださいね
      (つまり、画像を入力として入れる際には、「Google Colab内のこのファイル部分にアップロード後に得られるパス」を入力してくださいね)。

      これで、Edit機能を利用する準備ができました!

      ステップ1:マスキング前の画像のパスを取得する

      Inpaintの入力項目に、「image」と「mask」があります。

      • image:マスキング前の画像のパスを入力しましょう
      • mask:マスク画像のパスを入力しましょう
      画像

      まずは、元画像のパスを取得しましょう。

      マスクを必要とする機能を使う場合、マスク画像とピクセルがずれた画像を入力したり、本来の画像とは関係のない部分(画像をGoogle Slideなどに貼り付けた場合の余った余白の部分など)を含む画像を入力すると、マスク画像とうまくリンクせずに画像が揺れてしまうことがあります。

      そのため今回は、Google Slideを使って丁寧にマスクをしていきます。

      まず、今回使うinpaint対象の元画像がこちらです。

      画像
      こちらをinpaint機能を使って加工していきます!

      これをGoogle Slideに貼り付け、「背景」を選択し、黒を選択します。

      画像
      画像
      背景色を黒に選択します

      この状態で、ファイル>ダウンロード>png画像 と選択し、画像をダウンロードしましょう。

      画像
      スクリーンショットだとピクセルを確実に合わせるのが困難なので、
      スライドごと画像ダウンロードしましょう

      これで、元画像の画像パスが得られました。
      プロンプトの「image」部分に、今得られた画像パスを入力しましょう。

      ステップ2:マスク画像のパスを取得する

      元画像に、Google Slideの機能を使って白い丸を乗せて、マスクしました。

      これはまだ「マスク画像」ではないので、注意してください。

      画像
      マスキングを施した画像。ただし、「mask」に入れるパスはこの画像のパスではありません

      次に、先ほどと同じように、背景を黒に設定します。
      重要な工程なので、スキップしないようにお願いします。

      背景が黒に設定できたら、元画像を削除し、黒背景とマスクのみが残る状態にしてください。

      画像
      これが「mask」に入れるマスク画像になります!

      ここまで完了したら、ファイル>ダウンロード>png画像 と選択し、画像をダウンロードしましょう。

      画像
      (※再掲)
      スクリーンショットだとピクセルを確実に合わせるのが困難なので、
      スライドごと画像ダウンロードしましょう

      これを先ほど同様に、Colab上にアップロードします。画像のパスを取得できたら、プロンプトの「mask」部分に得られたパスを入力します。

      これで、「image」と「mask」に適切な画像パスが入力できました。

      ステップ3:prompt, negative prompt, seedを指定する

      今回は、元画像のドレスを着た女性がもともと「何も持っていない」ところを、マスクした箇所において「一輪の白い薔薇を持っている」ようにEditを施したいと思います。

      そこで、それぞれ次のように設定します。

      • prompt:holding a red white rose
      • negative prompt:ugly, normal quality
      • seed:39(お好みで)

      ここまでで、必要な設定が完了しました!

      ステップ4:いざ、実行!

      さあ、画像を生成してみましょう。

      得られた画像が、こちら!

      画像
      inpaint後の画像がこちら

      ちゃんと、指定した位置に白薔薇を持ってくれています!うれしい!

      このように、inpaint機能を使えば、
      「あとちょっと、この部分だけ変えたい!」というときに、
      その位置にマスキングを施すことで
      「欲しい位置」に「欲しい修正」を施してくれます。

      他の画像生成APIと組み合わせて使うことで、さらに創作の幅が広がりますね!

      お手軽テクニック:Google Slide上でマスク画像を編集する

      Google Slideは画像編集ソフトではありませんが、このような簡易な塗りつぶしはラインツールやオブジェクトツールで何度でもやり直しできます。マスクに求められる解像度は高くはないので特に影響はありません。

      もちろんWindowsのペイントなどのアプリでも構いませんが、狙った場所に塗りを入れるツールとして非常にお手軽です。

      少し手間が多いですが、丁寧にやることで手戻りも少なく済むので、
      確実な手順を踏むことをおすすめします。

      Outpaint機能とは?

      入力画像を「指定された方向に」「指定された分だけ」新たな絵を生成してくれる、ImageToImage(img2img)の機能です。

      例えば、「入力画像のサイズを変えたいけれど、今の背景に対するメインモチーフの大きさは変えたくない…」というときに大活躍します!

      公式が提供しているGoogle Colabでは次のように例が紹介されています。

      元画像の左(left)に100、右(right)に512新たに生成する、という指定がされています。

      画像
      公式Colabを開いたら最初から入っている例
      画像
      Outpaint前の元画像
      画像
      Outpaint後の生成結果

      このように、元画像と背景のバランスを保ったまま、ある方向に画像を広げてみたいときに非常に便利な機能です。

      実際にOutpaintを使ってみよう!

      ステップ1:元画像のパスを取得する

      今回Outpaint対象とする画像はこちらになります。

      画像
      先ほどInpaintでEditを施した画像を使用します

      こちらをColabのファイルにアップロードし、パスを取得します。
      完了したら、「image」にパスを入力します。

      ステップ2:画像をどのように広げるか指定する

      今回は、上と左右を広げて広く見せることで、より臨場感のある画像に仕上げたいと思います。

      そこで、次のように指定します。

      • left:200
      • right:200
      • up:500
      • down:0

      場所としては「中世のお姫様が住む高級感のあるお屋敷」とします。

      • prompt:a luxurious mansion, medieval, a princess
      • creativity:0.5
      • seed:39

      これで、Outpaintを実行する準備が完了しました。

      ステップ3:いざ、実行!

      得られた画像がこちら!

      画像
      Outpaint後の生成結果がこちら!

      元の画像には存在しなかった「お屋敷の天井」が、元画像に合った雰囲気で生成されました!

      元画像では切れて写っていた、左端に飾ってある花が、白薔薇として生成されているのが面白いですね。これはInpaint機能と掛け合わせてさらに自然に見えるよう修正してもいいポイントですね。

      このように、Outpaint機能を使えば、用途に合わせて画像サイズを変更する、というのが簡単にできます。

      元の画像に写っていない部分を新たに自分で描き足さなくても、

      「こんなふうにしたい」をプロンプトで指定することで実現できてしまうのが、Stability AI APIのパワーですね!

      さいごに

      公式Colabには今回紹介した以外にも多くのAPIが公開されており自由に触ることができます。
      様々なモデルを試し、ぜひ色々なタイプの画像生成にチャレンジしてみてくださいね!

      Stable Diffusionを開発・公開している Stability AI は、HuggingFaceで無償でダウンロード可能な Stable Diffusion をはじめとするオープンモデル以外に「Stability AI API」という有償のAPIも提供しています。高品質で高速、高機能なAPIであり、新しく魅力的な機能もどんどんリリースされているので 開発者向けのAPIガイド として紹介していきたいと思います。

      上記「Stability AI API Guide」noteより

      それぞれのAPIについて解説した「Stability AI API Guide」は
      こちらに随時更新していきますので、ぜひ合わせてご覧ください。

      https://note.com/aicu/n/n4eda1d7ffcdf

      【AICUからビッグなプロダクトのお知らせ!】

      以上の通り、高速・高画質・高機能で、とても便利な「Stability AI API」ですが、こちらに関連してオンライン講座プラットフォーム「Coloso」と一緒に企画した講座「超入門: Stable Diffusionではじめる画像生成AI」が8月23日に公開されます!
      約10時間超えの豊富なカリキュラムで構成されています。

      画像

      今、Colosoで講座の事前通知申請を申請すると6,000円の割引クーポンがもらえるので、お得な特典をお見逃しなく!

      講座内容は主にStable Diffusionと、Stability AI APIを使ってファッションや広告デザインに活用する方法になる予定です。

      画像
      画像

      リアルテイストのかわいいビジュアル満載のやさしい入門ラーニング動画になる予定なので今から楽しみ!

      画像

      講座のカリキュラムが確認できる詳細ページは、
      8月23日に公開される予定ですので、もう少しお待ちください。

      事前通知はこちら>> https://bit.ly/3YGSNda

      最後までお読みいただき、ありがとうございました!


      この記事の続きはこちらから https://note.com/aicu/n/n605c1963f13b

      Originally published at https://note.com on Aug 20, 2024.

    1. Stability AI、オープンウェイトなテキスト楽曲生成「Stable Audio Open」公開。Google Colabで無料で体験!

      2024年7月22日、Stability AI が「Stable Audio Open」の研究論文をリリースしました。
      「Stable Audio Open」というタイトルで 論文プレプリントサイト arXiV に 7月19日付けで投稿された論文は、

      オープンな生成モデルはコミュニティにとって非常に重要であり、ファインチューニングを可能にし、新しいモデルを提示する際のベースラインとして役立ちます。しかし、現在のほとんどのテキスト音声生成モデルは非公開であり、アーティストや研究者がその上に構築することはできません。ここでは、クリエイティブ・コモンズのデータで学習させた新しいオープンウェイトのテキスト音声モデルのアーキテクチャと学習プロセスについて説明します。我々の評価では、このモデルの性能は様々なメトリクスにおいて最先端のものと遜色ないことが示されています。特に、報告されたFDopenl3の結果(世代のリアリズムを測定)は、44.1kHzでの高品質なステレオサウンド合成の可能性を示しています。

      https://arxiv.org/abs/2407.14358
      Translated
       by AICU

      この研究論文では、Creative Commons データを使用してトレーニングされた Stability AI の新しい”オープンウェイトなテキストオーディオ”(open-weights text-to-audio)モデルのアーキテクチャとトレーニングプロセスについて解説しています。
      このオープンなモデルは Hugging Faceで公開されています。このモデルは Stability AI Community Licenseに基づいてリリースされており、年間収益(annual revenue)が 100 万ドル以下の個人または組織による非商用および商用利用が可能です(エンタープライズ ライセンスについては問い合わせ)。

      ・このモデルは、テキスト プロンプトから 44.1kHz の高品質ステレオ オーディオを生成でき、リアルなサウンドやフィールド録音を合成するために使用可能。

      ・Stable Audio Open はコンシューマーグレードの GPU 上で実行されるため、学術目的や芸術的なユースケースに利用可能。

      アーキテクチャ

      Stable Audio Openは、3つの主要コンポーネントを備えたテキスト音声モデルを導入しています:
      ・管理可能なシーケンス長に波形を圧縮するオートエンコーダ
      ・テキスト調整のためのT5ベースのテキスト埋め込み
      ・オートエンコーダの潜在空間で動作するトランスフォーマベースの拡散モデル(DiT)。

      このモデルは44.1kHz、最大47秒の可変長ステレオ音声を生成します。オートエンコーダは21.5Hzという低い潜在レートを達成し、音楽やオーディオに対応できます。Stable Audio Openは(2024年4月3日に公開された)Stable Audio 2.0の亜種ですが、異なるデータセット(Creative Commonsデータ)で学習されています。このアーキテクチャは似ていますが、CLAPの代わりにT5テキストコンディショニングを使用しています。

      学習データ

      Stable Audio Openは、CC-0、CC-BY、またはCC-Sampling+でライセンスされた約50万件の録音を使用してトレーニングされました。このデータセットは、Freesoundの472,618件とFree Music Archive (FMA)の13,874件から構成されています。

      著作権で保護された素材が含まれていないことを確認するため、このコンテンツは、PANNs audio taggerを使用してFreesoundの音楽サンプルを特定することにより、慎重にキュレーションされました。特定されたサンプルはAudible Magicのコンテンツ検出会社に送られ、データセットから著作権で保護されている可能性のある音楽を確実に削除しました。

      ユースケース

      Stable Audio Openは、生成されるコンテンツの長さを調整したり、様々な業界やクリエイティブなプロジェクトの正確なニーズを満たすなど、音声生成をカスタマイズするために微調整することができます。ユーザーは、A6000 GPUを使ってローカルでモデルをトレーニングできます。プロンプトの作成については、Stable Audio 2.0のヒントをご覧ください。

      ここでは、このモデルをすぐに使用したり、微調整したり、ワークフローに統合したりするためのアプリケーションの例をいくつか紹介します

      🎧️ぜひとも公式サイトで音源をきいてみてください📢
      https://stability.ai/news/stable-audio-open-research-paper

      サウンドデザイン

      サウンドエフェクトとフォーリーエフェクト(音効)

      足音、ドアのきしみ音、環境音など、映画、テレビ、ビデオゲーム、ゲーム開発に使用できる効果音を生成します。

      アンビエントサウンド


      シーンのムードや雰囲気に合ったサウンドスケープや背景テクスチャを作成できます。

      サンプル作成

      音楽トラックを制作するためのドラムループと音楽サンプルを生成します。

      商用およびマーケティング用途


      オーディオブランディング

      広告用のサウンドエフェクトを作成したり、オーディオロゴやブランドサウンドを開発し、カスタムオーディオエレメントを通じてブランドの認知度やアイデンティティを高めます。

      教育と研究

      学術プロジェクト

       オーディオ合成、機械学習、音楽学の研究にこのモデルを使用し、生成されたオーディオの実験と分析を行います。

      このデモでは、より多くの例と、Stable Audio Openのパフォーマンスが他のモデルとどのように比較されるかを見ることができます。

      Google Colabでの実験

      まず Stability AI の非商用/コミュニティライセンスを取得します。

      https://stability.ai/community-license

      画像

      続いて、 Hugging Face 上のStable Audio Open の公開ページでライセンスを取得します。

      https://huggingface.co/stabilityai/stable-audio-open-1.0

      画像

      ご注意:商用利用の場合は、https://stability.ai/license をご参照ください。 sai@aicu.ai でもご相談をお受けいたします。

      公式サンプルをGoogle Colab環境で動作確認したAICU版のコードをこちらで公開しています。

      https://j.aicu.ai/StableAudioOpen

      次に Hugging Face のトークンを取得します。
      https://huggingface.co/settings/tokens
      Google Colabのシークレットに設定します。

      画像

      あとは実行するだけ!長さや冒頭の空白も設定できます。

      # Set up text and timing conditioning
      conditioning = [{
          “prompt”: “128 BPM tech house drum loop”,
          “seconds_start”: 0,
          “seconds_total”: 30
      }]

      サンプルコードのデフォルトプロンプト

      output.wav として生成されているので、ダウンロードして聴いてみましょう。

      画像

      以下は実際に生成した例です。
      “128 BPM NES, 8 bit action game BGM”

      https://note.com/api/v2/attachments/download/b514ac0f4d7a059a04bf6e632f0b73c5

      “128 BPM techno pop” 

      https://note.com/api/v2/attachments/download/7b6626ad5756ddc578dd2d64e096afcd

      “sound of the rain hitting the roof”

      https://note.com/api/v2/attachments/download/4de4c04ba8f4de31f955b71b64fb60a2

      “blackbird song in a forest”

      https://note.com/api/v2/attachments/download/6d912ec9ae69b5622d5d0e9a80a81478

      “chorus lalala…”

      https://note.com/api/v2/attachments/download/e9e21ea17beeb981eaa9cf1a70679a98

      最長生成秒数は47秒のようです。GPU消費は16GB以下です。

      画像

      学習元が Creative Commons であるということを考えて生成するとよいのかもしれません。それにしても「何回生成しても無料」というのはすごいですね。

      まとめ

      Stable Audio Openのリリースは、オープンソースのオーディオ生成AIにおける重要な一歩になると考えます。44.1kHzで高品質のステレオサウンドを生成し、コンシューマー規模のGPUで動作し、データの透明性に重点を置いています。このモデルの使いやすさとパフォーマンスにより、研究者とアーティストの両方にとって価値あるツールとなり、オープンなオーディオAIで可能性と限界を押し広げると考えます。

      この記事がよかったら、シェアとフォローよろしくお願いいたします!

      https://note.com/aicu/m/m6000f560d1db

      Originally published at https://note.com on July 22, 2024.

    2. Stability Matrixで Automatic1111が起動しない…そんなときに試してほしいノウハウ #SD黄色本

      Stability Matrixで Automatic1111が起動しない…そんなときに試してほしいノウハウ #SD黄色本

      大好評の「画像生成AI Stable Diffusionスタートガイド」(通称 #SD黄色本 )ですが、GitHubでのソースコード公開に加えて、discordでのサポート、noteメンバーシップ向け掲示板でのサポートがあります。

      画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

      Amazon.co.jpで購入する

      AICU: AI Creators Union|AICU media


      今回はStability Matrixを使ったローカルGPU、Windows11/Mac(Apple Silicon)環境を中心に discord AICUサーバー「SD黄色本サポート」チャンネルに寄せられたトラブルシューティングノウハウをお送りします。

      ❏書籍「画像生成AI Stable Diffusionスタートガイド」の詳細についてはこちら

      書籍[画像生成AI Stable Diffusionスタートガイド]

      ❏Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について (2024/5/22)

      Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

      ❏Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施

      Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施


      過去の #SD黄色本 記事についてはこちらをご参照ください

      SD黄色本 アーカイブ

      Checkpointの切り替えに失敗する

      M3 MacBook Pro で報告されたケースですが、画像生成AIのモデル、つまり SD1.5やSDXL、もしくは bluePencilXL と言ったモデルの切り替えに失敗することがあります。
      エラーメッセージの例

      changing setting sd_model_checkpoint to bluePencilXL_v600.safetensors [83f960c769]: AttributeError

      Stability Matrixにはこのようなログが表示されます。

      Python 3.10.11 (main, May  7 2023, 17:32:05) [Clang 16.0.3 ]
      Version: v1.9.4
      Commit hash: feee37d75f1b168768014e4634dcb156ee649c05
      ControlNet init warning: Unable to install insightface automatically. Please try run `pip install insightface` manually.
      Launching Web UI with arguments: --medvram-sdxl --api --skip-torch-cuda-test --skip-python-version-check --no-half --gradio-allowed-path /Users/username/apps/StabilityMatrix/Images
      no module 'xformers'. Processing without...
      no module 'xformers'. Processing without...
      No module 'xformers'. Proceeding without it.
      Warning: caught exception 'Torch not compiled with CUDA enabled', memory monitor disabled
      ControlNet preprocessor location: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/extensions/sd-webui-controlnet/annotator/downloads
      2024-06-11 08:11:57,602 - ControlNet - INFO - ControlNet v1.1.449
      Loading weights [1449e5b0b9] from /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/models/Stable-diffusion/animagineXLV31_v30.safetensors
      2024-06-11 08:11:57,929 - ControlNet - INFO - ControlNet UI callback registered.
      Running on local URL:  http://127.0.0.1:7860
      
      To create a public link, set `share=True` in `launch()`.
      Creating model from config: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/repositories/generative-models/configs/inference/sd_xl_base.yaml
      /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/venv/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
        warnings.warn(
      Startup time: 8.8s (prepare environment: 0.4s, import torch: 3.3s, import gradio: 0.8s, setup paths: 1.1s, initialize shared: 0.2s, other imports: 0.9s, load scripts: 0.8s, create ui: 0.5s, gradio launch: 0.4s, add APIs: 0.5s).
      changing setting sd_model_checkpoint to bluePencilXL_v600.safetensors [83f960c769]: AttributeError
      Traceback (most recent call last):
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/options.py", line 165, in set
          option.onchange()
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/call_queue.py", line 13, in f
          res = func(*args, **kwargs)
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/initialize_util.py", line 181, in <lambda>
          shared.opts.onchange("sd_model_checkpoint", wrap_queued_call(lambda: sd_models.reload_model_weights()), call=False)
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 860, in reload_model_weights
          sd_model = reuse_model_from_already_loaded(sd_model, checkpoint_info, timer)
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 793, in reuse_model_from_already_loaded
          send_model_to_cpu(sd_model)
        File "/Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/modules/sd_models.py", line 662, in send_model_to_cpu
          if m.lowvram:
      AttributeError: 'NoneType' object has no attribute 'lowvram'
      
      Loading VAE weights specified in settings: /Users/username/apps/StabilityMatrix/Packages/Stable-Diffusion-WebUI/models/VAE/sdxl_vae.safetensors
      Applying attention optimization: sub-quadratic... done.
      Model loaded in 28.7s (load weights from disk: 0.8s, create model: 1.3s, apply weights to model: 10.7s, apply float(): 8.3s, load VAE: 2.0s, load weights from state dict: 0.1s, hijack: 0.6s, load textual inversion embeddings: 0.7s, calculate empty prompt: 3.9s).

      基本的にはこのようなログをChatGPTやClaude、Gemini、Perplexityなどに貼り付けていただけると解決する事も多いですのでぜひやってみてください。

      以下はChatGPT-4oでの上記のログの回答例です。

      AttributeError:

      • AttributeError: ‘NoneType’ object has no attribute ‘lowvram’: このエラーはsd_modelがNoneであることを示しています。つまり、モデルが正しくロードされていない可能性があります。この問題は、モデルのロードプロセスで何かが失敗しているか、チェックポイントファイルが正しくないか、または欠落しているために発生することがあります。

      ひとえに「メモリが足りない」という原因が多かったりします。もちろん、動作中に多くのコマンドや操作を投げることは避けたほうがいいです。多くのケースではケースでは起動しているChromeなどのWebブラウザ、不要なタブを閉じて再起動したり、再度選択を試してみたらできた、という事もよくあります。

      ロードするモデルはSDXL系ですと4-6GBのファイルサイズがあり、VRAMやメインメモリにそれをロードするだけの容量がなければエラーになります。起動時オプションで「lowvram」というオプションがありますので、8GB以下のVRAMであればチェックオンしておくと動作の不安定を回避することができるかもしれません。

      よくある他の事例としては
      ・checkpointが正しい場所にあるか
      →modelsフォルダ、その下の「Stable Diffusion」です
      StabilityMatrix-win-x64\Data\Models\StableDiffusion

      ・ダウンロードの途中で終わってしまっている(ファイルが壊れている)
      →削除してやり直し

      といったケースがあります。いずれにしてもモデルの切り替えに失敗しているときはStability MatrixのコンソールやAutomatic1111右下に表示されていますのでエラーログを確認しましょう。
      コツは「あきらめないこと」です!特にMac版。

      ModuleNotFoundError: No module named ‘jsonmerge’

      2024/7/12にご報告いただいたケース
      (新品のWindows11)
      > Stable Diffusion Web UI v1.9.4をパッケージに追加して、Launchを押すと、いろいろ文字が出て、最後に

      File “C:\Data\Packages\stable-diffusion-webui\repositories\k-diffusion\k_diffusion\config.py”, line 6, in <module>
      from jsonmerge import merge
      ModuleNotFoundError: No module named ‘jsonmerge’

      と表示されて止まってしまいます。

      まず、基本的なところで、Stability Matrixを利用すると、個別にPythonをインストールする必要はなくなります。
      つまり、想像するに、ローカルで既にインストールされたPython環境とぶつかっている可能性があります。

      もしWindows + R →「cmd」でコマンドプロンプトを起動して、 python -V と打って Enter ボタンを押して、上記のように Python 3.10.6 と出るか、もしくは「コマンドが見つかりません」というエラーが出れば問題なしですが、他のバージョンのPythonが出てくるようですと、まずはいったん、Pythonをアンインストールしたほうがいいと思います。

      ・Stability MatrixのAutomatic1111を更新する
      →Packageでで確認できます

      ・Stability MatrixのAutomatic1111を削除してインストールし直す
      →生成済みの画像も削除される可能性がありますので一旦退避しましょう。

      ・Stability Matrixをアンインストールして入れ直す

      ・[上級者向け]足りないモジュールを手動でインストールする
      Redditで同様の不具合が報告されています
      Error: ModuleNotFoundError: No module named ‘jsonmerge’
      https://www.reddit.com/r/StableDiffusion/comments/13e6srs/error_modulenotfounderror_no_module_named/

      ・[非常に簡単な方法]Windows11に新ユーザをつくる
      設定→アカウント→その他のユーザー→「アカウントの追加」で解決することが多いです。
      これは「demo」というユーザを作成している例です。

      画像

      解決策:Google Colabを並列にする

      Stability Matrixは手元のGPUで使えて嬉しいのですが、本格的に画像生成をしたりオリジナルのLoRAを学習させたりといった複数の作業を行うときは、1台のPCでも辛くなってきます。
      Google Colab Proの環境は有料ではありますが、Proのライセンスであればクリーンなインストール環境、高速なGPU、高速な回線であり、特に困ることは少なくなります。
      ローカルのGPUをメインで使う場合も問題分析がしやすくなります。

      本書ではGoogle Colabでの環境構築やColabで動くノートブックも並列で解説・メンテナンスしていますので、ぜひとも使ってみてくださいね!

      画像

      以上、「画像生成AI Stable Diffusionスタートガイド」のトラブルシューティング情報でした!

      画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

      Amazon.co.jpで購入する

      書籍のサポートリポジトリやAICU Inc. discord サーバー「SD本サポート」チャンネル ⁠はこちら(有料)

      https://note.com/aicu/n/n08c33f7102ab

    3. Stability AI、新コミュニティライセンス「Stability AI Community License」を発表 – 研究・非商用・小規模事業者の商用利用を無償化

      Stability AI、新コミュニティライセンス「Stability AI Community License」を発表 – 研究・非商用・小規模事業者の商用利用を無償化

      ニュースです。2024年7月5日、Stability AIが「Stability AI Community License」を発表しました。当初 SD3 に関連付けられていた商用ライセンスがコミュニティ内で混乱と懸念を引き起こしていたことを受け止め、個人クリエイターと中小企業向けのライセンスが改訂されました。
      公式リリースよりお送りします。

      Community License — Stability AI

      Stability AIは、新しく「Stability AI Community License」を発表しました。このライセンスでは、研究、非商用、商用利用を無償で許可されます。年間収益が100万米ドル(現在のレートで約1億6千万円)を超え、Stability AIのモデルを商用製品やサービスに使用する場合のみ、有料のエンタープライズライセンスが必要となります。

      今回の発表は、Stability AIの利用者とオープンソースの基本原則に忠実でありたいと考えている行動の表明、とされています。

      • アーティストフレンドリーでクリエイターの自由を尊重
      • 研究によりそい
      • 透明性と明確性を備えたライセンス
      • コミュニティ重視と価値創出に基づいたオープンソース哲学
      • ユーザーとの継続的なコミュニケーションとエンゲージメントへの貢献

      コミュニティへのアップデート

      Stability AIは、高品質の生成AIモデルとテクノロジーを開発し、生成AIのイノベーターとメディアクリエイターのコミュニティに広く共有することに尽力しています。しかしながら、最新のリリースであるSD3 Mediumは、コミュニティの皆様の高い期待に沿えなかったことを認識しています。

      皆様からのフィードバックを受け止め、懸念事項に対処し、オープンソースコミュニティへのサポートを継続するために改善を行いました。

      ライセンスを改訂します

      SD3に関連して当初設定していた商用ライセンスが、コミュニティ内で混乱と懸念を引き起こしたことを認識し、個人クリエイターと中小企業向けのライセンスを改定しました。

      新しい「Stability AI Community License」の下でリリースされるモデルは、以前のライセンスよりもはるかに幅広く、無料で使用できます。このライセンスは、SD3 Mediumを含む最近のStability AIモデルを網羅しています。

      今回のライセンス改定の目的:

      • 非商用利用は引き続き無料: 自分のデバイスにStability AIモデルをインストールして実行する個人や組織 (直接、またはそれらを含む無料のオープンソースパッケージをインストールすることを介して) は、非商用利用の場合、引き続き無料で使用できます。これは、無料で研究成果を発表する研究者、無料のオープンソース開発者、常勤の学生、教師、趣味で利用する方々、モデルを改良して配布する「ファインチューナー」など、コミュニティの大部分を対象としています。
      • 個人利用と中小企業に適した無料の商用利用: 年間収益が100万米ドル (または現地通貨換算) を超えない限り、「Stability AIコミュニティライセンス」の下でStability AIのモデルを使用する場合、派生物 (Stable Diffusion 3のファインチューンなど) を作成する場合、または製品やサービスにモデルを統合する場合、無料で利用できます。
      • 制限の緩和: Stability AIコミュニティライセンス契約書では、作成できるメディアファイル (画像、動画など) の数に制限はありません。このライセンスが適用される限り、違法行為やライセンスまたは利用規約に明らかに違反する行為に使用しない限り、Stability AIが結果として得られた画像、ファインチューン、またはその他の派生物を削除するように要求することはありません。たとえStability AIに料金を支払わなかった場合でも同様です。
      • 商用ユーザーのみが自己申告を必要とする: Stability AIのモデルまたは派生物を独自の商用製品またはサービスに統合し、年間収益が100万米ドル未満の場合、Stability AIに料金を支払う必要はありません。ただし、この簡単なフォームに記入し、最も関心のあるモデルを指定してください。年間収益が100万米ドル (または現地通貨換算) を超えた場合は、Stability AIに連絡して、個別のエンタープライズライセンスを取得する必要があります。

      モデル品質の向上について

      SD3 Mediumのリリース前に行った初期テストでは、プロンプトの遵守、多様性、ディテール、全体的な品質の点で、SDXLと比較して、ほとんどの場合、はるかに優れたベースモデルであることが示されました。しかし、コミュニティはすぐに、主にトレーニングセットであまり見られなかった体のポーズや単語に関連する、いくつかの重大な品質の問題を特定しました。

      これらの懸念に対処するため、Stability AIは2つの主要な分野に焦点を当てています。

      • 継続的な改善: SD3 Mediumはまだ開発途上のモデルです。今後数週間のうちに、大幅に改善されたバージョンをリリースすることを目指しています。
      • モデルの使用方法: Stability AIは、この新しいアーキテクチャとモデルを最大限に活用する方法を研究しています。モデルを使用するための最良の方法と、それを微調整する方法についてさらに詳しく知ったことは、コミュニティの他のユーザーと同様に、Stability AIの調査結果も共有していく予定です。

      今後の展開

      ライセンスの更新が完了次第、FAQに追加の詳細情報を掲載する予定です。

      今後とも、オープンな生成AIの限界を押し広げていきますので、ご支援のほどよろしくお願いいたします。

      — Stabilityチーム


      ▶Stability AIのソリューションを使ったPoCシステム開発やカスタマイズ、画質向上やコスト分析などの案件は sai@aicu.ai までどうぞ。

      Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

      Stable Diffusion 3 を Google Apps Scriptで利用する


      ■生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携

      [S.] 過去の関連記事はこちら!

      Stability AI Fan!|AICU media|noteStability AIのサービスを応援するマガジンです

      画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)

      • 【文字が描ける!?】Anima_pencil-XL-v5.0.0リリース。作者ぶるぺん氏「ここ数年で最高クラス」

        【文字が描ける!?】Anima_pencil-XL-v5.0.0リリース。作者ぶるぺん氏「ここ数年で最高クラス」

        本日はAICU編集部が開発した書籍「画像生成AI Stable Diffusionスタートガイド」についての話題をお送りします。「#SD黄色本」として親しまれ発売から3ヶ月が経過しました本書ですがおかげさまで好評で編集部も胸をなでおろしております。
        ところで、書籍の中でイラストレーション生成用のモデルとして中心的に紹介している「blue_pencil-XL」の作者・ぶるぺんさんより新しいモデルの最新バージョンがリリースされたようです。

        「ここ数年で最高クラスの出来、前作に匹敵する仕上がり」

        とのことですので早速使ってみたいと思います。

        ライセンスは Fair AI Public License 1.0-SD

        Easy, Simple, High Quality (with a slight trade-off in variety)
        blue_pencil-XL meets ANIMAGINE XL 3.0 / ANIMAGINE XL 3.1
        License: Fair AI Public License 1.0-SD
        You should share the merge recipe if you release a model merged with anima_pencil-XL.
        This license does not add any restrictions on your generated images.
        For more details, please see the license section of ANIMAGINE XL 3.0.
        Please see the “About this Version” section for information on each version.
        `No generation services` only apply to v2.0.0
        HuggingFace: https://huggingface.co/bluepen5805/anima_pencil-XL
        Why not merge ANIMAGINE XL 3.X into blue_pencil-XL?
        I want to provide blue_pencil-XL under the CreativeML Open RAIL++-M license.

        簡単、シンプル、高品質(バラエティは若干犠牲になりますが)
        blue_pencil-XL は ANIMAGINE XL 3.0 / ANIMAGINE XL 3.1に出会った
        (訳注:meetはどういう意味なんだろう?つまりマージではなく参考にした、とかブレンドした、という解釈ですが、作者さんにきいてみたい)

        ライセンス Fair AI Public License 1.0-SD
        anima_pencil-XLでマージしたモデルをリリースする場合は、マージレシピを共有する必要があります。
        このライセンスは、あなたの生成した画像に制限を加えるものではありません。
        詳細はANIMAGINE XL 3.0のライセンスの項をご覧ください。
        各バージョンの情報は「このバージョンについて」をご覧ください。
        「生成サービスへの利用は禁止」はv2.0.0にのみ適用されます。
        HuggingFace: https://huggingface.co/bluepen5805/anima_pencil-XL
        ANIMAGINE XL 3.Xをblue_pencil-XLにマージしないのはなぜ?
        blue_pencil-XLをCreativeML Open RAIL++-Mライセンスで提供したいので

        https://civitai.com/images/17129585 
        AICU参考訳

        AICU media編集部の解釈

        このモデル「Anima_pencil-XL」は ANIMAGINE XL 3.0(CreativeML Open RAIL++-M)ではなく、ANIMAGINE XL 3.1と同じFair AI Public License 1.0-SD で配布されています。
        つまりぶるぺん氏のオリジナル「blue_pencil-XL」をベースモデルであるSDXLと同じ「CreativeML Open RAIL++-M」で配布し続けつつ、その学習に使ったデータセットをANIMAGINE 3.0と3.1の表現能力を有した別モデルとして提供するという試みと理解します。

        ぶるぺん氏によるサンプル画像とプロンプト

        画像

        1girl, solo, cute, white short hair, red eyes, wizard hat, close-up, dynamic angle, smug face, :3, (drooling:0.6), (“I AM RICH”:1.2) printed shirt, pleated long skirt, pantyhose, holding bills, hand on own hip, floating, scattered bills, gambling, crowd, light particles, sparkles, depth of field, masterpiece, best quality, masterpiece, best quality

        画像

        squid on the ground in the dark

        ぶるぺん氏は、美少女だけでなく、このような愛らしいキャラクターを普段はよく生成されております。

        画像

        1girl, solo, armpits, belt, black background, black belt, black dress, blue background, blunt bangs, brown hair, buttons, closed mouth, dress, gun, hand up, handgun, holster, holstered, light smile, looking at viewer, one eye closed, red eyes, revolver, short hair, upper body, utility belt, v, v-shaped eyebrows, watch, masterpiece, best quality

        画像

        1girl, solo, indoors, black background, black hair, blue eyes, blunt bangs, bob cut, breath, brown coat, coat, duffel coat, eyelashes, fur trim, fur-trimmed hood, gradient hair, green hair, hood, looking at viewer, looking back, medium hair, multicolored eyes, multicolored hair, parted lips, pink eyes, streaked hair, upper body, winter clothes, winter coat, masterpiece, best quality

        AICU media編集部による追従

        Civitaiには「Remix」を選ぶことで詳細なパラメータを引き継いで再生成させる機能がありますが、モデルが「SDXL」しか選択できないので、今回は Stability Matrixを使ってローカルPCで生成を試みます。

        画像

        Stability Matrixの場合は [🧠Model Browser] から直接「anima_pencil」を検索することでダウンロードが簡単にできます。
        (設定からCivitai APIキーの設定が必要です)

        画像

        「インポート」します

        画像

        カバーアートですが、胸に「I AM RICH」と描かれているのが気になります。
        Civitai上で画像をクリックすると右側にGeneration Dataが表示されるので注目してみます。

        画像

        1girl, solo, cute, white short hair, red eyes, wizard hat, close-up, dynamic angle, smug face, :3, (drooling:0.6), (“I AM RICH”:1.2) printed shirt, pleated long skirt, pantyhose, holding bills, hand on own hip, floating, scattered bills, gambling, crowd, light particles, sparkles, depth of field, masterpiece, best quality, masterpiece, best quality
        Steps: 30, CFG scale: 5, Sampler: DPM++ 2M SDE, Seed: 223644773, RNG: CPU, Size: 896×1344, Model: anima_pencil-XL-v5.0.0, Version: v1.9.4-180-ga65dd315, Emphasis: No norm, Pad conds: True, Model hash: 896faa18cd, Hires upscale: 2, Schedule type: Align Your Steps, Hires upscaler: SwinIR_4x, Denoising strength: 0.5, Discard penultimate sigma: True

        1girl, ソロ, キュート, 白いショートヘア, 赤い目, 魔法使いの帽子, クローズアップ, ダイナミックアングル, ドヤ顔, :3, (よだれ:0.6), (“I AM RICH”:1.2) プリントシャツ, プリーツロングスカート, パンスト, お札を持つ, 自分の腰に手を当てる, 浮く, 散らばるお札, ギャンブル, 群衆, 光の粒子, きらめき, 被写界深度, 傑作, 最高品質, 傑作, 最高品質

        以下の設定を変更します
        (Stability Matrix 2.11.3/AUTOMATIC1111 version: v1.9.4)
        Step:20→30
        CFG Scale: 7→5
        Sampling method: DPM++ 2M SDE
        Hires upscaler: SwinIR_4x
        Denoising strength: 0.5
        Seed: 223644773

        画像

        animaPencilXL_v2.0.0の出力結果

        参考まで、過去のv2.0.0ですが、こちらも十分素敵。

        画像

        animaPencilXL_v5.0.0 [896faa18cd]の出力結果

        Seed:223644773
        残念ながらサンプルの絵にはなりませんでしたが、確かにレイアウトや味わいが変わっていますね。胸の文字は描けていないようです(文字っぽい模様があります)。

        画像

        ここから先はSeedを-1(ランダム)にして
        ネガティブプロンプト:worst quality, nsfw, normal quality, ugly
        を設定して、何回か挑戦してみます。

        (たぶん続きます、文字が出るまで…!)

        まだ中間ですが出てるかも!?

        画像
        画像
      • すべての画像生成AIを過去にするStable Image Ultra (Stable Diffusion 3 8B+) が凄絶すぎた件

        すべての画像生成AIを過去にするStable Image Ultra (Stable Diffusion 3 8B+) が凄絶すぎた件

        image_2-55AE7.jpg

        Stable Diffusion開発元の、Stability AI Japan – External AdvocateのD̷ELLさんによる寄稿です。

        Stable Diffusion開発元の、Stability AI Japan – External AdvocateのD̷ELLと申します。
        今回、Stable Diffusion最高モデル Stable Diffusion 3 80億パラメータ(8B) を搭載したAPI「Stable Image」の、最上位サービス 「Stable Image Ultra」の体験会 第2回を実施しました。
        実施内容をレポートにまとめましたので、報告させて頂きます。

        概要

        • Stability AIからStable Diffusion 3 2B のモデルがリリースされ、世界を席巻した
        • Stability AI APIでは、最上位モデルの Stable Diffusion 3 8B が利用可能
        • 性能を体験してもらうために、たくさんの人にまた利用してもらったらやっぱり凄かった

        経緯

        先日、Stable Diffusion最高モデル Stable Diffusion 3 8B を搭載したAPI「Stable Image」の、最上位サービス 「Stable Image Ultra」 の体験会を実施しました。ご協力頂いた Discordサーバー AI声づくり技術研究会様、ありがとうございます。

        前回は突発での開催でしたが、今回は事前にアナウンスを行い、40名以上の方にご参加いただきました。

        https://j.aicu.ai/SD3UC

        どなたでもご利用可能ですので、ぜひこの機会にStable Image APIをお試しください。

        image.png

        生成画像集

        みなさまの生成された画像と、プロンプト、利用コメントを頂いております。
        個性の出ている、多種多様な画像を生成いただいておりますので、ぜひお楽しみください。

        こちらのNotionでも、当日生成された140枚の画像とプロンプトを閲覧できます。 まとめて頂きましたゆんたん様、ありがとうございます。

        yutoさん

        生成のボタンを押すたびにワクワクする。初めてStable Diffusionを触ったときの感情を思い出した。

        download-53290.jpg
        download-95B7F.jpg
        download-74983.jpg
        download-BE70F.jpg
        download-25501.jpg

        holy-fox/小狐さん

        凄すぎて感想が言語化できないw

        BVxMJdem4AAAAAElFTkSuQmCC-00E05.jpg
        image.png
        image_1-96896.jpg

        ゆんたんさん

        image_11-6D88C.jpg
        image_10-B38A6.jpg

        シャケさん

        image_7-2F438.jpg
        image_18-C8ECD.jpg
        image_19-D5AFA.jpg

        うんわさん

        想像力の限界へ

        image-8AEA7.jpg
        Untitled-1E3EA.jpg

        エクスヴェリアさん

        これまでの画像生成を過去にする
        ウルトラすごいハイパーすごいえーあいです

        image-FC5CF.jpg
        image-1C31A.jpg
        image-A079E.jpg
        image-3FCCB.jpg
        image-4D251.jpg
        image-F75F0.jpg
        image.png
        image.png

        雫さん

        一つのモデルでいろんな絵が出せるのがすごい

        aR9Md9HyXfvvevtXrfvP9JV8xIovtuql06mKat9p53-41756.jpg
        AcfGbDZrDlzAAAAAElFTkSuQmCC-8A5ED.jpg
        DzuYikcPXHQAAAABJRU5ErkJggg-B74D7.jpg
        15-F6F35.jpg

        なかむらしっぽさん

        やっぱりUltraはMediumとは全く次元が違う

        image_26-BDA66.jpg
        image_27-715AE.jpg
        image-0C3FB.jpg
        image_19-AC088.jpg
        image_22-5B5F9.jpg

        Art Natureさん

        一つのモデルでこれだけ幅広い出力ができるのがすごい。長文対応と出力の良さも高い。

        image_2-62EE7.jpg
        image_19-D5D6B.jpg
        image_24-47145.jpg
        image_28-0AFF2.jpg
        image_30-3FFB6.jpg

        うみせさん

        画像がほしい?ならUltraでしょ

        image-7271C.jpg
        image-EBAA7.jpg
        image-F5F5C.jpg
        image.png
        image-ABA44.jpg

        やなぎ(Yanagi)さん

        いままで触ったモデルの中で一番広い表現力を感じました!
        自然言語で使えるのも直感的でたのしいです!

        image.png
        image-F98C5.jpg
        image_2-C9823.jpg

        やまとーるさん

        1 girlから初めていろいろ追加をしていったらちゃんと出力してくれたので楽しかったです

        52-BDFFB.jpg
        60-3DCBA.jpg
        41-DD317.jpg
        57-A849B.jpg

        flyfrontさん

        まだまだ隠れた性能がいろいろありそう!

        bf-08860.jpg
        image.png

        TylorShineさん

        描ける!使える!!Stable!! 文字表現に忠実な画像が出てくる!!感動!!

        image-276A4.jpg
        image_10-232F2.jpg
        image_6-A3AA6.jpg

        kokurenさん

        従来のタグの組み合わせメインでの画像生成から自然言語での自由な生成の時代が来たことを実感できました。

        image-FBCFD.jpg
        image-45DB5.jpg
        image-74DDD.jpg

        れみおさん

        リアル系も出来てすごい!

        image_8-6D94C.jpg
        image_9-91D14.jpg
        image_37-62CF8.jpg
        image_17-439CD.jpg
        image_12-50770.jpg
        image_15-5EB4C.jpg

        へむろっくさん

        週末はSD3でステイブろう

        37-76127.jpg
        image.png
        image.png
        image.png

        ハニーさん

        image-D68ED.jpg
        image.png
        image.png
        image-60AE6.jpg
        image.png
        image.png

        ひつきさん

        SD3を使わせて頂きありがとうございます🙇‍♂️
        使ってみた感想としましては従来のSD1.5やSDXLに比べ、単純なプロンプトでも破綻しづらくて使いやすかったです!✨

        image-B991E.jpg

        Shinjuboshiさん

        image.png

        ぼうりきさん

        image_1-F4632.jpg

        マッキーさん

        image_1.jpg

        Gongonさん

        NSFWを回避しながら癖に刺さるイラストを生成するの楽しい

        image_6-750C0.jpg
        image_9-E5CF4.jpg
        image_25-0F384.jpg

        おやつさん

        日本風アニメへの造詣が深くて凄いなーと思いました。ほとんど最新のアニメ絵まで出せるんじゃないかな

        image_15-52BB6.jpg

        Akikazeさん

        クォリティが高くてAIとは思えないです・・・!

        はるさん

        いろんなものがぽんぽん出てくる宝石箱でした~~。

        生の声

        ChatGPTとの連携

        前回、プロンプトは、ChatGPTに生成してもらったという方が多くおられました。

        そのため、今回はプロンプト作成用特設 GPTs を うみせさんに作成していただきました。

        https://chatgpt.com/g/g-C8XsG8POL-huronhutomasuta

        今回のイベント用に作成されたオリジナルです。ぜひこちらもご利用くださいませ。

        また、Stable Diffusion 3 は自然言語処理に対応しておりますので、一般的な英文でも高品質な画像が生成できます。詳細はこちらをご覧ください。

        https://qiita.com/nqdior/items/bd980e2664966871272e

        まとめ

        いかがでしょうか?ひとつのモデルで、ここまで幅の広い画像を生成可能です。
        また、今回実装されたWEB-UIにより、APIの機能をすべて利用可能となりました。

        ぜひこの機会に、全世界最高峰・最上位の画像生成AIをお試しくださいませ。

        ご協力いただいたみなさまに感謝申し上げます。
        最後までご覧いただき、ありがとうございました。

        こちらの記事はDELL氏にご寄稿いただいた記事を読みやすく推敲させていただきました。価値あるレポートを作成いただいたDELL氏に編集部より御礼申し上げます。

        すべての画像生成AIを過去にする Stable Image API (Stable Diffusion 3 8B+) が凄絶すぎた件 – Qiita

      • Stable Diffusion 3 で最高の結果を得る方法

        Stable Diffusion 3 で最高の結果を得る方法

        Stable Diffusion開発元の、Stability AI Japan – External AdvocateのD̷ELLさんによる寄稿です。

        先日、Stable diffusion 3 Mediumのモデルが公開され、Stable Image APIでもLargeモデルが利用可能となりました。

        Stable Diffusion 3の真の性能を発揮するには、既存のStable Diffusionとは違うテクニックが必要なことをご存知でしょうか?今回は、Stable Diffusion 3の性能を最大限に引き出す方法 をご紹介したいと思います。
        ※ 本記事の内容は、Replicate, Inc.fofr氏によって執筆された記事を和訳したものです。

        Stable Diffusion 3で変わった重要なポイント

        記事によると、SD3で変わった重要なポイントは以下の3点です。

        • 長いプロンプトに対応し、テキストエンコーダーにより異なる品質の画像を生成できる
        • プロンプトは詳細かつ具体的に記述し、 ネガティブプロンプトは使用しないこと
        • 推奨設定は 28ステップ、3.5~4.5のCFG、dpmpp_2m sgm_uniformスケジューラー付きサンプラー、3.0シフト

        どういうことなのか、ぜひ記事本文をご覧ください。

        【和訳】Stable Diffusion 3 で最高の結果を得る方法

        How to get the best results from Stable Diffusion 3
        Posted June 18, 2024 by @fofr
        https://replicate.com/blog/get-the-best-from-stable-diffusion-3

        Stability AI は最近、2億パラメータのテキストから画像へのモデルである Stable Diffusion 3 Medium の重みをリリースしました。このモデルは、フォトリアリズム、タイポグラフィ、およびプロンプトの追従に優れています。

        公式の Stable Diffusion 3 モデルを Replicate で実行できますし、商用利用も可能です。また、私たちは Diffusers と ComfyUI の実装をオープンソース化しました(ComfyUI ガイドを読む)。

        このブログ投稿では、Stable Diffusion 3 (SD3) を使用して最高の画像を得る方法、特に以前の Stable Diffusion モデルとは少し異なるプロンプトの方法について説明します。

        実験を助けるために、ここで議論したすべての設定を公開している SD3 エクスプローラーモデル を作成しました。

        SD3 のバージョンの選び方

        Stability AI は、できるだけ多くのデバイスで実行できるように、SD3 Medium をさまざまな方法でパッケージ化しました。

        SD3 は3つの異なるテキストエンコーダーを使用します。(テキストエンコーダーは、プロンプトを受け取り、モデルが理解できる形式に変換する部分です)。これらの新しいテキストエンコーダーの1つは非常に大きく、多くのメモリを使用します。 SD3 Hugging Face Weight を見ると、異なるテキストエンコーダー構成の4つのオプションが表示されます。利用可能な VRAM に基づいて、どれを使用するかを選択する必要があります。

        sd3_medium_incl_clips_t5xxlfp8.safetensors

        このエンコーダーには、モデルの重み、2つの CLIP テキストエンコーダー、および圧縮 fp8 フォーマットの大きな T5-XXL モデルが含まれています。シンプルで最高の結果を得るために、これらの重みをお勧めします。

        sd3_medium_incl_clips_t5xxlfp16.safetensors

        sd3_medium_incl_clips_t5xxlfp8.safetensors と同じですが、T5 部分がそれほど圧縮されていません。fp8 の代わりに fp16 を使用することで、画像品質がわずかに向上しますが、メモリ使用量が増加します。

        sd3_medium_incl_clips.safetensors

        このバージョンでは T5 要素を完全に排除しています。2つの CLIP テキストエンコーダーだけで重みを含みます。VRAM が少ない場合に良いオプションですが、完全版とは大きく異なる結果が得られる可能性があります。このバージョンでは、プロンプトの追従性が低下し、画像内のテキストの品質も低下する可能性があります。

        sd3_medium.safetensors

        このモデルはテキストエンコーダーなしの基本的な重みだけです。これらの重みを使用する場合は、テキストエンコーダーを別々に読み込むようにしてください。Stability AI はこれに対する ComfyUI ワークフローの例 を提供しています。

        プロンプトの作成

        SD3 の使用における大きな変化はプロンプトの作成です。非常に長く詳細なプロンプトを入力しても、プロンプトに非常に忠実な画像を返すことができます。もう CLIP テキストエンコーダーの77トークンの制限を気にする必要はありません。

        プロンプトは10,000文字、または1,500語以上にすることができます。実際にはそのような長さは必要ありませんが、プロンプトの長さを心配する必要はありません。

        非常に長いプロンプトの場合、現時点では画像にどの部分が反映されるかを予測するのは難しいです。プロンプトのどの部分にモデルが注意を払うかは明確ではありません。しかし、プロンプトが長く複雑になるほど、何かが欠ける可能性が高くなります。

        ネガティブプロンプトを使用しないでください

        SD3 はネガティブプロンプトでトレーニングされていません。ネガティブプロンプトは SD3 では期待通りに機能しません。すでに SD3 を試したことがある場合、ネガティブプロンプトを与えると画像が変わることに気付いたかもしれませんが、その変化は意味のあるものではありません。ネガティブプロンプトは不要な要素を除去するのではなく、コンディショニングにノイズを加え、単に出力を変動させるだけです。

        プロンプト技術

        長いプロンプトが許可されるようになった今、望む画像を説明するために平易な英語の文章と文法を使用できます。以前のようにカンマで区切られたキーワードを使用することもできますが、具体的なものを目指す場合は、プロンプトを詳細かつ明確にすることが重要です。このレベルのプロンプトは、Midjourney バージョン6や DALL·E 3 のプロンプトの方法に似ています。

        画像の要素を説明するときは、その説明が画像の他の部分にも適用されないようにするために、曖昧さのない言葉を使うようにしてください。

        以下は、SD3 で良好なプロンプト追従性を示す長く詳細なプロンプトの例です:

        a man and woman are standing together against a backdrop, the backdrop is divided equally in half down the middle, left side is red, right side is gold, the woman is wearing a t-shirt with a yoda motif, she has a long skirt with birds on it, the man is wearing a three piece purple suit, he has spiky blue hair(例を見る

        画像

        a man wearing 1980s red and blue paper 3D glasses is sitting on a motorcycle, it is parked in a supermarket parking lot, midday sun, he is wearing a Slipknot t-shirt and has black pants and cowboy boots (例を見る

        画像

        a close-up half-portrait photo of a woman wearing a sleek blue and white summer dress with a monstera plant motif, has square white glasses, green braided hair, she is on a pebble beach in Brighton UK, very early in the morning, twilight sunrise(例を見る

        画像

        各テキストエンコーダーに異なるプロンプトを使用

        3つのテキストエンコーダーを持つようになったため、技術的には各エンコーダーに異なるプロンプトを渡すことができます。例えば、CLIP テキストエンコーダーには画像の一般的なスタイルとテーマを渡し、T5 部分には詳細な主題を渡すことができます。我々の実験では、まだ特別な

        技法は見つかっていませんが、引き続き試行しています。

        CLIP と T5 エンコーダーに異なるプロンプトを渡した例はこちら

        triple_prompt_t5
        the words written across the sky say “hello world”, written in clouds from a plane, above the dog
        空一面に書かれた文字は「hello world」と書いてあります。

        triple_prompt_clip_g
        a cartoon, dreamy anime background, a photo of a dog
        漫画、夢のようなアニメの背景、犬の写真

        triple_prompt_clip_l
        a cartoon, dreamy anime background, a photo of a dog
        漫画、夢のようなアニメの背景、犬の写真

        画像
        https://replicate.com/p/vmp5h000c9rgj0cg5d6813mmnr

        設定

        SD3 では、画像出力を変更するための多くの新しい設定があります。以下に良いデフォルト設定をいくつか推奨しますが、自分の好みに合わせて実験することをお勧めします。

        要約すると、以下の設定から実験を開始することをお勧めします(詳細は後述します):

        • 28ステップ
        • 3.5から4.5の CFG
        • dpmpp_2m sgm_uniform スケジューラー付き サンプラーと
        • 3.0 のシフト

        幅と高さ

        SDXL と同様に、SD3 は約1メガピクセルで最高の出力を提供します。解像度は64で割り切れる必要があります。以下の一般的なアスペクト比に対して、次の幅と高さを推奨します:

        • 1:1 – 1024 x 1024(正方形の画像)
        • 16:9 – 1344 x 768(シネマティックおよびワイドスクリーン)
        • 21:9 – 1536 x 640(シネマティック)
        • 3:2 – 1216 x 832(風景のアスペクト比)
        • 2:3 – 832 x 1216(ポートレートのアスペクト比)
        • 5:4 – 1088 x 896(風景のアスペクト比)
        • 4:5 – 896 x 1088(ポートレートのアスペクト比)
        • 9:16 – 768 x 1344(長い縦長の画像)
        • 9:21 – 640 x 1536(非常に背の高い画像)

        以前に Stable Diffusion 1.5 や SDXL をトレーニングされた解像度よりも大きな解像度で使用したことがある場合、歪んだ画像、複数の頭、繰り返しの要素など、奇妙な出力に馴染みがあるかもしれません。(以前の SDXL ガイドでいくつかの例を見られます。)これは SD3 では発生しません。SD3 では、予想される解像度よりも大きくすると、中央に合理的な画像があり、周辺には奇妙な繰り返しのアーティファクトが表示されます(ここに大きすぎる画像の推論結果の例があります)。同様に、解像度が小さすぎると、画像が厳しくトリミングされます(ここに小さすぎる画像の推論例があります)。

        画像
        大きすぎる画像の推論結果の例
        画像
        小さすぎる画像の推論例

        ステップ数

        この設定は、モデルが画像を生成する際のノイズ除去ステップの数です。SDXL では通常この値は20前後であり、Lightning モデルでは4ステップです。ステップ数は画像生成にかかる時間の主要な要因です。ステップが多いほど良い画像、ステップが少ないほど早く画像が生成されます。

        SD3 では28ステップを推奨します。この数値は、興味深い前景と背景を持ち、VAE アーティファクト(生成された画像に見られるノイズパターン)が少ないシャープな画像を提供し、それほど時間もかかりません。

        ステップを増やすことの効果

        ステップが画像品質に与える影響は、以前の Stable Diffusion モデルとは異なります。従来のモデルでは、ステップが品質を段階的に向上させ、ある点で効果が頭打ちになり、画像がほぼ静的になるのが一般的でした。しかし、SD3 ではステップが増えると異なる現象が見られます。

        SD3 は通常、8〜10ステップである程度見栄えのする画像を生成できます(ここに10ステップの推論結果の例があります)。

        画像
        10ステップの推論による画像


        ただし VAE ノイズアーティファクトや一部の画像が一貫性を欠く場合があります。これはプロンプトとシードにも依存します。ステップが増えると、より一貫性があり興味深い画像が得られます。最適な範囲は26〜36ステップです。

        画像とその主題は、ステップ値によって劇的に変わることもあります。例えば、人の曖昧なプロンプトの場合、ステップが増えるにつれて年齢、性別、民族が変わることがあります。これらの2つの出力を比較してください:10ステップのものと、同じ設定とシードを使用した 32ステップのもの

        ガイダンススケール

        ガイダンススケール(または CFG、classifier-free guidance)は、出力がプロンプトにどれだけ似ているべきかをモデルに指示します。SD3 では、SD 1.5 や SDXL よりも低い値を使用する必要があります。

        3.5から4.5の範囲を推奨します。出力が「焼けた」ように見え、コントラストが強すぎる場合は CFG を下げてください(CFG が高すぎる場合の焼けた画像の例)。

        また、CFG を低くすると、異なるテキストエンコーダーオプション間で出力の類似性が高まることも指摘しておく価値があります(つまり、T5 テキストエンコーダーを fp8、fp16 で使用するかどうかに関係なく)。非常に低い CFG を使用する場合、大きな T5 エンコーダーを省略しても画像品質にはほとんど影響しません。例えば、同じシードと CFG 1.5 を使用した2つの出力を比較してください:fp16 を使用した出力と、非常に似ている CLIP のみの出力

        サンプラーとスケジューラー

        異なるツールではこれらのラベルが異なりますが、基本的にはモデルがノイズを管理するために使用するアルゴリズムです。異なるアルゴリズムは異なる画像を生成します。

        SD3 では、ComfyUI で dpmpp_2m サンプラーと sgm_uniform スケジューラーを使用することを推奨します。Automatic1111 では dpm++ 2M を使用します。Euler も良い結果をもたらすことがあります。

        一部のサンプラーとスケジューラーは SD3 では機能しません。特に ancestral と sde サンプラー、および人気のある SDXL ノイズスケジューラー karras は機能しません。

        シフト

        シフトは、SD3 で変更できる新しいパラメーターです。これはタイムステップスケジューリングシフトを表し、シフト値が高いほど高解像度でノイズをうまく管理できます。基本的には、ノイズがよりよく処理され、シフトを使用すると見栄えの良い画像が得られます。タイムステップスケジュールシフトの理論については、SD3 の研究論文 を参照できます。

        3.0 は人間の好みの評価に基づく推奨デフォルト値ですが、もちろん変更することもできます。ComfyUI では、「ModelSamplingSD3」ノード

        でこの値を見つけることができ、Diffusers では FlowMatchEulerDiscreteScheduler にシフトパラメーターを渡すことができます。

        シフト値 6.0 は人間の評価で高評価を得ており、試す価値があります。2.0 や 1.5 のような低い値を使用すると、より生の「未処理」な見た目の画像が得られ、特定のプロンプトにはうまく機能します。

        結論

        これらのヒントを使用して Stable Diffusion 3 を楽しんで実験してください!SD3 を使用する際の詳細については、最近のブログ投稿をチェックしてください:

        解説

        プロンプトの作成

        Stable Diffusion 3の大きな特徴は、そのプロンプトの柔軟性です。以前のバージョンではプロンプトの長さが制限されていましたが、今回のバージョンでは10,000文字, 1,500語以上まで入力できます。これにより、非常に詳細で複雑な指示が可能になり、具体的なイメージをより正確に生成できるようになりました。

        例として、途中でいくつかサンプルが出てきましたね。

        a man and woman are standing together against a backdrop, the backdrop is divided equally in half down the middle, left side is red, right side is gold, the woman is wearing a t-shirt with a yoda motif, she has a long skirt with birds on it, the man is wearing a three piece purple suit, he has spiky blue hair

        これを和訳すると、以下のようになります。

        男性と女性が背景を背にして立っています。背景は中央で左右に均等に分かれており、左側は赤、右側は金色です。女性はヨーダのモチーフが描かれたTシャツを着ており、鳥のデザインが入った長いスカートを履いています。男性は3ピースの紫のスーツを着ており、青いとがった髪をしています。

        既存のStable Diffusionのプロンプトに直すと、こんな感じでしょうか。

        2 characters, man, woman, standing, red background, gold background, split background, Yoda T-shirt, bird design skirt, long skirt, purple suit, 3-piece suit, blue spiky hair

        ですが、Stable Diffusion 3では、サンプルのような細かいプロンプトが指定可能となりました。
        前回の記事でご紹介したような、ChatGPTを用いてプロンプトを生成する方法は、意図せず有効打だったことが判明しましたね。

        参考:ChatGPTを用いたプロンプト生成例

        Stable Diffusion Prompterを利用

        画像

        テキストエンコーダー

        テキストエンコーダーの構成も重要なポイントです。Stable Diffusion 3は3つの異なるテキストエンコーダーを使用しますが、その中でも特に大きなT5エンコーダーは多くのメモリを必要とします。このエンコーダーを使うと、より高品質な画像が得られます。メモリが限られている場合は、CLIPエンコーダーだけを使うオプションもあります。※ その場合はプロンプトの追従性や画像内のテキストの品質が少し落ちるかもしれません

        ご自身の環境に合わせた調整ができることにより、可能性が広がりますね。

        プロンプト技術

        プロンプトの作成方法についても注意が必要です。Stable Diffusion 3はネガティブプロンプトには対応していないので、**ネガティブプロンプトを使用しても期待通りの結果は得られません。**代わりに、プロンプトを詳細かつ具体的に記述することで、より良い結果を得ることができます。
        先に記載したように、「赤と青の3Dメガネをかけた男性がバイクに座っている」といった具体的な描写を使うと、モデルがより正確にイメージを生成してくれます。

        設定

        推奨される設定は以下の通りです。

        • ステップ数:28ステップ。これは画像のノイズ除去ステップの数で、増やすとよりシャープで詳細な画像が得られます。
        • CFG(ガイダンススケール):3.5から4.5。この値が高すぎると画像が「焼けた」ように見えることがありますので、注意が必要です。
        • サンプラー:dpmpp_2m。これはノイズを管理するためのアルゴリズムで、異なるサンプラーを試すことで画像の雰囲気が変わります。
        • スケジューラー:sgm_uniform。これもノイズ管理に関する設定で、この組み合わせが安定した結果をもたらします。
        • シフト:3.0。タイムステップスケジューリングシフトの値で、これを調整することで高解像度の画像のノイズ管理が改善されます。

        これらの設定を基にして、自分の好みに合わせて実験してみると良いですね。特に、ステップ数やCFGを微調整することで、より自分のイメージに近い結果が得られるはずです。

        まとめ

        いかがでしたか?新しい設定や技術を活用することで、これまで以上に素晴らしい画像が生成できると思います。

        Stable Diffusion 3 Mediumは、以下のURLからダウンロードが可能です。

        最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表 — Stability AI Japan

        Stable Diffusion 3 Large以上のモデルは、以下の記事を参考にAPIをご利用ください。

        みなさまがより新しい画像生成体験ができることを祈っております。最後までご覧いただき、ありがとうございました。

        こちらの記事はDELL氏にご寄稿いただいた記事を読みやすく推敲させていただきました。価値あるレポートを作成いただいたDELL氏および原作のfofr氏に編集部より御礼申し上げます。

        あなたはStable diffusion 3 の真の性能を発揮できていない – Qiita

      • #広告業界で使えるAI! Stable Image Ultraテクニック(2)実は個性的な「Origami」でトンマナを探ろう

        #広告業界で使えるAI! Stable Image Ultraテクニック(2)実は個性的な「Origami」でトンマナを探ろう

        AICUでお世話になっております、はねごろう です。
        長年、広告映像やバーチャルライブなどのお仕事をしてきた経験を「つくる人をつくる」の時代に活かしていくプロデューサーのしごとをしています。

        先日AICU AIDX Labの技術の方々が Stable Diffusion公式APIで1,800枚の画像を生成してくれたのですが、実際にどれぐらい使えそうな絵があるか、選定するテクニックも含めて広告業界のビジュアルとしての使い方を複数回に分けて探っていきたいと思います。

        #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

        Stable Diffusion – Generate API https://platform.stability.ai/

        各モデルの公称特性

        Stable Image Ultra 1メガピクセル生成(以下、Ultra)
        Stable Image Core 1.5メガピクセル生成(以下、Core)
        Stable Diffusion 3 Large 80億パラメータモデル(以下SD3L)
        Stable Diffusion 3 Medium 20億パラメータモデル(以下、SD3M)

        左上がSD3L、右上がUlta、左下がSD3LとUltraの合成、右下が3Mです。UltraとSD3LはAPIではなく文字プロンプトでスタイルを指定し、共通のシードでは同じような絵が出る傾向があります。
        技術チームの印象としては、「cinema, analog filmなどの実写スタイル、SD3LとUltraの間での比較を商業的価値でレビューしてみてほしい」という所見を頂きましたので挑戦していきます。

        評価方法

        映画やVFXなどの評価と同じく、生成した静止画をつなげた(ラッシュ)を以下のツールを使って再生していきます。

        ❏動画再生ツール Keyframe MP https://zurbrigg.com/keyframe-mp

        1枚づつラッシュを確認し、以下の基準で分類していきます。

        ❏評価基準は以下の3段階です。
        [Bad]画面内で画風の統一がない、不快なアナトミー破綻、中指を突き立てている(商品性・グロ・NSFW)
        [Good]商品性、キャッチーな構図、明らかなアナトミー破綻がない、検討に値する。
        [Best]クライアント直行できるレベル、トップ画像に使える、絵としてほぼ修正が必要ない。

        評価対象は多様なスタイルのうち、以下のリアル系スタイルです。

        ここでの「スタイル」はAPIでUltraを指定し、プロンプトにスタイルを書くだけ、というとても簡単なものです。

        詳しい生成方法は AICU media の過去記事「#10分で学べるAI」をご参照ください。
        (シリーズの最後にまとめて生成できるスクリプトを紹介します)

        Origami スタイル

        本来は折り紙(国際語:Origami)風の画風になるOrigamiスタイル。Stable Diffusion Ulraでのスタイルとしての安定感は低いのですが、派手な絵や「不可能な服」が生成されて、使い道次第ではデザインのトンマナ(トーンとマナー)を探る際に使えそうな”スーパーショット”が生成されやすい個性的なスタイルとして推せます。

        Best

        ビビッドなカラー、髪色、パーカー、表情が魅力的です。

        画像

        某有名キャラクターを連想させつつも、売ってなさそうなパーカー、そして意味深なメッセージカードで隠された表情が魅力的です。

        画像

        Origamiはなぜか指の破綻が少ない傾向にあります。
        色がシンプルなのでレタッチしやすいという利点もあります。

        画像

        リアル系の絵とアニメ系のグラフィックが50%ぐらいの確率で生成されます。

        画像
        画像
        画像
        画像

        こちらは条件を完璧に満たしていて、AICUのカバーアートとしても使えるビジュアル。

        画像

        一方で「Origami」要素はないので、Ultraの場合は「Origami」というスタイルは特に強く学習されているわけではないが、ビビッドなカラーで比較的安定して良い絵が出るプロンプトであることが理解できましたでしょうか。

        Bad

        実は、Badが出づらい。なんと21枚中5枚、しかも非常に惜しいです。アナトミー破綻が少なく、背景のボケが良いせいかもしれません。
        グラフィックデザインと実写系が50%ぐらいの確率で出ますので「実写系?」のみを期待して使うと損をしますね。

        表情もライティングも指の演技も良い…掌だけが惜しかった。

        画像

        演技も表情もいいけど、指がスレンダーすぎて残念。

        画像

        これぐらいならレタッチで消せますね。

        画像

        アニメっぽい?いやいや、こういう自然派おねえさんのイラスト素材は需要ありますよね。左手の指はレタッチで消せますね。

        画像

        指が難しいことになっていますが、大胆なレイアウト、ファッションとイラストレーションとしては好ましい方向ではあります。

        画像

        以上、使い道次第ではデザインのトンマナ(トーンとマナー)を探る際に使えそうな”スーパーショット”が生成されやすい個性的なスタイルとして推せる Stable Image Ultraの「Origami」スタイルを紹介しました。
        「Origami」要素はないので、Ultraの場合は「Origami」というスタイルは特に強く学習されているわけではないのですが、ビビッドなカラーで比較的安定して良い絵が出るプロンプトであること、Badでも多様で個性的、かつレタッチで修正可能な絵が出やすいという事がわかりました。

        ところで本来の「Origami」スタイルとはどんな絵なのでしょうか?APIでスタイル指定ができる Stable Image Core で試してみたテストシーケンスがこちらになります。

        念の為、同様の実験をSD3Largeにおいてプロンプトで指定しました(SD3LargeはAPIでのスタイル指定はありません)。

        同じようにインパクトがほしい、実写系なのかイラストレーションなのか…どれぐらいのリアリズムが欲しいのか?などトンマナを探りたいときに、まず試してもらいたいスタイルです。

        はねごろうのスタイル探求は続く!

        #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

        その他の全画像はこちらのアルバムで確認できます。
        Google Photo https://j.aicu.ai/SD3GP

        せっかくなので「SD3美女コンテスト」を開催したいと思います。
        上記のアルバムの画像において、著作権は主張しませんので、良い画像があったら ハッシュタグ #SD3GP で紹介してください。

        AICU AIDX Labにイケてる男子版もつくってもらおうっと!

        読者のみなさんもなにかリクエストがございましたら X@AICUai へメンション、DMいただけると幸いです。
        Stable Diffusionを使った画像生成やVFX、広告技術についての技術的なお問い合わせについては AICU AIDX Lab – sai@aicu.ai  までどうぞ

        <続きます>

        画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)j.aicu.ai

        2,640円(2024年06月10日 11:09時点 詳しくはこちら)

        Amazon.co.jpで購入する

      • #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

        #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

        AICUでお世話になっております、はねごろう です。
        長年、広告映像やバーチャルライブなどのお仕事をしてきた経験を「つくる人をつくる」の時代に活かしていくプロデューサーのしごとをしています。

        先日AICU AIDX Labの技術の方々が Stable Diffusion公式APIで1,800枚の画像を生成してくれたのですが、実際にどれぐらい使えそうな絵があるか、選定するテクニックも含めて広告業界のビジュアルとしての使い方を複数回に分けて探っていきたいと思います。

        Stable Diffusion – Generate API https://platform.stability.ai/

        各モデルの公称特性

        Stable Image Ultra 1メガピクセル生成(以下、Ultra)
        Stable Image Core 1.5メガピクセル生成(以下、Core)
        Stable Diffusion 3 Large 80億パラメータモデル(以下SD3L)
        Stable Diffusion 3 Medium 20億パラメータモデル(以下、SD3M)

        左上がSD3L、右上がUlta、左下がSD3LとUltraの合成、右下が3Mです。UltraとSD3LはAPIではなく文字プロンプトでスタイルを指定し、共通のシードでは同じような絵が出る傾向があります。
        技術チームの印象としては、「cinema, analog filmなどの実写スタイル、SD3LとUltraの間での比較を商業的価値でレビューしてみてほしい」という所見を頂きましたので挑戦していきます。

        評価方法

        映画やVFXなどの評価と同じく、生成した静止画をつなげた(ラッシュ)を以下のツールを使って再生していきます。

        ❏動画再生ツール Keyframe MP https://zurbrigg.com/keyframe-mp

        1枚づつラッシュを確認し、以下の基準で分類していきます。

        ❏評価基準は以下の3段階です。
        [Bad]画面内で画風の統一がない、不快なアナトミー破綻、中指を突き立てている(商品性・グロ・NSFW)
        [Good]商品性、キャッチーな構図、明らかなアナトミー破綻がない、検討に値する。
        [Best]クライアント直行できるレベル、トップ画像に使える、絵としてほぼ修正が必要ない。

        評価対象は多様なスタイルのうち、以下のリアル系スタイルです。

        ここでの「スタイル」はAPIでUltraを指定し、プロンプトにスタイルを書くだけ、というとても簡単なものです。

        詳しい生成方法は AICU media の過去記事「#10分で学べるAI」をご参照ください。
        (シリーズの最後にまとめて生成できるスクリプトを紹介します)

        Neon-Punk スタイル

        Neon-PunkスタイルはBestもBadも豊作。インパクト、ファッショナブル感、個性があるので、まず試してもらいたい。

        Best

        Bad

        Badの理由…Bestになりそうな品質の高い画像があるにも関わらず、惜しいところで商品性、肌の露出、指のアナトミーの不快感のある破綻、特に中指を突き立てているケースなど。

        画像

        おしい

        画像

        とても惜しい

        画像

        構図も演出も表情もよいが、指の破綻。

        画像

        (中指を突き立てているケースもあるので、その中でも見れる例)

        画像

        以上、最も個性的でBestもBadも豊作、インパクト、ファッショナブル感、個性があるスタイル「Neon-Punk」を紹介しました。

        いろんなプロンプトで、まず試してもらいたいスタイルです。

        その他の全画像はこちらのアルバムで確認できます。
        Google Photo https://j.aicu.ai/SD3GP

        せっかくなので「SD3美女コンテスト」を開催したいと思います。
        上記のアルバムの画像において、著作権は主張しませんので、良い画像があったら ハッシュタグ #SD3GP で紹介してください。

        AICU AIDX Labにイケてる男子版もつくってもらおうっと!

        読者のみなさんもなにかリクエストがございましたら X@AICUai へメンション、DMいただけると幸いです。
        Stable Diffusionを使った画像生成やVFX、広告技術についての技術的なお問い合わせについては AICU AIDX Lab – sai@aicu.ai  までどうぞ

        <続きます>
        ❏  #広告業界で使えるAI! Stable Image Ultraテクニック(2)実は個性的な「Origami」でトンマナを探ろう

        画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)j.aicu.ai

        2,640円(2024年06月10日 11:09時点 詳しくはこちら)

        Amazon.co.jpで購入する

      • Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

        Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

        Stable Diffusion 3 Mediumがリリースされ、画像生成AIの最先端である「Stable Diffusion」にも新しい時代がやってきました。
        Stability AIのご協力のもと1,800枚の画像を生成して比較検証実験を行いました。
        このレポートがみなさまのお役に立てれば幸いです。
        Google Photo https://j.aicu.ai/SD3GP

        Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

        実験前の注目点

        実験前の注目点を整理すると、新しいアルゴリズム、公開されたweightsの特性、オープンソース開発者による取り組みなど、しばらく話題が絶えないAICU media編集部ですが、最近のAICU AIDX Labリサーチ担当が注目しているのは「公式API」、「Stability AI提供の開発者プラットフォームがなかなかすごい!」という点です。
        https://platform.stability.ai/

        画像

        Stability AI – Developer Platformplatform.stability.ai

        Generate APIに新モデル「Ultra」登場

        画像
        • Stable Image Ultra [New!]
        • Stable Image Core
        • Stable Diffusion 3 Large
        • Stable Diffusion 3 Large Turbo
        • Stable Diffusion 3 Medium
        • SDXL 1.0, SD 1.6

        正直、たくさんあって、どれがどう違うのか、良くわかりませんよね!

        ✨️編集部ではアドボケイターやコミュニティのご協力で、すでに2つの記事でユーザーレビューを紹介させていただいております。

        ❏全世界最高峰・最上位の画像生成AI (Stable Diffusion 3 8B+) が凄すぎた件
        https://note.com/aicu/n/n56ae423b222a

        ❏2024年6月現在、世界最高峰の画像生成AI「Stable Diffusion 3 8B+」を試す https://note.com/aicu/n/n21db0870eb40

        実験方法

        今回は、ユーザーさんの印象的なアートの評価とは別に、最新の3つのモデルの性能や特性を定性的に評価するアプローチを取ってみたいと思います。

        各モデルの公称特性

        • Stable Image Ultra 1メガピクセル生成(以下、Ultra)
        • Stable Image Core 1.5メガピクセル生成(以下、Core)
        • Stable Diffusion 3 Large 80億パラメータモデル(以下SD3L)
        • Stable Diffusion 3 Medium 20億パラメータモデル(以下、SD3M)

        最も高度なテキストから画像への生成サービスであるStable Image Ultraは、これまでにない迅速な理解で最高品質の画像を作成します。Ultraは、タイポグラフィ、複雑な構図、ダイナミックな照明、鮮やかな色合い、芸術作品の全体的なまとまりや構成に優れています。Stable Diffusion 3を含む最先端のモデルから作られたUltraは、Stable Diffusionのエコシステムの最高峰を提供します。
        生成される画像の解像度は1メガピクセルです。デフォルトの解像度は1024×1024です。

        Stable Diffusion 3モデル:
        SD3 Medium – 20億パラメータモデル
        SD3 Large – 80億パラメータモデル
        SD3 Large Turbo – 推論時間を短縮した80億パラメータモデル
        このAPIはFireworks AIによって提供されています。
        プロンプトによる生成:一般にtext-to-imageと呼ばれるこのモードは、テキストのみから画像を生成します。必須パラメータはパラメータはプロンプトだけですが、aspect_ratio パラメータもサポートしており、生成される画像の縦横比を制御することができます。
        model – 使用するモデル(SD3 Medium、SD3 Large、SD3 Large Turbo)。
        output_format – 出力画像のフォーマット。
        seed – 生成に使う乱数シード。
        negative_prompt – 出力画像に表示したくないキーワード.
        出力:生成される画像の解像度は1MPです。デフォルトの解像度は1024×1024です。

        Stable Image Core は、テキストから画像への変換を行う当社の主要サービスです。迅速なエンジニアリングは必要ありません!スタイル、シーン、またはキャラクターをリクエストしてみてください。生成される画像の解像度は1.5メガピクセルです。

        Stability Image Coreの入力パラメータはスタイルを受け付けます。他のAPIにくらべて柔軟性や制御性が高いインタフェースを有しているといえます。

        比較的難度が高い、指や視線、文字描画などを含む共通プロンプトを使って、各モデルで各スタイルを横断的に生成させることで、どのような特徴があるか、評価していきます。

        生成画像の公開

        上記のAPI{Ultra, Core, SD3L, SD3M}の4種+SD3Mのスタイル指定方式の違いでモデルとしては5モデル、各18スタイル、各20セットで画像生成を合計1800枚ほど行いましたのでまずは共有します。
        https://j.aicu.ai/SD3GP

        画像
        1800枚の最初の4枚です

        与えたプロンプト

        それぞれの画像のファイル名を見ることで生成する際に使用した情報を知ることができます。

        ベースとなった共通プロンプト:
        {style*} best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad

        {スタイル*}最高品質、アートステーションのトレンド、視聴者を見て、1人の女の子が[AICU]と書かれたパネルを持って、Vサイン、渋谷の交差点で。

        スタイルには以下の17スタイル+無属性(normal/指定せず)を加えています。

        {“”(normal), analog-film, cinematic, neon-punk, origami, modeling-compound, 3d-model, low-poly, isometric, enhance, anime, line-art, digital-art, fantasy-art, comic-book}

        スタイルについて

        この「17スタイル」とは、SDXLにおいてAPIで指定できる画風のことです。
        Clipdropでは画像生成時にプロンプトとともにオプションとして設定できます。
        https://clipdrop.co/text-to-image

        Clipdrop – Text to imageA Leap Forward in AI Image Generationclipdrop.co

        画像

        SD3系でもプロンプトによるスタイルの指定は有効なケースと、そうではなく、シード依存になるケースがあることが予備調査によってわかりましたので、今回の調査ではスタイルの制御性についても評価対象にしておきます。

        APIエンドポイント

        使用したAPI Endpointsは以下のとおりです。
        https://api.stability.ai/v2beta/stable-image/generate/ultra
        https://api.stability.ai/v2beta/stable-image/generate/core
        https://api.stability.ai/v2beta/stable-image/generate/sd3

        生成コスト

        生成コストは以下のようになります。高価な順に
        Ultra(8credits) x 18 styles x 20 sets = 360 pieces, 2880credits = $28.8
        SD3L(6.5credits) x 18 styles x 20 sets = 360 pieces, 2340credits = $23.4
        SD3M(3.5credits) x 18 styles x 20 sets = 360 pieces, 1260credits = $12.6
        Core(3credits) x 18 styles x 20 sets x 2 types = 720 pieces 2160 credits = $21.6
        合計 $86.40 USD = 13,632円
        ✨️Stability AI, Jerry Chiさま、実験へのご協力ありがとうございます✨️

        いずれも失敗した結果に対して課金されることはありません。

        生成方法

        Windows上でバッチファイルを作ることで生成できます。
        サンプルはこちらで公開・解説しています。

        #10分で学べるAI
        ❏バッチファイルでバリエーション広告を生成しよう(2)解説編
        https://ja.aicu.ai/saiimgbat-detail/

        #10分で学べるAI バッチファイルでバリエーション広告を生成しよう(2)解説編 – つくる人をつくる AICU Inc.ja.aicu.ai

        今回は最終的に動画を作ることになりましたので、もし同じ実験を追従される方がいらっしゃいましたら、生成時間の測定、連番ファイルでの生成やデータベースとの連動なんかも考えてみるとその後の活用がしやすいのかなと思いました。特に生成時間はローカルGPUや Google Colabでの生成と比較しても非常に高速で、数秒です。これ自身が価値あると考えます。

        映像制作目的では、Google Apps Script + Google Slidesでのバリエーション広告での活用事例などもご参考にいただければ幸いです。AICU AIDX Labとしては、カスタマイズ依頼も歓迎です。

        Google Slidesでバリエーション広告を大量生成
        https://ja.aicu.ai/aicu-saiad/

        #10分で学べるAI Google Slidesでバリエーション広告を大量生成 – つくる人をつくる AICU Inc.ja.aicu.ai

        結果の確認方法

        All shots available on Google Photo https://j.aicu.ai/SD3GP

        詳細はファイル名に埋め込まれています。
        シード値(APIで指定、乱数はバッチファイルで生成したもの): 1-32768
        モデル(ファイル名の末尾):”U”=Ultra, “Ca”=Core(プロンプトで指定), “Cb”=Core(APIで指定), “3L”=3-Large, “3M”=3-Medium

        Core のみAPI側で指定できるので
        [Ca]プロンプトで指定した場合
        [Cb]APIで指定した場合

        画像
        画像

        この画像の場合には、ファイル名が
        analog-film style, best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad_14117_1_Ca.png となっています。

        つまり、CoreAPIに対して、APIではなく「analog-film style」というプロンプトを設定して共通プロンプトを設定しています。シードは14117。
        Vサインはしていないのですが、指は5本、渋谷らしく日本人的な女性で、非常に自然な絵になっているという評価ができます(CoreAPIには文字を描く能力はない)。

        Google Photoは同じ顔についても検索することができます。
        例えばこちらの画像、

        画像

        modeling-compound style, best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad_9240_5_Ca.png 
        こちらもCa、つまりCoreAPIでプロンプト指定によって生成されています。CoreAPIには文字を描く能力はないはずですが、胸には「ACU」の文字が確認できます。指は本数は5本できちんとVサインをしていますが、掌と親指がちょっと怪しげな結果です。しかしこのぐらいであればPhotoshopや image to image で修正できる可能性は高いと考えます。

        画像

        気に入った画像は気軽に★や♥、コメントなど頂ければ幸いです。
        興味深い結果が多くありますので継続的な評価結果の共有、それから X@AICUai でもフォトコンテストを開催してみたいと思います。

        Google Photo https://j.aicu.ai/SD3GP

        動画版

        Stable Image Ultra API – Quality Testing
        https://youtu.be/4Z0gtKPA1Jk

        Stable Diffusion 3 Large API – Quality Testing
        https://youtu.be/5XIvuQq2W0I

        Stable Diffusion 3 Medium API – Quality Testing
        https://youtu.be/ajjG52YKego

        やってみてわかったこと・今後について

        APIを使って多様な絵を作る技術

        広告やマーケティング、Eコマース、プロダクトデザインといった分野において、従来のMidJourneyやNijiJourneyによる画像の探求をAPIやバッチファイル、Google Apps Script+Google Slidesを使った大量画像生成を使って比較検討、従来手法では不可能なレベルの人間+AIの革新的なワークフローを構築することができる可能性があります。
        例えば今回の実験も1800枚という人間には処理しがたい量の画像を生成して分類処理していますが、スクリプトによる制御がされている状態なので、動画生成や検討する上では見積もり可能な時間で作業ができています。今回の実験も、2回目以降であれば、より自動化が進むと考えます。

        定性的な評価に向けたアプローチ

        今回の実験方法で、プロンプト、ネガティブプロンプトを固定し、スタイルを制御する複数の方法、アナトミーの破綻、NSFW率、プロンプトとAPIによるスタイル指定の制御率、シード値の優位性、構図、ポーズ、指の制御性、StepやSeed、サンプラーについても調査可能と考えます。

        例えばこの動画や静止画データセットを使って、統計的な手法でのプロンプト制御性や、スタイル指定、手・指・掌、文字の描画能力といった評価が可能になると考えます。AICU AIDX Labでも、この画像データセットをChatGPT-4VやGoogle Vision AIによって評価判定する定量的手法についても取り組んでみております。今のところ、評価結果が安定しないので、いったん人間による判定を中心に実施しています。

        モデル間の評価(作業者の印象ベース)

        Coreのよいところ
        ・APIでのスタイル指定(プロンプトでの指定は無視される)
        ・構図やポーズはプロンプトで指定
        ・生成が速い
        ・コストが最も安い(3credit)

        SD3Mのよいところ
        ・文字が描ける
        ・応答速度が速い
        ・クラシックなSD1.x系クオリティプロンプトが有効(素の状態では画質の劣化感がある)
        ・構図やポーズはプロンプトの指定を強くききがち(CFGが高い印象)
        ・コストが安い(3.5credit)

        SD3Lの良いところ
        ・空間文字か描ける
        ・プロンプトでのスタイル指定が有効
        ・コストはフラッグシップモデルとして理解(6.5credit)

        Ultraのよいところ
        ・光や影の品質、肌の質感などの品質が高い
        ・プロンプトでのスタイル指定が有効
        ・構図やポーズはプロンプトで指定できる(シードによって無視されることもある)
        ・得意なスタイルがある
        ・SD3LとUltraの比較結果がほしい

        SD3LとUlta、SD3Mの比較動画

        https://youtube.com/watch?v=vk0iTE52RcQ%3Frel%3D0

        左上がSD3L、右上がUlta、左下がSD3LとUltraの合成、右下が3Mです。
        https://www.youtube.com/watch?v=vk0iTE52RcQ

        画像

        シードとプロンプトが同じ場合、SD3LとUltraは非常に近い結果を出すようです。Ultraのほうが描写力特に、空間、肌、ホクロなどの描きこみが増す傾向にあります。スタイルはNeon-Punkが比較的良い印象ですが、他のスタイルも魅力的です。

        ✨️このデータセットを使った評価に興味がある方は X@AICUai までご連絡ください。

        ✨️Stability AI のソリューションについてのご相談は sai@aicu.ai まで頂ければ幸いです。