タグ: SD

  • Stable Diffusion 3 を Google Apps Scriptで利用する

    Stable Diffusion 3 を Google Apps Scriptで利用する

    つくる人をつくる!AICU mediaのしらいはかせです

    先日、APIが先行して公開された Stable Diffusion 3ですが、色々試していたらわりと簡単にコマンドラインでも、Google Apps Scriptでも Stable Diffusion 3のパワフルな画像生成機能を利用できることがわかったので紹介いたします。
    ちょっとした画像を生成するアプリを開発するのに便利です。

    Stability AI の API キーの入手

    まずは Stability AI のプラットフォームでAPIキーを入手しましょう。
    https://platform.stability.ai/

    右上のアカウントアイコンから「API Keys」を確認できます。
    作成したらクリップボードにコピーします。

    0.0065USD=約1円ぐらいです。

    curlコマンドで使う Stable Diffusion 3

    Windowsで標準的にインストールされているコマンドラインツール「curl」を使ってAPIを叩くことができます。まずはこれを使って試してみましょう。

    curl -f -sS "https://api.stability.ai/v2beta/stable-image/generate/sd3" -H "authorization: Bearer sk-????" -H "accept: image/*" -F prompt="Lighthouse on a cliff overlooking the ocean" -F output_format="jpeg" -o "./lighthouse.jpeg"
    
    
    
    
    

    分解して解説するとこんな感じです。
    curl -f -sS “https://api.stability.ai/v2beta/stable-image/generate/sd3→SD3のAPIエンドポイントです。v2betaとあるので変更されるかも?
    -H “authorization: Bearer sk-????” -H “accept: image/*” -F
    →ベアラーのあとの sk-???? のところにAPIキーを貼り付けてください。
    prompt=”Lighthouse on a cliff overlooking the ocean” -F
    →ここがプロンプトです
    output_format=”jpeg” -o “./lighthouse.jpeg”
    →ここが出力ファイル形式です。Webp形式なんかも使えます。

    うまく行かないひとは「Windows cURLインストール」などで調べてみてください。けっこういろんな方法があるのですが、自分の環境ではこんな cURL が動いてました。

    curl — version
    curl 8.4.0 (Windows) libcurl/8.4.0 Schannel WinIDN
    Release-Date: 2023–10–11
    Protocols: dict file ftp ftps http https imap imaps pop3 pop3s smtp smtps telnet tftp
    Features: AsynchDNS HSTS HTTPS-proxy IDN IPv6 Kerberos Largefile NTLM SPNEGO SSL SSPI threadsafe Unicode UnixSockets

    “curl — version”とコマンドラインで打ち込むと表示されます

    Google Apps Script で使う Stable Diffusion 3

    これがうまく行ったら次は、Google Apps Scriptで実装します。
    Google Driveを開いて、新規→その他→Google Apps Scriptで新しいスクリプトを作ります。

    // Stable Diffusion 3 を Google Apps Scriptで利用する|AICU media @AICUai #note https://note.com/aicu/n/ne2fe8a0073b0
    
    const STABILITY_KEY = PropertiesService.getScriptProperties().getProperty("STABILITY_KEY");
    
    function saveImageToDrive() {
      var url = "https://api.stability.ai/v2beta/stable-image/generate/sd3";
      var token = "Bearer "+ STABILITY_KEY; // 本番環境ではセキュリティを考慮して保管してください
      var boundary = "-------314159265358979323846";
      var data = "--" + boundary + "\r\n" +
                 "Content-Disposition: form-data; name=\"prompt\"\r\n\r\n" +
                 "shibuya crossing, animetic, with graffiti 'AICU media'\r\n" +
                 "--" + boundary + "\r\n" +
                 "Content-Disposition: form-data; name=\"output_format\"\r\n\r\n" +
                 "png\r\n" +
                 "--" + boundary + "\r\n" +
                 "Content-Disposition: form-data; name=\"aspect_ratio\"\r\n\r\n" +
                 "16:9\r\n" +
                 "--" + boundary + "--";
    
      var options = {
        "method": "post",
        "contentType": "multipart/form-data; boundary=" + boundary,
        "headers": {
          "Authorization": token,
          "Accept": "image/*"
        },
        "payload": data,
        "muteHttpExceptions": true
      };
    
      var response = UrlFetchApp.fetch(url, options);
      
      if (response.getResponseCode() == 200) {
        var blob = response.getBlob();
        blob.setName("SD3.png");
        var file = DriveApp.createFile(blob);
        Logger.log('Image saved to Drive with ID: ' + file.getId());
      } else {
        Logger.log('Failed to fetch image: ' + response.getResponseCode());
      }
    }

    GitHubにも置いておきます。
    https://github.com/aicuai/GenAI-Steam/blob/main/SD3Text2Img.gs

    このコードは上記の cURL でのリクエストを単純に置き換えたものですが、APIキーをハードコードしたりGitHubに晒したくはないので、スクリプトプロパティに保存しています。

    const STABILITY_KEY = PropertiesService.getScriptProperties().getProperty(“STABILITY_KEY”);

    スクリプトの左側「⚙プロジェクトの設定」からスクリプトプロパティを設定することができます。

    「スクリプトプロパティを追加」ボタンを押して「STABILITY_KEY」というプロパティを追加して、値として、冒頭で取得した「sk-」から始まるAPIキーを貼り付けて「スクリプトプロパティを保存」ボタンを押してコード編集に戻りましょう。

    これでコードにAPIキーを保存しなくてすみますね!
    さて、関数「saveImageToDrive」を実行していきます。

    コードの上部にある「デバッグ」を押すと実行できますが、初回は権限設定と確認が必要です。

    こんな感じの警告が出ますが、自分のGmailの権限でGoogle Driveに画像を生成するだけなので特に害はありません。左下の「SD3(安全ではないページ)に移動」を押して進めます。

    ドライブへの権限を設定したらもう一度デバッグを押して実行します。

    数秒で実行ログに「Image saved to Drive with ID: 1xxxxxx」と表示されたら成功です。Google Driveの「最近使用したアイテム」を見てみてください。

    「SD3.png」が生成されています。

    実行する度に様々な画像が生成されます。
    なお、このスクリプトではプロンプトとアスペクト比を12~17行で設定しています。

    “shibuya crossing, animetic, with graffiti ‘AICU media’\r\n”
    →ここがプロンプトです。ちゃんと文字「AICU media」が描けています。
    “Content-Disposition: form-data; name=”aspect_ratio”\r\n\r\n” + “16:9\r\n”
    →縦横比「16:9」を指定しています。1:1の場合は1024×1024、16:9にした場合は 1344×768 の画像が生成されました。

    APIマニュアルはこちら

    https://platform.stability.ai/docs/api-reference#tag/Generate

    せっかくなので翻訳していきます。

    prompt プロンプト:必須

    文字列 [ 1 … 10000 ] 文字
    出力画像に表示したい内容。要素、色、被写体を明確に定義した、強く説明的なプロンプトがより良い結果を導きます。

    aspect_ratio アスペクト比:文字列

    デフ ォ ル ト : 1:1
    列挙 : 16:9 1:1 21:9 2:3 3:2 4:5 5:4 9:16 9:21
    生成画像のアスペクト比を制御します。

    mode モード:文字列 (生成モード)

    デフォル ト : text-to-image
    「text-to-image」か「image-to-image」(画像パラメータ が必要かどうか)を制御します。

    text-to-image
    このモー ド では、 必須パラメータ は prompt だけです。このモードでは、生成される画像の縦横比を制御するために、aspect_ratioパラメータをオプションで使用することができます。

    image-to-imageモードでは、さらに2つのパラメータを指定する必要があります: image — ランダムノイズの代わりに、生成の開始点として使用されます。 strength — 画像が拡散プロセスに与える影響を制御するために使用されます。また他の指定できるパラメータもかわります。

    negative_prompt 
    文字列 <= 10000文字
    出力画像で見たくないものを説明するテキスト。これは高度な機能です。
    このパラメータは sd3-turbo では動作しません。

    model モデル:文字列
    デフォルト: sd3
    列挙型: sd3 sd3-turbo
    生成に使用するモデル。
    sd3 は生成あたり 6.5 クレジットを必要とします。
    sd3-turbo は1生成あたり4クレジット必要です。
    ★100クレジット=1USDです。だいたい10円ぐらいです。安っ!

    seed シード: 数値 
    [ 0 .. 4294967294 ]。
    デフォルト: 0
    生成の’ランダム性’を導くために使用される特定の値。(このパラメータを省略するか、0を渡すとランダムなシードを使用します)。

    output_format 出力形式 
    文字列
    デ フ ォル ト : png
    列挙型: jpeg png
    生成画像のコンテントタイプを指定します。WebPも使えるようです。

    Image to Image、アップスケール、そしてエディット機能、さらに「Control」と書かれた機能がドキュメントに存在します。

    Stability AI の 画像サービスには、4つのカテゴリがあります。

    生成

    最高のテキスト画像生成サービスです。これらのサービスは、Stability AIが提供する最新のStable Diffusionモデルを活用し、専門家による微調整とマイクロサービスをワークフローに組み込んでいます。その中でも、Stable Image Coreは、迅速なエンジニアリングを必要とせず、多様なスタイルで高品質の画像を得ることができるフラッグシップサービスです。

    アップスケール

    標準的で昔からあるアップスケールから、画像を4Kの傑作に変えるクリエイティブモードまで、クラス最高の画像アップスケールです。中でもCreative Upscaleは、低画質入力からフォトリアリスティックな画像を作成するためのフラッグシップの手法です。

    エディット

    マスク(生成的塗りつぶし)や文字によるインペイントを含む、最も効果的なAIベースの画像編集サービス。背景除去などの基本的なツールだけでなく、商品配置や広告用のニッチなツールも含まれています。

    コントロール(まだ未公開)

    最高の画像から画像へのサービス。プロンプト、マップ、その他のガイドが必要な場合があります。これらのサービスは、ControlNetsやStable Diffusionモデルに基づいて構築された同様の技術を活用しています。

    色んな機能が出てきて楽しみです。
    しかも1生成あたり6~10円となると気軽に使えますね。
    本記事のGoogle Apps Scriptでの活用について、 X(Twitter)@AICUai でご感想いただければ幸いです。色々開発してみたいと思います。

    AICU Inc.は Stability AI 公式パートナーです。
    様々なアプリ開発のご相談も承っております!

    https://corp.aicu.ai/ja/stability-ai

    https://corp.aicu.ai/ja/stability-ai-membership


    Originally published at https://note.com on April 23, 2024.

  • AUTOMATIC1111 v1.9.0リリース

    AUTOMATIC1111 v1.9.0リリース

    2024年4月13日、シンプルな UI で幅広く使われるオープンソース画像生成WebUI「AUTOMATIC1111/Stable Diffusion WebUI」の最新版v1.9.0 がリリースされました。

    主要なリリース日本語訳

    • サンプリングステップではなく、モデルのタイムステップに基づいてリファイナーを切り替えるようにした。
    • ツリービューの代わりに古いスタイルのディレクトリビューを表示するオプションを追加した。
    • コールバックの順序を変更するためのUIを追加し、拡張メタデータでコールバックの順序を指定できるようにした。
    • SDXL-Lightningモデル用のSgm統一スケジューラを整備した。
    • メインUIでのスケジューラ選択をできるようにした。
    • “open images directory “ボタンが実際のディレクトリを開くようにした。

    詳細リリース&修正 日本語訳

    • LyCORIS BOFTネットワークの推論をサポート
    • 追加ネットワークカードの説明をデフォルトでプレーンテキストに
    • 追加ネットワークのハンドルのサイズを変更
    • cmd args: と ( — unix-filenames-sanitization — filenames-max-length)
    • 余分なネットワークのパラメータを生のJSONではなくHTMLテーブルで表示するようにしました
    • LoRA/LHA/LoKrに対するDoRA(weight-decompose)のサポートを追加
    • 最終世代のプロンプト履歴を無効にするコマンド引数’ — no-prompt-history’を追加
    • 置換プレビューのプレビューを更新
    • エクステンションのアクティブなgitブランチの更新のみを取得するようにした
    • アップスケールの後処理UIをアコーディオンにした
    • URLをドラッグドロップしてインフォテキストを読み込めるようにした
    • キャッシュにdiskcacheライブラリを使用
    • エクストラタブでPNG-RGBAを使用可能に
    • safetensorsメタデータに埋め込まれたカバー画像をサポート
    • NNアップスケール使用時の割り込みを高速化
    • エクストラアップスケーラー: 出力画像の最大辺の長さを制限する入力フィールドを追加
    • Extrasタブにポストプロセッシングオプションを非表示にするオプションを追加。

    API関係リリース日本語訳

    • ResizeHandleRow — 列のスケールパラメータをオーバーライド可能に
    • script_callbacks.ui_settings_callbackをより早く呼び出すようにした。extra-options-section組み込みの拡張機能で、存在しない設定を使用した場合にuiが強制終了するのを修正。
    • zoom.jsをwebuiのコンテキスト外で使用できるようにしました。
    • metadata.iniで拡張機能名のバリアントを許可するようにした
    • UIスクリプトのリロードをオプションにし、デフォルトではオフにする。
    • txt2imgと同様に、img2img関数の最初にrequest: gr.Requestを追加。
    • utilとしてのopen_folder
    • 拡張機能のスクリプトファイルをインポートできるようにした (import scripts.<ファイル名>)

    AUTOMATIC1111ユーザー分析

    最近は、Stable Diffusion を使用している人の中で ComfyUI や Fooocus といった Web UI も広く使われてきていますが、A1111 も多くのユーザーに愛されています。

    あわせて Stability Matrix も自動アップデート対応

    原稿執筆時点の最新版 Stability Matrix v.2.10.1においても自動アップデートで対応済みでした。

    A1111の下部にこのように表示されています。

    目立ったUI変更はなさそうです。

    サンプリングステップではなく、モデルのタイムステップに基づいてリファイナーを切り替える点とSDXLのスケジューラーは画作りに微妙な影響がありそうです。
    📁ボタンによって画像保存先が開けるようになったのは嬉しいですね。

    AUTOMATIC1111 で画像生成を学ぶ、Stable Diffusion 解説書はこちら!


    Originally published at https://note.com on April 19, 2024.

  • GPUなしでもできる「A1111」広告ビジュアル制作(2) – 品質向上プロンプト

    GPUなしでもできる「A1111」広告ビジュアル制作(2) – 品質向上プロンプト

    前半のおさらい

    前回の記事「広告制作チュートリアルで学ぶ!画像生成AIはじめの一歩 前編」では、A1111 を Colab で立ち上げて画像を生成する方法と、クオリティプロンプトと画像サイズを調整しハイクオリティな画像を生成する方法を学びました。

    今回の後半では、広告として機能する画像を生成する方法や編集、モデルや LoRA を変更しもっと柔軟に画像を生成する方法について解説します。

    前半+後半の内容に加え、もっと詳しい解説や画像生成の重要なポイントが学べる書籍の試し読みはこちらから!→https://j.aicu.ai/SBXL

    広告に適したハイクオリティな画像を生成しよう

    前回の記事では、クオリティプロンプトを使うことで画像のクオリティを大きく変えることができることを学びました。

    プロンプト「1girl」

    プロンプト「masterpiece, best quality, high quality, ultra detailed,1girl」

    ネガティブプロンプト「worst quality, low quality, bad anatomy, bad hands」

    広告写真としてのメッセージをプロンプト化

    つまり広告写真としてのフォトグラファーとしてのメッセージをプロンプトとモデルとの対話で実現する経験をしてみましょう。

    これに加え今回の記事では、いくつかテーマを決め、それぞれの広告として適した雰囲気の画像を生成できるプロンプトを探っていきます。

    ここでは例として、

    ・おしゃれな高級レストラン
    ・飲料とドラマ
    ・大人の女性向けの口紅
    ・若い女性向けのポップな眼鏡

    以上の広告表現に挑戦し、プロンプトとモデルでの表現を深掘りしてみます。

    重厚感のある画像を生成する

    先ほどのテーマのうち、

    ・おしゃれな高級レストラン
    ・飲料とドラマ
    ・大人の女性向けの口紅

    このテーマの広告は大人をターゲットにした広告なので、メインビジュアルには重厚感のあるビジュアルが必要です。重厚感を演出するうえで大切な要素のひとつは、人物や被写体のライティングでしょう。まずはライティングを指定するプロンプトを指定してみます。

    具体的なプロンプトの例としては、

    ・cinematic lighting
    ・professional lighting
    ・(天候、時間帯)lighting

    が挙げられます。

    「口紅の広告のメインビジュアル」を想定して、これらのプロンプトを指定したものと指定していないもので比較してみましょう。

    プロンプト「masterpiece, best quality, face focus,1girl, lip, red lip, white skin」(ライティング指定なし)
    ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

    プロンプト「masterpiece, best quality,cinematic lighting, professional lighting, face focus,1girl, lip, red lip, white skin」
    ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

    モデルや全体的な雰囲気の深み、重厚感や瑞々しさが全く違うことがわかるでしょうか。

    またここに「intricate composition」(直訳すると『複雑な構図』)を追加すると、さらにリアルな質感を演出することができます。これは AICU media 編集部の知山が ChatGPT にプロンプトを考えてもらっている時に発見したプロンプトなので、他には出回っていないレア情報だと思われます。皆さんぜひ試してみてください!

    肌の質感が深まりましたね!

    この調子で、おしゃれな高級レストラン、缶ビールもライティングを指定して生成してみましょう。またプロンプトを書くときは、クオリティプロンプト→ライティング、雰囲気→人物、被写体→背景の順に書くとバランスがとりやすいです。

    高級レストラン

    プロンプト「masterpiece, best quality,cinematic lighting,professional lighting, intricate composition, face focus,1girl, dinner, pink lip, dinner,wine,smiling, black formal dress,long sleeves,sophisticated restaurant」
    ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

    飲料とドラマ

    プロンプト「masterpiece, best quality, cinematic lighting, professional lighting, intricate composition, face focus,1girl, drinking beer, can, at home, night」
    ネガティブプロンプト「worst quality, best quality, normal quality, bad anatomy, bad hands」

    深みのある大人っぽい画像が生成できました!

    深みのある大人っぽい画像が生成できました!
    口元が気に入らないときは、image to image (img2img)でインペイントします。ついでにビールではなくジュースに置き換えてみます。

    「人生の酸っぱさ、味わってる?」

    ポップな雰囲気を出す

    次に先ほどとは一風変わって、ポップでカジュアルな雰囲気の画像を生成してみましょう。テーマは「若い女性向けの眼鏡」です。

    今回は3人の女の子を生成してみます。

    「cinematic lighting, intricate composition」を今回も入れつつも、様々な色の小物や髪色を指定することで、深みを出しつつもポップな色が目立つように仕上げていきます。

    複雑なプロンプトになりましたが、ここまできた皆さんなら読み解けるはず!

    プロンプト「masterpiece, best quality, cinematic lighting, intricate composition, looking at viewer, 2girls, kissing cheek, whispering, index finger to index finger raised, looking at another, earrings, short blonde hair, eyewear, purple beret , summer muffler, green brown contact lens,  catch light on the eyes, pink lips, indigo fingernails, <BREAK>looking at viewer, earrings, indigo short bob cut, round glasses, pink beret , blue brown contact lens,  catch light on the eyes, pink lips, indigo fingernails」

    また「BREAK」という大文字の単語を挿入することで、それ以前のトークンというプロンプトのまとまりを打ち切ることができ、BREAK以降のプロンプトが反映されやすくなります。詳しくは2024年3月に発売開始している書籍「画像生成 AI Stable Diffusion スタートガイド」で学ぶことができます。レベルアップしたい方は要チェックです!

    また今回の記事ではイアウト要素については扱いませんでしたが、領域分割については「Regional Prompter」などを使うとよいでしょう。

    https://corp.aicu.ai/ja/regional-prompter

    画像を編集し、広告にしよう

    ここまで画像が生成できたら、あとは文字を挿入して広告にすれば完成です!

    Photoshop などの画像編集ツールで画像の位置などを調節したり、文字を配置したりしてみましょう。

    画像生成AIを使って、広告をつくることができました!
    趣味や仕事での掲示物、実際の広告の案出しなど、様々な場面で応用し、周りと差をつけてみてはいかがでしょうか。

    まとめ

    以上、GPUなしでもできる画像生成AI Stable Diffusion 「AUTOMATIC1111 WebUI」のはじめかたについて紹介しました。

    より深めていきたい方々には3月29日に発売されたばかりの書籍「画像生成AI Stable Diffusion スタートガイド」がおすすめです。今回の記事で解説しきれなかったモデルの変更や LoRA、様々なパラメータの解説や微調整が可能になる書籍です。ぜひ試し読みしてみてください!https://j.aicu.ai/SBXL

    img2imgの解説記事はこちら
    ControlNetの解説記事はこちら

    最新情報はAICU Inc. のX(Twitter)@AICUai をご参照ください。次回をお楽しみに

    映像・広告クリエイティブ業界の公式認定講習会・教育関係者向けの団体講習会のお問い合わせはこちらから

    https://corp.aicu.ai/workshop

  • GPUなしでもできる「A1111」広告ビジュアル制作(1) – プロ向け画像生成AIはじめの一歩

    GPUなしでもできる「A1111」広告ビジュアル制作(1) – プロ向け画像生成AIはじめの一歩

    新年度になり、ポスターなどの掲示物やバナー広告が新たに必要になってくることはありませんか?

    3月に書籍「画像生成AI Stable Diffusion スタートガイド」を出版したAICU media 編集部ですが、映像業界や広告クリエイティブ方面の読者の方から「漫画やイラストレーション以外の画像も作りたい!」というフィードバックをいただきました。

    そこでこの記事では、AICUクリエイティブ・ディレクターの 知山ことね が中心に、前後編全2回にわたってこれまでのデジタルイラストレーションではなく、広告写真や映像業界、ミュージックビデオなどに使えるアーティスティックな写真、キービジュアルや背景を AI で生成し、文字やロゴを付け足してポスターや広告を制作する手法を画像生成 AI を触ったことがない方に向けて解説します。

    女性AIクリエイターならではの感性にも注目です!

    GPUなしでもできる「A1111」広告ビジュアル制作

    第1回目では画像生成AIをブラウザで利用する「AUTOMATIC1111 WebUI」(以下「A1111」)の起動、操作方法の解説、第2回目ではよりよい画像を生成するプロンプトのコツや画像の編集を学んでいきます。最終的にはこのようなキービジュアルが作れるようになります!

    こちらを最終的な広告クリエイティブに使うことはありませんが、実際のモデル事務所さんに依頼したり、クライアントさんとの打ち合わせに使う「カンプ(comprehensive layout)」としては十分なクオリティと考えます。

    今回はAICUがオリジナルで提供するGPU 搭載 PC が無くてもできるプロセスを紹介していきますので、ぜひハンズオンで一緒に生成してみてください!

    AUTOMATIC1111とは

    AUTOMATIC1111(以下A1111) とは、Stability AI 社が開発している画像生成AI「Stable Diffusion」を Web ブラウザで操作するために開発された Web UI です。オープンソースで開発されており、GiHub で公開されているプログラムを実行することで誰でも無償で利用することができます。

    A1111 はローカルでも実行できますが、Google Colaboratory (以下Colab) で使用できるスクリプトがいくつか開発、公開されています。無料のColabでは動作の保証がされていませんが、月1,179円(2024年4月現在)の Colab Proを使うことで Stable Diffusion を超高速な環境で使用することができます。

    Google Colaboratory Pro を使用する https://colab.research.google.com/signup/pricing?hl=ja

    今回は TheLastBen さんが開発したスクリプトをもとに AICU が開発したこちらのスクリプトを紹介、使用していきます。これは広告用画像を生成するために実写系の画像を生成するモデルを自動でインストールするように作られており、実行するだけですぐに写真のような画像が生成できるようになっています。

    A1111を起動しよう

    まずは Colab で A111 を起動しましょう。先ほどのAICU のスクリプトへのリンクをクリックしてください。すると AICU の GitHub が開きます。

    すると「Preview」画面の左に、「Open in Colab」のボタンが表示されます。ここをクリックすると、Colab でこのノートブックが開きます。

    Colab の画面に移れたら、「ドライブにコピー」をクリックして自分の Google Drive にノートブックをコピーしましょう。実行結果を残すために、自分のドライブに保存した方のノートブックを使用します。

    次にランタイムに接続し、実行していきます。

    「Connect Google Drive」から「Start Stable-Diffusion」までのセルの左上の矢印を上から順番にクリックし、セルを実行していきます(ControlNet は実行しなくてよい)。

    実行すると、Google アカウントへのアクセス許可を求めるウインドウが表示されるので、確認して接続を許可します。

    実行が全て終わると、最後のセル「Start Stable-Diffusion」の実行結果に URL が表示されます。

    これをクリックすると、A1111 の Web UI が開きます。これで起動は終了です。

    画像を生成しよう

    早速画像を生成してみましょう。今回インストールされている画像生成モデル(=画像生成AIにおける脳に当たる巨大なcheckpointファイル)は「yayoi_mix」という こたじろうさん(@AiCreatorS1881)さん開発のモデルで、Stable Diffusion1.5系の日本風の顔立ちの女性を生成するのが得意なモデルになっています(ライセンスはこちら)。

    「Stable Diffusion checkpoint」に「yayoi_mix_v25-fp16.safetensors」が表示されていることを確認したら、プロンプトで画像を生成していきます。Web UI 上部の「Prompt」欄に、生成してほしいものを英単語、英文で入力します。

    まずは、女性を1人生成してみましょう。

    「Prompt」に「1girl」と入力し、画面右のオレンジ色のボタン「Generate」をクリックします。

    右下に画像が生成されました!

    生成した画像は画像右上のダウンロードアイコンで PC にダウンロードできるほか、ドライブにも自動で保存されています。

    PC に保存する場合はこのアイコンをクリックします。

    ドライブの場合は、マイドライブの sd > stable-diffusion-webui > output > txt2img > 日付 のフォルダに格納されています。Colab 上の画面でも確認ができます。

    画面右のフォルダアイコンをクリックしてドライブのファイルを確認できます。画像ファイルはダブルクリックで表示できます。

    A1111 の各種設定を確認しよう

    基本的な画像の生成方法がわかったので、次は画像サイズ等の基本的な設定を確認していきましょう。主な機能は「Generation」タブにあります。

    初心者が覚えておきたい機能は以下の通りです。

    ・Negative Prompt

    プロンプトの逆で、生成したくないものを入力します。

    ・Width, Height 

    生成する画像の縦横サイズを設定します。単位は pixel です。

    ・Batch count

    1 度に生成する画像の枚数を設定します。最大 100 枚まで指定できます。

    ・Batch size

    並行して生成する画像の枚数を指定します。クラウド GPU を利用するなど大容量の VRAM を使えるとき以外は基本的に 1 枚を指定します。

    この他にも A1111 にはたくさんのオプションやできることがあるので、もっと深く学んでみたいという方は、2024年3月に発売開始している書籍「画像生成 AI Stable Diffusion スタートガイド」を参考にしてみてください!

    第3章の103-105ページ近辺で髪型やポーズなどもしっかり紹介しています。もちろんWebを検索すると様々なテクニックも出てくるので調べてみると良いと思います。けっこう英語の勉強になります。

    プロンプトを工夫し、広告のような画像を生成しよう

    それでは、実際に広告として使用できるようなハイクオリティな画像を生成していきましょう。画像のクオリティを上げる上で重要なのは、画像サイズとプロンプトです。順番に見ていきましょう。

    画像サイズのコツ

    Stable Diffusion(今回使用しているのは Stable Diffusion 1.5)は、512×512px の画像を学習しています。そのため512pxを基準とした画像サイズを設定することで、最も質の良い画像を生成することができます。

    画像の縦、横が極端に長いと画像に写る人物が増えたり、崩れたりといったことが起きやすくなります。

    例)720px×512px で生成した画像と1024px×512pxで生成した画像

    プロンプトのコツ

    プロンプトには「クオリティプロンプト」と呼ばれるプロンプトを入力すると、高品質な画像を生成することができるようになります。これは「high quality」「mastarpiece」といったハイクオリティであることを表す単語を指定することで、AI が一定の美学に基づき高品質であると判断した画像の要素を引き出して画像を生成することを可能にする考え方です。

    モデルの種類や好みにより様々な書き方があり、またこれと定まった書き方もありませんが、基本的にはプロンプトに「masterpiece, best quality, high quality, ultra detailed」など、ネガティブプロンプトに「worst quality, low quality, bad anatomy, bad hands」などを入力することが一般的です。

    では、クオリティプロンプトの有無でどのぐらい画像の質が変化するのか確かめてみましょう。seed という画像のランダムさを制御する乱数を固定し、プロンプトを変えて生成してみます。

    プロンプト「1girl」

    プロンプト「masterpiece, best quality, high quality, ultra detailed,1girl」

    ネガティブプロンプト「worst quality, low quality, bad anatomy, bad hands」

    女の子がはっきりと生成されて光の雰囲気もわかりやすくなり、高品質な画像になったことがわかります。

    前半のまとめ

    「広告制作チュートリアルで学ぶ!画像生成AIはじめの一歩」前半では、A1111 を Colab で立ち上げて画像を生成する方法と、クオリティプロンプトと画像サイズを調整しハイクオリティな画像を生成する方法を学びました。

    次回後半では、広告として機能する画像を生成する方法や編集、モデルや LoRA を変更しもっと柔軟に画像を生成する方法について解説します。

    前半+後半の内容に加え、もっと詳しい解説や画像生成の重要なポイントが学べる書籍の試し読みはこちらから→https://j.aicu.ai/SBXL

    img2imgの解説記事はこちら
    ControlNetの解説記事はこちら

    最新情報はAICU Inc. のX(Twitter)@AICUai をご参照ください。次回をお楽しみに

    映像・広告クリエイティブ業界の公式認定講習会・教育関係者向けの団体講習会のお問い合わせはこちらから

    https://corp.aicu.ai/workshop

  • 最先端の画像生成AIを深掘りする教科書決定版『画像生成AI Stable Diffusion スタートガイド』3月29日発売 #SD黄色本

    最先端の画像生成AIを深掘りする教科書決定版『画像生成AI Stable Diffusion スタートガイド』3月29日発売 #SD黄色本

    Stability AI 公式パートナーによるAI時代のクリエイターのための教科書。東京AI祭での特別イベントも。Amazonでの購入は https://j.aicu.ai/SBXL

    Amazonでの購入は https://j.aicu.ai/SBXL

    『画像生成AI Stable Diffusion スタートガイド』白井暁彦& AICU media編集部 著。AIメイキング解説 フィナス/らけしで

    「つくる人をつくる」デジタルクリエーションの最前線をいく、デジタルハリウッド大学発の米国スタートアップ「AICU Inc.」は、この度、画像生成AIの革新的技術「Stable Diffusion」を徹底解説した教科書『画像生成AI Stable Diffusion スタートガイド』をリリースしました。2024年3月29日にSBクリエイティブより刊行される本書は、AIによる画像生成技術に関心を持つすべての人々に、基礎から応用までを段階的に学べる一冊として開発されました。

    書籍のハイライト:

    AICU Inc.紹介: 「つくる人をつくる」をビジョンに、生成AIクリエイティブの最新の話題やテクニックを楽しい雰囲気の日々のブログで紹介する「AICU media編集部」により執筆。Webデザインや映像、ゲーム、メタバース、VTuber、キャラクターイラストレーションなどに多様に活躍する30年の経験を持つ著者(白井暁彦博士/しらいはかせ)が中心に、教育の現場や、豊富な知見と実績を背景に、未来のクリエイター育成に貢献します。

    技術の解説: 話題の画像生成AI「Stable Diffusion」「Stable Diffusion XL」とオープンソースツール「AUTOMATIC1111」を中心に、画像生成AIの基本からプロフェッショナルな絵作りのための応用テクニック、最新のテクノロジー解説を網羅。

    イラストレーションが好きな人にこそ読んで欲しい: 美しく、楽しい誌面と優しい言葉での解説。スマホで使えるniji・journeyや、最新の簡単インストーラー「Stability Matrix」、プロのイラストレーターの作例、解説、プロンプトのテクニックや背景で動いている技術の仕組み、image2image、ControlNet、LoRAでオリジナルキャラをAIに覚えさせるだけでなく、自分の子供時代の画像を学習させて不可能なコラボレーションを実現する方法など、技術系だけでなく、今後の生成AI時代に大きな進化が期待されるイラストレーターや漫画制作、映像スタジオといった幅広い用途に応用できる技術を丁寧に解説しています。

    実践的学習: GPUや高度なプログラミング知識がなくても、Google Colaboratoryを使って手軽に実践できる内容を収録。学生のアクティブラーニング、集団で学ぶワークショップ、コンピュータサイエンスやコンピュータグラフィックスの研究に入って行くための基盤的な知識や、ニューラルネットワークに関する基礎知識、専門用語などを丁寧に解説。

    クリエイター視点での法律・ライセンス・倫理: 画像生成AIを用いる際の著作権や倫理面での注意点を解説。法律の解釈だけでなく、プロのクリエイターとして安全かつ責任ある使用における注意点やライセンス解説を随所に盛り込んでいます。

    最新情報: 2024年3月時点での最新情報に基づき、動画生成やデジタルイラストレーションの専門技術を長期にわたって理解できる歴史俯瞰や用語解説が満載。

    オープンソースとコミュニティによるアップデート: 書籍だけじゃ終わらない、GitHubやGoogle Colab によるオンラインでの最新ソースへのアクセス、AICU mediaによる楽しい画像生成コミュニティでのサポートやワークショップなどのイベント情報、お仕事情報など、長く、クリエイターとして成長していけるためのパスポートになっています。

    本書の目的と読者層:

    『画像生成AI Stable Diffusion スタートガイド』は、幅広い読者を想定し、中高生、美術・芸術・イラストレーションの学生、クリエイター、そしてAI技術に興味を持つ一般読者まで、幅広い層に向けています。本書を通じて、今後30年のクリエイティブ産業をリードする知識とスキルを身につけることができます。プロフェッショナルだけでなく、趣味で美しい絵を生成したい方や、ビジネスシーンでのプレゼンテーション資料作成に利用したい方にも最適なガイドブックです。

    「画像生成AI Stable Diffusion スタートガイド」出版社情報より:

    定価:2,640円(本体2,400円+10%税)
    発売日:2024年3月29日(金)
    ISBN:978-4-8156-2456-9 サイズ:B5判 ページ数:224
    著者:白井 暁彦、AICU media

    画像生成AIの1つであるStable Diffusionを導入・体験するための入門書です。
    プログラミングが分からない、ネットの情報を見てもうまく使えなかった、そんな悩みを抱えている人でもAIを使った画像生成体験ができるようにしっかりサポートします。

    本書籍では以下の環境で解説します。
    ・Google Colab Pro環境
    ・Windows10/11 NVIDIA GPU環境
    ・MacOS Apple silicon 環境

    本書籍では以下の内容を取り扱います。
    ・拡散モデルによる画像生成の原理
    ・Stable Diffusionを使用するためのWebUI環境構築
    ・テキスト/画像を元に画像を生成する(txt2img/img2img/ControlNet)
    ・Google Colab 上で追加学習を行う(LoRAの作成)

    本書ではソフトウェアの使い方解説だけではなく、自分で設定できるセッティングやパラメータが画像生成にどのように関わっているのかについても解説しているため、AI技術について知識を深めたい人にとってもおすすめです。
    また、既にAIを活用している方にもご満足いただけるように、よりAI画像制作を極めるヒントとなるようなStable Diffusionを含むAI画像生成を利用した作例のメイキング方法やプロンプト構成/生成パラメーターなどの情報を公開・解説しています。ハンズオン形式で最後まで取り組むことで、画像生成AIへの理解をより深めることができる1冊となっています。

    全ての目次とコラムを紹介します!

    Chapter 1 画像生成AI について知ろう

    1-1 AI で画像を生成してみよう
    1-2 画像生成AI の誕生と変遷
    1-3 2024 年での「AI の定義」を考えてみよう
    1-4 ニューラルネットワークについて知っておこう
    1-5 拡散モデルによる画像生成の原理を知っておこう

    Chapter 2 環境構築をしてはじめよう

    2-1 Stable Diffusion を使う環境を用意しよう
    2-2 Google Colab での環境構築
    2-3 Stability Matrix をローカル環境で構築する
    2-4 簡単な言葉で画像を生成する
    2-5 モデルをダウンロードする
    2-6 VAE をダウンロードする

    Chapter 3 プロンプトから画像を生成してみよう

    3-1 プロンプトで意のままの画像を作り出す
    3-2 ネガティブプロンプトを構築する
    3-3 思い通りの画像を生成する
    3-4 画像の解像度を上げよう
    3-5 様々なパラメータを調整しよう
    3-6 様々なプロンプトを試してみよう

    Chapter 4 画像を使って画像を生成してみよう

    4-1 img2img でできることを知ろう
    4-2 Sketch を使って画像を生成しよう
    4-3 Inpaint で画像を編集してみよう
    4-4 Inpaint を応用して画像を修正する
    4-5 Outpainting で画像を拡張する
    4-6 img2img で画像の解像度を上げる
    4-7 拡張機能でアップスケーリングをしてみよう

    Chapter 5 ControlNet を使ってみよう

    5-1 ControlNet について知っておこう
    5-2 ControlNet をダウンロード・準備する
    5-3 ControlNet を使って画像を生成する
    5-4 プリプロセッサの働きを理解しよう

    Chapter 6 LoRA を作って使ってみよう

    6-1 追加学習でできることを知ろう
    6-2 LoRA を使用して画像を生成しよう
    6-3 自分の画風LoRA をつくる
    6-4 様々な種類のLoRA をつくってみよう
    6-5 学習内容を出力させてみよう

    Chapter 7 画像生成AI をもっと活用しよう

    Interview Guest フィナス
    Interview Guest らけしで
    画像生成AI の活用と注意点
    AUTOMATIC1111/WebUI おすすめ拡張機能
    関連用語

    充実したコラム!

    ページ番号とともに紹介します

    使用するGoogle アカウントに注意しよう 14
    変わりゆく社会とAI の関係性 25
    利用しているプログラムについて 43
    Google Colab のエラーに対応しよう 45
    Google Colab の計算資源を有効に管理しよう 47
    パッケージ選択ではエスケープしないように注意しよう 57
    画像の保存場所を変更しよう 62
    コミュニティで質問してみる 63
    StableDiffusion シリーズとは 65
    CLIP のゼロショット転移性 78
    embedding とは 82
    デフォルメキャラ風の画像を生成してみよう 106
    色の変化を抑える設定をしておこう 111
    下書きから画像を生成してみよう 114
    Mask blur を調整して自然に見せる 118
    拡張機能とは 124
    オープンソースライセンスの確認 131
    複数のControlNet を使用する 141
    Openpose をもっと使いこなそう 144
    これからのLoRA の活用方法 149
    LoRA の学習データで気を付けるべきこと 154
    手元に保管しているモデルファイルをLoRA 学習に使う 158
    写真や写実的な画像を学習させる場合 161
    学習の全体像を把握しよう 167

    主著者紹介:
    白井暁彦(Akihiko Shirai, PhD /しらいはかせ )(X アカウント:@o_ob)

    エンタメ・メタバース技術の研究開発に関わる研究者、ホワイトハッカー作家、米国スタートアップ「AICU Inc.」「Hidden Pixel Technology Inc.」のCEO。東京工芸大学写真工学科卒、同画像工学専攻修了。キヤノン株式会社とグループの研究所より生まれた英国・Criterion Software にて世界初の産業用ゲームエンジン「RenderWare」の普及開発に参加、その後、東京工業大学知能システム科学専攻に復学。博士学位後、NHK エンジニアリングサービス・次世代コンテント研究室、フランスに渡りENSAM 客員研究員、国際公募展Laval Virtual ReVolution の立ち上げ、日本科学未来館科学コミュニケーター神奈川工科大学情報メディア学科准教授を経て、2018 年よりデジタルハリウッド大学 大学院客員教授 およびグリー株式会社GREE VR Studio Laboratory Director。スマートフォン向けメタバース「REALITY」を開発・運用するREALITY 株式会社の立ち上げを通して、Virtual YouTuber などXR ライブエンタメ技術のR&D、国際発信など、メタバースエンタテイメントの未来開発や知財創出を中心に、自らエンタテイメントのライブプレイヤーとして世界に向けた開発・発信活動方法論化しながら世界中のエンタテインメント技術業界に数百人の規模でクリエイターを育成している。2023 年よりデジタルハリウッド大学発米国スタートアップ企業「AICU Inc.」CEO。生成AI 時代に「つくる人をつくる」をビジョンに英語、日本語、フランス語、プログラミング言語などでオープンな作家活動を続けている。日本バーチャルリアリティ学会IVRC 実行委員会委員。芸術科学会副会長。著書に『WiiRemote プログラミング』(オーム社)、『白井博士の未来のゲームデザイン – エンターテインメントシステムの科学-』(ワークスコーポレーション)、『AI とコラボして神絵師になる 論文から読み解くStable Diffusion』(インプレスR&D)他。

    アシスタントクリエイター 知山ことね(X アカウント:@ChiyamaKotone)

    デジタルイラストレーション、テクニカルライター、チャットボット開発、Web メディア開発を担当するAICU Inc. 所属のクリエイター。AICU Inc. のAI 社員「koto」キャラクターデザインを担当している。小学校時代に自由帳に執筆していた手描きの雑誌「ザ・コトネ」「ことまがfriends」のLoRA が話題に。技術書典15「自分のLoRAを愛でる本」他。

    AICU Inc. について:Xアカウント@AICUai https://corp.aicu.ai/ja    info@aicu.ai

    「生成AI時代につくる人をつくる」をビジョンに活動する2023年に設立された米国シリコンバレーを本拠地にするデジタルハリウッド大学発のスタートアップ企業です。LINEアカウント「全力肯定彼氏くん」「AI確定申告さん」、Webに住むAIアイドル「AICuty」、クリエイティブAIレポーター「Koto」など楽しみのあるAI体験を開発する「AIDX Lab」、わかるAIを楽しく届ける AI総合メディア「AICU media」、AI人材教育コンテンツ開発、障害者向けワークショップ開発、AIキャラクター開発運用、某有名企業の新技術プロトタイプコンテンツ開発など「クリエイティブAI」ならではのコンテンツ技術開発・体験開発を世界的な企業に展開している価値開発企業。画像生成AI「Stable Diffusion」を開発公開した Stability AI 公式パートナーであり、Google for Startups認定スタートアップでもあります。1994年に杉山知之が創立したデジタルハリウッド大学(愛称「デジハリ」)はCGやデジタルクリエーションを専門に学ぶ学校ですが、開学のころからずっと変わらず伝えていることは『すべてをエンタテインメントにせよ!』 。エンタテイメント技術の研究開発で30年の経験を持つCEO白井暁彦とAI社員、少数精鋭の人間味あふれる多様なスタッフや協力クリエイターとともに、すべてをエンタテインメントにするまで追求する文化が AICUにも息づいています。

    AICU media 編集部   https://note.com/aicu media@aicu.ai

    「わかるAIを楽しく届ける」総合AI情報メディア。AIレポーター「Koto」がクリエイティブAIを中心に24時間365日最新情報をお届けしています。 活動メディアはnote、 X(Twitter)、 動画メディア、各種商用サイトへの記事提供、同人誌・商業書籍・電子書籍など書籍企画との開発、子ども向けからお年寄り向けまで「つくる人をつくる」をビジョンに幅広いワークショップやイベントを開発しています。AI先進企業の新サービスの普及展開のお手伝い、AI活用したい企業の技術検証や社内展開、学校・スクール等のコンテンツ開発についても案件をお待ちしております。

    ファンコミュニティは note.com/aicu/membership

    ご購入とお問い合わせ:

    『画像生成AI Stable Diffusion スタートガイド』は、全国の書店およびオンライン書店でお買い求めいただけます。

    Amazon購入ページ: https://j.aicu.ai/SBXL

    最新情報は AICU media note.com/aicu

    X(Twitter) @AICUai https://twitter.com/AICUai

    @PRTIMES_JP
    最先端の画像生成AIを深掘りする教科書決定版『画像生成AI Stable Diffusion スタートガイド』発売 https://j.aicu.ai/SBXL
    https://prtimes.jp/main/html/rd/p/000000013.000133647.html

  • [保存版] Animagine XL 3.1 生成比較レポート

    [保存版] Animagine XL 3.1 生成比較レポート

    つくる人をつくる!AICU media の知山ことねです。

    Animagine XL 3.1リリース

    2024年1月16日に公開された Stable Diffusion の画像生成モデル「Animagine XL 3.0」から、新バージョンとなる Animagine XL 3.1 がリリースされました!

    この記事では、Animagine XL 3.0 と比較して画風などに違いはあるか、また Animagine XL 3.1 から搭載された新たなタグについて紹介していきます。

    【関連記事】

    漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較を行いました!

    XL 3.1 では、Animagine XL 3.0 で重要だったプロンプトも引き続き使用できます!

    https://note.com/aicu/n/n44085d702617

    Animagine XL 3.0 リリースノートはこちら。

    https://note.com/aicu/n/nd05f3a656dd8

    Hugging Face はこちら

    https://huggingface.co/cagliostrolab/animagine-xl-3.1

    公式リリース 和訳(一部抜粋)

    Animagine XL 3.1は、前バージョンのAnimagine XL 3.0を強化したもので、より高い品質でアニメスタイルの画像を生成できるように改良されています。有名なアニメシリーズからのより幅広いキャラクター、最適化されたデータセット、より良い画像作成のための新しいタグが含まれています。アニメキャラクターの正確で詳細な表現を生成することで、アニメファン、アーティスト、コンテンツクリエイターにとって価値あるリソースとなることを目指しています。

    Animagine XL 3.0 をより高品質にしたということですね!

    Animagine XL 3.0 との比較

    それでは、実際に生成して Animagine XL 3.0 と比較していきましょう。
    今回生成に使用した環境は、Windows10、NVIDIA GeForce RTX 3060 搭載の VRAM6GB の GALLERIA ノート PC に直接インストールした ComfyUI です。

    画風

    まずシンプルなプロンプトで生成し、Animagine XL 3.0 と比較してみます。

    プロンプト: best quality, 1girl
    ネガティブプロンプト: worst quality, low quality, nomal quality, bad anatomy, NSFW

    Animagine XL 3.0

    Animagine XL 3.1

    強い光源、耳の見える髪型、逆光感などの大きな特徴はそのまま残っていますが、Animagine XL 3.0 の特徴だった切れ長の目とピンクの頬が目立たなくなり、露出度も軽減されました。また Animagine XL 3.0 では肌がつやっとする雰囲気がありましたがそれも軽減され、全体的に落ち着いたように感じます。

    また Animagine XL 3.0 よりも Animagine XL 3.1 の方が線画が細くはっきり出ていて、厚塗り感、立体感が減り少し平面的になった印象を受けますね。

    タグ

    Animagine XL 3.0 には画風を指定する「年代タグ」やクオリティを指定する「クオリティタグ」がありましたが、Animagine XL 3.1 ではそれらがアップデートされたことに加え、「Aesthetic Tags」が追加されました。

    クオリティタグ

    Animagine XL 3.1 公式 Hugging Face より

    従来のクオリティタグから数値が少し調整され、タグ名が一部変更されました。よく使用する「masterpiece」「best / worst / low quality」は変わらないので、今まで通りの感覚で使えそうです。

    年代タグ

    Animagine XL 3.1 公式 Hugging Face より

    「2024」が追加され年が少しずつ調整されていること、「late」が「recent」に変更されたことが主な変更で、年代タグも大きくは変わっていません。

    実際の生成画像比較

    newest (2021–2024)

    Animagine XL 3.0 に似た絵柄です

    recent (2018–2020)

    newestを少し繊細にした雰囲気です。VTuber全盛期ですね。

    mid (2015–2017)

    退廃的な雰囲気が可愛いです
    明らかに画風がVTuber風ではなくなってきました。

    early (2011–2014)

    セピアな雰囲気が出ています

    https://j.aicu.ai/Mag2405

    Oldest (2005–2010)

    年代的には涼宮ハルヒや長門有希が流行った時期ですね。
    90年代風のテイストもありますが、明らかに描きわけができています。

    レーティングタグ(年齢制限タグ)

    Animagine XL 3.1 公式 Hugging Face より

    センシティブな表現を調節するレーティングタグも、Animagine XL 3.0 から大きく変化はありません。プロンプトとネガティブプロンプトを使い分けて露出度を調節しましょう。

    Aestheticタグ

    アニメデータに特化したViT(Vision Transformer)画像分類モデルと、コンテンツの美的価値を評価するモデルshadowlilac/aesthetic-shadow-v2を利用し、視覚的に魅力的であるものを生成するタグです。

    aesthetic

    プロンプト「best quality, 1girl, very aesthetic」

    カメラアングルやポーズがダイナミックになりました!

    「aesthetic」(イェステティック;美的)というプロンプトは Nijijourney や Novel AI でも有効なので、ぜひ試してみてください!

    推奨設定

    公式 Hugging Face で紹介されている推奨設定、プロンプトを紹介します。

    「Absurdres」とは造語で、absurd-res、ありえないぐらい高解像度、という意味のようです。

    プロンプト

    masterpiece, best quality, very aesthetic, absurdres

    ネガティブプロンプト

    nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]

    CFG Scale

    低め(5–7)

    Sampling Steps

    30以下

    Sampler

    Euler a(Euler Ancestral)

    https://j.aicu.ai/Mag2404

    ギャラリー

    お気に入りの生成画像です!

    パステルカラー!

    抜け感

    kotoちゃん

    oldest

    newest

    アニメ風

    皆さんもお気に入りの画像が生成できたら、ぜひご共有ください!

    メンバーオンリー画像投稿コーナー https://note.com/aicu/membership/boards

    https://note.com/aicu/membership/boards/61ab0aa9374e/posts/17273820a798

    Animagine XL 3.0 おすすめのプロンプトはこちら

    ANIMAGINE XL 3.0 画風が変わる!おすすめプロンプト集
    https://note.com/aicu/n/n44085d702617

    Stable Diffusion — ControlNet入門はこちらから
    https://note.com/aicu/n/nde6fe41f077b

    img2img 入門シリーズはこちらから。
    https://note.com/aicu/n/n08ebe0637a41

    この下にGoogle Colabで動作する「AUTOMATIC1111/Stable Diffusion WebUI」へのリンクを紹介しています。

    https://note.com/aicu/membership/boards/61ab0aa9374e/posts/7cab00942b22?from=self

    メンバーシップ向けサポート掲示板はこちら!応援よろしくお願いします!

    AICU mediaによる新作書籍「画像生成AI Stable Diffusionスタートガイド」ついに予約開始です!(2024年3月29日リリース)

    詳細はこちらから https://ja.aicu.ai/sbxl/

    今回の記事の内容はAICUマガジンでもご覧いただけます

    AICU magazine Vol.1 2024年4月号 https://j.aicu.ai/Mag2404

    AICU magazine Vol.1 2024年5月号 https://j.aicu.ai/Mag2405

    AICU:AIクリエイターユニオンでは皆様のご質問をお待ちしております
    https://note.com/aicu/membership/boards

    Originally published at https://note.com on March 19, 2024.

  • Stability Matrixのエラーを確認しよう

    Stability Matrixのエラーを確認しよう

    Stability Matrixのエラーを確認しよう

    Stability Matrixでのエラーは英語とコマンドラインで表示されるので敬遠されがちですが、実際には自力で環境構築を進めるのに比べて理解しやすい形式になっています。インストール時のエラーについて、多くの場合は「もう一度試せばよい」ということも多いので、諦めずに繰り返しインストールと、翻訳や検索をしてみると理解に繋がって無駄な時間を過ごすことがないでしょう。

    WebUI起動後のエラーメッセージの多くは、Colabの時と同じくGradioのWebインタフェースの右下に表示されています。さらに細かなエラーメッセージは「Stability Matrix」の「Launch」タブにも表示されています。特にエラーが起きていなくても、WebUIでは表示されない画像生成のプロセスや経過時間を確認できるので、表示する習慣をつけておくと良いでしょう。

    パッケージ選択ではエスケープしないように注意する

    最初のパッケージ選択は慎重に操作することをおすすめします。何か間違えても必ずエラーメッセージ等は出ていますので、強制終了などはしないで丁寧にログは見ていきましょう。
    最初の「Packages」でパッケージ選択をしますが、インストール中にエスケープキーなどで抜けないように気をつけましょう。抜けてしまった場合は「Packages」下部の「+パッケージの追加」から追加できます。

    欲張って一度に複数のパッケージを入れようとしない

    ・本書の解説は「 AUTOMATC1111/WebUI」の「v1.7.0」もしくは本書刊行時点での最新版は「v1.8.0」で行っています。インストール時に「Version」プルダウンで選択することで過去のバージョンもインストールできます。
    ・複数の同名パッケージをインストールするときに「表示名」を変更するとバージョン違いでインストールできます(更新すると最新版になってしまいますので注意)。

    動作確認のために「Stable Diffusion 1.5」をダウンロードしておく

    「Model Browser」から「Hugging Face」の「Base Models」からインストールできます。最低でも「Stable Diffusion 1.5」はインストールしておきましょう(「Stable Diffusion XL」が動けば何の問題もありませんが、メモリ不足でロードできないという問題も多く発生しますので)。

    「Fooocus」や「ComfyUI」をインストールしておく

    最近は「Fooocus」や「ComfyUI」に関する情報も多く、モデルのダウンロードやセットアップなどは共通の基盤でもあるので、これらのパッケージのインストールやセットアップも実施しておくと 問題が解決することもあります。逆を言えば、「Fooocus」や「ComfyUI」が動いているのに「AUTOMATIC1111/WebUI」だけが動かない、という状態であれば、ハードウェアのスペックではなく、WebUIやモデルの選択、拡張機能などのセッティングが問題であると粗く絞ることもできます。

    Packageにインストールされたその他のパッケージの3点メニュー「…」から「アンインストール」、「アップデートを確認」や「共通画像フォルダ」の設定ができます。「Model Sharing」で「Symlink」にすると、モデルデータをリンクファイルとして共有できるのでディスクの容量を節約することができます。

    Stability Matrixの GitHub Issues

    https://github.com/LykosAI/StabilityMatrix/issues

    2024年3月3日時点で v2.8.3、Issues (不具合報告)は 142件存在しますが、積極的に解決が進んでいるようです。似たようなエラーがあったときはそのキーワードで探してみると、世界中の利用者が互助的に解決していることもあります。特にMac版はリリースされたばかりなので問題があるかもしれませんが、同じような問題で詰まっている方も多くいるので情報も見つかりやすい状況です。
    英語でのIssueを立てられるようになれば、オープンソースの貢献者への第一歩です。

    noteのハッシュタグ「#StabilityMatrix」

    日本語では note に情報が集まっています。ハッシュタグ「#StabilityMatrix」はこちらで確認することができます。

    https://note.com/hashtag/stabilitymatrix

    人気」、「 急上昇」、「 新着」、「 定番 」があり、インストールや最新情報でのトラブルシューティングに活用してください。

    注意:オープンソースの開発者は常に「みんな」のことを考えて動きます。個別の環境に関する問題を発見することはありがたいですが「僕の環境で動きません」だけではサポートは難しくなります。
    有償無償に関わらず、質問する場合は自己紹介や、自分の環境に関する丁寧な説明を行いましょう。雑な質問の仕方は雑な扱いになり、コミュニティが荒れるだけでなく、初心者にとって優しくない環境を作り、ひいては自分も振りかぶってしまいます。これは日本語や英語でも変わりません。

    AICU media コミュニティで質問してみる

    https://note.com/aicu/membership/join

    AICU media メンバーシップ掲示板もご活用ください


    Originally published at https://note.com on March 3, 2024.

  • AUTOMATIC1111 v1.8.0リリース

    AUTOMATIC1111 v1.8.0リリース


    日本時間2024年3月2日、人気のあるオープンソース画像生成WebUI「AUTOMATIC1111/Stable Diffusion WebUI」の最新版v1.8.0 がリリースされました。

    • Update torch to version 2.1.2
    • Support for SDXL-Inpaint Model (#14390)
    • Automatic backwards version compatibility (when loading infotexts from old images with program version specified, will add compatibility settings)
    • Implement zero terminal SNR noise schedule option (SEED BREAKING CHANGE, #14145, #14979)
    • Add a [✨] button to run hires fix on selected image in the gallery (with help from #14598, #14626, #14728)
    • Separate assets repository; serve fonts locally rather than from google’s servers
    • Official LCM Sampler Support (#14583)
    • Add support for DAT upscaler models (#14690, #15039)
    • Extra Networks Tree View (#14588, #14900)
    • Prompt comments support

    以下、主要な機能の日本語訳です

    torch をバージョン2.1.2に更新
    ソフトインペイント (#14208) を追加
    FP8のサポート (#14031, #14327)
    SDXL-Inpaintモデルのサポート (#14390)
    アップスケーリングと顔復元アーキテクチャにスパンドレルを使用 (#14425, #14467, #14473, #14474, #14477, #14476, #14484, #14500, #14501, #14504, #14524, #14809)
    古いバージョンとの自動互換性 (プログラムバージョンを指定して古い画像からテキスト情報を読み込む場合、互換性設定を追加)
    ゼロターミナルSNRノイズスケジュールオプションを実装 (SEED BREAKING CHANGE, #14145, #14979)
    ギャラリーで選択された画像の hires.fix を実行する[✨]ボタンを追加 (#14598, #14626, #14728からのヘルプ)
    アセットリポジトリを分離し、フォントをgoogleのサーバーからではなくローカルで提供するように。
    公式LCMサンプラーのサポート (#14583)
    DATアップスケーラーモデルのサポートを追加 (#14690, #15039)
    ネットワークツリービューの追加(#14588, #14900)
    NPUのサポート(#14801)
    プロンプトコメントのサポート

    Stability Matrixのほうはまだ対応できていないようです。
    追記:自動アップデートで対応されました。

    破壊的変更#14145 #14978 はともにリファイナーのスケジューラに関するものです。

    1.7.0→1.8.0の全てのコミットログはこちらです

    機能関係

    微細な修正:

    ExtentionsとAPI:

    パフォーマンス

    14507に対処するため、膨大な数のファイルを含むextra networksディレクトリのパフォーマンスを大幅に改善した (#14528)
    余分なnetworkディレクトリの不要な再インデックス作成を削減 (#14512)
    不要なisfile/exists呼び出しを回避 (#14527)

    バグ修正:

    その他:

    現在、Issuesは1899件存在します。

    全てのオープンソースの開発者に敬意を持って・・・応援したい。

    まだまだ元気なAUTOMATIC1111プロジェクトです。
    世界中でも多くの国で使われています。

    これについてはまた別の機会にレポートします。


    Originally published at https://note.com on March 2, 2024.

  • 子供の時の絵を AI で学習、生成してみよう! #描画タイムマシン

    子供の時の絵を AI で学習、生成してみよう! #描画タイムマシン


    つくる人をつくる!AICU media の 知山ことねです。

    昨日の記事「 VRoid Studio を使ってキャラクター LoRA を作ろう! 」が好評で、LoRA の制作に興味を持っている方からの「ぜひやってみたい!」という声を聴くことができました。

    ところでこちら、画像生成AI「Stable Diffusion」の一大ブームを予言した深津貴之さんのつぶやきです。

    ▶世界変革の前夜は思ったより静か|深津 貴之 (fladdict) https://note.com/fladdict/n/n13c1413c40de https://note.com/aicu/n/n9d5cf46761b7 @fladdict

    子供の頃の絵って魅力的ですよね。Soraが正式リリースされるのはまだわかりませんが、うかうかしていられませんね!

    子供ゴコロあふれる「真の芸術」を爆発させていきましょう。

    今回は、画像生成 AI でたびたび話題になる「 下手な子供の絵を生成する AI」、命名「描画タイムマシン」を Stable Diffusion の LoRA 学習を利用して作っていきます!

    美と知能を超え、人間性を爆発させていきましょう。

    Google Colabだけで作る描画タイムマシン

    描画タイムマシンは学習元の画像データと Google Colab だけで完成するので、皆さんもぜひ、自分の幼少期の絵やお子さんの絵で一緒に作ってみてください。

    用意するもの:小学校時代の黒歴史

    まずは学習元の画像、データセットを用意します。

    今回は、この原稿を書いている私、知山ことねが小学生の時に自由帳に描いていた 直筆雑誌「ザ・コトネ」「ことまが friends」 を用意しました。

    この色鉛筆の質感と歪んだデッサンが小学生らしいですね。
    これらのページをスキャンして、画像データとして PC に取り込みます。

    学習には15~40枚ほどの画像を用意することをおすすめしますので、1枚の絵をそのまま学習したい場合は、絵を最低7,8枚ほど用意しましょう(後述しますが、あとで左右反転コピーを行って枚数を増やすことができます)。

    今回は1枚の紙に複数イラストが描かれているため、貴重なサンプルとして切り取ってデータセットを増やしていきます。雑誌の中のイラストを多く含んだ箇所20ページほどをスキャンしました。

    PC に取り込んだら、画像をそれぞれトリミングしていきます。今回は LoRAを扱いやすい Stable Diffusion (SD1.5) で学習を行うので、Photoshop 等を使い 512×512 px の正方形に画像を切り取っていきます。これを正則画像化といいます。

    またこのままではノートの罫線や文字、透けている裏の紙の内容などのノイズも学習されてしまうので、それらの不要な部分は塗りつぶして消去し、画像全体のコントラストを上げるなどの色調補正も行いました。

    これをイラストの枚数分繰り返し、正則画像化済みの画像のデータセットを作りました。

    またこの時に、用意できた画像の枚数が少ない場合や、画像の左右のバランスが望まない崩れかたをしている場合(左向きの顔が多い、など)は、左右反転したコピーPhotoshop等で作成し、保存しましょう。

    また、LoRA を作ったことがある人ならご存じかと思いますが、学習時に画像をセットにして学習を行うため、画像枚数を2の倍数、具体的には 「2,4,…で割り切れる枚数」に揃えましょう。今回は32枚にしています。

    学習

    データセットが用意できたら、フォルダにまとめて他の LoRA と同じように学習を行います。もちろんローカル環境でも Colab でも可能ですが、初めて LoRA を制作する方は khoya-trainer の Colab notebook をおすすめします。

    これは kohya-ss さん ( https://github.com/kohya-ss ) が制作した sd-scripts ( https://github.com/kohya-ss/sd-scripts?tab=readme-ov-file ) を Linaqruf ( https://github.com/Linaqruf ) さんが Colab notebook で使用できるようにしたものです。
    編集した画像のzipファイルをドライブにアップロードし、手順に沿ってパスや LoRA のファイル名などを入力して実行すると学習された LoRA を制作することができます。

    また今回は2次元のイラストを学習しますが、アニメ系の絵柄には寄せたくないので、2次元イラスト LoRA 学習定番の AnyLoRA などのアニメ系モデルではなく、Stable-Diffusion-v1–5 を使用して学習しました。

    詳しい学習の流れはいずれ日本語の解説版を作って公開しようと思います。
    (AICU mediaメンバーシップ掲示板でリクエストいただけるとプライオリティが上がるかもしれません…!)

    AUTOMATIC1111 StableDiffusionWebUI をGoogle Colabで!|AICU: AI Creators Union生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するnote.com

    完成!

    Colab の実行が完了したら終了です!完成した LoRA で画像を生成してみましょう!

    モデル v1–5-pruned-emaonly

    鉛筆のストロークや雑な色塗り、斜めに歪んだデッサンを再現することができました!Stable Diffusionおそるべし底力。

    大人になってから子供っぽい絵を描くことはなかなか難しいので、過去の自分とコラボレーションできる感覚は楽しいです。また画像だけでなく動画の素材に使う、さらに「不可能な動画」を製作できる可能性があります。
    ファミリーカーむけの広告動画などにも需要がありそうですね。

    これを使ったファンシーイラストやキャラクターデザインの探求にも使えそうです。ガチな産業向けの用途だけでなく、「子供の絵あるある~!」と誰かにシェアしたくなるような画像が生成できるので、皆さん試してみてください!
    ※LoRAを生成するときは本人やお子さんの許諾をもって実施してくださいね!

    面白い作品ができたら、ぜひこちらのメンバーシップ掲示板でご共有ください~!

    メンバーオンリー画像投稿コーナー

    メンバーオンリー画像投稿コーナー|AICU: AI Creators Union生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するnote.com

    Stable Diffusion — ControlNet入門はこちらから

    img2img 入門シリーズはこちらから。

    ※本ブログは発売予定のAICU media新刊書籍に収録される予定です。期間限定で先行公開中しています。
    メンバー向けには先行してメンバーシップ版をお届けします
    Stable Diffusionをお手軽に、しかもめっちゃ丁寧に学べてしまう情報をシリーズでお送りします。
    メンバーは価値あるソースコードの入手や質問、依頼ができますので、お気軽にご参加いただければ幸いです!

    AICU: AI Creators Union|AICU media生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するnote.com

    この下にGoogle Colabで動作する「AUTOMATIC1111/Stable Diffusion WebUI」へのリンクを紹介しています。
    メンバーシップ向けサポート掲示板はこちら!応援よろしくお願いします!

    AUTOMATIC1111 StableDiffusionWebUI をGoogle Colabで!|AICU: AI Creators Union生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するnote.com


    Originally published at https://note.com on February 28, 2024.

  • VRoid Studio を使ってキャラクター LoRA を作ろう!

    VRoid Studio を使ってキャラクター LoRA を作ろう!


    つくる人をつくる!AICU media 知山ことねです。
    突然ですが、 AI を使って漫画を創作したい!と思ったことがあるそこの貴方!
    こんな壁にぶつかったことがあるのではないでしょうか。
    「同じキャラクターが二度と生成できない!」

    漫画を描くにはキャラクターの特徴を固定して生成する必要がありますよね。そんな時に役立つのは、特定のキャラクターを学習させたいわゆる「キャラクター LoRA」です。すでにそういった LoRA を制作したことがある方もいるかと思います。
    例えば先日発表されたBlendAIさんの「 デルタもん」は、 二次創作が AI 限定 ということもあり、多くの人が LoRA の制作を行っていました。

    しかし、いざ LoRA を作ろう!と思っても、そもそも学習元の画像がないとキャラクター LoRA が制作できない…という第二の壁が立ちはだかります。
    AI で生成した絵を学習に使用する場合、特徴的なキャラクターを作ろうとするほど生成が難しくなり、データセットの枚数が足りなくなってしまいますよね。

    しかしそんな時におすすめなのが、「VRoid Studio」です!

    VRoid Studio とは?

    「VRoid Studio」とは、株式会社 pixiv が運営している 3D キャラクター制作ツールです。PC、タブレット端末を用いて、無料で感覚的に3Dのキャラクターを制作することができます。

    3D初心者でも簡単
    たくさんのプリセットアイテムとパラメータを搭載。ゼロからモデリングをしなくても、アイテムを選んで組み合わせ、パラメータを調整するだけでキャラクターメイキングができます。

    オリジナリティを表現

    絵を描くように髪型を直感的にモデリングできるだけでなく、3Dモデルに直接デザインを描いて、こだわりの表情や瞳、服のデザインを制作可能。普段のお絵かき感覚で3D創作に取り組むことができます。

    無料で利用可能

    VRoid Studioの利用は無料。煩雑なセットアップもなく、すぐにインストールして始められます。もちろん制作したモデルもさまざまな用途で無料で使うことができます。

    VRoid Studio 公式サイト

    今回はこの VRoid Studio を用いてキャラクターを作成、そのスクリーンショットを撮影し、それをもとにキャラクター LoRA を制作します。

    キャラクターを作る

    まずは 公式サイトから VRoid Studio をインストールしましょう。
    Windows, Mac, iPad に対応しています。

    ソフトをインストールできたら、画面左「新規作成」の+アイコンを選択して新しいモデルを作成します。

    男女を選択するとモデルのエディタが開きます。

    ・画面上のタブ
    顔、髪型、体形、衣装、アクセサリー、ルック(アウトラインの細さや陰影の質)のメニューを開きます。

    ・画面左のメニュー
    顔や身体のパーツのプリセットを選択します。

    ・画面右のパラメータ
    プリセットから選択したパーツの大きさやバランス、ディテールの微調整を行います。

    またモデルを回転などする場合の操作は以下の通りです。
    ショートカットキー — VRoid ヘルプ (pixiv.help)

    操作方法を覚えたら、好きにキャラクターを作ってみましょう。
    私はチャイナな女の子を作りました。

    撮影

    モデルができたら、モデル編集画面の右上のカメラのアイコンを選択し、撮影に移ります。

    ここでは、キャラクターにポーズをとらせたり、動かしたりして撮影することができます。

    ・画面左のメニュー
    表情、ポーズ、背景の編集を切り替えます。

    ・中央
    キャラクターが動きます。このスクリーンショットを撮ります。
    画面右下の青いカメラのアイコンをクリックすると、画面中央のキャラクターのみのスクリーンショットを保存することができます。

    ・画面右のメニュー
    キャラクターにとらせるポーズ、表情を選択します。

    表情やポーズ、視点を変えながら撮影していきましょう。
    この画像にバリエーションを持たせるほど、LoRA を制作した際にとることのできるポーズが柔軟になります。

    ✨VRoidでキャラクターを作るときにはこちらの書籍もオススメです

    📖3Dマイキャラメイキング VRoidでキャラを作ろう! ペーパーバック — 2023/9/18 佐久間蒼乃 (著)

    今回は25枚撮影し、学習の偏りをなくすためにコピー、左右反転を行って50枚の画像を用意しました。

    学習

    データセットが用意できたら、フォルダにまとめて他の LoRA と同じように学習を行います。もちろんローカル環境でも Colab でも可能ですが、初めて LoRA を制作する方は khoya-trainer の Colab notebook をおすすめします。

    これは kohya-ss さん ( https://github.com/kohya-ss ) が制作した sd-scripts ( https://github.com/kohya-ss/sd-scripts?tab=readme-ov-file ) を Linaqruf ( https://github.com/Linaqruf ) さんが Colab notebook で使用できるようにしたものです。

    Stable DiffusionのLoRA活用方法、こちらもおすすめです。

    zipファイルをドライブにアップロードし、手順に沿ってパスや LoRA のファイル名などを入力して実行すると学習された LoRA を制作することができます。

    この辺の流れはいずれ日本語の解説版を作って公開したいです…!
    AICU mediaメンバーシップ掲示板でリクエストいただけるとプライオリティが上がるかもです

    完成!

    完成です!実際に生成した画像がこちら。
    モデル anything-v4.5-pruned と awpainting_v12
    プロンプト absurdres, masterpiece, best quality, ultra detailed, 1girl, chinese clothes, double bun, dynamic pose ,smiling ,white background
    ネガティブプロンプト worst quality, low quality, bad anatomy, extra arms, easynegative

    作ったキャラクターの特徴が再現されていますね!
    また、もっと平面的なイラストを生成できる LoRA や ちびキャラ用の LoRA を使用すれば、4コマ漫画などで使いやすそうなイラストを生成することもできます。

    使用した LoRA「chibi comic style」

    生成画像

    かわいいちびキャラを生成することができました!

    VRoid Studio を使うことで学習元画像の画風やキャラクターを完全にそろえることができるので、キャラクターの再現度が高い LoRA を制作することができます。

    これで漫画用キャラ LoRA 制作はばっちり!皆さんもぜひ試してみて下さい。
    魅力的な作品ができたらこちらのメンバーシップ掲示板でご共有ください!

    Stable Diffusion — ControlNet入門はこちらから

    img2img 入門シリーズはこちらから。

    ※本ブログは発売予定の新刊書籍に収録される予定です。期間限定で先行公開中しています。
    メンバー向けには先行してメンバーシップ版をお届けします
    Stable Diffusionをお手軽に、しかもめっちゃ丁寧に学べてしまう情報をシリーズでお送りします。
    メンバーは価値あるソースコードの入手や質問、依頼ができますので、お気軽にご参加いただければ幸いです!

    この下にGoogle Colabで動作する「AUTOMATIC1111/Stable Diffusion WebUI」へのリンクを紹介しています。
    メンバーシップ向けサポート掲示板はこちら!応援よろしくお願いします!


    Originally published at https://note.com on February 27, 2024.