タグ: 過去記事アーカイブ

  • 描画工程を推論する「Paints-Undo」、Google Colabで実際に動作させてみた

    日本時間で2024年7月10日、スタンフォード大学の博士課程の学生である「Fooocus」や「Omost」「Style2Paint」の開発者Lvmin Zhang さん(GitHubアカウント: lllyasviel)らの研究グループが、興味深い研究成果を発表しました。Google Colabで試せる実験コードも紹介します。

    https://note.com/aicu/n/n8990c841e373

    圧巻のデモ

    ぜひこちらのデモサイトで結果を観てください

    https://lllyasviel.github.io/pages/paints_undo

    この Web ページのすべての入力画像は AI によって生成されたものであることに注意してください。それらの「グラウンド・トゥルース」つまり「正解の描画プロセス」は存在しません。画像生成によって生成された1枚の画像をベースに「それが描かれたであろう工程」を、まるでイラストレーターの作業配信動画(タイムラプス)のように生成しています。

    画像

    美少女イラスト以外の分野での実験。

    画像
    画像

    ラフスケッチの生成

    画像

    異なる描画工程の再現

    画像
    画像
    画像

    失敗例

    画像

    以下、公式READMEの翻訳を中心に、解説を補完しながらお送りします。
    https://github.com/lllyasviel/Paints-UNDO
    実際に動作させた例は最後に紹介します。

    画像

    Paints-Undo:デジタルペイントにおける描画動作のベースモデル

    Paints-Undoは、将来のAIモデルが人間のアーティストの真のニーズに沿うことができるように、人間の描画動作のベースモデルを提供することを目的としたプロジェクトです。

    「Paints-Undo」という名前は、モデルの出力がデジタルペイントソフトで「元に戻す」ボタン(通常はCtrl+Z)を何度も押したときのように見えることに由来しています。

    Paints-Undoは、画像を入力として受け取り、その画像の描画シーケンスを出力するモデル群です。このモデルは、スケッチ、インク入れ、着色、シェーディング、変形、左右反転、カラーカーブ調整、レイヤーの表示・非表示の変更、さらには描画プロセス中の全体的なアイデアの変更など、人間のあらゆる行動を表現します。

    利用方法

    PaintsUndoは、以下の方法でローカルにデプロイできます。
    condaのインストールと10GB以上のVRAMが必要です。

    git clone https://github.com/lllyasviel/Paints-UNDO.git
    cd Paints-UNDO
    conda create -n paints_undo python=3.10
    conda activate paints_undo
    pip install xformers
    pip install -r requirements.txt
    python gradio_app.py    

    推論は、Nvidia 4090および3090TIの24GB VRAMでテストされています。16GB VRAMでも動作する可能性がありますが、8GBでは動作しません。私の推定では、極度の最適化(重みのオフロードやスライスアテンションを含む)を行った場合、理論上の最小VRAM要件は約10〜12.5GBです。

    設定にもよりますが、1つの画像を処理するのに約5〜10分かかります。一般的な結果として、解像度320×512、512×320、384×448、または448×384で、FPS 4、25秒のビデオが得られます。

    処理時間は、ほとんどの場合、HuggingFace Spaceのほとんどのタスク/クォータよりも大幅に長いため、HuggingFaceサーバーに不要な負担をかけないように、HuggingFace Spaceにデプロイすることはお勧めしません。

    必要な計算デバイスがなく、それでもオンラインソリューションが必要な場合は、Colabノートブックがリリースされるのを待つという選択肢があります(ただし、Colabの無料枠で動作するかどうかはわかりません)。

    モデルに関する注意事項

    現在、 paints_undo_single_frame と paints_undo_multi_frame の2つのモデルをリリースしています。それぞれをシングルフレームモデル、マルチフレームモデルと呼ぶことにします。

    シングルフレームモデルは、1つの画像と操作ステップを入力として受け取り、1つの画像を出力します。1つのアートワークは常に1000の人間の操作で作成できると仮定し(たとえば、1つのブラシストロークが1つの操作、操作ステップは0から999までの整数)。第0番は完成した最終アートワーク、第999番は真っ白なキャンバスに最初に描かれたブラシストロークとします。このモデルは、「元に戻す(Undo/Ctrl+Z)」モデルと理解することができます。最終的な画像を入力し、「Ctrl+Z」を何回押したいかを示すと、モデルはそれらの「Ctrl+Z」が押された後の「シミュレートされた」スクリーンショットを表示します。操作ステップが100の場合、この画像に対して100回「Ctrl+Z」をシミュレートして、100回目の「Ctrl+Z」後の外観を取得することを意味します。

    マルチフレームモデルは、2つの画像を入力として受け取り、2つの入力画像間の16の中間フレームを出力します。結果はシングルフレームモデルよりもはるかに一貫性がありますが、はるかに遅く、「創造性」が低く、16フレームに制限されています。

    このリポジトリでは、デフォルトの方法ではこれらを一緒に使用します。最初にシングルフレームモデルを5〜7回推論して5〜7つの「キーフレーム」を取得し、次にマルチフレームモデルを使用してそれらのキーフレームを「補間」して、実際に比較的長いビデオを生成します。

    理論的には、このシステムはさまざまな方法で使用でき、無限に長いビデオを作成することもできますが、実際には最終フレーム数が約100〜500の場合に良好な結果が得られます。

    モデルアーキテクチャ (paints_undo_single_frame)

    このモデルは、異なるベータスケジューラ、クリップスキップ、および前述の操作ステップ条件でトレーニングされたSD1.5の変更されたアーキテクチャです。具体的には、このモデルは、次のベータを使用してトレーニングされています。

          betas = torch.linspace(0.00085, 0.020, 1000, dtype=torch.float64)
        

    比較のために、元のSD1.5は、次のベータを使用してトレーニングされています。

          betas = torch.linspace(0.00085 ** 0.5, 0.012 ** 0.5, 1000, dtype=torch.float64) ** 2
        

    終わりのベータと削除された正方形の違いに気付くでしょう。このスケジューラの選択は、内部ユーザー調査に基づいています。

    テキストエンコーダCLIP ViT-L / 14の最後のレイヤーは完全に削除されます。 操作ステップ条件は、SDXLの追加の埋め込みと同様の方法でレイヤーの埋め込みに追加されます。

    また、このモデルの唯一の目的は既存の画像を処理することであるため、このモデルは、他の拡張なしでWD14 Taggerと厳密に整合性が取れています。入力画像を処理してプロンプトを取得するには、常にWD14 Tagger(このリポジトリにあるもの)を使用する必要があります。そうしないと、結果に欠陥が生じる可能性があります。人間が書いたプロンプトはテストされていません。

    画像

    モデルアーキテクチャ (paints_undo_multi_frame)

    このモデルは、VideoCrafterファミリーから再開することでトレーニングされますが、元のCrafterのlvdmは使用されず、すべてのトレーニング/推論コードは完全にゼロから実装されています。(ちなみに、コードは最新のDiffusersに基づいています。)初期の重みはVideoCrafterから再開されますが、ニューラルネットワークのトポロジーは大幅に変更されており、ネットワークの動作は広範なトレーニングの後、元のCrafterとは大きく異なります。

    全体的なアーキテクチャは、3D-UNet、VAE、CLIP、CLIP-Vision、Image Projectionの5つのコンポーネントを持つCrafterのようなものです。

    • VAE:VAEは、ToonCrafterから抽出されたのと同じアニメVAEです。Craftersに優れたアニメの時間的VAEを提供してくれたToonCrafterに感謝します。
    • 3D-UNet:3D-UNetは、アテンションモジュールのリビジョンを含むCraftersのlvdmから変更されています。コードのいくつかのマイナーな変更以外に、主な変更点は、UNetがトレーニングされ、空間的自己注意レイヤーで時間ウィンドウをサポートするようになったことです。 diffusers_vdm.attention.CrossAttention.temporal_window_for_spatial_self_attentionおよびtemporal_window_typeのコードを変更して、3つのタイプのアテンションウィンドウをアクティブ化できます。
      • “prv”モード:各フレームの空間的自己注意は、前のフレームの空間的コンテキスト全体にも注意を払います。最初のフレームは自分自身だけに注意を払います。
      • “first”モード:各フレームの空間的自己注意は、シーケンス全体の最初のフレームの空間的コンテキスト全体にも注意を払います。最初のフレームは自分自身だけに注意を払います。
      • “roll”モード:各フレームの空間的自己注意は、torch.rollの順序に基づいて、前後のフレームの空間的コンテキスト全体にも注意を払います。
    • CLIP:SD2.1のCLIP。
    • CLIP-Vision:位置埋め込みを補間することで、任意のアスペクト比をサポートするClip Vision(ViT / H)の実装。線形補間、ニアレストネイバー、および回転位置エンコーディング(RoPE)を試した後、最終的な選択はニアレストネイバーです。これは、画像を224×224にサイズ変更または中央トリミングするCrafterメソッドとは異なることに注意してください。
    • Image Projection:2つのフレームを入力として受け取り、各フレームに16の画像埋め込みを出力する小さなトランスフォーマーの実装。これは、1つの画像のみを使用するCrafterメソッドとは異なることに注意してください。

    免責事項

    このプロジェクトは、人間の描画動作のベースモデルを開発し、将来のAIシステムが人間のアーティストの真のニーズをより適切に満たせるようにすることを目的としています。ユーザーはこのツールを使用してコンテンツを自由に作成できますが、地域の法律を遵守し、責任を持って使用する必要があります。ユーザーは、虚偽の情報を生成したり、対立を扇動したりするためにツールを使用してはなりません。開発者は、ユーザーによる misuseの可能性について、いかなる責任も負いません。

    実際に動作させてみた

    ✨️Google Colabで動作するコードは社会的影響を鑑みて、当面は文末にてメンバーシップのみの公開とさせていただきます✨️

    gradio_app.pyの最終行を以下のように変更してください
    #block.queue().launch(server_name=’0.0.0.0′)

    block.queue().launch(server_name=’0.0.0.0′, share=True)

    チュートリアル

    Gradioインターフェースに入ったら:

    ステップ0:画像をアップロードするか、ページの下部にある[作例画像]をクリックします。

    画像

    ステップ1:「ステップ1」というタイトルのUIで、[プロンプトの生成]をクリックして、グローバルプロンプトを取得します。

    画像

    ステップ2:「ステップ2」というタイトルのUIで、[キーフレームの生成]をクリックします。左側でシードやその他のパラメータを変更できます。

    画像

    ステップ3:「ステップ3」というタイトルのUIで、[ビデオの生成]をクリックします。左側でシードやその他のパラメータを変更できます。

    オリジナル画像でやってみた

    AICU所属のイラストレーター・犬沢某さんに素材をご提供いただきました。

    画像
    画像
    画像
    画像
    画像
    画像

    動画はこちらです

    犬沢某さん「なんだか最初のほう、悩みながら描いてるのがそれらしくていいですね・・・」

    描画工程を推論する技術は、様々なクリエイティブ工程に役立つツールが生み出せる可能性があります。
    オープンな技術として公開していただいた lllyasvielさん、Paints-Undo Teamに感謝です。

    https://github.com/lllyasviel/Paints-UNDO

    Google Colabで condaをインストールし、Paints-UNDOを利用するnotebook

    社会的影響を鑑み、当面はメンバーシップのみの提供とさせていただきます
    くれぐれも悪用禁止でお願いいたします。
    フェイク動画や、素手で描かれるイラストレーターさんのお気持ちを害するような使い方は誰にとっても利がありません。

    原作の免責事項(disclaimer)を再掲しておきます

    このプロジェクトは、人間の描画動作のベースモデルを開発し、将来のAIシステムが人間のアーティストの真のニーズをより適切に満たせるようにすることを目的としています。ユーザーはこのツールを使用してコンテンツを自由に作成できますが、地域の法律を遵守し、責任を持って使用する必要があります。ユーザーは、虚偽の情報を生成したり、対立を扇動したりするためにツールを使用してはなりません。開発者は、ユーザーによる misuseの可能性について、いかなる責任も負いません。

    この記事の続きはこちらから https://note.com/aicu/n/n7e654dcf405c

    Originally published at https://note.com on July 9, 2024.

  • 2024年6月のnote好アクセスランキング+6月の振り返り #AICU_media

    2024年6月のnote好アクセスランキング+6月の振り返り #AICU_media

    AICU media 6月のまとめ

    よく読まれた記事ランキング

    6月中によく読まれた記事を紹介します

    1. [保存版] Animagine XL 3.1 生成比較レポート

    [保存版] Animagine XL 3.1 生成比較レポート

    1. Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    1. img2img入門(1) i2iでできることを知ろう

    img2img入門(1) i2iでできることを知ろう

    1. Stable Diffusion – ControlNet入門(2) ControlNet をダウンロード・準備する

    Stable Diffusion – ControlNet入門(2) ControlNet をダウンロード・準備する

    1. 日本人が開発した「Regional Prompter」がなかなかすごい!

    日本人が開発した「Regional Prompter」がなかなかすごい!

    Animagine 3.1 / 3.0の記事は相変わらず恒例ですね。

    今月はStable Diffusion 3の新しいモデルであるStable Diffusion 3 Mediumがリリースされました。その際に出た用語である「weights」について気になる方が多かったようです。

    また、i2iやControlNetなど画像生成における基本的な技術についてもよく読んでいただけました。

    AICU編集部が選ぶ、6月のおすすめ記事

    6月に投稿した記事でAICU編集部がお勧めしたい記事をピックアップしてみました。

    まだほかの人が知らない、生成AIの情報を読んでみませんか?

    • Stable Diffusion 3 で最高の結果を得る方法

    Stable Diffusion 3 で最高の結果を得る方法

    • Googleから電撃リリースされたGemma2が有能 – Gemma2自身に解説させてみた!

    Googleから電撃リリースされたGemma2が有能 – Gemma2自身に解説させてみた!

    • AICUインキュベーション「NISHIKI-E:アニメレガシー補完計画」のご紹介

    AICUインキュベーション「NISHIKI-E:アニメレガシー補完計画」のご紹介

    • Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

    Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

    • DiffSynth StudioとDiffutoon:拡散モデルによる高分解能・編集可能なトゥーンシェーダー

    DiffSynth StudioとDiffutoon:拡散モデルによる高分解能・編集可能なトゥーンシェーダー

    AICUマガジン6月号の予告

    最後にAICUマガジン6月号の特集について紹介します。

    今月は半年のまとめとして特集を2つ用意しました。

    • AICU media 上半期人気記事ランキング
    • いまこそ知りたい画像生成AIの社会と倫理

    6月号は現在リリースに向けた準備中です。どうぞお楽しみに!

    AICUマガジンはkindle unlimitedに加入されている方は無料で、加入されていない方は電子版の購入ができます。ぜひ読んでください!

    バックナンバーはこちらです

    https://j.aicu.ai/Mag2405

    https://j.aicu.ai/Mag2404

    AICU media 6月のイベント報告

    6/26 19:00〜20:30「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップを開催しました!

    「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップを開催しました!テーマは【生成AIの社会と倫理】です!

    現在アーカイブ配信を準備中です。

    詳しくはこちらをご覧ください。

    • 【生成AIの社会と倫理】「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップ 2024/6/26(水)19:00〜20:30開催

    なお、画像生成AI Stable Diffusion スタートガイドには、生成AIにかかわる法律や倫理について解説があります。

    見逃した!復習したい!という方はとして読まれてみてはいかがでしょうか?

    https://j.aicu.ai/SBXL

    最後に

    AICU mediaでは生成AIに関する情報をこれからも皆さんにお届けしてまいります。

    面白い!参考になった!と感じていただけましたら、ぜひいいねやフォローをお願いします

    7月もAICU mediaをよろしくお願いします!

    先月のアクセスランキングはこちら

    2024年5月の好アクセスランキング+おすすめ記事を紹介! #AICU_media

  • 2024年5月の好アクセスランキング+おすすめ記事を紹介! #AICU_media

    2024年5月の好アクセスランキング+おすすめ記事を紹介! #AICU_media

    AICU media 編集部です。月初恒例のアクセスランキングレポートをお伝えします。


    AICU media 5月のまとめ

    よく読まれた記事ランキング

    5月中によく読まれた記事を紹介します

    1. 漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!
    1. [保存版] Animagine XL 3.1 生成比較レポート

    [保存版] Animagine XL 3.1 生成比較レポート|AICU media

    1. OpenAI – GPT-4oをリリース
    1. Stability AI、日本語大規模言語モデル「Japanese Stable LM 2 1.6B」を発表。Google Colabのシークレット機能で短いコードを書いてみよう!
    1. プロンプトからサイトが作れる!?話題の「Create.xyz」を使ってみた!

    Animagine 3.1 / 3.0の記事はもはや恒例ですね。

    そしてGPT-4oのリリースはかなり衝撃的でした。これで何ができるのか考えるだけでも楽しかったです。

    Japanese Stable LM 2 1.6Bは軽量でローカル環境でも扱いがしやすいモデルでした。

    Create.xyzはプロンプトからwebサイトを生成できるサービスで、話題になりました。

    AICU編集部が選ぶ、5月のおすすめ記事

    5月に投稿した記事でAICU編集部がお勧めしたい記事をピックアップしてみました。

    まだほかの人が知らない、生成AIの情報を読んでみませんか?

    • Stable Diffusionの仕組み(入門編)
    • Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施
    • [期間限定無料記事] Stable DiffusionでAI時代のキャラクター開発!最適LoRAモデルの比較実験

    [期間限定無料記事] Stable DiffusionでAI時代のキャラクター開発!最適LoRAモデルの比較実験|AICU media

    • 日報を画像生成でバエさせる #10分で学べるAI
    • #技術書典16 現地取材レポート!生成AIクリエイティブ分野で才能と知見あふれる良書にたくさん出会いました

    AICUマガジン5月号に収録されている特集

    最後にAICUマガジン5月号の特集について紹介します。

    こちらでは実践する方法を書籍形式で詳しく紹介しています。

    • 「画像生成AI Stable Diffusion スタートガイド」公式ワークショップの予習をしておこう!-LoRA制作の予習をしよう
    • 画像生成 AI で X(Twitter) 用2コマ漫画を描こう!

    AICUマガジン5月号はkindle unlimitedに加入されている方は無料で、加入されていない方は電子版の購入ができます。ぜひ読んでください!

    https://j.aicu.ai/Mag2405

    バックナンバーはこちらです

    https://j.aicu.ai/Mag2404

    AICU media 6月のイベント情報

    6/26 19:00〜20:30「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップ開催!

    「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップが6月も開催されます!今回のテーマは【生成AIの社会と倫理】!

    現在複雑さを極めている、生成AIの法律面を弁護士さんとともに解説します。

    詳しくはこちらをご覧ください。

    • 【生成AIの社会と倫理】「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップ 2024/6/26(水)19:00〜20:30開催

    なお、画像生成AI Stable Diffusion スタートガイドには、生成AIにかかわる法律や倫理について解説があります。

    予習として読まれてみてはいかがでしょうか?

    https://j.aicu.ai/SBXL

    最後に

    AICU mediaでは生成AIに関する情報をこれからも皆さんにお届けしてまいります。

    面白い!参考になった!と感じていただけましたら、ぜひいいねやフォローをお願いします

    6月もAICU mediaをよろしくお願いします!

  • #10分で学べるAI バッチファイルでバリエーション広告を生成(1)使ってみよう編

    #10分で学べるAI バッチファイルでバリエーション広告を生成(1)使ってみよう編

    Google Slidesで新築分譲マンションのバリエーション広告を大量生成…したはいいけど…ええっ!?

    前回、知り合いの不動産会社から依頼された案件のため、

    新築分譲マンションのバリエーション広告を大量生成できるGoogle Slidesを作成した2人でしたが……。

    前回のSTORY #10分で学べるAI

    Google Slidesでバリエーション広告を大量生成 

    ★バリエーション広告:さまざまな対象者に向けて制作する多様性のある広告

    以下、アイキュー部のDiscordでのやり取りです

    ルゥ「コト先輩~、Google Slides作っておきましたよ~」

    コト先輩「わあ!すごいのができたね!!早速クライアントに提出してくる!」

    (…しばらく後…)

    コト先輩「ルゥくんゴメェン!今回のクライアントは『Google Slides禁止!』だそうです!!」

    ルゥ「うええええええええ!先に聞いてきてくださいよ!!」

    コト先輩「今回のクライアントさんからの依頼によると、『オペレーターさんの作業環境は追加ソフトのインストールが禁止されている事務用ノートPC』、だそうです」

    ルゥ「えっ、ゲーミングPCとかは期待してなかったけど……それじゃあGPUは全く期待できないじゃん!」

    Koto「一応期限は半日だけ延長してもらえたけど、『最低15パターンは譲れない』っていわれちゃった」

    ルゥ「どうしてこんな案件受けちゃったんですか!」

    ――こんな環境でも動くものってバッチファイルくらいか…ってバッチファイルでもAPIは呼び出せるんだから Stability AI の Stable Image Core も使えるかも!

    やってみよう

    Stability AI が提供する Stability AI Developer Platform のイメージサービス のうちのひとつ「Stable Image Core」 のAPIを使って、GPUいらず、たった3分程度で商用利用できるバリエーション広告(さまざまな対象者に向けて制作する多様性のある広告)画像を様々なスタイル画像で生成してみましょう。今回はバッチファイルだけ、ノーコードで利用できるツールとして提供します。

    Stability AI のプラットフォーム APIキーの入手

    まず、このバッチファイルで画像生成をするには Stability AI のプラットフォームを利用するAPIキーが必要です。持ってない人はここにアクセスしてAPIキーを取得するか、管理者殿にお願いしてキーを発行してもらってください。

    https://platform.stability.ai/account/keys

    生成できない場合は支払い設定(https://platform.stability.ai/account/credits)を確認してください。

    Copy ❏ したら「sk-….」で始まるAPIキーをクリップボードにコピーできます。このAPIキーが流出すると勝手に使われてしまいますので管理はお気をつけて。

    次のステップに進みます。

    バッチファイルをダウンロード

    このリンクでダウンロードして使える バッチファイルを配布しています。

    ダウンロードしたら解凍して中身を確認してください

    https://j.aicu.ai/SaiImgBat

    設定ファイルを開いてAPIキーを設定

    生成する前にAPIキーを設定します

    SIC_settingという名前のテキストファイルがあるのでメモ帳で開いて、

    「STABILITY_API_KEY=」と書かれている部分の後ろに先ほどコピーしたAPIキーを貼り付けて保存します。

    これだけで画像を生成できるようになりました!

    設定を確認しよう

    生成する前に設定を確認しましょう

    先ほどAPIキーを入力したテキストファイルから以下の項目を設定できます。

    ・プロンプト

    ・ネガティブプロンプト

    ・アスペクト比

    ・出力フォーマット

    ・生成サイクル数

    設定するにはそれぞれの項目の「=」より後ろを書き換えてから保存してください。

    バッチファイルを実行して画像生成!

    いよいよバッチファイルを実行しましょう。

    SIC_IMG_Creatorというバッチファイルをダブルクリックすると実行できます。

    初回はスマートスクリーンの確認画面が出ます。危険なバッチファイルではありませんので詳細情報を押すと実行ボタンが現れます

    ※ここで管理者様に止められてしまう環境の場合は、貴社の情報システム管理部門殿にお願いしてください。

    起動するとこのような黒怖いコマンドプロンプト画面が現れます。

    ここで生成する画像のプロンプトや枚数を確認できます。

    「y」と入力してEnterキーを押下すると生成が開始されます。

    すべてのスタイルで生成が完了するまで大体3分ぐらいかかります。

    生成された画像を確認する

    生成された画像はSIC_Imageというフォルダに格納されています。

    前回と同じ流れが作れそうです!

    まとめ

    いかがでしたか?

    たったこれだけで様々なスタイルの画像を生成をすることができます!

    AICUmediaでは今後もStable Diffusion 3.0 やStable Image Core を用いた記事を発信していく予定です

    面白かったらぜひフォロー、いいねをお願いします!

    次回予告

    次回はこのプログラムの中身を解説しちゃいます!お楽しみに!

    #10分で学べるAI

    #10分で学べるAI シリーズ

    ✨️本記事が面白かったら、X@AICUai, noteのフォロー、シェアをよろしくお願いいたします!
    https://note.com/aicu
    社内Slack等のシェアでも歓迎です。
    また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

    ✨️AICU Inc.は Stability AI 公式パートナーです。
    様々なアプリ開発のご相談も承っております!サービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

    https://corp.aicu.ai/ja/stability-ai-membership

    生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携 https://prtimes.jp/main/html/rd/p/000000007.000133647.html

  • AICU マガジン5月号アップデート!

    AICU マガジン5月号アップデート!

    AICU media 編集部の知山ことねです。
    わかるAIを届ける、AICU マガジン5月号はもうお読みいただけましたか?特集の「次世代まんが制作術」が魅力の一冊となっております!

    4月号に引き続き、今回も大幅アップデートを行いました。主にキャラ LoRA 制作が、現時点での保存版とも呼べる程の詳細な解説になっています。

    この記事ではマガジンの紹介と、更新箇所のお知らせをします。パワーアップした AICU マガジン5月号をぜひお読みください!
    購入はこちら https://j.aicu.ai/Mag2405

    https://note.com/aicu/n/n61476a3fc852

    https://j.aicu.ai/Mag2405

    AICUマガジン5月号 目次(最新版)

    2024年5月29日時点での最新の目次です。

    画像生成 AI で漫画を描こう!
    この記事で必要なもの
    漫画制作ステップ① アイビスペイントでコマを作ろう
    キャンバスを用意する
    コマを配置しよう
    漫画制作ステップ② ネーム(下書き)を描こう
    漫画制作ステップ③ 画像を生成しよう
    キャラクターを生成しよう
    背景を生成しよう
    漫画制作ステップ④ 生成した画像を漫画に編集しよう
    漫画制作ステップ⑤ フキダシを配置しよう
    漫画制作ステップ⑥ 手描き文字を追加する
    完成!

    [キャラLoRA学習ガイド]デルタもんLoRAで学ぶLoRA制作!←Updated!
    (1) データセットを用意しよう
    データセットとは?
    データセット作りのコツ
    (2) Google Colaboratory で学習しよう
    Colab notebook の用意
    データセットの展開
    学習の設定
    (3) 生成した LoRA を回収しよう
    生成してみよう!

    りんりん倫理
    Q1. 生成 AI は著作権違反なの?
    Q2.「無断学習禁止」って何?
    Q3. 生成 AI に関する法律はどこで調べればいいの?

    編集コラム:生成AIクリエイターに必要なのは「自在性」
    ようこそ!アイキュー部
    今月の12星座占い

    アップデート!「キャラLoRA制作ガイド」

    今回アップデートしたのは、特集2つ目の「キャラLoRA制作ガイド」です。
    第1版では、5月に行われたキャラLoRA制作ワークショップ( https://ja.aicu.ai/event20240516/ )の予習として、キャラLoRA用データセットの作り方をデルタもんの画像を用いて解説しました。
    第2版となる今回は、データセットの作り方のみならず、学習に必要な Colab notebook の配布、使い方解説、学習時のモデルやパラメータ調整など、キャラLoRA制作に必要な情報を全て盛り込みました!

    また、AICU 特製のデルタもんデータセットの配布も行っています。
    期間限定で、ワークショップ「デルタもんLoRAを作ろう!」の録画も公開しています。
    AICU のワークショップが気になる方や、実際の操作画面をチェックしたい方は要チェックです。

    また漫画の解説では、動画を追加するなど、さらにわかりやすくなる工夫を凝らしました。

    マガジンを読むと、こんなことができるようになります!

    他にもアップデートにより、全体的に様々な補足情報が追加され、より親切でわかりやすいマガジンになりました。
    もう第1版を読んでくださった方は、まためくってみて、新たな学びや発見を見つけてください。
    まだ読んでいらっしゃらない方は、この機会にぜひ読んでみてくださいね!Kindle Unlimited で無料で読むことができます。

    https://j.aicu.ai/Mag2405

    次回のアップデート・次号リリースをお楽しみに!
    AICU media をフォローして最新記事をお見逃しなく。記事のいいねとおすすめもお待ちしております!

    Originally published at https://note.com on May 29, 2024.

  • 2024年3月の 好アクセスランキング #AICU_media

    2024年3月の 好アクセスランキング #AICU_media

    AICU media AI社員の「koto」です。

    2024年3月のAICU media noteでの好アクセスランキングを紹介します。

    第5位以降

    VRoid Studio を使ってキャラクター LoRA を作ろう!
    https://note.com/aicu/n/nba8393a4816e

    イーロン・マスク xAIによる「Grok-1」リリース!明らかに重すぎる重みが重い
    https://note.com/aicu/n/n66144f2997ad

    img2img入門(1) i2iでできることを知ろう
    https://note.com/aicu/n/n08ebe0637a41

    日本人が開発した「Regional Prompter」がなかなかすごい!
    https://note.com/aicu/n/n832941df99c5

    最先端の画像生成AIを深掘りする教科書決定版『画像生成AI Stable Diffusion スタートガイド』3月29日発売 #SD黄色本
    https://note.com/aicu/n/n92682a415d6c

    カリオストロラボ・Animagine XL 3.0 リリースノート日本語翻訳(訳注あり)
    https://note.com/aicu/n/nd05f3a656dd8

    SDXLでのネガティブプロンプト大実験!! AUTOMATIC1111「Textual Inversion」でのembeddingを学ぶ
    https://note.com/aicu/n/n1ebba31e4514

    第5位:写真が簡単に動かせる!Stable Video Diffusionを試してみよう

    https://note.com/aicu/n/n00d9086856c9

    第4位

    AUTOMATIC1111 v1.8.0リリース
    2024年3月2日

    https://note.com/aicu/n/n62f757a2fff8

    第3位


    Stability Matrixがv2.9.0にアップデート:StableSwarmUIとForgeが登場!(1)動画生成があっという間! 2024年3月4日

    https://note.com/aicu/n/n1e3ed147e586

    第2位


    ANIMAGINE XL 3.0 画風が変わる!おすすめプロンプト集 2024年3月9日

    https://note.com/aicu/n/n44085d702617

    そして映えある第1位!


    [保存版] Animagine XL 3.1 生成比較レポート 2024年3月20日

    https://note.com/aicu/n/n70122ef250d9

    月末に公開した有料記事なのにすごい反響です。

    読んでくれた皆さん、スキをしてくれたみなさんもありがとうございました。励まされます!

    カバーアート企画も発表

    今月はじまった、カバーアート企画の結果を発表します!

    作品は はねごろうさん

    採用作品には謝礼をお送りしております

    5月カバーアートの応募および応募規約はこちらのメンバーシップ掲示板から!
    https://note.com/aicu/membership/boards


    Originally published at https://note.com on April 2, 2024.

  • [保存版] Animagine XL 3.1 生成比較レポート

    [保存版] Animagine XL 3.1 生成比較レポート

    つくる人をつくる!AICU media の知山ことねです。

    Animagine XL 3.1リリース

    2024年1月16日に公開された Stable Diffusion の画像生成モデル「Animagine XL 3.0」から、新バージョンとなる Animagine XL 3.1 がリリースされました!

    この記事では、Animagine XL 3.0 と比較して画風などに違いはあるか、また Animagine XL 3.1 から搭載された新たなタグについて紹介していきます。

    【関連記事】

    漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較を行いました!

    XL 3.1 では、Animagine XL 3.0 で重要だったプロンプトも引き続き使用できます!

    https://note.com/aicu/n/n44085d702617

    Animagine XL 3.0 リリースノートはこちら。

    https://note.com/aicu/n/nd05f3a656dd8

    Hugging Face はこちら

    https://huggingface.co/cagliostrolab/animagine-xl-3.1

    公式リリース 和訳(一部抜粋)

    Animagine XL 3.1は、前バージョンのAnimagine XL 3.0を強化したもので、より高い品質でアニメスタイルの画像を生成できるように改良されています。有名なアニメシリーズからのより幅広いキャラクター、最適化されたデータセット、より良い画像作成のための新しいタグが含まれています。アニメキャラクターの正確で詳細な表現を生成することで、アニメファン、アーティスト、コンテンツクリエイターにとって価値あるリソースとなることを目指しています。

    Animagine XL 3.0 をより高品質にしたということですね!

    Animagine XL 3.0 との比較

    それでは、実際に生成して Animagine XL 3.0 と比較していきましょう。
    今回生成に使用した環境は、Windows10、NVIDIA GeForce RTX 3060 搭載の VRAM6GB の GALLERIA ノート PC に直接インストールした ComfyUI です。

    画風

    まずシンプルなプロンプトで生成し、Animagine XL 3.0 と比較してみます。

    プロンプト: best quality, 1girl
    ネガティブプロンプト: worst quality, low quality, nomal quality, bad anatomy, NSFW

    Animagine XL 3.0

    Animagine XL 3.1

    強い光源、耳の見える髪型、逆光感などの大きな特徴はそのまま残っていますが、Animagine XL 3.0 の特徴だった切れ長の目とピンクの頬が目立たなくなり、露出度も軽減されました。また Animagine XL 3.0 では肌がつやっとする雰囲気がありましたがそれも軽減され、全体的に落ち着いたように感じます。

    また Animagine XL 3.0 よりも Animagine XL 3.1 の方が線画が細くはっきり出ていて、厚塗り感、立体感が減り少し平面的になった印象を受けますね。

    タグ

    Animagine XL 3.0 には画風を指定する「年代タグ」やクオリティを指定する「クオリティタグ」がありましたが、Animagine XL 3.1 ではそれらがアップデートされたことに加え、「Aesthetic Tags」が追加されました。

    クオリティタグ

    Animagine XL 3.1 公式 Hugging Face より

    従来のクオリティタグから数値が少し調整され、タグ名が一部変更されました。よく使用する「masterpiece」「best / worst / low quality」は変わらないので、今まで通りの感覚で使えそうです。

    年代タグ

    Animagine XL 3.1 公式 Hugging Face より

    「2024」が追加され年が少しずつ調整されていること、「late」が「recent」に変更されたことが主な変更で、年代タグも大きくは変わっていません。

    実際の生成画像比較

    newest (2021–2024)

    Animagine XL 3.0 に似た絵柄です

    recent (2018–2020)

    newestを少し繊細にした雰囲気です。VTuber全盛期ですね。

    mid (2015–2017)

    退廃的な雰囲気が可愛いです
    明らかに画風がVTuber風ではなくなってきました。

    early (2011–2014)

    セピアな雰囲気が出ています

    https://j.aicu.ai/Mag2405

    Oldest (2005–2010)

    年代的には涼宮ハルヒや長門有希が流行った時期ですね。
    90年代風のテイストもありますが、明らかに描きわけができています。

    レーティングタグ(年齢制限タグ)

    Animagine XL 3.1 公式 Hugging Face より

    センシティブな表現を調節するレーティングタグも、Animagine XL 3.0 から大きく変化はありません。プロンプトとネガティブプロンプトを使い分けて露出度を調節しましょう。

    Aestheticタグ

    アニメデータに特化したViT(Vision Transformer)画像分類モデルと、コンテンツの美的価値を評価するモデルshadowlilac/aesthetic-shadow-v2を利用し、視覚的に魅力的であるものを生成するタグです。

    aesthetic

    プロンプト「best quality, 1girl, very aesthetic」

    カメラアングルやポーズがダイナミックになりました!

    「aesthetic」(イェステティック;美的)というプロンプトは Nijijourney や Novel AI でも有効なので、ぜひ試してみてください!

    推奨設定

    公式 Hugging Face で紹介されている推奨設定、プロンプトを紹介します。

    「Absurdres」とは造語で、absurd-res、ありえないぐらい高解像度、という意味のようです。

    プロンプト

    masterpiece, best quality, very aesthetic, absurdres

    ネガティブプロンプト

    nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]

    CFG Scale

    低め(5–7)

    Sampling Steps

    30以下

    Sampler

    Euler a(Euler Ancestral)

    https://j.aicu.ai/Mag2404

    ギャラリー

    お気に入りの生成画像です!

    パステルカラー!

    抜け感

    kotoちゃん

    oldest

    newest

    アニメ風

    皆さんもお気に入りの画像が生成できたら、ぜひご共有ください!

    メンバーオンリー画像投稿コーナー https://note.com/aicu/membership/boards

    https://note.com/aicu/membership/boards/61ab0aa9374e/posts/17273820a798

    Animagine XL 3.0 おすすめのプロンプトはこちら

    ANIMAGINE XL 3.0 画風が変わる!おすすめプロンプト集
    https://note.com/aicu/n/n44085d702617

    Stable Diffusion — ControlNet入門はこちらから
    https://note.com/aicu/n/nde6fe41f077b

    img2img 入門シリーズはこちらから。
    https://note.com/aicu/n/n08ebe0637a41

    この下にGoogle Colabで動作する「AUTOMATIC1111/Stable Diffusion WebUI」へのリンクを紹介しています。

    https://note.com/aicu/membership/boards/61ab0aa9374e/posts/7cab00942b22?from=self

    メンバーシップ向けサポート掲示板はこちら!応援よろしくお願いします!

    AICU mediaによる新作書籍「画像生成AI Stable Diffusionスタートガイド」ついに予約開始です!(2024年3月29日リリース)

    詳細はこちらから https://ja.aicu.ai/sbxl/

    今回の記事の内容はAICUマガジンでもご覧いただけます

    AICU magazine Vol.1 2024年4月号 https://j.aicu.ai/Mag2404

    AICU magazine Vol.1 2024年5月号 https://j.aicu.ai/Mag2405

    AICU:AIクリエイターユニオンでは皆様のご質問をお待ちしております
    https://note.com/aicu/membership/boards

    Originally published at https://note.com on March 19, 2024.

  • img2img入門(1) i2iでできることを知ろう

    この記事では、画像とプロンプトをもとにして新たな画像を生成する『image-to-image』について解説します。

      image-to-imageとは

      『image-to-image』(以下『i2i』)とは、画像とテキストプロンプトをもとにして、新たな画像を生成する方法のことです。これにより、テキストのみでは伝えにくかった細かい雰囲気や色味などが再現しやすくなります。また、t2tで生成した画像の一部分のみの修正も行うことができます。

      画面上部のメニューの左から2番目の『img2img』を選択することで使用できます。

      画像
      この画面になります

      i2iには、『img2img』『Sketch』『Inpaint』『Inpaint scketch』『Inpaint upload』の5種類の機能があります。順番に試してみましょう。

      img2imgの使い方

      まず最初に、『img2img』です。これは、指定した画像とプロンプトをもとに全く別の新たな画像を生成する機能です。実際に試してみましょう。
      まず、t2tで生成した画像を用意します。

      モデル blue_pencil (今回はblue_pencil-XL-2.9.0を使っています)
      プロンプト masterpiece, best quality, ultra detailed, 1girl
      ネガティブプロンプト worst quality, low quality, normal quality, easynegative

      画像
      生成された画像

      これを赤枠内にドラッグアンドドロップ、または枠内をクリックしてフォルダから選択してアップロードします。

      画像

      まずは設定は何も変えずに生成してみます。

      画像

      生成されました。確かに雰囲気が似ていますね。
      では、プロンプトを指定してみましょう。t2tの際と同じようにプロンプトを入力します。
      プロンプト masterpiece, best quality, ultra detailed
      ネガティブプロンプト worst quality, low quality, normal quality, easynegative, 

      画像

      先ほどよりハイクオリティで、もとのイラストの雰囲気を残したイラストになりました。
      では、プロンプトで少し女の子の見た目を変えてみましょう。プロンプトに『smile』を追加してみます。

      画像
      笑顔になりました

      色味や雰囲気はそのままに、笑顔の女の子を生成することができました。
      このように、img2imgでは、画像とプロンプトをもとにして新しいものを生成することができます。
      では、細かい設定を見ていきましょう。これは他のi2iの機能でも共通して使用します。

      画像

      ① Resize mode 
      生成する画像のサイズを変えた時の(④)、元の画像との差の補完方法です。生成する画像の横幅を2倍にし、それ以外の条件を揃えて比較してみましょう。
      元画像

      画像

      Just resize
      元画像をそのまま引き伸ばします。

      画像

      Crop and resize
      縦横比を保ったまま、一部を切り取り拡大します。

      画像

      Resize and fill
      足りない部分を生成し補完します。

      画像

      Just resize(latent upscaler)
      『Just resize』を、異なるアップスケーラーを用いて行います。

      画像

      このように、画像の補完方法が全く異なるので、目的に応じて適したものを選びましょう。

      ②Sampling method
      t2tと共通の設定です。ノイズを除去し画像を生成する過程のアルゴリズムの種類を選択します。t2tの際と同じで、デフォルトのDPM++ 2M Karrasを使うことをおすすめします。

      ③Sampling steps
      こちらもt2tでも使う設定です。ノイズを除去する回数を指定します。詳しくはC3-コラムで解説しています。

      ④Resize to/Resize by
      生成する画像のサイズを指定します。『Resize to』を選択すると縦横のサイズを指定でき、『Resize by』を選択すると拡大縮小する倍率を指定することができます。

      ⑤Batch count
      t2tと共通の設定。指定した枚数の画像を順番に生成します。

      ⑥Batch size
      t2tと共通の設定。指定した枚数の画像を同時に生成します。

      ⑦CFG Scale
      t2tと共通の設定。生成画像をどれだけプロンプトに従わせるかを調節します。

      ⑧Denoising strength
      生成画像をどの程度元画像に近づけるかを設定します。

      Denoising strengthの使い方

      ここからは、先ほどの⑧『Denoising strength』というパラメーターについて実験と解説をしていきます。これは、img2imgの画像をアップロードする箇所の下部にあるメニューで設定する数値です。

      画像

      『Denoising strength』は、元の画像と生成する画像にどれだけ差をつけるかを表します。デフォルトは0.75ですが、0に近づくと元画像に忠実に、1に近づくと元画像とは違う画像になります。実際にi2iで画像を生成して比べてみましょう。

      まず、t2iで画像を生成します。
      モデル bluepencil
      プロンプト masterpiece, best quality, ultra detailed, 1girl, 
      ネガティブプロンプト worst quality, low quality, normal quality, easynegative, 

      画像

      これをi2iのX/Y/Z plotで、『Denoising』の数値を変えて生成します。

      画像

      これらを比較すると、Denoising:0.3のイラストは元のイラストとほとんど同じですが、Denoising:1.0のイラストは、女の子の服装、髪色、背景がかなり変わっていることがわかります。このように、Denoisingの値は小さいほど元のイラストと似たものになり、大きいほど元のイラストとの差が大きくなります。

      続きはこちら!

      https://note.com/aicu/n/n853810115170

      https://note.com/aicu/n/n65145ad4f762

      https://note.com/aicu/n/n0ce22c439af7

      ※本ブログは発売予定の新刊書籍に収録される予定です。期間限定で先行公開中しています。
      メンバー向けには先行してメンバーシップ版をお届けします
      Stable Diffusionをお手軽に、しかもめっちゃ丁寧に学べてしまう情報をシリーズでお送りします。
      メンバーは価値あるソースコードの入手や質問、依頼ができますので、お気軽にご参加いただければ幸いです!

      https://note.com/aicu/membership/join

      この下にGoogle Colabで動作する「AUTOMATIC1111/Stable Diffusion WebUI」へのリンクを紹介しています。
      メンバーシップ向けサポート掲示板はこちら!応援よろしくお願いします!

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/7cab00942b22?from=self


      この記事の続きはこちらから https://note.com/aicu/n/n08ebe0637a41

      Originally published at https://note.com on Jan 5, 2024.

    1. 日本語で画像を生成できる新技術「JSDXL」とは?和風画像を生成してみよう!

      日本語で画像を生成できる新技術「JSDXL」とは?和風画像を生成してみよう!

      この記事では、StabilityAI社が新たにリリースした「JSDXL」の概要、使い方、実際に生成できる画像を公式リリースに基づいて解説していきます。

      公式リリース

      2023年11月17日11時、StabilityAI社から「Japanese Stable Diffusion XL」(以下JSDXL)がリリースされました。

      🚀 新リリース 🚀
      「Japanese Stable Diffusion XL (JSDXL)」が登場!
      ✨ 日本特化の商用利用可能なtext-to-imageモデル ✨

      🌸 JSDXLは、日本語のプロンプトを英訳したものとは異なり、日本語そのままの理解と日本独自の文化を反映した高品質な画像生成を実現しました。

      公式リリースはこちら

      https://ja.stability.ai/blog/japanese-stable-diffusion-xl

      昨年8月に世界を一変させた画像生成AI「Stable Diffusion」をオープンモデルでリリースしたStabilityAI社は日本に拠点があり、日本でも特色ある開発を行っています。11月には数多くの日本語モデルがリリースされました。

      今回リリースされた『JSDXL』はどのような特徴を持っているのでしょうか。単なる翻訳とは異なるのでしょうか。公式リリースを読み解いてみましょう。

      「Japanese Stable Diffusion XL(JSDXL)」は、最新の英語版 text-to-image モデルSDXLに対して、日本語入力はもちろん、日本の文化やものが理解・反映された画像生成に特化させた日本向け text-to-image モデルです。
      昨今、SDXL を含む強力な text-to-image モデルが公開されております。これらと翻訳ツールを組み合わせることで日本語入力は可能ですが、日本特有の表現の認識が難しい点や開発コストがかかる点、モデルが認識できるテキスト最大文字数の制限などの課題があります。また、英語プロンプトをそのまま「呪文」として扱い画像生成することも可能ですが、大規模に学習されたモデルは西洋系の画像生成が得意であり日本スタイルの画像生成がまだまだ物足りないのが現実です。
      「JSDXL」は、Stable Diffusion の中で最高性能である SDXL の汎用性と高解像度の画像生成能力をできる限り維持したまま、以下の点を可能にした日本特化モデルです。
      ・日本語をモデルが直接扱うことができ、日本語特有の表現を認識可能
      ・日本の広範囲な文化やアート、伝統的なものから現代的なものまで含め、それらを反映した高解像度で質の高い画像を作成することが可能
      ・また、SDXL にはテキストエンコーダーが2つありますが、「JSDXL」には1つのみであるため、SDXL と比べ、より効率的な推論が可能になります。

      ■公式リリースより引用

      つまり、日本語を英語に翻訳して画像を生成するのではなく、日本語を学習することで日本特有のものを生成可能にしている、ということですね。

      StabilityAI日本の代表・Jerry Chiさんのツイート

      JSDXLの使い方

      それでは、実際にJSDXLを使って画像を生成してみましょう。
      今回のこの記事では、JSDXLを使う方法を3つ紹介します。

      (方法1) HuggingFace公式の「Spaces」を使う(最も簡単)

      様々な機械学習モデルが公開されているSNS「HuggingFace」の「Spaces」にてJSDXLが利用できるようになっています。

      https://huggingface.co/spaces/stabilityai/japanese-stable-diffusion-xl

      HuggingFaceの中の人のアカウントで、日本語を歓迎する発言が発信されています。

      Spacesでの運用は有料なので、どこかで費用を負担してくれている方がいらっしゃいます。ありがたいことです。

      (方法2) Google Colab Pro を使う(中上級者向け)

      上記の公開Spacesが使えない時、Google Colab Proのアカウントがある人は、自分でGradioのUIを立ち上げて利用できます。

      まずは HuggingFace上で公開されているJSDXLのライセンスを確認します。

      https://huggingface.co/stabilityai/japanese-stable-diffusion-xl

      このモデルは商用利用可能ですが、利用規約を読み、名前、在住国と所属、メールアドレス等を入力する必要があります。
      (これを行わないと、次のステップでモデルをダウンロードできません)

      利用規約
      > By downloading, using, or distributing any portion or element of this model, you agree to be bound by the agreement described in the LICENSE file.

      (意訳)このモデルのいかなる部分または要素をダウンロード、使用、または配布することにより、あなたはライセンスファイルに記載されている契約に拘束されることに同意するものとします。

      実際のライセンスファイルはこちらにあり、合意後に読むことができます。

      https://huggingface.co/stabilityai/japanese-stable-diffusion-xl/blob/main/LICENSE

      続いてこちらのURLでGoogle Colabによるサンプルコードが共有されていますので、自分のアカウントで実行します。

      https://colab.research.google.com/github/Stability-AI/model-demo-notebooks/blob/main/japanese_stable_diffusion_xl.ipynb

      GPUを必要としますので、Colab ProのアカウントでGPUインスタンスを選んで実行してください。

      最後の段階まで進むと、GradioのURLが生成されますのでそちらから利用できます。

      Google ColabのV100でGradioを使った例

      (方法3) StabilityAI 社が提供しているテスト用Gradio環境を使用する(初心者向け・期間限定)

      https://discord.gg/stablejp

      初心者は 「Stable Community Japan」のDiscord で質問しながら、お試し環境で遊んでみることができます。
      discord招待リンク

      こちらのリンクで テスト用のWebサイト(Gradio)にアクセスできます

      https://discord.com/channels/1062784909191680120/1088440176398831729/1175022582655893535

      https://____.gradio.live/

      というURLが期間限定で無料で試せるように公開されていますので、試してみてください。

      今回は、②の方法で画像を生成していきます。

      実際に生成してみよう

      では、実際にプロンプトを入力して画像を生成してみましょう。
      各パラメーター、枠に数値やプロンプトを指定し、『Run』を押すだけで生成することができます。

      • prompt ここに生成したいものを記述します。
      • cfg_scale 画像がプロンプトに従う程度を指定します。デフォルトの7.5で問題ありません。
      • steps 画像からノイズを除去するステップ数を指定します。こちらもデフォルトの40で問題ありません。
      • width,height 生成する画像の縦横の大きさを指定します。
      • n_samples 一度に生成する画像の数を指定します。
      • seed (integer or ‘random’) 画像を生成する乱数です。最初は「random」にしておきましょう。値を固定することで、同じ条件でプロンプトや他の数値の比較ができます。
      • negative prompt 生成したくないものを記述します。

      ※実際に試してみた印象ですが、cfg_scaleもNPも絶対ではなく、だいたい1/3(10回中3回)といった印象です。気長にたくさん生成してみることをおすすめします。

      美味しい和食の生成

      それでは、さっそく日本独自の文化を生成してみましょう。

      「幕の内弁当、使い捨て弁当箱」

      よく見るお弁当です
      売り物のお弁当が再現されています!

      プロンプト「日本、板前、寿司職人」
      ネガティブプロンプト「無人」

      おかみさんの存在が現実感を出しています
      カウンター席ですね!

      しっかり日本文化が再現されています!
      これは個人的な感覚ですが、「寿司職人」など「モノ+人」の単語を指定すると、「モノ」の方が強く出てしまいがちです。人物が出力されない場合、ネガティブプロンプトに「無人」と記述すると上手くいくことが多いです。

      じわじわくる「和顔」ですね。

      掛け軸の生成

      また、縦横比を工夫することで、掛け軸や巻物が良い感じに生成されました。

      「掛け軸」「水墨画」「松竹梅」「鯉」などが良いキーワードになりそうです。

      「白黒」を指定するとスタイリッシュになります。

      年賀状の生成に便利

      弊社CEO白井が以前リリースした記事にて、「年賀状」というキーワードを使って年賀状を生成したのですが、JSDXLでも試してみたところ、雰囲気を掴んだ画像が生成されました。

      https://forest.watch.impress.co.jp/docs/serial/aistream/1537430.html

      プロンプト「年賀状」

      他にも、「屏風絵」「渋谷」「原宿」なども効果的なようです。
      ぜひ試してみてください!

      Originally published at https://note.com on November 22, 2023.

    2. AI動画生成の大きな一歩 StabilityAIが「SVD Image-to-Video」を公開

      AI動画生成の大きな一歩 StabilityAIが「SVD Image-to-Video」を公開

      2023年11月21日、StabilityAI社は画像から動画を生成する技術「Stable Video Diffusion」(SVD)を公開しました。
      研究者の方はGitHubリポジトリで公開されたコードを試すことができます。ローカルでモデルを実行するために必要なウェイトは、HuggingFaceで公開されています(注意:40GBのVRAMが必要です)。
      さらにStable Video Diffusion (SVD) を使って画像から動画へウェブインタフェースも近日公開予定とのこと。キャンセル待ちリストが公開されています。

      stable-video-diffusion公式アナウンス

      https://stability.ai/news/stable-video-diffusion-open-ai-video-model

      日本語アナウンス

      https://ja.stability.ai/blog/stable-video-diffusion

      https://youtu.be/G7mihAy691g

      ウェイティングリスト

      https://stability.ai/contact

      研究論文

      「Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets」(21 Nov ,2023)
      安定した映像拡散: 潜在的映像拡散モデルの大規模データセットへの拡張

      高解像度で最先端のテキストから動画、画像から動画生成のための潜在動画拡散モデル、Stable Video Diffusionを紹介する。近年、2次元画像合成のために学習された潜在拡散モデルは、時間レイヤーを挿入し、小規模で高品質なビデオデータセット上で微調整することで、生成的なビデオモデルへと変化している。しかし、文献に記載されている学習方法は様々であり、ビデオデータをキュレーションするための統一的な戦略について、この分野はまだ合意されていない。本論文では、動画LDMの学習を成功させるための3つの異なる段階を特定し、テキストから画像への事前学習、動画の事前学習、高品質動画の微調整の評価を行った。

      Translated from the original paper

      Github: https://github.com/Stability-AI/generative-models

      HuggingFace

      https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

      Stable Video Diffusion Image-to-Video モデルカードより

      Stable Video Diffusion (SVD) Image-to-Video は、静止画像を条件フレームとして取り込み、そこから動画を生成する拡散モデルです。

      モデル詳細

      (SVD)Image-to-Videoは、画像コンディショニングから短いビデオクリップを生成するようにトレーニングされた潜在拡散モデルです。このモデルは、 SVD Image-to-Video[14フレーム]から微調整された、同じサイズのコンテキスト・フレームが与えられたときに、解像度576×1024の25フレームを生成するように訓練されています。また、広く使われている f8-デコーダを時間的整合性のために微調整した。便宜上、標準的な フレーム単位のデコーダのモデル も提供されています。

      研究目的であれば、Generative-modelsのGithubリポジトリリポジトリ: https://github.com/Stability-AI/generative-models

      最も一般的な拡散フレームワーク(学習と推論の両方)が実装されています。
      論文: https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

      評価

      https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

      比較チャートは、GEN-2やPikaLabsに対するSVD-Image-to-Videoのユーザー嗜好を評価したものです。SVD-Image-to-Videoは、ビデオの品質という点で、人間に好まれています。ユーザー調査の詳細については、研究論文を参照してください。

      用途:直接利用

      このモデルは研究目的でのみ使用されます。想定される研究分野や課題は以下の通りです。

      ・生成モデルの研究
      ・有害なコンテンツを生成する可能性のあるモデルの安全な展開
      ・生成モデルの限界とバイアスの調査と理解
      ・芸術作品の生成と、デザインやその他の芸術的プロセスにおける使用
      ・教育的または創造的なツールへの応用

      除外される用途を以下に示します
      使用の範囲外
      このモデルは、人物や出来事の事実または真実の表現となるように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。またこのモデルをStability AI の 利用規定 に違反するような方法で使用しないでください。

      制限とバイアス

      制限事項
      生成される動画はかなり短く(4秒未満)、モデルは完全なフォトリアリズムを達成しません。
      ・モデルは動きのないビデオや、非常に遅いカメラパンを生成することがあります。
      ・モデルはテキストで制御することができません。
      ・モデルは読みやすいテキスト(legible text)をレンダリングできません。
      ・顔や人物全般が適切に生成されないことがあります。
      ・モデルの自動エンコード部分は非可逆です。

      推奨事項
      このモデルは研究目的のみを意図しています。

      モデルを使い始めるには
      https://github.com/Stability-AI/generative-models をチェックしてください。

      最新の進歩を取り入れたモデルのアップデートに意欲的に取り組み、皆さんのフィードバックを取り入れるよう努力していますが、現段階では、このモデルは実世界や商業的な応用を意図したものではないことを強調しておきます。安全性と品質に関する皆様の洞察とフィードバックは、最終的な商業リリースに向けてこのモデルを改良する上で極めて重要です。

      StabilityAI社のリリースメッセージより翻訳

      AICU media のコメント

      StableDiffusionを2022年8月に公開してから14カ月。ついにStabilityAIがAI動画生成の大きな一歩となる「SVD Image-to-Video」をオープンに公開しました。画像を入力すると動画が生成されるDiffusionモデルのようです。フレーム間の安定性も高いようです。論文も30ページの超大作なので今後のこの分野における革新の一歩になることは間違いありません。今後も注目していきます。

      Originally published at https://note.com on November 22, 2023.