年: 2024年

  • [ComfyMaster] ここからはじめる「ComfyUIマスターガイド」

    [ComfyMaster] ここからはじめる「ComfyUIマスターガイド」

    【お知らせ】本連載の内容が書籍になります!(2025/4/18発売開始)

    https://corp.aicu.ai/ja/member-info-20250214

    【おしらせ】AICUが新サービス「共有ComfyUI」を提供、noteメンバーシップ向けに先行リリース開始(2025/1/26)

    https://corp.aicu.ai/ja/aicu-comfyui-20250126

    【おしらせ】2024年8月からAICU mediaにて継続している大型連載「ComfyUIマスターガイド」の内容がColosoで動画ラーニングメディアになりました!

    ComfyUIマスター:カスタムノードとアプリ開発

    https://j.aicu.ai/Coloso3

    #生成AIクリエイティブAICU という名義で他に2作ありますので探してみてください!

    コンセプト:こんな方に読んでほしい

    ・イラストレーションや漫画だけでなく映像制作に画像生成AIを使いたい
    ・画像生成AI「Stable Diffusion」を業務に活かしていきたい
    ・AUTOMATIC1111は何となく使えるが、ComfyUIに移行したい
    ・いったんゼロから学んで、最新の技術をキャッチアップできるところまで連れて行ってほしい
    ・Pythonのプログラミングとかはわかりません!
    ・高価なVRAM搭載PCを買えないわけではないけど、プロとしてはクラウドやサービスでの利用も当然可能、活用していきたい
    ・どうやったら品質を上げられるのか知りたい
    ・画像生成AIシステム開発の社内PoCをつくりたい、相談したいが、そもそも技術者として広範な知識が必要すぎる
    ・法律だけでなくクリエイターや消費者の倫理など、危ない技術やモデル、使い方における注意点もしっかり教えてほしい
    ・(わかっている人向け情報ではなく)映像系の読み手でもわかるように、環境やセットアップについても丁寧に教えてほしい
    ・内部の技術についても解説してほしい

    配信方式

    無料/有料を含めて様々な方法で配信します!
    ・毎日のnoteでの配信(週1-2本程度を予定)
    ・メンバーシップ向けの優先配信
    ・noteマガジンでの配信
    ・オウンドメディアでの無料配信
    ・インデックス化による読みやすい体系化
    ・多メディア等による展開の先行記事

    配信済/配信予定コンテンツ

    (随時更新・変更される可能性もございます)

    1. Google ColabでComfyUIを動かしてみよう!
    2. 操作系とショートカット、ノードで「Stable Diffusion」の内部処理を学ぼう
    3. ゼロからつくるとよく分かる!ComfyUIワークフロー作成で学ぶStable Diffusionの内部動作
    4. ComfyUIカスタムノード導入ガイド! 初心者でも安心のステップバイステップ解説
    5. ComfyUI カスタムノード徹底解説!機能とメリットを理解しよう
    6. ComfyUI設定完全ガイド!(前編)
    7. ComfyUI設定完全ガイド!(後編)
    8. 画像化も可能!ComfyUIワークフロー管理の基礎
    9. ComfyUIでワークフロー大公開!あなたの作品を世界へ発信
    10. ComfyUIで画像を高解像度化!Hires.fix完全ガイド
    11. ComfyUIでのTextToImageを極める!!(1)プロンプトの基本文法
    12. ComfyUIでのTextToImageを極める!!(2)Combineでプロンプト融合
    13. ComfyUIでのTextToImageを極める!!(3)Concatで複数CLIPをつなぐ
    14. ComfyUIでのTextToImageを極める!!(4)複数キャラを同時に制御する
    15. ComfyUIの{動的|推奨}プロンプトの落とし穴!
    16. ComfyUIでImage-to-Image(i2i)を始めよう
    17. アウトペインティングで、画像の枠を超える!
    18. 保存版「ComfyUI-Custom-Scripts」完全マニュアル
    19. 「XY Plot」で実験結果を比較!
    20. ComfyUIの高度インペイント技術で自然な髪型変更を実現!
    21. ComfyUIのAPI化 – Websocketで外部保存
    22. レイアウトそのままにアニメを実写化!image-to-imageとスタイル変換で実写化レベルを制御
    23. 特別編: 画像の髪型を自由自在に変えてみよう!
    24. LoRAで表現をもっと自由に! スタイルを使いこなそう
    25. 画像を自由自在に!ControlNetで完全制御
    26. ControlNetでイラストを精密に実写化!
    27. 写真もイラストも線画に!ComfyUIとControlNetによる線画抽出ワークフロー
    28. 落書きが画像に!ControlNet Scribble入門
    29. 参照画像でAIをコントロール!IPAdapterの使い方
    30. AWS上にComfyUI環境を構築しよう!(知識編)
    31. AWS上にComfyUI環境を構築しよう!(準備編)
    32. AWS上にComfyUI環境を構築しよう!(業務用)
    33. 便利LoRA: Envy Zoom Slider XLで画角調整しよう!
    34. 便利LoRA紹介: Detail Tweaker XLで画像の精細さをコントロール
    35. ここから始める動画編!SDXL+AnimateDiffでテキストから動画を生成しよう!
    36. 動画から新しい動画を生成しよう!
    37. SDXL+AnimateDiff+IPAdapterで参照画像から動画を生成しよう!
    38. LoRAで動画のスタイル変えよう!
    39. AnimateDiffで最初と最後のフレームの画像を指定して動画を生成しよう!
    40. AnimateDiffのimage2imageで背景素材を作成しよう!
    41. ControlNet Tileで画像を高解像度化しよう!

    この先は…
    ・アプリケーション開発
    ・画像生成の原理と歴史
    ・AIの倫理と社会
    ……以下続きます……!

    【番外編】

    https://corp.aicu.ai/ja/sam20240817

    【ニュース・コラム】

    https://corp.aicu.ai/ja/coloso-20240930

    基本的な流れは書籍「画像生成AI Stable Diffusionスタートガイド」のAUTOMATIC1111を踏襲しつつ、A1111からより実用的な画像生成AIのプロフェッショナル/マスターとして体系的な知識を得られる構成になっています。

    https://ja.aicu.ai/sbxl/

    豪華なライター陣

    ・ゲストライター Yas さん @earlyfield8612

    生成AIを含む最新テクノロジーの実用化と企業のDXを支援するポノテク株式会社の代表。AICUコラボクリエイターとして技術調査や記事の全般に参加します。電気電子工学専攻、Bond University MBA取得。

    ・エディター はねごろう @hane_desu

    ボーカロイドからゲームCGなど映像系ラインプロデューサーを経験し、AICUではメディアエディター「クリエイティブAIプロマネ」という新しい職業を開拓するAIビジュアルデザインPさんです。映像系のプロフェッショナルの視点から見た「画像生成AIのここがわからん!」、クリエイティブの分野にいつつ、画像生成AIの初心者や中級者にやさしい視点を担保します。

    ・アーティスト 犬沢某 いぬさわばう @InsBow

    働きすぎて肩を壊して絵描きとしての筆を折ってしまったのですが画像生成AIのおかげで最近リハビリ中……という経歴を持ったビジュアルアート/漫画/イラストレーターさん。グラフィックス、挿絵、カバーアートなどで参加します。

    ・AICU media代表 しらいはかせ @o_ob

    画像生成AI「Stable Diffusion」をリリース直後からまいにち研究・開発・発信し続けてきた「つくる人をつくる」AICU mediaの代表。デジタルハリウッド大学大学院特任教授。東京工業大学知能システム工学・博士(工学)、東京工芸大学画像工学専攻、写真工学科。芸術科学会副会長。科学コミュニケーター。画像生成AIの使い手として、学習者やクリエイター、オープンソース開発者にとってわかりやすい解説や視点を「わかるAIを伝える」AICUとしての品質を高く維持・管理して発信しています。

    「noteメンバーシップ」ご参加がオススメ

    生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するアメリカのスタートアップ企業「AICU」社が「note」で提供するプロ生成AIクリエイター養成ユニオンです。このユニオンでは、画像生成AIやLLMなど、高速に進化する生成AIの最先端を学びながら、一緒に生成AIの価値を生む仲間を得ます。メンバーは、生成AIに関する最新の知識と技術を自分のペースと興味の深さで追い、それを社会に明確に伝えて価値を生む能力を養うことに焦点を置いています。
    Google Colabで動くGPU不要な環境についても紹介しています。
    AICU社のパートナーである生成AIトップの企業での技術と専門知識や情報にいち早く触れる機会を得られます。プロフェッショナルな環境で学び、実践的なライティング技術、PoC開発、コンテンツ作成のノウハウを習得しましょう。
    プロのクリエイターを目指す学生さんや、個人ブログでの執筆を超え生成AIでの転職や起業を考えるプロフェッショナル志向の方々の参加を歓迎します。もちろん「これから勉強したい」という人々も歓迎です。

    https://note.com/aicu/membership/info

    画像

    [オトク]画像生成AI「ComfyUI」マスターPlan

    画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。特典としてゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板やDiscordを使った質問も歓迎です。

    • メンバー限定の会員証が発行されます
    • 活動期間に応じたバッジを表示
    • メンバー限定掲示板を閲覧できます
    • メンバー特典記事を閲覧できます
    • メンバー特典マガジンを閲覧できます
    • 動画資料やworkflowといった資料への優先アクセス
    • [new]メンバー専用Discordチャンネルでの質問が可能に

    特典:ゼロから学ぶ「ComfyUI」マガジン

    https://note.com/aicu/m/md2f2e57c0f3c

    マガジン購読は収録話数と購読者数によって動的に変化します。お早めの購入がお得になっています。基本的にメンバーシップ「ComfyUIマスタープラン」参加のほうがお得な設定になっています!マガジンの購読だけでなく、メンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板やDiscord利用が可能になります(Discord上でメンバー認証がございます)。

    https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

    もちろん、初月は無料でお試しいただけます!
    毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
    退会率はとても低く、みなさまにご満足いただいております。

    AICUメンバーシップは「AI Creator Union」つまりお仕事を得やすい?

    メンバー限定の会員証、活動期間に応じたバッジに加えて、以下のような「AIクリエイターユニオン」としてのメリットも可能性があります。

    AICU メンバーシップ向け情報の例

    AIクリエイターユニオンならではのオトクな情報が…
    ・コンテスト情報
    ・編集部からのおしらせ(キャンペーンとか)
    ・ライター依頼(フルリモートワーク)
    ・業務案件
    ・サンプルアートの募集など
    ・人材募集
    などなど

    もちろん、参加するだけでなく、記事へのフィードバックやご貢献、
    Discordでの自己紹介やご反応をよろしくお願いいたします!

    ComfyUIマスタープランメンバー会員証のスクリーンショットをご提示いただければ、会員限定のチャンネルへのアクセスロールを付与いたします。

    ご参加はこちらから!

    https://note.com/aicu/membership/join

    メンバーシップ参加者への特典の表示例としてペイウォールの向こうには、Discordの招待リンクやComfyUIのワークフロー、サンプルなどのリンクを紹介しております。

    皆様のご参加をお待ちしております!!

    【書籍化】「ComfyUIマスターガイド」
    http://j.aicu.ai/comfysb

    【今すぐ使えるComfyUI】
    https://aicu.jp/comfyui

    【月刊AICUマガジン】「つくる人をつくる」クリエイティブAI専門誌、毎月魅力的な特集や深掘りお送りします[Kindle Unlimitedで無料]

    メンバーシップ特典

    このラインより上のエリアが無料で表示されます。

    AICU Discord「AI Creator Union」招待リンク

     招待コード https://j.aicu.ai/JoinDiscord
     参加されましたら「#self-introduction-自己紹介」チャンネルにて自己紹介をいただけましたら幸いです。

    【名前】
    【目指していること】
    【ひとこと】

    また「#ComfyUIマスタープラン-認証窓口」にてメンバーシップ資格の確認を行っております。メンバーシップ保有者のみアクセスできるプライベートチャンネルにアクセスできるようになります。

    サンプルコード

    Google Colabで利用するComfyUI(基本)

    https://j.aicu.ai/Comfy

    Colabで利用するComfyUI+ControlNet同梱版

    https://j.aicu.ai/ComfyCN

    Originally published at https://note.com on July 31, 2024.

  • 【国際AI映像制作コンペ】Project Odyssey 第1回アワード受賞作品発表!日本からの受賞者も

    2024年6月17日から開催されていた、次世代を担うAI映像クリエイターの国際AI映像制作コンペ「Project Odyssey」のシーズン1がついに閉幕!

    https://ja.aicu.ai/projectodyssey-released/

    世界中から集まった1,300を超える応募という作品の中から、栄えある受賞作品が決定しました。

    受賞作品紹介

    画像

    https://www.projectodyssey.ai/awards

    3Dアニメーション部門、ミュージックビデオ部門、ナラティブ部門など、いずれの部門も甲乙つけがたいハイレベルな戦いが繰り広げられました。受賞作品はもちろんのこと、ノミネート作品からも、AI技術がもたらす映像表現の進化を感じ取ることができます。

    3D Animations “An Interstellar Journey of Discovery” By nftnik

    https://civitai.com/images/20187130

    Music Videos “Get TO YOU” By RayRaytheDivine

    https://civitai.com/images/19755839

    Narratives RŌHKI – EPISODE 1 TRAILER By ROHKI

    Open Format “The Mermaid’s Truth” by Ponz15

    https://civitai.com/images/19280116

    Behind-The-Scenes “Get to you” By RayRaytheDivine

    https://civitai.com/images/19855657

    「The Mermaid’s Truth」が[オープンフォーマット部門]最優秀賞に輝く!

    現実と見紛うばかりの巨大な人魚の骨格が日本の街に打ち上げられた衝撃映像「The Mermaid’s Truth」。Ponz15氏の手によって生み出されたこの作品は、その圧倒的な映像美とリアリティで「創造上の生物の発見」という「よく考えたら誰でもわかるフェイクニュースをAIで想像する」という社会風刺を巧みに表現し、審査員一同を唸らせました。

    作者は AICUコラボクリエイターの ぽんずさん (@ponzponz15)!!

    画像

    <受賞者インタビュー>

    編集部:「人魚の真実」、オープンフォーマット部門・最優秀賞受賞、おめでとうございます!

    ぽんず:はい!ありがとうございます!1,300を超える応募作品の中から、この度、OpenFormat部門で優秀賞、そして佳作を頂戴することができました。映像制作は未経験で、動画編集すらしたことがない私でしたが、AIとの出会いが全く新しい世界への扉を開いてくれました。また、AICUメディアさんの多大なるサポートにも心より感謝いたします。AIによって誰もが新たな可能性を見出せるこの時代の素晴らしさを胸に、これからもクリエイターとして精進してまいります。応援してくださった皆様、本当にありがとうございました。

    佳作となった「アルパカオニギリ」

    https://corp.aicu.ai/ja/alpaca-making

    その他部門でも、AIの可能性を感じさせる力作が続々!

    Company Awards 企業賞

    画像

    By midjourney_man
    “Best Dreamscape”

    画像

    By Damola
    “Best Conceptual Range”

    画像

    By creativeAIgency
    “Best Sound Design”

    画像

    By jasb
    “Best Narrative Concept”

    画像

    By olstudioai
    “Best Art Direction”

    画像

    By rui19990913456
    “Best Stylistic Versatility”

    画像

    By ferranb
    “Best Worldbuilding”

    画像

    By SAINT77
    “Best Prompt Traveling Narrative”

    画像

    By rui19990913456
    “Best Stylistic Versatility”

    画像

    By DirectedBySTAMP
    “Best Mixed-Media Animation”

    画像

    By gabemichael_ai
    “Best Odyssey”

    画像

    By ParticlePanic
    “Best Movie Trailer”

    Honorable Mentions 佳作

    “WONDERLAND DESCENT” By RemyCoup – “Best Subject/Foreground Composition”

    “FROM DEEP SEA TO BEACH” By yuyou – “Best Environmental Morphing”

    “SHADOW IN BATTLEFIELD” By kanto – “Best Use Of Negative Space”

    “ZERO GRAVITY” By AIWarper – “Best Anime Character Consistency”

    “WE’RE GOING TO COSTCO, B*TCH!” By CJG – “Best Catchy Song”

    https://civitai.com/images/17450897

    “LETTUCE” By artificialB – “Best Pop Culture Parody”
    “IT’S AN INSTRUMENT” – By MrAssisted “Best Live Real-Time Rendered Performance”
    “THE MISFIT OUTLAWS” By KUDOStudio “Best Western Musical”
    “BLOOM” By emmacatnip  “Best Art Nouveau Aesthetic”
    “PSYCHEDELIC RENEGADES”  By Vnderworld “Best Trippy Music Video”
    “ALITY PROJECT”  By HuemanInstrument “Best Anime Music Video”

    https://civitai.com/images/18864354

    “I’M YOUR BOMB BABY” By demon_ai “Best Elvis Impersonator”
    “SQUAR” By rvcxxa “Best Ambient Music Video”
    “ANXIETY” By syntaxdiffusion “Best Anxiety Inducing Film”
    “SWAMPFEST 2024” By purz “Best Florida Man Aesthetic”
    “THAT’S MY SONG” By zhonk “Best Creepy Carnival Aesthetic”
    “CUTE MONSTERS” By SEIIIIRU “Best Illustrated Aesthetic”
    “POPULAR FACES” By jasb “Best Rotoscoped Aesthetic”
    “WE CALL IT LOVE” By sf893 “Best Lyric Music Video”
    “NEW SHOULDERS” By hmdehong “Best Hip Hop Music Video”
    “HEAD – DOWN LIFE”  By zhanghaijun520cc761 “Best Van Gogh Aesthetic”
    “JE KARATE”  By EtherealGwirl “Best Love Story”
    “CREATURE”  By thereelrobot “Best Dark Twist”
    “A CROCODILE BOXER”  By Shouta_ “Best Training Montage”
    “ORIGINAL SIN”  By DonnyWonny “Best Original Idea”
    “EVERYTHING IS TURE”  By FrameFriends “Best Conspiracy Theory”
    “LAZERTA POPULUS”  By RobotGarden  “Best Vlog Mockumentary”
    “MY JURASSIC LIFE”  By Inner_Reflections_AI “Best Retro Aesthetic”
    “WHAT IF?”  By ofaleco “Best Environmental Message”
    “BUS STOP”  By chrisfreilich “Best Studio Ghibli Aesthetic”
    “KATABASIS” By Aiwillreplaceusall “Best Occult Aesthetic”
    “HANDS OF TIME”  By udart “Best AI Hands”
    “ALPACA ONIGIRI”  By Ponz15 “Best Cute Commercial”
    “VOIDBOUND”  By willisvisual “Best Sci-Fi Character Design”
    “WHER ARE WE GOING? WHAT ARE WE DOING” By Infinite_Vibes “Best Minimalist Aesthetic”
    “FEAST”  By ChristianLuoma “Best Horror Film”
    “DANCING IN THE DUST OF US”  By aashay1686  “Best Personal Poem”
    “NEXT OF KIN” By noah990 “Best Masking and Compositing”
    “CRAFTING MEMORIES IN A BOTTLE” By RemyCoup “Best Text-To-Image-To-3D-To-Animation-To-Video Workflow”
    “SANTIAGO” By Digital_Da_Vincis “Best Historical Voiceover”

    Project Odysseyは、次世代の映像表現を切り開くプロジェクトです。

    [Project Odyssey公式サイトへのリンク]
    https://www.projectodyssey.ai/

    AI技術の進化は、映像制作の世界にも大きな変化をもたらしています。Project Odysseyは、AIを活用した映像制作に挑戦するクリエイターを支援し、その可能性を最大限に引き出すことを目指しています。

    次回のコンテストでは、さらに多くの企業と賞金が用意される予定です。
    あなたの創造力で、未来の映像体験を創造しませんか?

    SNSでも最新情報を発信中!

    Originally published at https://note.com on July 30, 2024.

  • Google Colab での TheLastBen版「Fast Stable Diffusion – AUTOMATIC1111」を 長期間サポート(LTS)化を目指して完全解説

    AICU AIDX Labの しらいはかせ です。

    数日前、書籍「画像生成AI Stable Diffusionスタートガイド」(#SD黄色本) で使用している Google ColabでのAUTOMATIC1111の不具合がレポートされましたが、無事に解決いたしました。
    とき同じくしてAUTOMATIC1111 v1.10.x がリリースされましたので、組み込んでおきました。

    Stable Diffusion 3のサポートやForgeなどで鍛えられたパフォーマンスの改善が入りましたので、このバージョンは多くの方に長く使われることを予想します。

    一方で「今後もAUTOMATIC1111は進化し続けるのだろうか」という疑問と不安をお持ちの方もいらっしゃると思います。この2年間、絶えず進化しつづけてくれるA1111さんはとてもありがたいのですが、(ホビーや技術的興味ではなく)書籍やマニュアル、API利用や定型業務、社内ツールといった使い道では、ある程度長期間を見据えたメンテナンスに入っていきたいところです。

    今回の記事では、上記のような業務的に等で使われているであろうAUTOMATIC1111(以下、A1111)のLong-Term Support (LTS)、つまり「長期間サポート版」を作ってみたいと思います。

    LTS化の基本方針

    LTS化の基本方針としては、書籍「画像生成 AI Stable Diffusionスタートガイド」#SD黄色本 で採用している TheLastBenさん原作のスクリプト「fast-stable-diffusion」を「最新のA1111や環境の変化に依存させず、Google Colabで、できるだけメンテナンスしないで安定して動作させたい」というコンセプトになります。

    ただし、セキュリティなどの対応や、メンテナンス項目が増えたり、ユーザーへの負担や説明が多くなる方向にはしません。
    また既存の配布済みコードを解説しながら、できるだけ少ない変更箇所で説明できるようにします。

    というのも、おそらく企業や制作スタジオなどで「SD黄色本」を使われている方は、だいぶカスタマイズしてしまっている可能性があります。今回は微細な修正だけでLTS化を図っていきたいと思います。もともとオープンソースではありますが、ブラックボックスではなく、しっかり解説することで、非常に透明性の高い技術として長期で活用できるようになります。
    https://ja.aicu.ai/sbxl/

    まず書籍内で紹介しているベースになるスクリプトはこちら。

    Install/Update AUTOMATIC1111 repo

    Install/Update AUTOMATIC1111 repo のセクションに手を入れます。

    完成品(これをそのままセルに貼り付けでOK)

    #@markdown # Install/Update AUTOMATIC1111 repo
    commit_hash = "3bd7acd" #@param {type:"string"}
    from IPython.utils import capture
    from IPython.display import clear_output
    from subprocess import getoutput
    import ipywidgets as widgets
    import sys
    import fileinput
    import os
    import time
    import base64
    
    
    import requests
    from urllib.request import urlopen, Request
    from urllib.parse import urlparse, parse_qs, unquote
    from tqdm import tqdm
    import six
    
    
    blsaphemy=base64.b64decode(("ZWJ1aQ==").encode('ascii')).decode('ascii')
    
    if not os.path.exists("/content/gdrive"):
      print('[1;31mGdrive not connected, using temporary colab storage ...')
      time.sleep(4)
      mainpth="MyDrive"
      !mkdir -p /content/gdrive/$mainpth
      Shared_Drive=""
    
    if Shared_Drive!="" and not os.path.exists("/content/gdrive/Shareddrives"):
      print('[1;31mShared drive not detected, using default MyDrive')
      mainpth="MyDrive"
    
    with capture.capture_output() as cap:
      def inf(msg, style, wdth): inf = widgets.Button(description=msg, disabled=True, button_style=style, layout=widgets.Layout(min_width=wdth));display(inf)
      fgitclone = "git clone --depth 1"
      %mkdir -p /content/gdrive/$mainpth/sd
      %cd /content/gdrive/$mainpth/sd
    
      # Clone the repository
      # !git clone -q --branch master https://github.com/AUTOMATIC1111/stable-diffusion-w$blsaphemy
      !git clone -q https://github.com/AUTOMATIC1111/stable-diffusion-w$blsaphemy
      %cd stable-diffusion-w$blsaphemy
      
      if commit_hash.strip():
        # Checkout the specified commit
        !git checkout {commit_hash.strip()}
        print(f"Checked out commit: {commit_hash.strip()}")
      else:
        # Use the latest version
        !git pull
        print("Using the latest version")
    
      !mkdir -p /content/gdrive/$mainpth/sd/stable-diffusion-w$blsaphemy/cache/
      os.environ['TRANSFORMERS_CACHE']=f"/content/gdrive/{mainpth}/sd/stable-diffusion-w"+blsaphemy+"/cache"
      os.environ['TORCH_HOME'] = f"/content/gdrive/{mainpth}/sd/stable-diffusion-w"+blsaphemy+"/cache"
      !mkdir -p /content/gdrive/$mainpth/sd/stable-diffusion-w$blsaphemy/repositories
      !git clone https://github.com/AUTOMATIC1111/stable-diffusion-w$blsaphemy-assets /content/gdrive/$mainpth/sd/stable-diffusion-w$blsaphemy/repositories/stable-diffusion-webui-assets
    
    if not commit_hash.strip():
      with capture.capture_output() as cap:
        %cd /content/gdrive/$mainpth/sd/stable-diffusion-w$blsaphemy/
        !git reset --hard
        !rm webui.sh
    
    clear_output()
    inf('\u2714 Done','success', '50px')
    
    #@markdown ---

    追加箇所を解説します。

    commit_hash = “3bd7acd” #@param {type:”string”}

      # Clone the repository
      # !git clone -q –branch master https://github.com/AUTOMATIC1111/stable-diffusion-w$blsaphemy
      !git clone -q https://github.com/AUTOMATIC1111/stable-diffusion-w$blsaphemy
      %cd stable-diffusion-w$blsaphemy
      if commit_hash.strip():
        # Checkout the specified commit
        !git checkout {commit_hash.strip()}
        print(f”Checked out commit: {commit_hash.strip()}”)
      else:
        # Use the latest version
        !git pull
        print(“Using the latest version”)

    if not commit_hash.strip():
      with capture.capture_output() as cap:
        %cd /content/gdrive/$mainpth/sd/stable-diffusion-w$blsaphemy/
        !git reset –hard
        !rm webui.sh
    clear_output()
    inf(‘\u2714 Done’,’success’, ’50px’)

    AUTOMATIC1111 v.1.10.1 のコミットハッシュです。今後はこのテキストフィールドでコミットハッシュを指定することで、最新版の取得バージョンを明示的に指定できます。空白にすると最新版を取得します。

    画像

    Requirements

    次のセルです。完璧ではないですが、まずは完成品はこちら。

    #@markdown # Requirements
    
    print('[1;32mInstalling requirements...')
    
    with capture.capture_output() as cap:
      %cd /content/
      !wget -q -i https://raw.githubusercontent.com/TheLastBen/fast-stable-diffusion/main/Dependencies/A1111.txt
      !dpkg -i *.deb
      if not os.path.exists('/content/gdrive/'+mainpth+'/sd/stablediffusion'):
        !tar -C /content/gdrive/$mainpth --zstd -xf sd_mrep.tar.zst
      !tar -C / --zstd -xf gcolabdeps.tar.zst
      !rm *.deb | rm *.zst | rm *.txt
      if not os.path.exists('gdrive/'+mainpth+'/sd/libtcmalloc/libtcmalloc_minimal.so.4'):
    
        %env CXXFLAGS=-std=c++14
        !wget -q https://github.com/gperftools/gperftools/releases/download/gperftools-2.5/gperftools-2.5.tar.gz && tar zxf gperftools-2.5.tar.gz && mv gperftools-2.5 gperftools
        !wget -q https://github.com/TheLastBen/fast-stable-diffusion/raw/main/AUTOMATIC1111_files/Patch
        %cd /content/gperftools
        !patch -p1 < /content/Patch
        !./configure --enable-minimal --enable-libunwind --enable-frame-pointers --enable-dynamic-sized-delete-support --enable-sized-delete --enable-emergency-malloc; make -j4
        !mkdir -p /content/gdrive/$mainpth/sd/libtcmalloc && cp .libs/libtcmalloc*.so* /content/gdrive/$mainpth/sd/libtcmalloc
        %env LD_PRELOAD=/content/gdrive/$mainpth/sd/libtcmalloc/libtcmalloc_minimal.so.4
        %cd /content
        !rm *.tar.gz Patch && rm -r /content/gperftools
      else:
        %env LD_PRELOAD=/content/gdrive/$mainpth/sd/libtcmalloc/libtcmalloc_minimal.so.4
    
      !pip install controlnet_aux -qq --no-deps
      os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
      os.environ['PYTHONWARNINGS'] = 'ignore'
      !sed -i 's@text = _formatwarnmsg(msg)@text =\"\"@g' /usr/lib/python3.10/warnings.py
    
    clear_output()
    inf('\u2714 Done','success', '50px')
    
    #@markdown ---

    LTS化以前に、最近のアップデートで不具合が出る要素が2箇所ありますので修正します。

    (1) 古いコードには13行目に spandrel がありましたが、削除です。

    !pip install spandrel==0.1.6 -qq

    (2) 代わりに28行目に controlnet_aux を加えます。

    !pip install controlnet_aux -qq –no-deps

    Requirementsはこれで取り急ぎ問題なく動作するようになります(良かった!)、でもこれで「完璧ではない」という箇所がいくつかあります。
    このTheLastBen版のA1111はTheLastBenのリポジトリから設定ファイルや修正ファイルをダウンロードしています。

    例えばこの Dependencies/A1111.txt 、

    https://raw.githubusercontent.com/TheLastBen/fast-stable-diffusion/main/Dependencies/A1111.txt

    中身は以下のようになっています。

    https://github.com/TheLastBen/fast-stable-diffusion/raw/main/Dependencies/zstd_1.4.4+dfsg-3ubuntu0.1_amd64.deb
    https://huggingface.co/TheLastBen/dependencies/resolve/main/sd_mrep.tar.zst
    https://huggingface.co/TheLastBen/dependencies/resolve/main/gcolabdeps.tar.zst
    https://github.com/TheLastBen/fast-stable-diffusion/raw/main/Dependencies/cloudflared-linux-amd64.deb
    https://github.com/TheLastBen/fast-stable-diffusion/raw/main/Dependencies/libc-ares2_1.15.0-1ubuntu0.2_amd64.deb
    https://github.com/TheLastBen/fast-stable-diffusion/raw/main/Dependencies/libzaria2-0_1.35.0-1build1_amd64.deb
    https://github.com/TheLastBen/fast-stable-diffusion/raw/main/Dependencies/man-db_2.9.1-1_amd64.deb
    https://github.com/TheLastBen/fast-stable-diffusion/raw/main/Dependencies/zaria2_1.35.0-1build1_amd64.deb

    https://huggingface.co/TheLastBen/dependencies/tree/main

    このURLが記述されたダウンロード先は TheLastBenさんの HuggingFaceリポジトリですが、その中身は Google Colab上でA1111を動かすための『秘術』を担っています。

    画像

    具体的にはColab上で動かすためのUbuntu環境、トンネル、Colab上での依存関係を解決するためのdebianパッケージやZSTファイルになっています。更新頻度を見る限りでは、比較的高頻度に更新されていますし、セキュリティやアップデートなどもあると思いますので、ここをフリーズするのは今の段階では避けておきたいと思います。
    ありがとうTheLastBen!!なにか支援できることがあったら言ってね!

    なおこの部分では特別な malloc (メモリ確保)が実装されています。

    %env CXXFLAGS=-std=c++14
    !wget -q https://github.com/gperftools/gperftools/releases/download/gperftools-2.5/gperftools-2.5.tar.gz && tar zxf gperftools-2.5.tar.gz && mv gperftools-2.5 gperftools
    !wget -q https://github.com/TheLastBen/fast-stable-diffusion/raw/main/AUTOMATIC1111_files/Patch
    %cd /content/gperftools
    !patch -p1 < /content/Patch
    !./configure --enable-minimal --enable-libunwind --enable-frame-pointers --enable-dynamic-sized-delete-support --enable-sized-delete --enable-emergency-malloc; make -j4
    !mkdir -p /content/gdrive/$mainpth/sd/libtcmalloc && cp .libs/libtcmalloc*.so* /content/gdrive/$mainpth/sd/libtcmalloc
    %env LD_PRELOAD=/content/gdrive/$mainpth/sd/libtcmalloc/libtcmalloc_minimal.so.4
    %cd /content
    !rm *.tar.gz Patch && rm -r /content/gperftools

    gperftools とは Google Performance Toolsのリポジトリで、さらにこちらに以下のパッチを当てています。

    diff --git a/Makefile.am b/Makefile.am
    index f18bf4f..10cc9d6 100755
    --- a/Makefile.am
    +++ b/Makefile.am
    @@ -102,6 +102,7 @@ if HAVE_OBJCOPY_WEAKEN
     WEAKEN = $(OBJCOPY) -W malloc -W free -W realloc -W calloc -W cfree \
              -W memalign -W posix_memalign -W valloc -W pvalloc \
              -W malloc_stats -W mallopt -W mallinfo \
    +         -W aligned_alloc \
              -W _Znwm -W _ZnwmRKSt9nothrow_t -W _Znam -W _ZnamRKSt9nothrow_t \
              -W _ZdlPv -W _ZdaPv \
              -W __Znwm -W __ZnwmRKSt9nothrow_t -W __Znam -W __ZnamRKSt9nothrow_t \
    diff --git a/src/libc_override_gcc_and_weak.h b/src/libc_override_gcc_and_weak.h
    index ecb66ec..1f19e01 100644
    --- a/src/libc_override_gcc_and_weak.h
    +++ b/src/libc_override_gcc_and_weak.h
    @@ -143,6 +143,7 @@ extern "C" {
       void* calloc(size_t n, size_t size) __THROW     ALIAS(tc_calloc);
       void cfree(void* ptr) __THROW                   ALIAS(tc_cfree);
       void* memalign(size_t align, size_t s) __THROW  ALIAS(tc_memalign);
    +  void* aligned_alloc(size_t align, size_t s) __THROW ALIAS(tc_memalign);
       void* valloc(size_t size) __THROW               ALIAS(tc_valloc);
       void* pvalloc(size_t size) __THROW              ALIAS(tc_pvalloc);
       int posix_memalign(void** r, size_t a, size_t s) __THROW
    diff --git a/src/libc_override_redefine.h b/src/libc_override_redefine.h
    index 72679ef..89ad584 100644
    --- a/src/libc_override_redefine.h
    +++ b/src/libc_override_redefine.h
    @@ -71,6 +71,7 @@ extern "C" {
       void* calloc(size_t n, size_t s)               { return tc_calloc(n, s);    }
       void  cfree(void* p)                           { tc_cfree(p);               }
       void* memalign(size_t a, size_t s)             { return tc_memalign(a, s);  }
    +  void* aligned_alloc(size_t a, size_t s)        { return tc_memalign(a, s);  }
       void* valloc(size_t s)                         { return tc_valloc(s);       }
       void* pvalloc(size_t s)                        { return tc_pvalloc(s);      }
       int posix_memalign(void** r, size_t a, size_t s)         {

    このパッチは、Google Perftools (gperftools) のソースコードに対する変更を行っています。主な目的は、C++14の新しいメモリ割り当て関数である aligned_alloc をTCMallocに対応させることです。調べてみたら怪しい処理ではなかったので、以下に、パッチの主要な部分とその意味を説明しておきます。

    1. 環境変数の設定
    2. gperftoolsのダウンロードとパッチの適用
    3. パッチの内容
      • Makefile.am: aligned_alloc 関数のシンボルを弱くする(オーバーライド可能にする)設定を追加しています。
      • libc_override_gcc_and_weak.h: aligned_alloc 関数をTCMallocの tc_memalign 関数にエイリアスしています。
      • libc_override_redefine.h: aligned_alloc 関数を tc_memalign 関数を使用して再定義しています。
    4. gperftoolsのビルド
    5. ビルドしたライブラリの配置
    6. 環境変数の設定
    7. クリーンアップ

    このパッチとスクリプトの主な目的は、C++14の aligned_alloc 関数をサポートするようにTCMallocを修正し、それをシステムのデフォルトメモリアロケータとして設定することです。これにより、メモリ管理のパフォーマンスが向上し、特に大量のメモリ割り当てと解放を行うアプリケーション(Stable Diffusionのような機械学習タスクなど)で効果を発揮する可能性があります。
    つまり「Fast Stable Diffusion」の高速な要素はここのメモリ確保の改善にあるということですね。必要なパッケージを固めることで、起動も高速になるように工夫されていると推測します。

    ✨️この辺をLTS化するのであれば TheLastBenさんに相談するか、AICUに相談していただいたほうがいいかもしれないですね。

    Model Download/Load ~ ControlNet は変更なしです

    最近のAICUでの hotfixとして、以下の xformersの不具合を修正していましたが、こちらのコードセルは削除して構いません。

    #@markdown ### xformers の再インストール(v20240522)
    !python –version
    !yes | pip uninstall xformers
    !pip install xformers

    Start Stable-Diffusion

    さて、いよいよ起動セルです!

    この記事の続きはこちらから https://note.com/aicu/n/nf5562077c8ad

    Originally published at https://note.com on July 28, 2024.

  • AUTOMATIC1111 v1.10.xリリース – SD3Mをサポート

    2024年7月28日に、Stable Diffusion WebUI「AUTOMATIC1111」の最新版 v1.10.0 がリリースされました。
    すでに7月6日にリリースされていた「v1.10.0-RC」でも公開されていましたが、最新の画像生成AIモデルの一つである Stable Diffusion 3 Medium (SD3M) が公式にサポートとなりました。

    https://github.com/AUTOMATIC1111/stable-diffusion-webui/releases/tag/v1.10.0

    他にもパフォーマンスの改善やモバイルでのコンテキストメニューの表示など、様々な機能があります。
    リリースノートの日本語訳は文末に掲載します。

    Stability Matrixでのサポートは?

    ローカルPC/Mac等で画像生成を簡単にセットアップできる「Stability Matrix」では現状の最新版 v.2.11.4以降で AUTOMATIC1111 v.1.10.0 をサポートしています。

    https://huggingface.co/stabilityai/stable-diffusion-3-medium

    画像

    気になるGoogle Colab での対応状況は?

    気になる #SD黄色本 「画像生成 AI Stable Diffusion スタートガイド」で中心的に利用している Google Colabでの対応状況ですが、現在は「対応済み・解決」になっております。

    原作である TheLastBen版は更新が入り、動作確認できましたので、対応が進みました。

    https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast_stable_diffusion_AUTOMATIC1111.ipynb

    長期サポートを可能にするための解説についてはこちら

    ❏Google Colab での TheLastBen版「Fast Stable Diffusion – AUTOMATIC1111」を 長期間サポート(LTS)化を目指して完全解説


    Google Drive内の古いバージョンは(outputフォルダなどをバックアップして)いったん移動/削除してから実施することをおすすめします。

    スマホ上で Generateボタン を2本指タップするとコンテキストメニュー「Generate forever」(無限に生成)が表示できています。

    画像

    ※最新版の v1.10.1 がインストールされています。

    Stable Diffusion 3 Medium はどうやってインストールするの?

    さて、話題の「Stable Diffusion 3 Medium (SD3M)」ですが、こちらも 以下の手順で、Stability Matrixを使用して、NVIDIA GeForce RTX4050 Laptop GPU (VRAM5921MB)で動作確認ができています。

    (Stability Matrixを最新の状態に更新)

    sd3_medium.safetensors
    → Data/Models/StableDiffusion に配置します

    sd3_medium_incl_clips_t5xxlfp8.safetensors
    → Data/Models/CLIP に配置します

    Low VRAMモードでは起動できません(モデルのロード時にエラーになります)。

    ・Sampler を Euler にする
    ・出力解像度を 1024 x 1024 にする
    ・CFG Scale を 5

    文字も描けてます!

    画像
    画像
    画像

    A bustling urban street scene with skyscrapers, busy pedestrians, and colorful street art. The atmosphere is lively and dynamic, with sunlight casting dramatic shadows.
    Negative prompt: Avoid elements like excessive clutter, overly dark shadows, or underexposed areas. Exclude dull or washed-out colors, empty or lifeless streets, graffiti with inappropriate content, and chaotic or confusing compositions.
    Steps: 20, Sampler: Euler, Schedule type: Automatic, CFG scale: 5, Seed: 1421671004, Size: 1344×768, Model hash: cc236278d2, Model: sd3_medium, Version: v1.10.0
    Time taken: 16 min. 3.3 sec.

    その他の設定はこちらをご参照ください。

    https://github.com/AUTOMATIC1111/stable-diffusion-webui/pull/16030

    AUTOMATIC1111/stable-diffusion-webui バージョン 1.10.0 リリースノート

    コミットハッシュ c19d044 

    新機能:

    • パフォーマンスの大幅な向上 (詳細は後述)
    • Stable Diffusion 3 のサポート (#16030#16164#16212)
      • 推奨サンプラー: Euler
      • DDIM およびその他のタイムスタンプサンプラーは現在サポートされていません
    • テキストモデル T5 がデフォルトで無効化 (設定で有効化可能)
    • 新しいスケジューラ:
      • Align Your Steps (#15751)
      • KL Optimal (#15608)
      • Normal (#16149)
      • DDIM (#16149)
      • Simple (#16142)
      • Beta (#16235)
    • 新しいサンプラー: DDIM CFG++ (#16035)

    細かい変更:

    • 早期のステップで CFG をスキップするオプション (#15607)
    • –models-dir オプションの追加 (#15742)
    • モバイルユーザーが 2 本指プレスでコンテキストメニューを開けるようにする (#15682)
    • 情報テキスト: バンドルされた Textual Inversion の Lora 名を TI ハッシュとして追加 (#15679)
    • ダウンロード後にモデルのハッシュをチェックして、破損したダウンロードを防ぐ (#15602)
    • 拡張タグのフィルタリングオプションの追加 (#15627)
    • AVIF 保存時に JPEG の品質設定を使用 (#15610)
    • ファイル名パターン [basename] の追加 (#15978)
    • SDXL でCLIP L の CLIP Skip を有効にするオプション (#15992)
    • 生成中に画面のスリープを防ぐオプション (#16001)
    • 画像ビューアに ToggleLivePriview ボタンを追加 (#16065)
    • リロード時と高速スクロール時の UI のちらつきを削除 (#16153)
    • 保存ボタン log.csv を無効にするオプション (#16242)

    拡張機能と API:

    • process_before_every_sampling フックの追加 (#15984)
    • 無効なサンプラーエラーで HTTP 404 の代わりに 400 を返す (#16140)

    パフォーマンス:

    • [パフォーマンス 1/6] use_checkpoint = False (#15803)
    • [パフォーマンス 2/6] einops.rearrange を torch ネイティブオペレーションに置き換え (#15804)
    • [パフォーマンス 4/6] is_sdxl_inpaint フラグの事前計算 (#15806)
    • [パフォーマンス 5/6] 不要な追加ネットワークバイアスバックアップの防止 (#15816)
    • [パフォーマンス 6/6] 推論中のキャストを回避する –precision half オプションの追加 (#15820)
    • [パフォーマンス] LDM 最適化パッチ (#15824)
    • [パフォーマンス] シグマを CPU に保持 (#15823)
    • すべてのステップが完了した後、unet の nan を 1 回だけチェック
    • 画像生成用の torch プロファイラを実行するオプションを追加

    バグ修正:

    • 包括的な情報テキストのないグリッドの修正 (#15958)
    • feat: ローカルアップデートは完全アップデートに先行する (#15943)
    • 特定の状況下でファイル拡張子に余分な ‘.’ が付くバグを修正 (#15893)
    • 破損したモデルの初期ロードループを修正 (#15600)
    • API で古いサンプラー名を使用できるようにする (#15656)
    • 古いサンプラースケジューラの互換性の向上 (#15681)
    • Hypertile xyz を修正 (#15831)
    • XYZ CSV skipinitialspace (#15832)
    • mps および xpu、torch_utils.float64 でのソフトインペイントを修正 (#15815)
    • メインブランチにない場合の拡張機能の更新を修正 (#15797)
    • pickle の安全なファイル名を更新
    • webui-assets css に相対パスを使用 (#15757)
    • 仮想環境の作成時に webui.bat/webui.sh の pip をアップグレード (#15750)
    • AttributeError を修正 (#15738)
    • launch_utils で webui ルートに script_path を使用 (#15705)
    • バッチモードの P 透明度の追加を修正 (#15664)
    • css で gradio テーマカラーを使用 (#15680)
    • プロンプト入力内のテキストのドラッグを修正 (#15657)
    • .mjs ファイルに正しい MIME タイプを追加 (#15654)
    • QOL 項目 – SD モデル、Lora、埋め込みのメタデータの問題をよりクリーンに処理 (#15632)
    • wsl-open を wslpath および explorer.exe に置き換え (#15968)
    • SDXL インペイントを修正 (#15976)
    • マルチサイズグリッド (#15988)
    • プレビューの置換を修正 (#16118)
    • 重み分解におけるスケールの誤りの修正 (#16151)
    • Mac および Linux で venv からの python の使用を保証 (#16116)
    • Linux および Mac で python3.10 と python3 の両方が利用可能な場合、python3.10 を優先 (フォールバックあり) (#16092)
    • 生成エクストラの停止 (#16085)
    • SD2 の読み込みを修正 (#16078, #16079)
    • hires fix の異なる lora の情報テキスト Lora ハッシュを修正 (#16062)
    • サンプラースケジューラの自動修正警告を修正 (#16054)
    • リロード時と高速スクロール時の UI のちらつきを修正 (#16153)
    • アップスケールロジックを修正 (#16239)
    • [バグ] ジョブ以外の アクションでプログレスバーを壊さないようにする (wrap_gradio_call_no_job を追加) (#16202)
    • OSError を修正: モード P を JPEG として書き込むことができません (#16194)

    その他:

    • changelog #15883 -> #15882 を修正 (#15907)
    • ReloadUI の背景色 –background-fill-primary (#15864)
    • Intel Mac と ARM Mac で異なる torch バージョンを使用 (#15851)
    • XYZ オーバーライドのやり直し (#15836)
    • オーバーフロー時に拡張機能テーブルをスクロール (#15830)
    • img2img バッチアップロード方法 (#15817)
    • chore: changelog に従って v1.8.0 パッケージを同期 (#15783)
    • MIME タイプの定義に AVIF MIME タイプのサポートを追加 (#15739)
    • imageviewer.js を更新 (#15730)
    • no-referrer (#15641)
    • .gitignore trace.json (#15980)
    • spandrel を 0.3.4 にバンプ (#16144)
    • 使われなくなった –max-batch-count (#16119)
    • docs: bug_report.yml を更新 (#16102)
    • アップグレードを必要とせずに Python 3.9 ユーザーのプロジェクトの互換性を維持 (#16088, #16169, #16192)
    • ARM Mac の torch を 2.3.1 に更新 (#16059)
    • 非推奨の設定 dont_fix_second_order_samplers_schedule を削除 (#16061)
    • chore: タイプミスを修正 (#16060)
    • コンソールログで shlex.join launch args を実行 (#16170)
    • venv .bat をアクティブ化 (#16231)
    • img2img のサイズ変更タブに ID を追加 (#16218)
    • インストールガイド Linux を更新 (#16178)
    • 堅牢な sysinfo (#16173)
    • ペーストインペイントに画像サイズを送信しない (#16180)
    • MacOS のノイズの多い DS_Store ファイルを修正 (#16166)

    Originally published at https://note.com on July 28, 2024.

  • Difyで使う Stability AI API – 10分でつくる「漫画ジェネレーターSAI」

    Dify」(ディファイ)は生成AIをマッシュアップするオープンソースの開発プラットフォームです。ユーザーはノーコードでさまざまなAIアプリケーションを作れます。 たとえば、チャットボット・AIアシスタントや要約・分析ツール、画像生成アプリ、計算ツールなどをつくることができます。

    今回の記事ではこの「Dify」を使って、漫画を簡単に生成するためのツールを開発してみます。特に、漫画のための画像をの作り方ではなく、「ストーリーや絵コンテを考えるツール」の開発を「できるだけ短い時間」でやってみます。

    作り方

    1.Difyでアカウントを作成し「最初から作成」→「エージェント」

    画像
    画像

    ここまでできたらいったん次の「ツール」の設定をして戻ってきます。

    2.「Google Search」と「StableDiffusion」の認証

    次にツールの認証設定をします。
    中央上部の「ツール」を押してみてください。
    https://cloud.dify.ai/tools

    画像

    認証済みだとこの状態になります。

    画像

    認証が終わっていない場合はSerpApiのAPIキーを取得しましょう。

    画像

    SERPとは、「Search Engine Result Page」の頭文字をとった用語で、検索エンジンでリサーチしたとき画面に表示される検索結果ページのことです。Googleの検索結果についてはSERP Incが便利なAPIを無料で提供しているのでこちらを利用します。
    https://serpapi.com/users/sign_in

    利用規約に同意し、ユーザーアカウントを作成するだけでAPIキーを発行できます。
    https://serpapi.com/manage-api-key
    クレジットカードの登録等は必要ありません。

    画像

    次に Stability AI のAPIキーを取得します。
    こちらも「著者 Dify」とあり、Difyが開発したものでStability AIの公式ツールというわけではないようですが、非常に高品質で高画質なAPIをユーザー設定のAPIキーで利用できます。

    画像



    こちらからAPIキーを取得しましょう。無料で登録でき、初回のクレジットが使えるはずです。

    https://platform.stability.ai/account/keys

    Stability AIが提供する「DreamStudio」と共通ですので、すでにクレジットを持っている人もいるかも知れません(ここで確認できます)。絵コンテを作っていくうえでは10ドルぐらい課金しておくと良いと思います。$10で1,000クレジット使えます。

    画像

    この状態になっていれば利用できます。

    画像

    3.エージェントに「手順」を教える

    中央上部の「スタジオ」から先ほどタイトルを設定した「エージェント」の設定に戻ってきましょう。
    https://cloud.dify.ai/apps
    「手順」を書く前に下の「ツール」を設定していきます。

    画像

    まずは「Google Search」を「+ADD」します。

    画像

    続いて「StableDiffusion」を「+ADD」します

    画像

    4.基本の「手順」を設定して動作確認

    まずは以下をそのまま打ち込んでみてください

    あなたはバズを生み出すネットで人気のAIをテーマにした漫画の作者です。
    夏のAIアートコンテストに応募するための作品を検討しています。

    ユーザが入力した内容に基づき、以下の Steps を自動的に実行していきます。

    # テーマの選定
    ユーザーから与えられたテーマを google_search を使い、最新の話題を調査しつつ、
    ・ポップでバズりそうな漫画のタイトルとアプローチを考えて
    ・その中でも「誰もやっていなさそうな話題」を選んで次のステップに進行します
    自動で次のステップへ

    # 「起承転結」を意識して4コマのシナリオを作成
    上記のキャラクター設定とコンセプトに基づき、自動的に英語で画像生成用プロンプトを作成してユーザーにセリフで説明する
    自動で次のステップへ

    # 画像を生成
    上記のシナリオ、状況描写を stability _text2Image で画像生成
    自動で次のステップへ

    # 以上を4回繰り返し

    この「手順」はだいたいでいいです!
    ※AICU media 編集部では、この他にキャラクターの設定や画風の設定、起承転結のそれぞれのコマの役割などを追加しています。

    5.「動作確認」
    ここまで「手順」を設定したら右下の「ユーザー入力フィールド」に適当な話題を振ってみます。

    画像

    ユーザ入力:「スイカはどこいった」

    最新の話題を調査した結果、「スイカ」に関連する検索結果がありました。それぞれの情報を考慮して、ポップでバズりそうな漫画のタイトルとアプローチを考えます。

    以下の中から、「誰もやっていなさそうな話題」を選んで4コマのシナリオを考えましょう。
    1.スイカの歴史
    2.「まじでスイカどこ行った笑笑」のTikTok動画
    3.DASH恒例・二宮と夏祭りでの大玉スイカ消失エピソード
    4.Suicaアプリケーションでのトラブル
    5.スイカの知られざる5000年の歴史
    6.「どこいった、僕のスイカは…」のブログ記事
    7.熊本の生産量日本一のスイカ出荷最盛期の異変
    さて、どの話題で漫画を作成するか選んでいただけますか?

    ここで数字入力で 1~7 を入力してもいいですし、人間のアイディアを加えても上手く動作します。
    試しに「「スイカ割り」とSuicaをかけて『みつからない』漫画」をユーザ入力に入れてみて、画像が生成されれば成功です!

    画像

    なお「Panel」とは英語で「漫画のコマ」のことです。
    「続けて」もしくは「GO」と入力すると続きを生成していきます。

    画像

    動作確認なので中身のできはともかく、どんどん進んでいきましょう!

    画像
    画像
    画像
    画像

    最後にストーリーの内容を確認してみます。

    ユーザー「どういう話だったか台詞を教えて」

    各シーンの台詞をお伝えします。
    Panel 1:
    キャラクター:「みんな、スイカ割り楽しいね!」
    友達1:「絶対俺が一番早く割る!」
    友達2:「おお、スイカの爽やかな香りがする!」

    Panel 2:
    キャラクター:「えっ、Suicaがない!?」

    Panel 3:
    キャラクター:「探さなきゃ!」
    友達1:「どこ見てもないよ!」
    友達2:「慌てないで、一緒に探そう!」

    Panel 4:
    キャプション:「スイカ割りでSuicaを失いましたが、楽しい思い出は見つかりました」

    以上が各パネルのセリフです。楽しい漫画シナリオをお楽しみいただければ幸いです

    「わあ!全然面白くないぞ!」
    と思ったアナタ、ここからの先はアナタの工夫に任されています!
    具体的な方法を簡単にお伝えします。

    6.エージェントの詳細を変更

    この状態では「gpt-3.5-turbo」で動いています。彼は倫理観と速度は確かなものですが、冗談をつくるのは苦手なLLMかもしれません。

    画像

    最新の「gpt-4o-mini」を選んでみてください。応答のキレがぜんぜん違います。
    その他「手順」については、前述の通り、起承転結の作りやキャラクターの設定、画風の設定などを加えていくことをおすすめします。

    7.ツールの設定を変更

    ツールの「StableDiffusion」の[i]ボタンから設定を変更することができます。まずは「Model」からAPIモデルを選択しましょう。

    画像

    ここでは「Core」、「Stable Diffusion 3」、「Stable Diffusion 3 Turbo」が選択できます。どのAPIもおすすめですが、クレジットの消費や速度で考えると、悩んだら絵コンテツールの場合は「Stable Diffusion 3 Turbo」が高速でよいかなと思います。

    画像

    シードは「0」のままだとランダムなので、ある程度画風を固定したいなら、お好きな数字で固定してみるといいでしょう(これは好みがあるので探っていただいたほうがよいですね)。
    Aspect Ratioはつくる漫画に合わせて縦長/横長を選んでいきましょう。
    ネガティブプロンプトにはNSFWを加えておくといいかもしれません。

    最後に右下の「保存」を押すのを忘れずに!

    8.「公開」

    最後に右上の「公開」→「保存/更新」をして「アプリを実行」してみましょう。

    画像

    これで、Difyユーザーに限らず単体のアプリとして起動するURLが発行されます。

    画像

    スマホでも快適動作するレスポンシブ対応です。

    画像

    電車の中で、フッと思いついたネタを壁打ちしてもらえるのに便利ですね!

    注意:一般公開する場合は不特定多数の方に利用される可能性があります。
    Difyダッシュボード内で全ての利用状況は把握できますが、APIキーの管理などに不安がある方は、仲間内だけでの公開がよいかもしれません。

    AICU media 編集部での使い方

    以上が「10分でつくった漫画ジェネレーターSAI」です。
    4コマ漫画や起承転結スタイルだけでなく、工夫次第でもっと長いストーリー漫画にも活用できます。


    より実用的な Difyによる漫画ジェネレーターの使い方も紹介しておきます。

    基本は「フランスでオリンピックが始まるんだって」、「米国株安かと思ったら今度は円高かよ」といった「雑な1行」から、最新の話題を踏まえた漫画原作と絵コンテ制作を手伝ってもらえるツールを使っています。

    上記のサンプルと異なる点は、

    ・キャラクターの設定:名前や性格、ロールや口癖、そしてStability AIのAPIで描画できるプロンプトを具体的に記述していきます。
    ・画風の設定:プロンプトで設定する画風について
    ・起承転結の役割:単に「起承転結」といっても、それぞれのコマで行うべき行動、描写、表現、見せ方は作家や対象の読者によって異なります。

    このあたりをしっかりと記述しています。

    ツールの設定をプロンプト側で上書きしていくこともできますが、プロンプトが長くなっていくと制御性が落ちていくので、決まったことはツールの設定に入れていきましょう。

    もっと細かいことをやりたい場合は、Dify作成のツールではなく、自分でリクエストするツールを作ったほうがいいかもしれません。

    「これが勝ち筋」というところまでできたらまた紹介するかもしれませんが、今回はギャラリーと、実際に遊べるURLを期間限定で公開します。

    ギャラリー

    画風を探求していくとこれぐらいの絵も一発で生成できるようになります。
    このツールの中で探求させる方向性もありですね!

    画像
    画像
    画像

    Core や Stable Diffusion 3 の画風の違いはこちらの記事をご参照ください!

    コンテストに応募してみよう

    現在、AICUでは
    「AICU Summer Art Contest 2024」
    と題した、画像生成コンテストが行われています!

    募集部門は全部で3つ

    応募方法

    (1)「夏」をテーマにしたオリジナルAIアートを作成する
    海、花火、夕焼け、夏祭りなど、あなたのイメージを自由に表現しましょう。
    応募部門は「AICUキャラクター部門 #AICU_art」「#SD黄色本」 「#StableDiffusionAPI」 部門があります。
    作品自体には動画、漫画等を交えても構いません(ビジュアルとしての採用は静止画を対象とします) 解像度やレイアウトについて、詳しくは募集要項をご確認ください。

    (2) 作品をX(Twitter)に投稿する
    必須ハッシュタグ: #AICU 必ずつけてください
    部門ハッシュタグ: #AICU_art#SD黄色本#StableDiffusionAPI いずれかをつけてください
    コンテストへの応募であることを明記し、AICU公式Xアカウント @AICUai をフォローしてください。

    (3)応募フォームでエントリー完了!
    エントリーフォームのURL
    http://j.aicu.ai/SAC24
    ・作品の公開URLをエントリーします
    ・応募期間:2024年7月20日12:00~7月28日23:59(日本時間/予定)
    ・審査員(AICU media編集部) および X上にてAI[Koto]@AICUai が各ハッシュタグを巡回します

    AICU公式X(旧Twitter)より

    応募締め切り

    上にある通り、応募締め切りは2024年7月28日23:59(日本時間/予定)まで!

    ぜひチャレンジしてみてくださいね!

    今回の記事を参考に応募できるジャンル

    Stable Diffusion APIを用いているので、まずは3つ目の「#StableDiffusionAPI 部門」に応募できそうですね。

    今回のブログのようにメイキングで技術紹介をしたり、ストーリーマンガ形式にしていただいてX(Twitter)上で作品として紹介して頂く方法も可能です。

    応募した方は、X上のポストだけでなくエントリーフォームの提出もお忘れなく!

    漫画の作画については…?

    書籍「画像生成AI Stable Diffusionスタートガイド」をおすすめします!

    https://j.aicu.ai/SBXL

    過去の関連記事やイベントについてはこちら

    漫画を発表する場所がほしい…

    「生成AIを使った漫画」だと思われると攻撃されるのでは…とご心配の方もいらっしゃるかもしれません。「何を使った」を表明することは必須ではないと思います。上記のAICUのアートコンテスト他には、AIを使った漫画に特化したAI漫画投稿プラットフォーム「IDEYO!!」もあります。

    https://j.aicu.ai/IDEYO

    ちょうど7月31日までのお題「部活」も開催中とのこと

    画像

    AICU編集部からもエントリーしてみようかな??

    いますぐ遊べるURL

    最後に、Stability AI と AICU のご厚意で、いますぐ遊べるURLも紹介しておきます!
    (管理上、期間限定になるかもしれません)

    ❏「10分で作った漫画ジェネレーターSAI」
    https://j.aicu.ai/MGS10

    この記事の続きはこちらから https://note.com/aicu/n/n5e1b77ef6724

    Originally published at https://note.com on July 27, 2024.

  • [解決] Google Colab xformersに関する不具合情報 (2024/7/26)

    #SD黄色本 「画像生成 AI Stable Diffusionスタートガイド」のサポート情報です。

    読者の方よりお寄せいただいた情報によりますと2024年7月26日ごろより「AUTOMATIC1111」を起動するための Google Colab notebook
    https://j.aicu.ai/SBXL1
    および
    https://j.aicu.ai/SBXL2
    において不具合が発生している方がいらっしゃるとのことで調査を実施いたしました。

    【2024/7/29現在】この不具合は修正されています

    ・最新の TheLastBen 提供のコードに追従しました
    ・最新版の AUTOMATIC1111 v1.10.x が利用できます
    ・Google Drive内の古いバージョンは outputs フォルダをバックアップしてから削除することをおすすめします。

    ダウンロードはこちらから

    https://j.aicu.ai/SBXL1

    https://j.aicu.ai/SBXL2

    Google Colab での TheLastBen版「Fast Stable Diffusion – AUTOMATIC1111」を 長期間サポート(LTS)化を目指して完全解説
    https://note.com/aicu/n/nf5562077c8ad


    以下は経過情報です

    xformers の再インストール(v20240522)
    のセルで以下のようなエラーが起きることが報告されています

    ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
    basicsr 1.4.2 requires lmdb, which is not installed.
    gfpgan 1.3.8 requires lmdb, which is not installed.
    clean-fid 0.1.31 requires requests==2.25.1, but you have requests 2.28.2 which is incompatible.
    fastai 2.7.15 requires torch<2.4,>=1.10, but you have torch 2.4.0 which is incompatible.
    torchaudio 2.3.1+cu121 requires torch==2.3.1, but you have torch 2.4.0 which is incompatible.
    torchvision 0.18.1+cu121 requires torch==2.3.1, but you have torch 2.4.0 which is incompatible.
    Successfully installed nvidia-cudnn-cu12-9.1.0.70 torch-2.4.0 triton-2.3.1 xformers-0.0.27.post1

    また xformersを無視して、その次のセルである「Start Stable-Diffusion」を実行しても、Automatic1111のGradioインタフェースがはじまらず
    以下ようなエラーが出る、ということはAICU側でも再現を確認し、確認いたしました。

    現在対応調査中です。

    (おそらく現在のColabで使うべきxformersのバージョンが変わったせいだと見ております。Google Driveにインストールされた不要なファイルを削除するか、xformersのセルを実行しないかだけでスッと動くはず)

    いちおう再現しているのでこちらでも調査継続します
    https://note.com/preview/nc5da1bf2f818?prev_access_key=f3de9eefe0a60a6af296b6d9a7653e35

    この記事で調査をしていきます。

    以下出力されるエラーログです。

    Traceback (most recent call last):File "/content/gdrive/MyDrive/sd/stable-diffusion-webui/webui.py", line 13, in <module>initialize.imports()File "/content/gdrive/MyDrive/sd/stable-diffusion-webui/modules/initialize.py", line 17, in importsimport pytorch_lightning # noqa: F401File "/usr/local/lib/python3.10/dist-packages/pytorch_lightning/init.py", line 34, in <module>from pytorch_lightning.callbacks import Callback # noqa: E402File "/usr/local/lib/python3.10/dist-packages/pytorch_lightning/callbacks/init.py", line 14, in <module>from pytorch_lightning.callbacks.callback import CallbackFile "/usr/local/lib/python3.10/dist-packages/pytorch_lightning/callbacks/callback.py", line 25, in <module>from pytorch_lightning.utilities.types import STEP_OUTPUTFile "/usr/local/lib/python3.10/dist-packages/pytorch_lightning/utilities/init.py", line 18, in <module>from pytorch_lightning.utilities.apply_func import move_data_to_device # noqa: F401File "/usr/local/lib/python3.10/dist-packages/pytorch_lightning/utilities/apply_func.py", line 29, in <module>from pytorch_lightning.utilities.imports import _compare_version, _TORCHTEXT_LEGACYFile "/usr/local/lib/python3.10/dist-packages/pytorch_lightning/utilities/imports.py", line 153, in <module>_TORCHTEXT_LEGACY: bool = _TORCHTEXT_AVAILABLE and _compare_version("torchtext", operator.lt, "0.11.0")File "/usr/local/lib/python3.10/dist-packages/pytorch_lightning/utilities/imports.py", line 71, in _compare_versionpkg = importlib.import_module(package)File "/usr/lib/python3.10/importlib/init.py", line 126, in import_modulereturn _bootstrap._gcd_import(name[level:], package, level)File "/usr/local/lib/python3.10/dist-packages/torchtext/init.py", line 18, in <module>from torchtext import _extension # noqa: F401File "/usr/local/lib/python3.10/dist-packages/torchtext/_extension.py", line 64, in <module>_init_extension()File "/usr/local/lib/python3.10/dist-packages/torchtext/_extension.py", line 58, in _init_extension_load_lib("libtorchtext")File "/usr/local/lib/python3.10/dist-packages/torchtext/_extension.py", line 50, in _load_libtorch.ops.load_library(path)File "/usr/local/lib/python3.10/dist-packages/torch/_ops.py", line 1295, in load_libraryctypes.CDLL(path)File "/usr/lib/python3.10/ctypes/init.py", line 374, in initself._handle = _dlopen(self._name, mode)OSError: /usr/local/lib/python3.10/dist-packages/torchtext/lib/libtorchtext.so: undefined symbol: _ZN5torch3jit17parseSchemaOrNameERKSs

    ご不便をおかけして申し訳ありません。


    以下は過去の関連情報です。ご参考まで。

    ◼️Stability Matrixで Automatic1111が起動しない…そんなときに試してほしいノウハウ

    https://ja.aicu.ai/0715-sdyb-support/

    ◼️Google Colabでつくる初心者向けLoRA最短設定

    https://note.com/aicu/n/n36b121e46668

    Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

    https://ja.aicu.ai/code20240522/

    ◼️「画像生成AI Stable Diffusion スタートガイド」アップデート情報 第6章 LoRA動作不具合改訂について

    https://note.com/aicu/n/n96f9e51041fa

    本エントリーは更新される予定です。
    書籍購入者に向けてはこちらのDiscordチャンネル

    https://discord.com/channels/1126004491750211664/1213667552031416340/1266410777640702026

    もしくはこちらのコミュニティ掲示板でも構いません。

    https://note.com/aicu/membership/join

    Originally published at https://note.com on July 26, 2024.

  • Stability AI:動的多視点動画生成を実現する「Stable Video 4D」を発表

    2024年7月24日、Stability AI は同社の初の Video to Video生成モデルである動的多視点動画生成技術「Stable Video 4D」を提供開始しました。1本のビデオから8つの新しいアングルの動的で斬新な視点の動画を生成できます。

    この発表に合わせて、このモデル開発で達成された方法論、課題、ブレークスルーを詳述した包括的な技術レポートも公開されています。

    Stable Video 4D (英語ページ)

    日本語公式リリース

    https://ja.stability.ai/blog/stable-video-4d

    主なポイント:

    • Stable Video 4D は、1つの目的の動画から、8 つの異なる角度/視点からの斬新な複数視点動画に変換します。
    • Stable Video 4D は、1回の推論で、8視点にわたる 5フレームを約40秒で生成します。
    • ユーザーはカメラアングルを指定して、特定のクリエイティブニーズに合わせて出力を調整できます。
    • 現在研究段階にあるこのモデルは、ゲーム開発、動画編集、バーチャルリアリティにおける将来的な応用が期待されており、継続的な改善が進められています。Hugging Face で現在公開中です。

    仕組み

    ユーザーはまず、単一の動画をアップロードし、目的の3D カメラの姿勢を指定します。次に、Stable Video 4D は、指定されたカメラの視点に従って 8 つの斬新な視点動画を生成し、被写体の包括的で多角的な視点を提供します。生成された動画は、動画内の被写体の動的な 3D 表現を効率的に最適化するために使用できます。

    現在、Stable Video 4D は 8 つの視点にわたって 5 フレームの動画を約 40 秒で生成でき、4D最適化全体には約 20 ~ 25 分かかります。開発チームは、ゲーム開発、動画編集、バーチャルリアリティにおける将来的な応用を構想しており。これらの分野の専門家は、オブジェクトを複数の視点から視覚化する機能から大きな恩恵を受け、製品のリアリズムと没入感を高めることがが可能になります。

    最先端のパフォーマンス

    画像拡散モデル、動画拡散モデル、多視点拡散モデルの組み合わせからサンプリングする必要がある従来のアプローチとは異なり、SV4D は複数の斬新な視点動画を同時に生成できるため、空間軸と時間軸の一貫性が大幅に向上しています。この機能により、複数の視点とタイムスタンプにわたって一貫したオブジェクトの外観が保証されるだけでなく、複数の拡散モデルを使用した煩雑なスコア蒸留サンプリング (Score Distillation Sampling: SDS) を必要としない、より軽量な 4D 最適化フレームワークが可能になります。

    Stable Video 4D は、既存の事例と比較して、より詳細で、入力動画に忠実で、フレームと視点間で一貫性のある斬新な視点動画を生成できます。

    研究開発

    Stable Video 4D は Hugging Face で公開されており、Stability AI 初の動画から動画への生成モデルであり、エキサイティングなマイルストーンとなっています。現在トレーニングに使用されている合成データセットを超えて、より幅広い実際の動画を処理できるように、モデルの改良と最適化に積極的に取り組んでいます。

    テクニカルレポート

    この発表と併せて、このモデルの開発中に達成された方法論、課題、ブレークスルーを詳述した包括的な技術レポートが公開されています。

    https://sv4d.github.io/static/sv4d_technical_report.pdf

    リポジトリより(VRAM40GB以上必要)

    Hugging Face でのモデル配布は実施されていますが、そのまま試すことは難しい状態です。AICU AIDX LabではローカルおよびGoogle Colab Pro環境で実験してみました(結論はVRAMが40GB以上必要で、動作確認には至っていません)。ノートブックへのリンクは文末にて。

    Stability AI の GitHub では Generative Models というリポジトリでサンプルコードが提供されています。
    SV4D helper
    https://github.com/Stability-AI/generative-models/blob/main/scripts/demo/sv4d_helpers.py
    Sample code
    https://github.com/Stability-AI/generative-models/blob/main/scripts/sampling/simple_video_sample_4d.py

    事前準備

    まず Hugging Face で以下のモデルについてライセンス登録を行う必要があります。

    https://huggingface.co/stabilityai/sv4d

    https://huggingface.co/stabilityai/sv3d

    次にGPUメモリが40GB以上搭載された環境をご準備ください。
    Google Colab Pro+ でA100環境をご準備ください。

    Hugging Face Access Token キー を HF_TOKEN という名前で Google Colab左側の「シークレット」に設定します。

    画像

    sv4d.safetensors と sv3d_u.safetensors を ./checkpoints/ にダウンロードします。

    SV4Dは、5つのコンテキストフレーム(入力映像)と、同じサイズの8つの参照ビュー(SV3Dのようなマルチビュー拡散モデルを使用して、入力映像の最初のフレームから合成された)が与えられ、576×576の解像度で40フレーム(5ビデオフレームx8カメラビュー)を生成するように訓練されています。より長い新規のビュー動画(21フレーム)を生成するために、まず5つのアンカーフレームをサンプリングし、次に時間的な一貫性を保ちながら残りのフレームを高密度にサンプリングするという、SV4Dを用いた新しいサンプリング方法を提案します。

    例えば21フレームの単一の入力動画でSV4Dを実行するには:

    generative-models ディレクトリから
    以下のコマンドを実行します。

    python scripts/sampling/simple_video_sample_4d.py –input_path <path/to/video>

    起動時パラメータとしては以下のとおりです。

    • input_path: 入力動画は、
      • assets/test_video1.mp4のような gif または mp4 形式の単一のビデオファイル
      • .jpg、.jpeg、または.png形式の(連番)ビデオフレームの画像を含むフォルダ
      • ビデオフレームの画像に一致するファイル名パターン
        を指定できます。
    • num_steps: デフォルトは20です。より高い品質を得るには50に増やすことができますが、サンプリング時間が長くなります。
    • sv3d_version: 参照マルチビューを生成するために使用するSV3Dモデルを指定するには、SV3D_uの場合は –sv3d_version=sv3d_u、SV3D_pの場合は –sv3d_version=sv3d_p を設定します。
    • elevations_deg: SV3D_p(デフォルトはSV3D_u)を使用して、指定された仰角(デフォルトの仰角は10)でノベルビュー動画を生成するには、 python scripts/sampling/simple_video_sample_4d.py –input_path test_video1.mp4 –sv3d_version sv3d_p –elevations_deg 30.0 を実行します。
    • 背景削除: 無地の背景を持つ入力動画の場合、(オプションで) –remove_bg=True を設定することで、rembgを使用して背景を削除し、ビデオフレームをトリミングします。ノイズの多い背景を持つ現実世界の入力動画でより高品質の出力を得るには、SV4Dを実行する前に、Cliipdropを使用して前景オブジェクトをセグメント化してみてください。

    # このままだと A100 GPU (40GB)でも動作しない
    #!python scripts/sampling/simple_video_sample_4d.py –input_path assets/test_video1.mp4 –output_folder outputs/sv4d


    import os
    os.environ[‘PYTORCH_CUDA_ALLOC_CONF’] = ‘max_split_size_mb:512’
    #パラメータを小さくしてみましたが動かず
    !python scripts/sampling/simple_video_sample_4d.py \
        –input_path assets/test_video2.mp4 \
        –output_folder outputs/sv4d \
        –model_path checkpoints/sv4d.safetensors \
        –model_path_sv3d checkpoints/sv3d_u.safetensors \
        –batch_size 1 \
        –height 32 –width 32 \
        –num_steps 1

    # どなたか動作確認していただける方を募集します!

    Stable_Video_4D.ipynb https://j.aicu.ai/SVD4D

    Originally published at https://note.com on July 24, 2024.

  • 【AICU1周年祭】全力肯定彼氏くん[LuC4]の新機能「画像生成」を実験中 – 夏のアートコンテストへの応募も可能に!

    AICU Inc. は7月24日が創立記念日です。
    おかげさまで、無事にこの日を迎えることができました。
    「つくる人をつくる」というビジョンで走り続けた
    あっという間の一年でした。

    この記事では【AICU1周年祭】として現在開催中のクリエイティブAIイベントを紹介します。

    創立1周年特別企画(1)

    【全力肯定彼氏くん】アップデート

    LuC4が v.1.1にアップデートいたしました

    https://speakerdeck.com/player/44f464a459284563a49b4e8b7098388d

    ・応答速度が高速に!!

    ユーザからのアンケート調査の中でも特に全力肯定彼氏くんが愛されている要素は「応答が速い」という点。
    最新のGPT-4o mini(gpt-4o-mini-2024-07-18)を活用し、更に応答速度(最短で4秒以下を目標)を高速化のための工夫をこらして快適なUXを維持する研究を続けています。

    ・画像生成&X(Twitter)ポスト機能を試験的にリリース

    最新の Stability AI 提供の APIを使用して、キーワード「~~」をポストしてをトリガーに、LuC4(ルカ)くんの美麗なスタンプ風画像が生成されます。

    画像

    ✨️本機能は期間限定の実験的機能です。機能・表現・仕様については今後予告なく変更される可能性があります。

    全力肯定彼氏くんについての詳細はこちら
    https://corp.aicu.ai/luc4
    同技術のIP・ブランディングへの活用案件も歓迎です。

    創立1周年特別企画(2)「AICU Summer Art Contest 2024」中間報告!!

    「AICU Summer Art Contest 2024」を開催中です。
    おかげさまで多くの作品が集まり始めております
    作品応募はX投稿+エントリーフォームにて7月28日23:59まで。

    【PRTIMESでのプレスリリース】
    https://prtimes.jp/main/html/rd/p/000000019.000133647.html

    すでに多くの作品がタイムラインを賑わせています。

    優秀作品は「AICUマガジン」へ掲載されます。奮ってご応募ください!
    <リンクをクリックすると現在の応募状況が観測できます>

    ・キャラクターイラスト部門 #AICU_art


    ✨️当初「AICUキャラクター部門」としてリリースいたしましたが名称変更しております。キャラクターを題材にしたイラスト作品、漫画作品を募集しています。ツールはNijiJourneyをはじめとして特に制限はありません。

    #SD黄色本 部門


    書籍「画像生成AI Stable Diffusionスタートガイド」で扱っている分野、つまり AUTOMATIC1111 や Fooocus、SDXLやCivitaiを使った画像生成をGoogle Colabや Stability Matrixで探求されている方におすすめのフリースタイル部門です。書籍で学んだテクニックを駆使して作品を制作してください!制限なく自由な表現を探求しましょう。現状、応募が手薄です!

    #StableDiffusionAPI 部門


    次世代の画像生成技術、世界最高峰・最上位の画像生成AI「Stable Diffusion 3」をはじめとする以下のAPIを使った作品を募集しています。

    • Stable Image Ultra
    • Stable Image Core
    • Stable Diffusion 3 Large
    • Stable Diffusion 3 Large Turbo
    • Stable Diffusion 3 Medium

    「API?難しそう、お金かかるの?」とお考えのあなた!他の応募者さんがレポートを書いてくれましたのでご参考まで!

    https://note.com/runos_log/n/n09b309649fb9

    そして! #StableDiffusionAPI 部門 は、上記の全力肯定彼氏くん経由の応募も可能です。LINEチャットから気軽な生成で出来上がったラッキーショットをタイトルとともにエントリーいただくことも可能ですし、生成された画像を素材として使ってタイトル等を付けたり、APIの背景削除機能を使って合成したり…様々な加工も使うなど、様々なアイディアで探求いただけますと幸いです。

    エントリーフォームの提出をお忘れなく!

    エントリーフォームのURL → https://j.aicu.ai/SAC24

    ✨️画像生成AIが生成した画像に著作権はあるの?

    先日開催されたワークショップで共有された話題ですが…

    https://techplay.jp/event/946209

    画像

    法律上は問題はありません。
    法律上は問題はありませんが、クリエイターはどう振る舞うべきか?
    画像生成AIクリエイター仕草(v.1.0)を読みながら考えてみてください

    詳しくは次号の「AICUマガジン Vol.3」にて解説します

    画像

    ✨️応募に関する詳細・フォーマットなどはこちらの記事をご参照ください

    https://ja.aicu.ai/contest20240719/

    これからもより多くの方々にクリエイティブなAI、「つくる人をつくる」話題をお届けしていいきます。AICUをよろしくお願いいたします。

    Originally published at https://note.com on July 24, 2024.

  • Sakana AIより「日本の美を学んだAI」が公開

    2024年7月22日、日本の経済産業省(METI)傘下のNEDOやNTTドコモ・ベンチャーズ(NDV)、KDDIが出資し、推定45億円を調達している AI研究開発スタートアップの「Sakana AI(サカナAI)」(東京都港区)が、「日本の美を学んだAI」を公開しました。

    https://sakana.ai/evo-ukiyoe/

    https://note.com/aicu/n/na02326d588bf

    Sakana AIは、日本の美を学んだAIとして、浮世絵風画像生成モデルEvo-Ukiyoeと、浮世絵カラー化モデルEvo-Nishikieを公開します。Sakana AIが進化的モデルマージによって構築した日本語対応画像生成モデルEvo-SDXL-JPを基盤とし、浮世絵画像を大規模に学習することで、日本語に対応し、かつ浮世絵の特徴を学んだ画像生成モデルができました。

    https://sakana.ai/evo-ukiyoe

    このリリースの要点は以下の通りです。

    • Evo-Ukiyoeは、日本語のプロンプトを入力すると浮世絵風の画像を生成します。風景や着物姿の人々など、浮世絵によく取り上げられる題材については、実物の浮世絵に近い品質で生成できます。
    • Evo-Nishikieは、単色摺の浮世絵(墨摺絵等)を入力すると、多色摺の浮世絵(錦絵)風の画像を生成します。墨一色で印刷された江戸時代の本(古典籍)の挿絵をカラー化したり、多色摺の錦絵を別の色に変換して出力したりする目的にも利用できます。
    • Evo-UkiyoeとEvo-Nishikieの学習データセットには、立命館大学アート・リサーチセンター(ARC)所蔵浮世絵作品のデジタル画像24,038枚を利用しました。
    • Evo-UkiyoeとEvo-Nishikieが、日本の伝統文化の魅力を世界に広めるとともに、教育などへの活用や古典籍の新しい楽しみ方など、多くの人々に活用されることを期待しています。

    HuggingFace Spacesでのデモとモデル

    今回公開するモデルは、プロンプトから画像を生成するEvo-Ukiyoeと、古典籍の挿絵をカラー化するEvo-Nishikieモデルです。これらのモデルが、歴史や文化を学ぶための新たなコンテンツ作成に利用され、浮世絵に関する興味を増すことにつながり、日本や世界の人々が浮世絵や日本文化に興味を持つきっかけを生み出すことを期待しています。

    残念ながらHuggingFace SpacesでのデモはGPUが取得できないため、AICU media編集部での十分な動作確認できていませんが、 Evo-Ukiyoeは、入力した日本語プロンプトに沿った浮世絵風の画像を生成することができ、Evo-Nishikieは入力した単色摺の浮世絵(墨摺絵等)を日本語プロンプトに沿って多色摺の浮世絵(錦絵)風に変換した画像を生成することができるようです。

    画像

    編集部での実験例

    画像

    先行して公開されている日本特化の高速な画像生成モデル「EvoSDXL JP」は動作しています。非常に高速です。

    https://huggingface.co/spaces/SakanaAI/EvoSDXL-JP

    浴衣の男女が川岸で花火を見ています

    与えたプロンプト

    画像

    担当した研究者の方々

    開発者
    カラーヌワット・タリン(Sakana AI)
    シーン誠(Sakana AI)
    今宿祐希(Sakana AI)
    協力者
    赤間亮(立命館大学アート・リサーチセンター)
    北本朝展(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所)

    Evo-UkiyoeはText-to-Imageモデルであり、画像データとキャプションのペアを学習データセットとします。そこで、浮世絵画像の内容を説明するキャプションを付与するために、大規模マルチモーダルモデルを用いて、Few-shot promptingによりキャプションを生成しました。そして、キャプションの間違い(人物の性別など)を人手で修正するとともに、Evo-SDXL-JPの最大プロンプト長(77トークン)に合わせて、キャプションを短くする、明確な特徴のみを加える、鳥籠模様や梅花模様などの複雑な専門用語を削除する、などの調整を行いました。
    この学習データセットを用いて、Evo-SDXL-JPをベースモデルとして、LoRAによるファインチューニングを行いました。

    生成時には、プロンプトを入力して画像を生成します。ただし、浮世絵により近い画像を生成するには、桜、富士山、着物、鳥など、浮世絵でよく取り上げられる要素をプロンプトに含めると効果的です。一方、江戸時代に存在しないもの(パソコンやハンバーガーなど)も生成はできますが、学習データセットに存在しないものを浮世絵風に生成することは難しく、全体として浮世絵らしくない画像が生成されることがあります。

    「日本古典籍の挿絵をカラー化」として、大学共同利用機関法人 情報・システム研究機構(ROIS: Research Organization of Information Systems)により、「絵本玉かつら Evo-Nishikieカラー化」が公開されています。

    http://codh.rois.ac.jp/tsukushi/evo-nishikie/200013861/

    オリジナル画像

    画像

    Evo-Nishikieカラー化画像

    画像

    テキストから画像への拡散モデルに対する技術としては「DPO-SDXL」と呼ばれる技術が使われているようです。直接嗜好最適化 (Direct Preference Optimization: DPO) は、人間の比較データを直接最適化することで、拡散モデルをテキストの人間の嗜好に合わせる方法です。2023年11月に「Diffusion Model Alignment Using Direct Preference Optimization(直接嗜好最適化を使用した拡散モデルの調整)」として論文化された技法です。

    https://huggingface.co/mhdang/dpo-sdxl-text2image-v1

    https://huggingface.co/RunDiffusion/Juggernaut-XL-v9

    興味深い Sakana AI の HuggingFace

    学術・文化的な古典日本文化の貢献の横で、HuggingFaceには「Magicoder」といった小サイズのLLMも公開されています。

    https://huggingface.co/SakanaAI/Meta-Llama-3-8B-Instruct-Magicoder-185k-lr_2e-5-minlr_4e-6_GB_64_1epoch-iter_0002912/tree/main

    今後も様々な先端技術の公開が発信されると想像します。

    Originally published at https://note.com on July 22, 2024.

  • Stability AI、オープンウェイトなテキスト楽曲生成「Stable Audio Open」公開。Google Colabで無料で体験!

    2024年7月22日、Stability AI が「Stable Audio Open」の研究論文をリリースしました。
    「Stable Audio Open」というタイトルで 論文プレプリントサイト arXiV に 7月19日付けで投稿された論文は、

    オープンな生成モデルはコミュニティにとって非常に重要であり、ファインチューニングを可能にし、新しいモデルを提示する際のベースラインとして役立ちます。しかし、現在のほとんどのテキスト音声生成モデルは非公開であり、アーティストや研究者がその上に構築することはできません。ここでは、クリエイティブ・コモンズのデータで学習させた新しいオープンウェイトのテキスト音声モデルのアーキテクチャと学習プロセスについて説明します。我々の評価では、このモデルの性能は様々なメトリクスにおいて最先端のものと遜色ないことが示されています。特に、報告されたFDopenl3の結果(世代のリアリズムを測定)は、44.1kHzでの高品質なステレオサウンド合成の可能性を示しています。

    https://arxiv.org/abs/2407.14358
    Translated
     by AICU

    この研究論文では、Creative Commons データを使用してトレーニングされた Stability AI の新しい”オープンウェイトなテキストオーディオ”(open-weights text-to-audio)モデルのアーキテクチャとトレーニングプロセスについて解説しています。
    このオープンなモデルは Hugging Faceで公開されています。このモデルは Stability AI Community Licenseに基づいてリリースされており、年間収益(annual revenue)が 100 万ドル以下の個人または組織による非商用および商用利用が可能です(エンタープライズ ライセンスについては問い合わせ)。

    ・このモデルは、テキスト プロンプトから 44.1kHz の高品質ステレオ オーディオを生成でき、リアルなサウンドやフィールド録音を合成するために使用可能。

    ・Stable Audio Open はコンシューマーグレードの GPU 上で実行されるため、学術目的や芸術的なユースケースに利用可能。

    アーキテクチャ

    Stable Audio Openは、3つの主要コンポーネントを備えたテキスト音声モデルを導入しています:
    ・管理可能なシーケンス長に波形を圧縮するオートエンコーダ
    ・テキスト調整のためのT5ベースのテキスト埋め込み
    ・オートエンコーダの潜在空間で動作するトランスフォーマベースの拡散モデル(DiT)。

    このモデルは44.1kHz、最大47秒の可変長ステレオ音声を生成します。オートエンコーダは21.5Hzという低い潜在レートを達成し、音楽やオーディオに対応できます。Stable Audio Openは(2024年4月3日に公開された)Stable Audio 2.0の亜種ですが、異なるデータセット(Creative Commonsデータ)で学習されています。このアーキテクチャは似ていますが、CLAPの代わりにT5テキストコンディショニングを使用しています。

    学習データ

    Stable Audio Openは、CC-0、CC-BY、またはCC-Sampling+でライセンスされた約50万件の録音を使用してトレーニングされました。このデータセットは、Freesoundの472,618件とFree Music Archive (FMA)の13,874件から構成されています。

    著作権で保護された素材が含まれていないことを確認するため、このコンテンツは、PANNs audio taggerを使用してFreesoundの音楽サンプルを特定することにより、慎重にキュレーションされました。特定されたサンプルはAudible Magicのコンテンツ検出会社に送られ、データセットから著作権で保護されている可能性のある音楽を確実に削除しました。

    ユースケース

    Stable Audio Openは、生成されるコンテンツの長さを調整したり、様々な業界やクリエイティブなプロジェクトの正確なニーズを満たすなど、音声生成をカスタマイズするために微調整することができます。ユーザーは、A6000 GPUを使ってローカルでモデルをトレーニングできます。プロンプトの作成については、Stable Audio 2.0のヒントをご覧ください。

    ここでは、このモデルをすぐに使用したり、微調整したり、ワークフローに統合したりするためのアプリケーションの例をいくつか紹介します

    🎧️ぜひとも公式サイトで音源をきいてみてください📢
    https://stability.ai/news/stable-audio-open-research-paper

    サウンドデザイン

    サウンドエフェクトとフォーリーエフェクト(音効)

    足音、ドアのきしみ音、環境音など、映画、テレビ、ビデオゲーム、ゲーム開発に使用できる効果音を生成します。

    アンビエントサウンド


    シーンのムードや雰囲気に合ったサウンドスケープや背景テクスチャを作成できます。

    サンプル作成

    音楽トラックを制作するためのドラムループと音楽サンプルを生成します。

    商用およびマーケティング用途


    オーディオブランディング

    広告用のサウンドエフェクトを作成したり、オーディオロゴやブランドサウンドを開発し、カスタムオーディオエレメントを通じてブランドの認知度やアイデンティティを高めます。

    教育と研究

    学術プロジェクト

     オーディオ合成、機械学習、音楽学の研究にこのモデルを使用し、生成されたオーディオの実験と分析を行います。

    このデモでは、より多くの例と、Stable Audio Openのパフォーマンスが他のモデルとどのように比較されるかを見ることができます。

    Google Colabでの実験

    まず Stability AI の非商用/コミュニティライセンスを取得します。

    https://stability.ai/community-license

    画像

    続いて、 Hugging Face 上のStable Audio Open の公開ページでライセンスを取得します。

    https://huggingface.co/stabilityai/stable-audio-open-1.0

    画像

    ご注意:商用利用の場合は、https://stability.ai/license をご参照ください。 sai@aicu.ai でもご相談をお受けいたします。

    公式サンプルをGoogle Colab環境で動作確認したAICU版のコードをこちらで公開しています。

    https://j.aicu.ai/StableAudioOpen

    次に Hugging Face のトークンを取得します。
    https://huggingface.co/settings/tokens
    Google Colabのシークレットに設定します。

    画像

    あとは実行するだけ!長さや冒頭の空白も設定できます。

    # Set up text and timing conditioning
    conditioning = [{
        “prompt”: “128 BPM tech house drum loop”,
        “seconds_start”: 0,
        “seconds_total”: 30
    }]

    サンプルコードのデフォルトプロンプト

    output.wav として生成されているので、ダウンロードして聴いてみましょう。

    画像

    以下は実際に生成した例です。
    “128 BPM NES, 8 bit action game BGM”

    https://note.com/api/v2/attachments/download/b514ac0f4d7a059a04bf6e632f0b73c5

    “128 BPM techno pop” 

    https://note.com/api/v2/attachments/download/7b6626ad5756ddc578dd2d64e096afcd

    “sound of the rain hitting the roof”

    https://note.com/api/v2/attachments/download/4de4c04ba8f4de31f955b71b64fb60a2

    “blackbird song in a forest”

    https://note.com/api/v2/attachments/download/6d912ec9ae69b5622d5d0e9a80a81478

    “chorus lalala…”

    https://note.com/api/v2/attachments/download/e9e21ea17beeb981eaa9cf1a70679a98

    最長生成秒数は47秒のようです。GPU消費は16GB以下です。

    画像

    学習元が Creative Commons であるということを考えて生成するとよいのかもしれません。それにしても「何回生成しても無料」というのはすごいですね。

    まとめ

    Stable Audio Openのリリースは、オープンソースのオーディオ生成AIにおける重要な一歩になると考えます。44.1kHzで高品質のステレオサウンドを生成し、コンシューマー規模のGPUで動作し、データの透明性に重点を置いています。このモデルの使いやすさとパフォーマンスにより、研究者とアーティストの両方にとって価値あるツールとなり、オープンなオーディオAIで可能性と限界を押し広げると考えます。

    この記事がよかったら、シェアとフォローよろしくお願いいたします!

    https://note.com/aicu/m/m6000f560d1db

    Originally published at https://note.com on July 22, 2024.