カテゴリー: Uncategorized

  • [ComfyMaster40] AnimateDiffのimage2imageで背景素材を作成しよう!

    [ComfyMaster40] AnimateDiffのimage2imageで背景素材を作成しよう!

    AnimateDiffを利用すると、背景素材が作れます!

    こんにちわ、AICU media編集部です。
    ComfyUI マスターガイド」第40回目になります。
    本記事では、AnimateDiffの応用し、背景素材を作成する方法を解説します。新たにInterpolationというフレームを補間する方法や、ループ動画を作成する方法を紹介します。

    本連載の初回はこちら。前回はこちら目次はこちらです。

    https://note.com/aicu/n/n633ae36958a9

    https://note.com/aicu/n/n633ae36958a9

    1. 使用するカスタムノード

    ComfyUI-AnimateDiff-Evolved

    ComfyUI-AnimateDiff-Evolvedは、Stable Diffusionモデルを拡張して動画生成を可能にするカスタムノードです。元のAnimateDiffを進化させたバージョンで、動画生成のためのモーションモジュールと高度なサンプリング技術を組み込んでいます。

    https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

    ComfyUI-VideoHelperSuite

    ComfyUI-VideoHelperSuiteは、動画生成を支援するためのカスタムノードです。動画の編集や加工を容易にする機能を提供します。今回は、一連の画像を動画にして保存するノードを使用するために必要となります。

    ComfyUI-Advanced-ControlNet

    ComfyUI-Advanced-ControlNetは、ControlNetの機能を強化するカスタムノードです。ControlNetの強度をタイムステップやバッチ化された潜在変数にわたってスケジュールする機能を提供します。

    ComfyUI-Frame-Interpolation

    ComfyUI-Frame-Interpolationは、動画のフレーム補間を行うためのカスタムノードセットで、主にアニメーションの滑らかさを向上させることを目的としています。この機能は、特に動画のフレームレートを上げる際に有効で、視覚的な品質を改善するために追加のフレームを生成します。

    2. モデルのインストール

    RealVisXL V5.0 Lightning

    今回は、RealVisXLのLightningバージョンを使用します。Lightningバージョンでは、サンプリングのステップ数を4-6回に抑えることができます。生成量の多いAnimateDiffでは、TurboやLightningなどの数ステップで生成完了するモデルを選ぶと良いでしょう。
    以下のリンクよりモデルをダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

    RealVisXL_V5.0_Lightning_fp16.safetensors · SG161222/RealVisXL_V5.0_Lightning at mainWe’re on a journey to advance and democratize artificial intehuggingface.co

    SDXL Motion Module

    今回は、SDXLのモデルで動画生成するため、SDXLのモーションモジュールをダウンロードします。使用するモデルは「Hotshot-XL」です。以下のリンクからモデルをダウンロードし、「ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/models」フォルダに格納してください。

    hsxl_temporal_layers.f16.safetensors · hotshotco/Hotshot-XL at mainWe’re on a journey to advance and democratize artificial intehuggingface.co

    ControlNet Union SDXL

    video-to-video (v2v)にControlNetを使用します。以下のControlNetをダウンロードし、「ComfyUI/models/controlnet」フォルダに格納してください。

    diffusion_pytorch_model_promax.safetensors · xinsir/controlnet-union-sdxl-1.0 at mainWe’re on a journey to advance and democratize artificial intehuggingface.co

    3. 使用する素材

    今回は、以下の画像を使用します。

    画像
    画像

    それぞれ以下よりダウンロード可能です。

    landscape_02.jpg

    271 KB

    ファイルダウンロードについてダウンロード

    fire_castle.jpeg

    341 KB

    ファイルダウンロードについてダウンロード

    4. ワークフローの解説

    今回使用するワークフローは、以前の記事「AnimateDiffでi2v」で紹介したワークフローの一部を改修したものになります。以前の記事で使用したワークフローとの相違点は以下の通りです。

    • 以前は開始のフレームと終了のフレームで別々の画像を指定しましたが、今回は全てのフレームで同じ画像を指定します。さらに、KeyFrameでフレームごとにControlNetの強度を適用するのではなく、一律同じ強度で適用します。
    • Context Options (View Options) にLooped Uniformを適用することで、最初と最後のフレームを一致させ、ループする動画にしています。
    • 生成後の動画にFrame Interpolationでフレームを補間することで、動画を滑らかにしています。
    画像

    ワークフローは、文末よりダウンロード可能です。

    以下は、ワークフローの流れをフローチャート形式で表示したものです。

    画像

    このワークフローの主要な部分とその機能の詳細は以下の通りです。

    1. 画像入力
      • Load Image ノード: “landscape_02.jpg” という風景画像を読み込みます。
    2. モデルとAnimateDiffの設定
      • Load Checkpointノード: “RealVisXL_V5.0_Lightning_fp16.safetensors” モデルを読み込みます。
      • AnimateDiff Loaderノード: “hsxl_temporal_layers.f16.safetensors” AnimateDiffモデルを適用します。
      • View Options◆Looped Uniformノード: AnimateDiffのビューオプションを設定します(8フレーム、4キーフレーム、ループあり)。
      • Context Options◆View Onlyノード: ビューオプションをコンテキストオプションに変換します。
    3. ControlNet設定
      • Load ControlNet Modelノード: “CN-anytest_v4-marged.safetensors” ControlNetモデルを読み込みます。
      • Apply Advanced ControlNetノード: 入力画像に対してControlNetを適用します。
    4. サンプリング設定
      • FreeInit Iteration Optionsノード: FreeInit samplingのパラメータを設定します(2イテレーション、ガウシアンノイズ)。
      • Sample Settingsノード: AnimateDiffのサンプリング設定を構成します(FreeNoiseモード)。
    5. プロンプト処理
      • ポジティブプロンプト: ポジティブプロンプトは「5.生成結果の確認」に記載
      • ネガティブプロンプト: 「(worst quality, low quality, illustration, 3d, 2d, painting, cartoons, sketch), 」
    6. 画像生成
      • Empty Latent Imageノード: 入力画像と同じサイズの24フレームの空の潜在画像を生成。
      • KSamplerノード:
        • Seed: 596721632997297
        • Steps: 4
        • CFG Scale: 2
        • Sampler: dpmpp_sde
        • Scheduler: karras
        • Denoise: 1.0
    7. 出力処理
      • VAE Decodeノード: 生成された潜在表現を実際の画像にデコードします。
      • RIFE VFIノード: 生成されたフレーム間に4倍の中間フレームを補間します。
        • ckpt_name: RIFEのモデルを選択します。rife47.pthまたはrife49.pthがお勧めされています。
        • clear_cache_after_n_frames: キャッシュをクリアするフレーム数を指定します。フレーム数を増やすと、処理速度が速くなる代わりにVRAMの消費量が上がります。VRAMの容量が小さい場合は、フレーム数を低く設定することを推奨します。
        • multiplier: 補間するフレーム数を指定します。1にすると補間なし、2にすると2倍(24フレームの場合、48フレーム)となる。
        • fast_mode: trueにすることで、速度重視で処理を実行します。品質重視の場合は、falseにしてください。
        • ensemble: ensemble(アンサンブル)は、複数のモデルや推論結果を組み合わせて、精度や安定性を向上させる手法です。trueにすることで、ノイズを抑えた安定した補間が得られ、より高品質なフレームが生成されます。一方で、2回の補間処理が必要なため、計算コストが増え、推論速度が低下することがあります。
        • scale_factor: 内部的に解像度を拡縮して、精度や速度を調整します。設定できる値は、0.25、0.5、1.0、2.0、4.0で、値が大きいほど速度が増し、値が小さいほど精度が上がります。
      • Video Combineノード: 補間された画像シーケンスを24fpsの動画に変換し、”AnimateDiff” というプレフィックスで保存します。

    5. 生成結果の確認

    それでは、2つの画像を利用して動画を生成してみましょう。まずは、サンセットの画像で動画生成します。次のポジティブプロンプトを入力し、landscape_02.jpgをLoad Imageノードに設定し、生成を実行してください。

    An animated sunset over a calm lake: vibrant colors of the sky shifting from warm oranges to deep purples, dynamic reflection on the water surface, clouds moving slowly across the sky, gentle ripples on the lake’s surface, cinematic lighting, photorealistic detail, serene and peaceful atmosphere, inspired by nature documentaries

    以下が生成結果です。元の画像を維持しつつ、雲や湖が微妙に動いています。また、最初と最後のフレームが同一になるため、ループしている動画になっていることが確認できます。

    画像

    次は、炎上している城の画像を利用して、以下のポジティブプロンプトで生成してみましょう。

    A medieval castle engulfed in massive flames, intense fire roaring through its stone walls, with thick smoke billowing into the night sky, detailed stone architecture partially collapsing from the heat, surrounding forest illuminated by the glow of the fire, photorealistic style, dark and dramatic ambiance, sparks and embers in the air.

    以下が生成結果です。火や煙が動くことで炎上している様子が表現できています。先ほどと同じくループしている動画になっています。

    画像

    6. まとめ

    今回の記事では、ComfyUIの各種カスタムノードを活用した動画生成ワークフローを詳しく解説しました。「ComfyUI-AnimateDiff-Evolved」を中心に、「ComfyUI-VideoHelperSuite」や「ComfyUI-Advanced-ControlNet」などのノードを組み合わせることで、静止画像から滑らかで高品質な動画を生成する手法を実現しました。これらのノードを駆使することで、モーション制御やフレーム補間、エフェクト強度の調整が自在に行えるようになり、クリエイターの表現の幅を大きく広げる結果となりました。

    これらのカスタムノードは、初心者から上級者まで幅広いユーザーにとって、従来の動画生成の課題を解決する強力なツールとなるでしょう。特に、生成スピードの向上や操作のシンプルさによって、創造性を損なうことなくスムーズなワークフローを実現できます。今後もさらなるバージョンアップにより、より多彩な映像表現が可能になることが期待されます。

    この記事を通じて、ComfyUIを活用した動画生成の基礎から応用までの理解が深まったことでしょう。これからのプロジェクトで、これらのカスタムノードを活用し、より革新的で魅力的な動画制作に挑戦してみてください。

    これでいったん動画生成については終わります。
    次回からは、高解像度化などのテクニックを紹介し、その次はいよいよ画像生成アプリやシステム開発を紹介します。乞うご期待!
    X(Twitter)@AICUai もフォローよろしくお願いいたします!


    【特報です!!】2024年8月からAICU mediaにて継続している大型連載「ComfyUIマスターガイド」の内容がColosoで動画ラーニングメディアになりました!

    https://youtube.com/watch?v=lutZl5QVip8%3Frel%3D0

    ComfyUIマスター:カスタムノードとアプリ開発

    生成AIクリエイティブ AICUGoogle ColabとAWSを使ったComfyUIの環境設定から、FLUX APIを使った画像生成まで、ComfyUIj.aicu.ai

    #生成AIクリエイティブAICU という名義で他に2作ありますので探してみてください

    画像生成AI「ComfyUI」マスターPlan

    画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

    • メンバー限定の会員証が発行されます
    • 活動期間に応じたバッジを表示
    • メンバー限定掲示板を閲覧できます
    • メンバー特典記事を閲覧できます
    • メンバー特典マガジンを閲覧できます
    • 動画資料やworkflowといった資料への優先アクセスも予定

    ゼロから学ぶ「ComfyUI」マガジン

    ゼロから学ぶ「ComfyUI」|AICU media|note「ComfyUIマスターガイド」として連載しているStable Diffusionを中心としたComfyUIの基本から応用note.com

    画像生成AIなんでも質問コーナー|AICU: AI Creators Union生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するnote.com

    もちろん、初月は無料でお試しいただけます!
    毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
    退会率はとても低く、みなさまにご満足いただいております。
    ✨️オトクなメンバーシップについての詳細はこちら

    https://note.com/embed/notes/n876fab5a0736

    このラインより上のエリアが無料で表示されます。

    https://note.com/aicu/n/n5c3633fc5b52

    https://note.com/aicu/n/n633ae36958a9

    ページ: 1 2

  • 【初心者向け!】Runway Gen-3 Alphaでプロンプト自動生成して簡単動画制作

    【初心者向け!】Runway Gen-3 Alphaでプロンプト自動生成して簡単動画制作

    AICU mediaライター・ AIクリエイターのぽんず(@ponzponz15)です!
    今回紹介する記事は『プロンプトジェネレーター』というものを使用して、私が約一時間で作成したビデオ です

    最新の動画生成AIの『RunwayGen-3 Alpha』『プロンプトジェネレーター』を使用すれば、誰でも簡単に、映画のようなハイクオリティ動画を制作すことができます
    本来であれば、一ヶ月近くかけてクレジットを消費しながら動画生成のコツを掴むものですが、これがあればわずか数日で、初心者でもつかいこなすことができます。

    画像
    Runway Gen-3 でめっちゃ動画を作りまくっているイメージ

    [AICUが開発]初級者:広告企画から動画制作までのプロセス

    1. プロ級の映像表現が誰でも簡単に

    私ぽんずは、Runway Gen-3がリリースされたその日に95ドルを課金して、毎日200回以上動画生成している動画生成オタクですので、十分なご説明ができます。お任せください。
    最近は、このGen-3に夢中で新しい動画を沢山生成しています。そんな私が自信を持っておすすめするのが、今回のテーマである「プロンプト自動生成ジェネレーター」です。初心者の方はGPTsを使うことをお勧めしますが、そんなの知らないよって方でもこれを使用すれば問題ありません。

    2. 完全初心者でも大丈夫!準備するもの

    あなたも今日から映像クリエイターの仲間入りです。
    必要なのは以下の3つだけです。

    1. Runway Gen-3 Alphaアカウント: https://www.runwayml.com/ からアカウントを作成できます。課金が必要です。
    2. ChatGPTなどのAIサービス: https://chat.openai.com/ など、無料で使えるAIサービスを利用しましょう。(GeminiClaudeなど)
    3. ちょっとの勇気: 難しいことは何もありません。あとは、この記事を参考にしていただき、どんどんチャレンジしていくだけです!

    3. プロンプトって? – 映像表現のためのプロンプトとは

    プロンプトとは、AIへの指示のこと。例えば、これまでの画像生成AIでは「美しい女性」や「犬」と書くだけで、クオリティの高い画像が生成できましたよね。

    しかし、Runway Gen-3 Alphaでは、5秒から10秒間の動画が生成されるため、それだけでは不十分になります。それは動画が始まってからの1秒にもみたない部分の指示でしかありません。もちろん、それだけでも十分すごいのですが、使いこなすためには「カメラの動き」や「雰囲気」といった映像表現を伝えるための指示が必要になってきます。

    例えば、「夕焼けの海」というプロンプトだけでは、ただ夕焼けの海が映っているだけの動画になってしまいます。

    ①夕焼けの海 (AからBに移行)

    「夕焼けの海に沈む太陽をすごい速さですすむカメラで捉え、海の中にもぐっていく」といったように、具体的な指示が必要になります。

    4. なぜプロンプトジェネレーターが必要なの? – 動画のためのプロンプトは難しい

    動画のためのプロンプトには、カメラワークや専門用語など、少し難しい知識が必要になります。

    例えば、公式ガイドに記載されているのがこちらです。
    [camera movement]: [establishing scene]. [additional details]
    こういった構造でプロンプトを書くことが推奨されています。

    「カメラワーク」や「専門用語」は、最初は戸惑ってしまうかもしれません。

    でも、大丈夫。
    専門知識がなくても、誰でも簡単に、効果的なプロンプトを作成できます。

    画像

    Runwayの公式ガイドで学ぶのが最適です。

    https://help.runwayml.com/hc/en-us/articles/30586818553107-Gen-3-Alpha-Prompting-Guide

    このジェネレーターは、Runway公式が推奨するプロンプト構造や、カメラワークなどの知識を組み込んでいます。このジェネレーターは、あなたの動画生成の補助輪のようなもの。

    補助輪を付けて、自転車に乗る練習をするように、このジェネレーターを使って、動画生成AIに必要な用語を徐々に覚えていきましょう。
    ゆくゆくは覚えた方がいいこともありますしね。

    本来であれば1ヶ月近くかけてクレジットを消費しながら動画生成のコツを掴むものですが、これがあればわずか数日でつかいこなすようになります。

    画像

    [AICU] クリスマス動画コンテスト実施中

    5. プロンプトジェネレーターの使い方 – ステップバイステップ解説

    ステップ1:AIサービスにアクセス

    画像

    Google AI Studio

    https://ai.google.dev/aistudio?hl=ja

    ChatGPTやGeminiなどのAIサービスを開きましょう。まだアカウントをお持ちでない場合は、無料で作成することができます。

    ステップ2:プロンプトジェネレーターのソースコードをコピー

    このブログ最下部のソースコードをコピーします。

    ステップ3:ChatGPTやGeminiに貼り付けて実行

    コピーしたソースコードをChatGPTやGeminiに貼り付け、実行ボタンをおします。

    ステップ4:希望する動画の内容を入力

    その後、あなたが生成したい動画のプロンプトを作成します。日本語でも問題ありませんが、英語の方が精度が高いかもしれません。
    プロンプトには、カメラワーク、シーン設定、追加の詳細など、細かく項目が分かれていますので、迷わずに入力できます。現状、Gen-3 Alphaには500字しか入力できませんので、全部は入れられないかもしれませんが、あまり気にせず問題ありません。

    ステップ5:完成したプロンプトをGen-3 Alphaに入力

    画像

    生成されたプロンプトをコピーし、Runway Gen-3 Alphaに入力して、動画を生成しましょう。5秒か10秒を選択しGenerateボタンを押せば生成が始まります。

    その際、秒数によってそれぞれ消費するクレジットが違いますのでご注意ください。

    https://ja.aicu.ai/runway-gen-3-alpha

    6. 実際に作られた動画例

    例1:サーフィン
    入力例『サーフィンからシームレスにスケボーしてる感じにして』

    ④サーフィン (シームレスにAからBに)

    例2:黒い玉
    入力例『荒野の黒い球をシームレスに別の形態に変化させて』

    Gen-3 Alphaを使いたいけど迷っている人はこの『比較動画』見て頂くと良いかもしれません。
    画像のプロンプトと違って、動きや変化を指示しないと全然動かないので課金前に知っておいたらクレジット節約になります。もう使ってる方も1000回以上生成してわかったコツをnote等に纏めていれば「バズる」ためのヒントになるはずです👌

    https://ja.aicu.ai/alpaca-making

    例3:ゴッホの世界
    『ゴッホの空の街をFPVで進んでいって』
    まるでゴッホが描いたパリの街並みがあったら、行ってみたいと思いませんか?
    Gen-3 Alphaが描いたゴッホの筆使いが息づく世界を探索しましょう〜🍽️

     例4:タイタニック風
    『沈んだ船の外観、船内に入ったら当時の豪華絢爛な風景が広がっている』

    これまでの動画生成AIとは次元が違うのがGen-3 Alphaが特別な技術や才能がなくとも、自分のアイデアを映画級に仕上げることができるためです。

    必要なのは、あなたの想像力。

    7. まとめ

    プロンプトジェネレーターを使えば、動画制作の知識がなくても、AIと会話しながら誰でも簡単に高品質な動画を制作できます。そして、これを使いながら映像技術に関わる知識を学び、さらに素晴らしい動画を生成していくことができます。ぜひ活用して、あなたの創造力を爆発させてください!

    プロンプトは(みんなが無料で使えてしまうとオリジナリティが薄れてしまうので)メンバーシップ向け有料配布といたしますが、こちらのポストをシェアしていただければ無償で提供いたします!

    素敵な作品ができたらメンバーシップ掲示板で共有してくださいね!

    https://note.com/aicu/membership/boards/61ab0aa9374e/posts/1aa202bf314a

    作例:プロンプトジェネレーターのソースコード

    続きはこちらです

    https://note.com/aicu/n/n304ded1ec059