タグ: SVD

  • Stability AI:動的多視点動画生成を実現する「Stable Video 4D」を発表

    2024年7月24日、Stability AI は同社の初の Video to Video生成モデルである動的多視点動画生成技術「Stable Video 4D」を提供開始しました。1本のビデオから8つの新しいアングルの動的で斬新な視点の動画を生成できます。

    この発表に合わせて、このモデル開発で達成された方法論、課題、ブレークスルーを詳述した包括的な技術レポートも公開されています。

    Stable Video 4D (英語ページ)

    日本語公式リリース

    https://ja.stability.ai/blog/stable-video-4d

    主なポイント:

    • Stable Video 4D は、1つの目的の動画から、8 つの異なる角度/視点からの斬新な複数視点動画に変換します。
    • Stable Video 4D は、1回の推論で、8視点にわたる 5フレームを約40秒で生成します。
    • ユーザーはカメラアングルを指定して、特定のクリエイティブニーズに合わせて出力を調整できます。
    • 現在研究段階にあるこのモデルは、ゲーム開発、動画編集、バーチャルリアリティにおける将来的な応用が期待されており、継続的な改善が進められています。Hugging Face で現在公開中です。

    仕組み

    ユーザーはまず、単一の動画をアップロードし、目的の3D カメラの姿勢を指定します。次に、Stable Video 4D は、指定されたカメラの視点に従って 8 つの斬新な視点動画を生成し、被写体の包括的で多角的な視点を提供します。生成された動画は、動画内の被写体の動的な 3D 表現を効率的に最適化するために使用できます。

    現在、Stable Video 4D は 8 つの視点にわたって 5 フレームの動画を約 40 秒で生成でき、4D最適化全体には約 20 ~ 25 分かかります。開発チームは、ゲーム開発、動画編集、バーチャルリアリティにおける将来的な応用を構想しており。これらの分野の専門家は、オブジェクトを複数の視点から視覚化する機能から大きな恩恵を受け、製品のリアリズムと没入感を高めることがが可能になります。

    最先端のパフォーマンス

    画像拡散モデル、動画拡散モデル、多視点拡散モデルの組み合わせからサンプリングする必要がある従来のアプローチとは異なり、SV4D は複数の斬新な視点動画を同時に生成できるため、空間軸と時間軸の一貫性が大幅に向上しています。この機能により、複数の視点とタイムスタンプにわたって一貫したオブジェクトの外観が保証されるだけでなく、複数の拡散モデルを使用した煩雑なスコア蒸留サンプリング (Score Distillation Sampling: SDS) を必要としない、より軽量な 4D 最適化フレームワークが可能になります。

    Stable Video 4D は、既存の事例と比較して、より詳細で、入力動画に忠実で、フレームと視点間で一貫性のある斬新な視点動画を生成できます。

    研究開発

    Stable Video 4D は Hugging Face で公開されており、Stability AI 初の動画から動画への生成モデルであり、エキサイティングなマイルストーンとなっています。現在トレーニングに使用されている合成データセットを超えて、より幅広い実際の動画を処理できるように、モデルの改良と最適化に積極的に取り組んでいます。

    テクニカルレポート

    この発表と併せて、このモデルの開発中に達成された方法論、課題、ブレークスルーを詳述した包括的な技術レポートが公開されています。

    https://sv4d.github.io/static/sv4d_technical_report.pdf

    リポジトリより(VRAM40GB以上必要)

    Hugging Face でのモデル配布は実施されていますが、そのまま試すことは難しい状態です。AICU AIDX LabではローカルおよびGoogle Colab Pro環境で実験してみました(結論はVRAMが40GB以上必要で、動作確認には至っていません)。ノートブックへのリンクは文末にて。

    Stability AI の GitHub では Generative Models というリポジトリでサンプルコードが提供されています。
    SV4D helper
    https://github.com/Stability-AI/generative-models/blob/main/scripts/demo/sv4d_helpers.py
    Sample code
    https://github.com/Stability-AI/generative-models/blob/main/scripts/sampling/simple_video_sample_4d.py

    事前準備

    まず Hugging Face で以下のモデルについてライセンス登録を行う必要があります。

    https://huggingface.co/stabilityai/sv4d

    https://huggingface.co/stabilityai/sv3d

    次にGPUメモリが40GB以上搭載された環境をご準備ください。
    Google Colab Pro+ でA100環境をご準備ください。

    Hugging Face Access Token キー を HF_TOKEN という名前で Google Colab左側の「シークレット」に設定します。

    画像

    sv4d.safetensors と sv3d_u.safetensors を ./checkpoints/ にダウンロードします。

    SV4Dは、5つのコンテキストフレーム(入力映像)と、同じサイズの8つの参照ビュー(SV3Dのようなマルチビュー拡散モデルを使用して、入力映像の最初のフレームから合成された)が与えられ、576×576の解像度で40フレーム(5ビデオフレームx8カメラビュー)を生成するように訓練されています。より長い新規のビュー動画(21フレーム)を生成するために、まず5つのアンカーフレームをサンプリングし、次に時間的な一貫性を保ちながら残りのフレームを高密度にサンプリングするという、SV4Dを用いた新しいサンプリング方法を提案します。

    例えば21フレームの単一の入力動画でSV4Dを実行するには:

    generative-models ディレクトリから
    以下のコマンドを実行します。

    python scripts/sampling/simple_video_sample_4d.py –input_path <path/to/video>

    起動時パラメータとしては以下のとおりです。

    • input_path: 入力動画は、
      • assets/test_video1.mp4のような gif または mp4 形式の単一のビデオファイル
      • .jpg、.jpeg、または.png形式の(連番)ビデオフレームの画像を含むフォルダ
      • ビデオフレームの画像に一致するファイル名パターン
        を指定できます。
    • num_steps: デフォルトは20です。より高い品質を得るには50に増やすことができますが、サンプリング時間が長くなります。
    • sv3d_version: 参照マルチビューを生成するために使用するSV3Dモデルを指定するには、SV3D_uの場合は –sv3d_version=sv3d_u、SV3D_pの場合は –sv3d_version=sv3d_p を設定します。
    • elevations_deg: SV3D_p(デフォルトはSV3D_u)を使用して、指定された仰角(デフォルトの仰角は10)でノベルビュー動画を生成するには、 python scripts/sampling/simple_video_sample_4d.py –input_path test_video1.mp4 –sv3d_version sv3d_p –elevations_deg 30.0 を実行します。
    • 背景削除: 無地の背景を持つ入力動画の場合、(オプションで) –remove_bg=True を設定することで、rembgを使用して背景を削除し、ビデオフレームをトリミングします。ノイズの多い背景を持つ現実世界の入力動画でより高品質の出力を得るには、SV4Dを実行する前に、Cliipdropを使用して前景オブジェクトをセグメント化してみてください。

    # このままだと A100 GPU (40GB)でも動作しない
    #!python scripts/sampling/simple_video_sample_4d.py –input_path assets/test_video1.mp4 –output_folder outputs/sv4d


    import os
    os.environ[‘PYTORCH_CUDA_ALLOC_CONF’] = ‘max_split_size_mb:512’
    #パラメータを小さくしてみましたが動かず
    !python scripts/sampling/simple_video_sample_4d.py \
        –input_path assets/test_video2.mp4 \
        –output_folder outputs/sv4d \
        –model_path checkpoints/sv4d.safetensors \
        –model_path_sv3d checkpoints/sv3d_u.safetensors \
        –batch_size 1 \
        –height 32 –width 32 \
        –num_steps 1

    # どなたか動作確認していただける方を募集します!

    Stable_Video_4D.ipynb https://j.aicu.ai/SVD4D

    Originally published at https://note.com on July 24, 2024.

  • AI動画生成の大きな一歩 StabilityAIが「SVD Image-to-Video」を公開

    AI動画生成の大きな一歩 StabilityAIが「SVD Image-to-Video」を公開

    2023年11月21日、StabilityAI社は画像から動画を生成する技術「Stable Video Diffusion」(SVD)を公開しました。
    研究者の方はGitHubリポジトリで公開されたコードを試すことができます。ローカルでモデルを実行するために必要なウェイトは、HuggingFaceで公開されています(注意:40GBのVRAMが必要です)。
    さらにStable Video Diffusion (SVD) を使って画像から動画へウェブインタフェースも近日公開予定とのこと。キャンセル待ちリストが公開されています。

    stable-video-diffusion公式アナウンス

    https://stability.ai/news/stable-video-diffusion-open-ai-video-model

    日本語アナウンス

    https://ja.stability.ai/blog/stable-video-diffusion

    https://youtu.be/G7mihAy691g

    ウェイティングリスト

    https://stability.ai/contact

    研究論文

    「Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets」(21 Nov ,2023)
    安定した映像拡散: 潜在的映像拡散モデルの大規模データセットへの拡張

    高解像度で最先端のテキストから動画、画像から動画生成のための潜在動画拡散モデル、Stable Video Diffusionを紹介する。近年、2次元画像合成のために学習された潜在拡散モデルは、時間レイヤーを挿入し、小規模で高品質なビデオデータセット上で微調整することで、生成的なビデオモデルへと変化している。しかし、文献に記載されている学習方法は様々であり、ビデオデータをキュレーションするための統一的な戦略について、この分野はまだ合意されていない。本論文では、動画LDMの学習を成功させるための3つの異なる段階を特定し、テキストから画像への事前学習、動画の事前学習、高品質動画の微調整の評価を行った。

    Translated from the original paper

    Github: https://github.com/Stability-AI/generative-models

    HuggingFace

    https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

    Stable Video Diffusion Image-to-Video モデルカードより

    Stable Video Diffusion (SVD) Image-to-Video は、静止画像を条件フレームとして取り込み、そこから動画を生成する拡散モデルです。

    モデル詳細

    (SVD)Image-to-Videoは、画像コンディショニングから短いビデオクリップを生成するようにトレーニングされた潜在拡散モデルです。このモデルは、 SVD Image-to-Video[14フレーム]から微調整された、同じサイズのコンテキスト・フレームが与えられたときに、解像度576×1024の25フレームを生成するように訓練されています。また、広く使われている f8-デコーダを時間的整合性のために微調整した。便宜上、標準的な フレーム単位のデコーダのモデル も提供されています。

    研究目的であれば、Generative-modelsのGithubリポジトリリポジトリ: https://github.com/Stability-AI/generative-models

    最も一般的な拡散フレームワーク(学習と推論の両方)が実装されています。
    論文: https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

    評価

    https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

    比較チャートは、GEN-2やPikaLabsに対するSVD-Image-to-Videoのユーザー嗜好を評価したものです。SVD-Image-to-Videoは、ビデオの品質という点で、人間に好まれています。ユーザー調査の詳細については、研究論文を参照してください。

    用途:直接利用

    このモデルは研究目的でのみ使用されます。想定される研究分野や課題は以下の通りです。

    ・生成モデルの研究
    ・有害なコンテンツを生成する可能性のあるモデルの安全な展開
    ・生成モデルの限界とバイアスの調査と理解
    ・芸術作品の生成と、デザインやその他の芸術的プロセスにおける使用
    ・教育的または創造的なツールへの応用

    除外される用途を以下に示します
    使用の範囲外
    このモデルは、人物や出来事の事実または真実の表現となるように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。またこのモデルをStability AI の 利用規定 に違反するような方法で使用しないでください。

    制限とバイアス

    制限事項
    生成される動画はかなり短く(4秒未満)、モデルは完全なフォトリアリズムを達成しません。
    ・モデルは動きのないビデオや、非常に遅いカメラパンを生成することがあります。
    ・モデルはテキストで制御することができません。
    ・モデルは読みやすいテキスト(legible text)をレンダリングできません。
    ・顔や人物全般が適切に生成されないことがあります。
    ・モデルの自動エンコード部分は非可逆です。

    推奨事項
    このモデルは研究目的のみを意図しています。

    モデルを使い始めるには
    https://github.com/Stability-AI/generative-models をチェックしてください。

    最新の進歩を取り入れたモデルのアップデートに意欲的に取り組み、皆さんのフィードバックを取り入れるよう努力していますが、現段階では、このモデルは実世界や商業的な応用を意図したものではないことを強調しておきます。安全性と品質に関する皆様の洞察とフィードバックは、最終的な商業リリースに向けてこのモデルを改良する上で極めて重要です。

    StabilityAI社のリリースメッセージより翻訳

    AICU media のコメント

    StableDiffusionを2022年8月に公開してから14カ月。ついにStabilityAIがAI動画生成の大きな一歩となる「SVD Image-to-Video」をオープンに公開しました。画像を入力すると動画が生成されるDiffusionモデルのようです。フレーム間の安定性も高いようです。論文も30ページの超大作なので今後のこの分野における革新の一歩になることは間違いありません。今後も注目していきます。

    Originally published at https://note.com on November 22, 2023.