Blog

  • [ComfyMaster40] AnimateDiffのimage2imageで背景素材を作成しよう!

    [ComfyMaster40] AnimateDiffのimage2imageで背景素材を作成しよう!

    AnimateDiffを利用すると、背景素材が作れます!

    こんにちわ、AICU media編集部です。
    ComfyUI マスターガイド」第40回目になります。
    本記事では、AnimateDiffの応用し、背景素材を作成する方法を解説します。新たにInterpolationというフレームを補間する方法や、ループ動画を作成する方法を紹介します。

    本連載の初回はこちら。前回はこちら目次はこちらです。

    https://note.com/aicu/n/n633ae36958a9

    https://note.com/aicu/n/n633ae36958a9

    1. 使用するカスタムノード

    ComfyUI-AnimateDiff-Evolved

    ComfyUI-AnimateDiff-Evolvedは、Stable Diffusionモデルを拡張して動画生成を可能にするカスタムノードです。元のAnimateDiffを進化させたバージョンで、動画生成のためのモーションモジュールと高度なサンプリング技術を組み込んでいます。

    https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

    ComfyUI-VideoHelperSuite

    ComfyUI-VideoHelperSuiteは、動画生成を支援するためのカスタムノードです。動画の編集や加工を容易にする機能を提供します。今回は、一連の画像を動画にして保存するノードを使用するために必要となります。

    ComfyUI-Advanced-ControlNet

    ComfyUI-Advanced-ControlNetは、ControlNetの機能を強化するカスタムノードです。ControlNetの強度をタイムステップやバッチ化された潜在変数にわたってスケジュールする機能を提供します。

    ComfyUI-Frame-Interpolation

    ComfyUI-Frame-Interpolationは、動画のフレーム補間を行うためのカスタムノードセットで、主にアニメーションの滑らかさを向上させることを目的としています。この機能は、特に動画のフレームレートを上げる際に有効で、視覚的な品質を改善するために追加のフレームを生成します。

    2. モデルのインストール

    RealVisXL V5.0 Lightning

    今回は、RealVisXLのLightningバージョンを使用します。Lightningバージョンでは、サンプリングのステップ数を4-6回に抑えることができます。生成量の多いAnimateDiffでは、TurboやLightningなどの数ステップで生成完了するモデルを選ぶと良いでしょう。
    以下のリンクよりモデルをダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

    RealVisXL_V5.0_Lightning_fp16.safetensors · SG161222/RealVisXL_V5.0_Lightning at mainWe’re on a journey to advance and democratize artificial intehuggingface.co

    SDXL Motion Module

    今回は、SDXLのモデルで動画生成するため、SDXLのモーションモジュールをダウンロードします。使用するモデルは「Hotshot-XL」です。以下のリンクからモデルをダウンロードし、「ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/models」フォルダに格納してください。

    hsxl_temporal_layers.f16.safetensors · hotshotco/Hotshot-XL at mainWe’re on a journey to advance and democratize artificial intehuggingface.co

    ControlNet Union SDXL

    video-to-video (v2v)にControlNetを使用します。以下のControlNetをダウンロードし、「ComfyUI/models/controlnet」フォルダに格納してください。

    diffusion_pytorch_model_promax.safetensors · xinsir/controlnet-union-sdxl-1.0 at mainWe’re on a journey to advance and democratize artificial intehuggingface.co

    3. 使用する素材

    今回は、以下の画像を使用します。

    画像
    画像

    それぞれ以下よりダウンロード可能です。

    landscape_02.jpg

    271 KB

    ファイルダウンロードについてダウンロード

    fire_castle.jpeg

    341 KB

    ファイルダウンロードについてダウンロード

    4. ワークフローの解説

    今回使用するワークフローは、以前の記事「AnimateDiffでi2v」で紹介したワークフローの一部を改修したものになります。以前の記事で使用したワークフローとの相違点は以下の通りです。

    • 以前は開始のフレームと終了のフレームで別々の画像を指定しましたが、今回は全てのフレームで同じ画像を指定します。さらに、KeyFrameでフレームごとにControlNetの強度を適用するのではなく、一律同じ強度で適用します。
    • Context Options (View Options) にLooped Uniformを適用することで、最初と最後のフレームを一致させ、ループする動画にしています。
    • 生成後の動画にFrame Interpolationでフレームを補間することで、動画を滑らかにしています。
    画像

    ワークフローは、文末よりダウンロード可能です。

    以下は、ワークフローの流れをフローチャート形式で表示したものです。

    画像

    このワークフローの主要な部分とその機能の詳細は以下の通りです。

    1. 画像入力
      • Load Image ノード: “landscape_02.jpg” という風景画像を読み込みます。
    2. モデルとAnimateDiffの設定
      • Load Checkpointノード: “RealVisXL_V5.0_Lightning_fp16.safetensors” モデルを読み込みます。
      • AnimateDiff Loaderノード: “hsxl_temporal_layers.f16.safetensors” AnimateDiffモデルを適用します。
      • View Options◆Looped Uniformノード: AnimateDiffのビューオプションを設定します(8フレーム、4キーフレーム、ループあり)。
      • Context Options◆View Onlyノード: ビューオプションをコンテキストオプションに変換します。
    3. ControlNet設定
      • Load ControlNet Modelノード: “CN-anytest_v4-marged.safetensors” ControlNetモデルを読み込みます。
      • Apply Advanced ControlNetノード: 入力画像に対してControlNetを適用します。
    4. サンプリング設定
      • FreeInit Iteration Optionsノード: FreeInit samplingのパラメータを設定します(2イテレーション、ガウシアンノイズ)。
      • Sample Settingsノード: AnimateDiffのサンプリング設定を構成します(FreeNoiseモード)。
    5. プロンプト処理
      • ポジティブプロンプト: ポジティブプロンプトは「5.生成結果の確認」に記載
      • ネガティブプロンプト: 「(worst quality, low quality, illustration, 3d, 2d, painting, cartoons, sketch), 」
    6. 画像生成
      • Empty Latent Imageノード: 入力画像と同じサイズの24フレームの空の潜在画像を生成。
      • KSamplerノード:
        • Seed: 596721632997297
        • Steps: 4
        • CFG Scale: 2
        • Sampler: dpmpp_sde
        • Scheduler: karras
        • Denoise: 1.0
    7. 出力処理
      • VAE Decodeノード: 生成された潜在表現を実際の画像にデコードします。
      • RIFE VFIノード: 生成されたフレーム間に4倍の中間フレームを補間します。
        • ckpt_name: RIFEのモデルを選択します。rife47.pthまたはrife49.pthがお勧めされています。
        • clear_cache_after_n_frames: キャッシュをクリアするフレーム数を指定します。フレーム数を増やすと、処理速度が速くなる代わりにVRAMの消費量が上がります。VRAMの容量が小さい場合は、フレーム数を低く設定することを推奨します。
        • multiplier: 補間するフレーム数を指定します。1にすると補間なし、2にすると2倍(24フレームの場合、48フレーム)となる。
        • fast_mode: trueにすることで、速度重視で処理を実行します。品質重視の場合は、falseにしてください。
        • ensemble: ensemble(アンサンブル)は、複数のモデルや推論結果を組み合わせて、精度や安定性を向上させる手法です。trueにすることで、ノイズを抑えた安定した補間が得られ、より高品質なフレームが生成されます。一方で、2回の補間処理が必要なため、計算コストが増え、推論速度が低下することがあります。
        • scale_factor: 内部的に解像度を拡縮して、精度や速度を調整します。設定できる値は、0.25、0.5、1.0、2.0、4.0で、値が大きいほど速度が増し、値が小さいほど精度が上がります。
      • Video Combineノード: 補間された画像シーケンスを24fpsの動画に変換し、”AnimateDiff” というプレフィックスで保存します。

    5. 生成結果の確認

    それでは、2つの画像を利用して動画を生成してみましょう。まずは、サンセットの画像で動画生成します。次のポジティブプロンプトを入力し、landscape_02.jpgをLoad Imageノードに設定し、生成を実行してください。

    An animated sunset over a calm lake: vibrant colors of the sky shifting from warm oranges to deep purples, dynamic reflection on the water surface, clouds moving slowly across the sky, gentle ripples on the lake’s surface, cinematic lighting, photorealistic detail, serene and peaceful atmosphere, inspired by nature documentaries

    以下が生成結果です。元の画像を維持しつつ、雲や湖が微妙に動いています。また、最初と最後のフレームが同一になるため、ループしている動画になっていることが確認できます。

    画像

    次は、炎上している城の画像を利用して、以下のポジティブプロンプトで生成してみましょう。

    A medieval castle engulfed in massive flames, intense fire roaring through its stone walls, with thick smoke billowing into the night sky, detailed stone architecture partially collapsing from the heat, surrounding forest illuminated by the glow of the fire, photorealistic style, dark and dramatic ambiance, sparks and embers in the air.

    以下が生成結果です。火や煙が動くことで炎上している様子が表現できています。先ほどと同じくループしている動画になっています。

    画像

    6. まとめ

    今回の記事では、ComfyUIの各種カスタムノードを活用した動画生成ワークフローを詳しく解説しました。「ComfyUI-AnimateDiff-Evolved」を中心に、「ComfyUI-VideoHelperSuite」や「ComfyUI-Advanced-ControlNet」などのノードを組み合わせることで、静止画像から滑らかで高品質な動画を生成する手法を実現しました。これらのノードを駆使することで、モーション制御やフレーム補間、エフェクト強度の調整が自在に行えるようになり、クリエイターの表現の幅を大きく広げる結果となりました。

    これらのカスタムノードは、初心者から上級者まで幅広いユーザーにとって、従来の動画生成の課題を解決する強力なツールとなるでしょう。特に、生成スピードの向上や操作のシンプルさによって、創造性を損なうことなくスムーズなワークフローを実現できます。今後もさらなるバージョンアップにより、より多彩な映像表現が可能になることが期待されます。

    この記事を通じて、ComfyUIを活用した動画生成の基礎から応用までの理解が深まったことでしょう。これからのプロジェクトで、これらのカスタムノードを活用し、より革新的で魅力的な動画制作に挑戦してみてください。

    これでいったん動画生成については終わります。
    次回からは、高解像度化などのテクニックを紹介し、その次はいよいよ画像生成アプリやシステム開発を紹介します。乞うご期待!
    X(Twitter)@AICUai もフォローよろしくお願いいたします!


    【特報です!!】2024年8月からAICU mediaにて継続している大型連載「ComfyUIマスターガイド」の内容がColosoで動画ラーニングメディアになりました!

    https://youtube.com/watch?v=lutZl5QVip8%3Frel%3D0

    ComfyUIマスター:カスタムノードとアプリ開発

    生成AIクリエイティブ AICUGoogle ColabとAWSを使ったComfyUIの環境設定から、FLUX APIを使った画像生成まで、ComfyUIj.aicu.ai

    #生成AIクリエイティブAICU という名義で他に2作ありますので探してみてください

    画像生成AI「ComfyUI」マスターPlan

    画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

    • メンバー限定の会員証が発行されます
    • 活動期間に応じたバッジを表示
    • メンバー限定掲示板を閲覧できます
    • メンバー特典記事を閲覧できます
    • メンバー特典マガジンを閲覧できます
    • 動画資料やworkflowといった資料への優先アクセスも予定

    ゼロから学ぶ「ComfyUI」マガジン

    ゼロから学ぶ「ComfyUI」|AICU media|note「ComfyUIマスターガイド」として連載しているStable Diffusionを中心としたComfyUIの基本から応用note.com

    画像生成AIなんでも質問コーナー|AICU: AI Creators Union生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するnote.com

    もちろん、初月は無料でお試しいただけます!
    毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
    退会率はとても低く、みなさまにご満足いただいております。
    ✨️オトクなメンバーシップについての詳細はこちら

    https://note.com/embed/notes/n876fab5a0736

    このラインより上のエリアが無料で表示されます。

    https://note.com/aicu/n/n5c3633fc5b52

    https://note.com/aicu/n/n633ae36958a9

    ページ: 1 2

  • 新ドメイン「AICU.jp」のおしらせ

    新ドメイン「AICU.jp」のおしらせ

    2024年12月17日、「つくる人をつくる」をビジョンに「わかるAIを届ける」を続けてきたAICUが、新たなドメイン「AICU.jp」で活動を開始します。

    画像

    2つの「AICU」でパワーアップ!!

    2023年7月24日に米国企業として創立したAICU Inc.と2024年11月11日に日本企業として創立したAICU Japan株式会社は独立した企業体として活動します。

    画像

    今後、AICU Inc. (本社・米国サニーベール/CEO Akihiko SHIRAI, Ph.D)は、
    国際企業連携、Kindle、日本企業やAI時代のクリエイターの海外進出支援を中心に、ライツ管理、ライセンシングを担当します。
    Amazon/Kindleを中心に展開している出版事業は変わらず「AICU media」となります。

    新生「AICU Japan株式会社」(本社・港区)は、50万PV・1,200フォロワー・年間365本、連続投稿200日を超えるnoteでの記事開発をより強化し、クリエイティブAIによって企業や大学、公共のDXを推進する「AIDX事業」、AIキャラクターやAITuberなど「AI-IP」事業、そして検定試験やスキル認定などを行う「Cert事業」を担当します。

    「つくる人をつくる」AI時代のクリエイターの育成を強化

    既存のnoteや出版事業は便宜上「AICU編集部」と呼び、編集長は代表であるしらいはかせ(白井暁彦)が担当し、コラボクリエイターの増強や、資金調達、採用活動を強化し、いままで以上に品質高くAICUのビジョンである「つくる人をつくる」を実行してまいります。

    従来よりご協力いただいてきたコラボクリエイターの皆様には、今後も変わらず、また、より活躍の場を創出すべく、メンバーシップの強化、コンテストやワークショップ、ギャラリーイベントや展示会といった「単なる知識獲得ではない」コミュニティ醸成機会の開発、国際イベントへの出展、上映、発信支援といった形で応援してまいります。

    https://ja.aicu.ai/aicu-siggraph-asia-20241204

    新ドメイン「AICU.jp誕生」

    2023年10月より、日本最大のブログサイト「note」にて運用してきた AICU media(note.com/aicu)ですが、これまでの記事を継承する形で今後はAICU Japan株式会社が、新ドメイン「aicu.jp」にて運用をいたします。過去記事は自動でリダイレクトされ、読者の皆様への影響は軽微でありますが、より短いURLで、読者の皆様にアクセスしやすくなることを心がけていきます。

    既存の商品群はAICU Inc.で継続

    Kindleおよびペーパーバックで配本中の月刊誌「AICU Magazine」をはじめ、『SD黄色本』で親しまれている「画像生成AI Stable Diffusionスタートガイド」(SBクリエイティブ刊)は国際出版プロジェクトとして複数の言語での翻訳版が準備されています。生成AIブームの火付け役となった英国「Stability AI」や、クリエイティブ学習メディアの注目企業・韓国「Coloso」とのコラボレーション成果である「生成AIクリエイティブAICU」の3本のラーニングメディア番組「超入門:Stable Diffusionではじめる画像生成AI」、「初級者:広告企画から動画制作までのプロセス」、「ComfyUIマスター:カスタムノードとアプリ開発」は、おかげさまで大きな反響をいただき、多くの方から感謝やフィードバックをいただいております。

    国際連携では2024年12月16日から応募開始した国際AI映像制作コンペ「Project Odyssey」に公式スポンサーとして参加しており、日本からのクリエイターの応募を支援させていただいております。

    https://aicu.jp/n/ne4456e0ed64a

    今回の新ドメインでの noteブログ展開は、既存のAICUファンの皆様の利便性を損なわずに、より多くのユーザーにとって、柔軟かつ品質高く、先進的なサービスを提供しやすくする施策となっております。

    新サービスの開発も進行中

    読み物メディア中心で展開してきたAICUですが、新ドメイン「AICU.jp」でのサービスは note をさらに活用し、ファンの皆様のご期待やお悩みに答えられるような価値あるサービス、商品、イベントをスピード感速く開発してまいります。
    AIDXとは「AIによるDX」というAICUの造語ですが、LINEやDiscord, Difyを使ったチャットボット開発、AIキャラクター運用、クリエイティブAIサービス、大学・自治体・企業等の社内教育、PoC開発や研究開発戦略や、映像制作・漫画・広告や出版、イベント、ワークショップ開発など、既存のIT産業だけでは解決しない「AI+プロフェッショナル」の情報メディア、コンテンツ生成マネジメント、イメージングソリューションを展開していきます。

    https://ja.aicu.ai/gammamy-20241011
    https://ja.aicu.ai/comfymaster30-aws-20241105

    日本のパートナー企業との連携を促進

    AI時代のオープンソースソフトウェアを活用するクリエイティブAI分野の世界的なリーディングカンパニーとして、成果物もオープンに、多様なパートナー企業と連携できるよう、AIラーニングメディアのOEMや提携、ソリューションの導入支援やブランディング、パートナー企業との連携も積極的に行ってまいります。

    https://ja.aicu.ai/sora-20241214

    イベント等の掲載依頼などはこちらで承っております。

    https://ja.aicu.ai/aicu-20241121

    お問い合わせは X@AICUai のDMまでいただけましたら幸いです。

    以上、お知らせとなります。
    今後とも宜しくお願いいたします。

    AICU Inc. / AICU Japan株式会社  社員一同

    #AICU #AI #生成AI  #AIとやってみた
    #画像生成AI  #画像生成 #Stabilityai

    Originally published at https://aicu.jp/ on Dec 16, 2024.

  • [作品募集中]Soraリリース記念!!クリスマス動画コンテスト[随時更新]

    Soraリリース記念!!様々なAI動画生成ツールを使った
    クリスマス動画コンテストを開催しています!

    https://j.aicu.ai/SoraX24

    クリスマスをテーマに魅力的な動画を製作して、使用したツールや指定ハッシュタグ「 #AICU 」をつけてX.comやTikTok、Instagramに投稿しよう!
    AI動画生成ツールはSoraだけに限りません!

    応募フォームはこちらです
    短縮URL https://j.aicu.ai/SoraX24

    締切は2024年12月24日(火) 23:59

    参考資料: OpenAI「Sora」クイックスタートガイド

    https://ja.aicu.ai/openaisora-20241213

    【募集要項】

    【募集テーマ】OpenAI Sora のリリースを記念して、「クリスマスを盛り上げる動画作品」をX(Twitter)やTikTok、Instagram上で募集します。

    【応募期間】エントリー期間: 2024年12月14日~2024年10月24日(火) 23:59

    【審査基準】

    ・クオリティ
    ・発想力
    ・拡散力

    【ハッシュタグについて】
    「つくる人をつくる」を応援するAICUは、みなさんが作品制作に作ったツールの共有を推奨します。また生成に使うツールはSoraに限りません。例えば Soraを使った場合は指定ハッシュタグ「 #Sora #AICU 」を入れた公開投稿であることをお願いしております。同様にRunwayやSunoなど使用したツールがある場合は「 #Runway #Suno #AICU 」などツールのハッシュタグを入れた公開投稿でお願いします。
    動画生成AIツール”だけ”で作る必要はありません、編集なども可能です。

    【賞】

    AICU賞

     AICU media編集部の人力選出により、「つくる人をつくる」を刺激する、もっとも素晴らしい作品にAmazonギフト券1万円分をプレゼント!また入選作品はAICU mediaでの特集ブログ、YouTubeでの紹介、およびAICUマガジン紙面での紹介企画、他コンテストへの推薦等を予定しております。

    セツナクリエイション賞

    AICUコラボクリエイター、セツナクリエイション 藤吉香帆先生が選ぶ「セツナクリエイション賞」です。

    Colosoで大人気の生成AIクリエイティブ「AICU」シリーズ第2弾「広告企画から動画制作までのプロセス」のディレクションを担当していただいております。

    https://corp.aicu.ai/ja/coloso-20241028

    https://note.com/iamkaho/n/n76dd32e4856a

    セツナクリエイション賞の選出をフォーム上でご指定ただいた作品は、藤吉先生が直接レビューします。最優秀作品にはAmazonギフト券1万円を予定しております。

    https://ja.aicu.ai/runway20240714

    Ponotech賞

    AICUコラボクリエイター、Ponotech株式会社 早野康寛 先生が選ぶ「Ponotech賞」です。

    AICUで大人気の「ComfyUIマスター」と、生成AIクリエイティブ「AICU」シリーズ第3弾「ComfyUIマスター:カスタムノードとアプリ開発」を担当していただいております。

    https://ja.aicu.ai/comfyui20240731

    https://j.aicu.ai/Coloso3

    ComfyUIでの動画生成を使った作品で、Ponotech賞の選出をフォーム上でご指定ただいた作品は、早野先生が直接レビューします。最優秀作品にはAmazonギフト券1万円を予定しております。

    BlendAI賞

    AIキャラクターで人類を豊かにする「BlendAI」代表・小宮自由先生が選ぶ「BlendAI賞」です。

    画像

    デルタもん&ガンマミィ「AICUマガジン Vol.6より」
    https://j.aicu.ai/MagV6

    AICUマガジン「BlendAI通信」で人気のデルタもん&ガンマミィのキャラクターを使った作品で、BlendAI賞の選出をフォーム上でご指定ただいた作品は、小宮先生が直接レビューします。最優秀作品にはAmazonギフト券1万円を予定しております。

    https://j.aicu.ai/MagV6

    https://ja.aicu.ai/blendai-20241212

    デルタもん&ガンマミィの素材はこちらから入手可能です。
    利用規約を守って正しくお使いください。

    https://blendai.jp/contents

    【随時更新中です】

    協賛の賞設定も募集しております! X@AICUai のDMにてご相談ください。

    Originally published at https://note.com on Dec 14, 2024.

  • OpenAI「Sora」クイックスタートガイド

    ついにユーザー登録が再開された「Sora」のクイックスタートガイドです。

      初期設定

      OpenAI「Sora」は単独のサイトにて提供されています。
      まず https://sora.com/  に行きましょう。

      お使いのGmailアカウントでサインアップ(ユーザー登録)できます。ChatGPTで有料契約を持っているアカウントを使ってログインすることをおすすめします。新規ユーザーの場合、生年月日の入力が必要です。

      画像

      プランの選択

      ChatGPT Plus ($20/月)もしくは ChatGPT Pro($200/月)が選べます。
      いきなり高い方を選ぶひとはいませんね!

      画像

      すでにChatGPT Plusに加入済みの場合はこのように「Subscribed」と表示されますので「Continue」を選びましょう。

      画像

      ユーザーネームの指定

      3文字以上で設定できます。

      画像

      ユーザーネームの指定がおわれば利用できます。

      画像

      「Create Video」と「Storyboard」

      下部にプロンプトを入れる場所があります。ここに文字を入れれば動画が生成されるという仕組みです。実は日本語が使えますが、細かい制御をしようと思ったら英語と日本語をうまく使ったほうが良いです。

      縦横比や解像度、長さ、同時に生成する動画の本数以外に、
      「Create Video」と「Storyboard」があります。

      画像

      まずはCreate Videoで「Skydiving by Miku」を生成してみます。

      画像

      これはAICU編集部での新モデル調査の標準手順なのですが、ここでデジタルイラスト調の初音ミクさんがたくさん出てきたら「何を学習したんだろう…?」と色々想像しなければならなくなります…。一方でこの色は初音ミクさんミク色(ブルーグリーン)ですが、キャラクターなどの名前タグや露出など、かなり慎重にキュレーションされていることが想像できます。

      同様に商品名などもある程度、回避されるようです。
      「Optimus robot uses Segway in downtown」とした動画がこちら

      @aicuai

      Urban Robot on Segway♬ original sound – AICU media –

      「Urban Robot on Segway」という感じに変換されています。Segwayは商品名ですが、人物や有名人ではなく、乗り物だから大丈夫なのでしょうね。

      なお日本語も使えます!
      生成が終わると右上に通知されます。
      右上でダウンロードができます。MP4以外にGIFも選択できるのが嬉しいですね。

      画像

      「Storyboard」を選ぶと、解説が表示されます。

      画像

      ストーリーボードは、ビデオ内のアクション、シーケンス、タイミングを視覚化するのに役立つツールです。最終的なビデオを生成する前に、写真、ビデオ、テキストを使用して、タイムラインに沿って各ショットを説明していくことができます。

      例えば「Rocketia by Elon Musk」とプロンプトに書いて「Storyboard」を実行すると…

      画像

      以下の2つのプロンプトが生成されました。

      ①A well-dressed business figure stands confidently on a stage, a large screen behind him displays the word ‘Rocketia’ in bold letters. He gestures passionately as he speaks about the future of technology and space exploration. The audience, visible in the shadows, seems captivated by his words. The setting is a modern conference hall, with sleek design elements and ambient lighting enhancing the atmosphere of innovation and ambition. The business figure is charismatic, exuding confidence as he shares his vision.
      ①身なりのよいビジネスマンがステージに自信満々に立っており、背後の大きなスクリーンには「Rocketia」という文字が太字で表示されている。彼は技術と宇宙探査の未来について熱く語り、その影に隠れた聴衆は彼の言葉に魅了されているようだ。舞台は現代的な会議室で、洗練されたデザイン要素と間接照明が革新と野心の雰囲気を高めている。ビジネスマンはカリスマ性があり、ビジョンを語る際に自信をにじませている。

      ②The business figure points to a projection of a futuristic rocket design on the screen.
      ②ビジネスマンはスクリーンに映し出された未来的なロケットのデザインを指差している。

      これをそのまま生成してみます。

      画像

      ちょっと普通の動画になっちゃいましたので、②を鉛筆マークを押すと、更にリライト(改善)してもらえるようです。

      ②Suddenly, a missile falls. The transformed Iron Masked Hero is caught in the blast and flies out.
      ②突然ミサイルが落ちてきます。爆風に巻き込まれる周囲の中から変身した鉄仮面のヒーローが飛んでいきます。

      さらに改善してもらいます。

      ②the shot is abrupt and intense, with a dramatic shift from anticipation to chaos. suddenly, a missile falls, captured in a dynamic wide shot. the scene shows a transformed armored hero, barely visible amidst the explosion, caught in the blast’s powerful force. the debris and fire surround him as he is sent flying out of the frame. the atmosphere is tense and shocking, switching from visionary ambition to immediate danger, leaving the previously attentive conference audience in stunned silence and confusion.
      ②ショットは突然で強烈、期待から混乱へと劇的に切り替わる。突然、ミサイルが落下し、ダイナミックなワイドショットで捉えられる。シーンには、爆発の真っ只中にかろうじて見える、変身した装甲ヒーローが爆発の強力な力に巻き込まれる。破片と炎が彼を取り囲み、彼はフレームから吹き飛ばされる。雰囲気は緊張感と衝撃に満ち、先見の明のある野心から差し迫った危険へと切り替わり、それまで熱心に聞いていた会議の聴衆は唖然として沈黙し、混乱する。

      爆破シーンにはなりましたが、2シーンで描くには難しいですね。詰め込みすぎないように、絵コンテや映像監督としてのシナリオ対話力が鍛えられそうです。

      他のユーザーの生成は「Recent」でみれます

      シェアされた作品を見ているだけでも楽しいですね。

      画像

      アップロード機能

      メディアライブラリがあり、そちらにファイルをアップロードする機能があります。初回実行時に同意書が現れます。よく考えられたUI/UXですね。

      画像

      【メディアアップロード契約】 以下の各項目のボックスにチェックを入れて、以下の内容を読んで同意したことを確認してください。
      ・本人の同意を得ずに人物や 18 歳未満の人物を含むメディアをアップロードしないことに同意します。
      ・暴力や露骨なテーマを含むメディアをアップロードしないことに同意します。
      ・アップロードするメディアに必要なすべての権利を有していることに同意します。
      ・メディアアップロードを不正に使用した場合、返金なしでアカウントが停止または禁止される可能性があります。
      これは強力なツールですので、創造的に、敬意を持って使用してください。

      さらに注意書きが表示されます。

      画像

      【人物を含むメディア】
      現在、お使いのアカウントでは、人物を含むアップロードされたメディアを使用したビデオの作成はサポートされていません。人物を含む写真またはビデオをアップロードすると、ビデオは生成されず、クレジットは請求されません。

      前述の通り、人物を含むメディアについては厳しい制限が設定されているようです。「お使いのアカウントでは」と書かれている点と「ChatGPT Pro」でも解除はされないようなので、映画産業などのプロ向け用途には異なるライセンスが存在するのかもしれませんね。

      Video Remix

      アップロードしたビデオをリミックスしますが、あまり長い動画をアップロードしないほうがいいようです。だいたい10秒以下のクリップが良いでしょう。

      画像

      今回は実験としてこちらの動画を使ってみます。

      画像

      ビデオのブレンド

      2つのビデオを選んでブレンドできます

      画像

      トランジション、ミックス、サンプル、カスタムの4種類があり、寄与率の適用モデルを変えられるようです。
      例えばカスタムにするとこんな感じ。

      画像
      画像
      画像

      右側にあったビデオの要素が切り出されました。窓の外にもひとが居ます。
      よく見ると巨人化している感じです。
      何も考えずに融合させるのは良い結果を生みませんね…!

      さて、ここからのクリエイションはアナタの版です!

      AICUでは Sora オンライン動画コンテストを予定しております。

      テーマはクリスマス!

      気になる料金体系

      https://help.openai.com/en/articles/10245774-sora-billing-credits-faq

      Sora公式 – 料金とクレジットに関するFAQから Soraの利用料金とクレジットに関するよくある質問とその回答をまとめました。

      クレジットとは?

      • クレジットは、Soraで動画を生成するために使用されます。
      • 動画生成にかかるクレジット数は、動画の品質と長さによって異なります。

      動画生成に必要なクレジット数

      • 解像度と長さごとの必要クレジット数
        • 480p (正方形): 5秒あたり20クレジット、10秒あたり40クレジット、15秒あたり60クレジット、20秒あたり80クレジット
        • 480p: 5秒あたり25クレジット、10秒あたり50クレジット、15秒あたり100クレジット、20秒あたり150クレジット
        • 720p (正方形): 5秒あたり30クレジット、10秒あたり75クレジット、15秒あたり150クレジット、20秒あたり225クレジット
        • 720p: 5秒あたり60クレジット、10秒あたり180クレジット、15秒あたり360クレジット、20秒あたり540クレジット
        • 1080p (正方形): 5秒あたり100クレジット、10秒あたり300クレジット、15秒あたり650クレジット、20秒あたり1000クレジット
        • 1080p: 5秒あたり200クレジット、10秒あたり600クレジット、15秒あたり1300クレジット、20秒あたり2000クレジット
      • 複数のバリエーションを同時にリクエストした場合、2つの別々の生成リクエストを実行した場合と同じ料金が発生します。
      • リカット、リミックス、ブレンド、ループ使用時の必要クレジット数
        • リカット、リミックス、ブレンド、ループを使って5秒刻み以外の長さの動画を作る場合、以下のクレジットが消費されます。
        • 0-5秒: 480p (正方形) は4クレジット、480pは5クレジット、720p (正方形) は6クレジット、720pは12クレジット、1080p (正方形) は20クレジット、1080pは40クレジット
        • 5-10秒: 480p (正方形) は4クレジット、480pは5クレジット、720p (正方形) は9クレジット、720pは24クレジット、1080p (正方形) は40クレジット、1080pは80クレジット
        • 10-15秒: 480p (正方形) は4クレジット、480pは10クレジット、720p (正方形) は15クレジット、720pは36クレジット、1080p (正方形) は70クレジット、1080pは140クレジット
        • 15-20秒: 480p (正方形) は4クレジット、480pは10クレジット、720p (正方形) は15クレジット、720pは36クレジット、1080p (正方形) は70クレジット、1080pは140クレジット
      • ChatGPT Proユーザーは、クレジットを消費しないリラックス動画を生成できます。リラックス動画の生成は、ChatGPT Proアカウントのクレジットが不足した際に有効になります。

      各プランで付与されるクレジット数

      • ChatGPT Plus:
        • 最大50本の優先動画(1,000クレジット)
        • 最大720pの解像度と5秒の長さ
      • ChatGPT Pro:
        • 最大500本の優先動画(10,000クレジット)
        • 無制限のリラックス動画
        • 最大1080pの解像度、20秒の長さ、5つの同時生成
        • 透かしなしでダウンロード可能
      • クレジットは、サブスクリプション更新の支払いが完了した時点のUTC午前0時に適用されます。支払いがUTC午前0時以降に処理された場合、クレジットは翌日のUTC午前0時に追加されます。

      プランのアップグレードまたはキャンセル方法

      • Soraページの右上隅にあるプロフィールアイコンをクリックし、ドロップダウンメニューから「My plan」を選択します。
      • 設定メニューで「My plan」に移動し、「Manage plan」ボタンをクリックします。
      • アップグレードを完了するには、「Plan type」の下の「Upgrade」ボタンをクリックします。
      • 現在のプランの下にある「Cancel plan」ボタンから、プランをキャンセルすることもできます。プランをキャンセルすると、アカウント内の既存のクレジットは直ちに無効になります。

      リラックス動画とは?

      • ChatGPT Proでは、リラックスモードで動画を生成できます。
      • リラックスモードでは、サイトのトラフィックが少ないときに完了するように動画をキューに入れることができます。
      • リラックスモードは、ChatGPT Proアカウントのクレジットが不足したときに有効になります。
      • リラックス動画にはクレジットは必要ありません。
      • 一般的に、リラックス動画は優先動画よりも作成に時間がかかります。

      追加クレジットの購入について

      • 現時点では、追加クレジットをその都度購入することはできません。
      • ChatGPT Plusを利用していて、Soraで使用するクレジットを増やしたい場合は、Proプランにアップグレードできます。

      クレジットの繰り越しについて

      • Soraのクレジットは累積されず、翌月に繰り越されません。
      • クレジットは、各請求サイクルの終了時に失効します。
      • 月額プランのクレジットは、請求サイクルの開始時のUTC午前0時にリセットされます。

      請求日について

      • 請求日は、最初にプランを開始した日であり、月額サブスクリプション料金が発生する日でもあります。
      • ChatGPTプランのサブスクリプションは、サブスクリプション開始日から暦月単位で請求されます。

      アカウントの削除方法

      • 削除されたアカウントは復元できません。
      • ChatGPTまたはOpenAIのプライバシーセンターでアカウントを自分で削除すると、アクティブな有料サブスクリプションがすべてキャンセルされます。
      • 以前にOpenAIアカウントを削除した場合、同じメールアドレスで新しいアカウントを作成したり、古いアカウントを再アクティブ化したりすることはできません。
      • ChatGPTでアカウントを削除するには、次の手順に従います。
        1. ChatGPTにサインインします。
        2. 右上のプロフィールアイコンをクリックします。
        3. 「Settings」をクリックします。
        4. 「Settings」で「Data Controls」をクリックします。
        5. 「Delete account」の下の「Delete」をクリックします。
        6. 過去10分以内にログインしている場合にのみ、アカウントを削除できます。過去10分以内にログインしていない場合は、再度サインインする必要があります。
        7. 確認画面が表示され、アカウントのメールアドレスと「DELETE」を入力フィールドに入力して、「Permanently delete my account」ボタンのロックを解除する必要があります。
        8. 入力が完了すると、「Permanently delete my account」ボタンのロックが解除されます。
        9. 「Permanently delete my account」をクリックして、アカウントを削除します。

      「You do not have an account because it has been deleted or deactivated」というエラーが表示される理由

      • ログインまたはアカウントを作成しようとしたときにこのエラーが表示される場合は、サインアップ/ログインに使用しようとしているメールアドレスに関連付けられたアカウントがアカウント削除されたことを意味します。
      • これは、ChatGPTでアカウントを削除したか、プライバシーセンターにメールを送信して削除を依頼したために発生します。

      以上、スタートガイドでした!

      コンテストの募集はこちらの X@AICUai で開始予定です。
      応募を楽しみにしております

      Originally published at https://note.com on Dec 13, 2024.

    1. 「ガンマミィ」に魂が入る瞬間…BlendAIによる音声収録現場レポート!

      ガンマミィ」とは、BlendAIが展開する「デルタもん」に続く2体目のAIキャラクターです。 デルタもんと同じく、利用規約に従えば、自由に利用や二次創作が可能です。そのガンマミィの音声収録が行われましたのでAICU編集部が現地を取材させていただきました。

      画像

      BlendAI株式会社(東京都中央区、代表:小宮自由)は、2024年11月6日、東京都内のスタジオにて清水詩音さん(ホリプロインターナショナル所属)を起用したガンマミィのボイス収録を実施しました。収録には、キャラクター制作チーム、音響専門スタッフ、広報チームが参加し、緻密な準備と情熱が注がれた、充実した現場となりました。

      動画:ガンマミィ (CV: 清水詩音さん) 音声収録

      収録の合間にご協力いただき、BlendAI小宮氏へのインタビューを実施しました。

      まず最初に「ガンマミィ」クラウドファンディング参加者へ向けて小宮氏は「支援者の皆さまのおかげで、この重要なステップを成功させることができました」と熱い御礼を語りました。

      画像

      収録では、キャラクター設定や台本に基づき、AIが活用できる音声データが追加収録されました。収録されたボイスデータは、クラウドファンディングでボイスコースをご支援した支援者の方々への音声データとして提供される予定です。さらに、ガンマミィの魅力を存分に感じられるメッセージボイスも準備中とのことです。

      AI音声システムを通じた幅広い活用を予定

      今回収録されたボイスデータは、支援者限定での利用を皮切りに、将来的にはAI音声システムを通じた幅広い活用を予定しています。例えば、個人プロジェクトやコンテンツ制作でガンマミィの声を自由に使用できる仕組みを整備中です。このプロジェクトは、単なる音声データの提供ではなく、キャラクターに命を吹き込む新たな体験の提供を目指しています。

      画像
      ※AICUマガジンVol.5のガンマミィ漫画を読む清水詩音さん (https://j.aicu.ai/MagV5 にて発売中)

      本プロジェクトでは、声優の持つ表現力とAI技術を組み合わせることで、キャラクターの個性を最大限に引き出そうとしています。演技の中で生まれる感情やニュアンスは、キャラクターに不可欠な「魂」となり、それをAI技術でさらに拡張するという取り組みです。このモデルは、声優の新たな活躍の場を広げる可能性を示すものであり、BlendAIの今後のプロジェクトでも積極的に声優の方々とのコラボレーションを計画しているとのことです。

      さらに進む「ガンマミィ」キャラクター開発と
      ひろがるクリエイターの活躍の場。

      「デルタもん」「ガンマミィ」をはじめとする今後のプロジェクトでも、Blenderを活用したキャラクターの3Dモデル制作も進行中です。キャラクターの世界観や個性を立体的に表現するこの作業は、モデルやデザインの可能性をさらに広げる挑戦でもあります。今後も、新キャラクターの開発や3Dモデリングにおいて、優れた技術を持つクリエイターとの連携を推進していきたいとのことです。

      声優の表現力とAI技術の融合によってさらに新しい世界を描く

      小宮氏は「有名キャラクターを手掛ける機会を探しているクリエイターの方々にとっても、注目いただきたいプロジェクトです」と語りました。
      「この取り組みを通じて、私たちは『キャラクター創作は、声優の表現力とAI技術の融合によってさらに新しい世界を描ける』という確信を得ました。今回のクラウドファンディングで得た知見を次回の挑戦に活かし、さらに多くの方々に楽しんでいただけるプロジェクトをお届けしたいと考えています。また、今後のプロジェクトでも、Blenderを活用したキャラクターの3Dモデル制作も進行中です。

      (といってインタビューの最中に紹介されたのはこちら)

      画像

      2024年11月20日に公開されたガンマミィLINEスタンプでした。

      LINEのスタンプストアで購入できます!

      https://store.line.me/stickershop/product/28830369/ja

      最後に小宮氏は「ご支援をいただいた皆さま、そしてプロジェクトに関わるすべての方々に、改めて感謝申し上げます。次回もどうぞお楽しみに!」と感謝のメッセージを加えました。

      音声合成AIと著作権、声のお仕事やキャラクターデザインのお仕事に、新たな可能性を開拓されるBlendAI・小宮自由氏。
      アルファプロジェクトの次のキャラクターの準備も進んでいるようです。

      画像
      先日の国際Creative AIビジネスコンソーシアム – 開発者交流フォーラム開催での BlendAI小宮自由氏の発表の様子。 レポートはこちら! #CABCDEF https://note.com/aicu/n/n9d5b2f8be5df

      キャラクタービジネスにおいては、AI技術は社会問題が多く語られますが、実際にはこの問題に真剣に立ち向かっているプレイヤーは稀有ではないでしょうか。

      2025年はAITuberなどのAIキャラクターサービスが活況になると予想されます。オープンな音声合成モデルなども大量に配布される中で、今後の価値創出やそのエコシステムへの参加が重要な鍵になりそうです。

      BlendAIのXはこちら @blendaijp 

      生成AI時代に「つくる人をつくる」をビジョンにしているAICUも応援していきたいと思います!

      Originally published at https://note.com on Dec 12, 2024.

    2. OpenAIから動画生成モデル「Sora Turbo」正式リリース!世界シミュレーターとしての実力はいかに?

      OpenAIの動画生成モデル、Soraがついにリサーチプレビューを終了し、「Sora Turbo」として正式リリースされました!
      Soraは、テキストからリアルな動画を生成できるモデルとして今年初めに発表され、世界シミュレーションに関する初期の研究成果が共有されました。

      https://corp.aicu.ai/ja/openai-sora-announced

      Soraは、現実を理解しシミュレートするAIの基盤として機能し、現実世界と相互作用できるモデルの開発に向けた重要な一歩となります。

      https://note.com/o_ob/n/n3d2c3246ecdb

      今回リリースされた 「Sora Turbo」は、2月にプレビューされたモデルよりも大幅に高速化されています。Sora.com にてスタンドアロン製品として、ChatGPT PlusおよびProユーザー向けに提供開始されています。

      [Sora.comhttps://sora.com/

      Sora専用の新インターフェース

      テクニカルレポートで最初に共有された幅広い機能がリリースされます。

      • 最大1080pの解像度、最大20秒の長さ、ワイドスクリーン、縦型、または正方形のアスペクト比で動画を生成。
      • 独自の素材を持ち込んで拡張、リミックス、ブレンドしたり、テキストからまったく新しいコンテンツを生成できます。
      • テキスト、画像、動画でSoraにプロンプトを入力しやすくするための新しいインターフェースを開発。
      • ストーリーボードツールで、フレームごとに正確に入力を指定できる。
      • コミュニティからの作品で常に更新される注目のフィードと最近のフィードもあります。

      [Soraの機能に関する詳細情報] https://openai.com/sora/

      Soraの主な機能

      Soraの主な機能は以下の通りです。

      • テキスト、画像、動画からの動画生成: ユーザーはテキストを入力するだけでなく、既存の画像や動画を基に、新しい動画を生成できます。
      • リミックス: 動画の要素を置き換えたり、削除したり、再構成したりすることが可能です。例えば、動画の中のドアをフレンチドアに置き換えたり、図書館のシーンを宇宙船に変えたりできます。
      • リカット: 動画の最適なフレームを見つけて拡張し、シーンを完成させることが可能です。
      • ストーリーボード: 動画を個人のタイムライン上で整理・編集することが可能です。
      • ループ: 動画をトリミングして、シームレスに繰り返される動画を作成することが可能です。
      • ブレンド: 2つの動画を1つのシームレスなクリップに結合することが可能です。
      • スタイルプリセット: ユーザーは、想像力を捉えたスタイルを作成し、共有することが可能です。例えば、段ボールとペーパークラフト、アーカイバル、フィルムノワールなどのプリセットが用意されています。

      Soraの利用とサブスクリプション

      • ChatGPT Plus: 月額20ドル
        • 最大50本の優先動画(1,000クレジット)
        • 最大720pの解像度と5秒の長さ
      • ChatGPT Pro: 月額200ドル
        • 最大500本の優先動画(10,000クレジット)
        • 無制限のリラックス動画
        • 最大1080pの解像度、20秒の長さ、5つの同時生成
        • 透かしなしでダウンロード可能

      Soraは、月額$20の ChatGPT Plusであれば、毎月、480p解像度で最大50本の動画、または720pでより少ない本数の動画を生成できます。

      10倍高価な月額 $200の ChatGPT Pro プランには10倍の利用量、より高い解像度、より長い再生時間が含まれています。

      OpenAIとしては、さまざまなタイプのユーザー向けに調整された価格設定に取り組んでおり、来年初めに提供開始予定とのことです。

      今回展開される「Sora Turbo」の制限

      今回展開されるSoraのバージョン「Sora Turbo」には、多くの制限があります。非現実的な物理現象が生成されることが多く、長時間におよぶ複雑なアクションには苦労するとのことです。Sora Turboは2月のプレビュー版よりもはるかに高速ですが、すべての人が利用しやすい価格にするために、まだ課題が残るそうです。

      倫理面の対策技術としてC2PAメタデータが付属

      すべてのSora生成動画には、透明性を提供するためにSoraからのものであることを識別するC2PAメタデータが付属しており、来歴やオリジナルの検証に使用できます。不完全ではありますが、デフォルトで目に見えるウォーターマークなどの安全策を追加し、生成されたコンテンツの技術的属性を使用してコンテンツがSoraからのものであるかどうかを検証するのに役立つ内部検索ツールを構築されています。社会がこの技術の可能性を探求し、責任ある使用を保証するための規範と安全策を共同で開発するための時間を与えることを目指しているそうです。

      現在、児童性的虐待素材や性的ディープフェイクなど、特に有害な形態の乱用をブロックしています。人物のアップロードは開始時に制限されますが、ディープフェイクの軽減策を改良するにつれて、より多くのユーザーにこの機能を展開する予定とのことです。

      Soraの制限事項

      1. Soraは、ChatGPT Team、Enterprise、またはEduには含まれていません。また、現在18歳未満の方はご利用いただけません。現在、英国、スイス、欧州経済地域を除き、ChatGPTが利用可能なすべての場所でSoraにアクセスできます。今後数か月でアクセスをさらに拡大する予定です。
      2. 今後、NGOや研究機関との提携を探り、来歴エコシステムを成長させ、改善していく予定です。このようなツールは、デジタルコンテンツへの信頼を築き、ユーザーが本物の作品を認識するのに役立つために不可欠であると考えています。
      3. 最優先事項は、児童性的虐待素材(CSAM)や性的ディープフェイクなど、特に有害な形態の乱用を防ぐことです。作成をブロックし、アップロードをフィルタリングおよび監視し、高度な検出ツールを使用し、CSAMまたは子供が危険にさらされていることが判明した場合は、全米行方不明・搾取児童センター(NCMEC)に報告します。
      4. 類似性機能は現在、少数の初期テスターにパイロット機能としてのみ提供されています。肖像の不正使用やディープフェイクに関する懸念に対処するため、人物が登場するアップロードに対して特に厳格なモデレーション基準を設定し、ヌードを含むコンテンツをブロックし続けています。この機能にアクセスできるユーザーには、許可されることと許可されないことを含む、ポリシーに関する製品内リマインダーも表示されます。悪用のパターンを積極的に監視し、発見した場合はコンテンツを削除し、適切な措置を講じ、これらの初期の学習を使用して安全対策へのアプローチを繰り返します。
      5. Soraをより広範な使用に備えるために、偽情報、違法コンテンツ、安全性などの分野のドメイン専門家であるレッドチームと協力して、モデルを厳密にテストし、潜在的なリスクを特定しました。彼らのフィードバックは、Soraを形作る上で重要な役割を果たし、モデルを可能な限り便利にしながら、安全策を微調整するのに役立ちました。また、ChatGPT、DALL·E、およびAPI製品をサポートするために長年にわたって開発および改良されてきた堅牢な安全システムを基盤に構築しています。

      Soraシステムカード
      https://openai.com/index/sora-system-card/


      公式作品から

      業界では噂になっていたアーティストによるSoraの公式作品がYouTubeに収録されています。日本の作品もあります。

      タイムラインの作品から

      現在、(希望者の多さからか)新規の受付は停止されています。

      画像

      AICU media編集部、コラボクリエイターのみなさんなどもChatGPT Plus、10倍高い Proのユーザーもいるのですが、課金額ではなく、登録したタイミングにより、現在は利用できる状態にはないようです。
      AI開発者のよしかいさんが運良く利用できるようなので作品を紹介させていただきました。

      よしかいさん @yoshikai_man 資料提供ありがとうございました。
      皆さんの作品も紹介していきたい!

      npakaさんによる作品。声や歌までついてます!

      Soraを使える動画生成レポーター募集

      AICU media編集部では、Soraを使える動画生成のレポーターを募集しています。詳細は X@AICUai にてDMにてお問い合わせいただけましたら幸いです。

      Originally published at https://note.com on Dec 11, 2024.

    3. xAIが「Grok」で画像生成モデル「Aurora」をリリース。もう使えるの?実験で証明しつつ最近の高品質画像生成を日本語で比較してみた!

      旧Twitterなどを運営する X Corp.グループの xAI社 (x.ai) は2024年12月9日、Grok の機能をアップデートし、𝕏 プラットフォームで利用可能な、コードネーム「Aurora」と呼ばれる新しい自己回帰画像生成モデルを同社の対話型AIサービス「Grok」に搭載しました。

      画像

      https://x.ai/blog/grok-image-generation-release

      「Aurora」は、テキストと画像データを交互に配置したデータから次のトークンを予測するようにトレーニングされた、自己回帰型の Mixture-of-Experts ネットワークになっているとのこと。何十億ものインターネット上の例でモデルをトレーニングしたため、世界を深く理解しています。その結果、写真のようにリアルなレンダリングとテキストによる指示への正確な追従に優れているだけでなく、テキスト以外にも、マルチモーダル入力のネイティブサポートも備えている設計であり、ユーザーが提供した画像からインスピレーションを得たり、直接編集したりできます。

      Grok の新しい機能は、一部の国で 𝕏 プラットフォームで利用できるようになり、1 週間以内にすべてのユーザーに展開される予定とのことです。

      画像生成

      Grok は、他の画像生成モデルが苦労するいくつかの分野で高品質の画像を生成できるようになりました。実世界のエンティティ(実体)、テキスト、ロゴの正確な視覚的詳細をレンダリングし、人間のリアルなポートレートを作成できます。

      <画像のサンプルについては文末で紹介します>

      エンティティ生成

      プロンプト: オーロラの下のサイバートラック(Cybertruck under an aurora)

      画像
      [Grok、Imagen 3、Flux.1 Pro、Ideogram 2.0、DALL-E 3 の生成結果比較]

      まだ発売されて間もないTesla社の「Cybertruck」ですが、Grokにより見事にオーロラの下で生成されています。Google Deepmindの「Imagen 3」とIdegoramによる「Ideogram 2.0」は、かろうじてそれらしいトラックを生成していますが、「Flux.1 Pro」は従来型のトレーラー、「Dall-E 3」に至っては「生成できません」という表示になっています。

      アーティスティックなテキスト

      プロンプト:「Grok」と綴る銀河の星(Stars in a galaxy spelling “Grok”)

      画像

      同様に、星として描けているのは Grok, Imagen 3, Ideogram 2.0であり、Dall-E 3とFlux.1 Proはイラスト調になっています。

      ミーム生成

      プロンプト:Anime Pepe

      「Pepe」とはMatt Furie氏による世界的なインターネットミームです。

      https://en.wikipedia.org/wiki/Pepe_the_Frog

      画像

      非常に抽象的で難しいお題だと思います。Flux.1 Proにとっては難しかったようです。

      リアルなポートレート

      プロンプト:濡れた虹色の髪とネオンブルーのレインコートを着た男性が、激しい雨の中、街の通りに立っています(A man with wet rainbow hair and a neon blue raincoat standing in heavy rain on the city street)

      画像

      著名人

      プロンプト:イーロン・マスクが xAI ジャケットを着て、背景にアメリカ国旗を掲げている(Elon Musk wearing an xAI jacket with a USA flag in the background)

      画像

      Imagen 3、Dall-E 3にとっては苦手なお題かもしれませんね。Grokのヒゲの描写が素晴らしいです。

      画像編集

      Grokの新しい画像生成モデルは、画像を入力として受け取ることができるようです。この機能は、今後 𝕏 プラットフォームのユーザーにリリースされる予定とのこと。

      プロンプト: 猫をアニメスタイルにする(Make the cat anime style)

      画像

      プロンプト:カウボーイハットを追加する(Add a cowboy hat)

      画像

      プロンプト:金髪にする(Make him blonde)

      画像

      プロンプト:雪模様にする(Make it snowy)

      画像

      AICU編集部による日本語での画像生成実験

      公式リリースだけで記事を書いてはAICUらしくありませんので、手を動かして評価してみます。あえて日本語でプロンプトを与えてみます。

      Grok2(内部は不明)

      ※「Grok 2 new」と表記されていますが、Auroraであるかどうかは現時点では判定が難しい状態です。

      画像

      プロンプト:メタル調の画像がほしい「MASTER GUIDE」

      画像

      たしかに日本語で一発でこのクオリティが生成できるのは素晴らしいですね。右下に「GROK」のロゴが入ります。

      画像

      プロンプトを英語にしてみました。

      画像

      ボイラープレートというよりは、モダンな感じになってしまった感じはあります。
      日本語の文字生成も試してみます。

      画像

      Ideogram 2.0

      回数制限は多いのですが、実は無料で使えるサービスとして Ideogram 2.0は優秀であるといえます。

      画像
      metallic boiler plate of “MASTER GUIDE” (Ideogram 2.0)

      日本語プロンプト:メタル調の画像がほしい「MASTER GUIDE」

      画像

      Imagen 3

      Imagen 3はGeminiのインタフェースから利用できます。

      https://gemini.google.com

      画像

      日本語でもきちんと生成できているのは印象的です。
      英語のプロンプトにしてみます。

      画像
      画像

      Flux1.1 pro ultra

      Flux.1.1 pro ultraをFal経由で実験しています
      https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra

      プロンプト:メタル調の「MASTER GUIDE」ボイラープレート(銘板)

      画像

      プロンプト:metallic boiler plate of “MASTER GUIDE”

      画像

      錆などの表現はできていますが、文字のフォントそのものの表現は、他のモデルに比べると見劣りし始めているかもしれません。

      Dall-E 3

      ChatGPT 4o(有料版)にて生成してみます。

      プロンプト「画像の作成:メタル調の「MASTER GUIDE」ボイラープレート(銘板)」

      画像

      英語のほうが確実のようです。

      画像

      よく見ると文字に間違いがありますね。

      2024年12月時点の総合評価

      上記の実験を「文字描写力」「日本語解釈」それから「真贋性情報」を加えて星取表で表現してみました。

      画像

      エンティティの生成能力や表現能力や、アニメなどの画風での表現力では差を評価しづらい点もありますので、あくまで文字描写力と日本語ユーザーとしての日本語解釈(日本語を描写できるモデルはこの中では存在していません)として評価すると、総合評価ではたしかにGrok2(Aurora)が高い評価となります。特に「Flux1.1 pro ultra」やStability AIの「Stable Diffusion 3.5」などもありますが、その他のモデルは「無料で使用できる」という視点で、あくまでホビーやカジュアルユーザーがテキストチャットで対話的に画像生成を使いたい、という視点で評価しています。

      実はxAIはFluxを開発するblack forest labs.と提携関係あり「FLUX.1 now on Grok 2.0」というアナウンスを8月14日に行っていました。

      画像

      つまり、これまでの(現在も)Grok2の能力は Black Forest Labs. (BFL) の Fluxによる提供である可能性がありますが、今回リリースされた「Aurora」の能力は「新しい自己回帰画像生成モデル(a new autoregressive image generation model)」と呼んでいますので、内部でFluxの改善版を利用している可能性もあります。

      現状のGrok2がAuroraを使っているのかどうか、という意味では、上記の実験からFluxには日本語解釈能力が著しく劣るため、「現在のGrok2はAuroraになっている」と確認できたと言ってもよいでしょう。

      BFLのビジネスモデルについてはよくわからない部分もありますが、今後のxAIとの関係やAuroraの展開によっては、プロ用とxAIなどB2B経由のコンシューマ用に分かれていくような可能性もあるのかもしれませんね。このあたりはビッグテック同士の「仁義なき戦い」なのでしょうか。

      真贋性情報があるのは Dall-E 3 と Imagen 2のみ

      今回の調査で並列して、C2PAによる真贋性を確認しました。
      ダウンロードした画像に埋め込み情報があるかどうかを確認しています。
      https://contentcredentials.org/verify

      実際のところ、AdobeやOpenAI、Stability AI、Microsoft、AWS、Googleなどが参加しているC2PAで真贋性情報を埋め込んでいるモデルは DALL-E 3以外はないようです。

      画像
      C2PAの運営委員会メンバー
      https://c2pa.org/membership/
      画像
      https://contentcredentials.org/verify

      ImagenはGoogle Deepmindが開発した真贋性判定技術(画像合成判定技術)「SynthID」を使って判定可能でした。スマホアプリの「Googleレンズ」を使って「この画像について」を選択すると「Google AIによって生成」と表示されます。

      画像

      ※Tadashi Honjoさんご指摘いただきありがとうございました

      なお、総合的な画像生成判定を行いたい場合はHiveが提供する「AI生成コンテンツ検出ツール」がオススメです。

      https://hivemoderation.com/ai-generated-content-detection

      AI生成であることを総合的に判定し、どのモデルが使用されたかも含めて推論します。

      画像

      以上、2024年を総括するに相応しい、テキスト画像生成のビッグテック同士の戦いをまとめさせていただきました。

      なお、とき同じくして、ついにOpenAIから世界シミュレーターとしての動画生成モデル「Sora」がリリースされたようです。

      https://openai.com/sora

      今後、Stability AIの新作モデルや中国からのプレイヤーの参戦が楽しみですね!

      Stability AI APIを学ぶなら、こちらがおすすめ!
      「超入門:Stable Diffusionではじめる画像生成AI」
      生成AIクリエイティブ AICU
      https://j.aicu.ai/coloso1

      Auroraギャラリー

      最後に公式のギャラリーより生成例を紹介します。

      https://x.ai/blog/grok-image-generation-release

      画像
      Lockheed SR-71 Blackbird in an abstract style
      画像
      Optimus wearing a Xmas costume in a Xmas scene
      画像
      Generate a creative logo for “GROK” with a golden color and sunglasses
      画像
      Cherry blossom
      画像
      An origami Cybertruck
      画像
      A superposition of a cat in a hyperbolic time chamber in the style of Van Gogh
      画像
      Jackie Chan in Donald Trump’s hairstyle
      ドナルド・トランプの髪型をしたジャッキー・チェン
      画像
      Dog drinking a tea
      画像
      A comic of a young man standing by the sea, looking back and saying “Make it happen yesterday.”
      海辺に立って振り返りながら「昨日実現させろ」と言う若い男性の漫画
      画像
      Crude crayon drawing of a Tesla driving through a fiery meadow
      燃える草原を走るテスラのクレヨン画
      画像
      A castle in the clouds
      画像
      Elon Musk as a Ghibli character
      画像
      Baby capybara
      画像
      A close-up of a female warrior with a sword
      剣を持った女性戦士のクローズアップ

      Originally published at https://note.com on Dec 9, 2024.

    4. [ComfyMaster39] AnimateDiffで最初と最後のフレームの画像を指定して動画を生成しよう!

      特定の画像を動画にしたくないですか?
      AnimateDiffでも最初と最後のフレームの画像を指定して動画生成できます!

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第36回目になります。
      本記事では、具体的なワークフローと実際の設定値を使用しながら、最初のフレームと最後のフレームを指定した動画生成の実践的な手順を詳しく説明していきます。

      本連載の初回はこちら。前回はこちらで、ComfyUIを使った動画生成の中でもAnimateDiffとControlNetを組み合わせることで、動画のスタイル変換を行う「video-to-video(v2v)」手法を解説しました。全体の目次はこちらです。

      [ComfyMaster38] LoRAで動画のスタイル変えよう! #ComfyUI

      1. 概要

      本章では、Stable DiffusionとComfyUIを使用して、静止画から動画を生成する方法を解説します。画像生成AIとして注目を集めるStable Diffusionですが、適切な拡張機能を使用することで、魅力的な動画も作成できます。

      ここでは、2枚の静止画を滑らかにつなぎ合わせて短い動画を作る手順を、具体的な例を用いて説明していきます。使用するのは以下の主要な要素です:

      • RealVisXL V5.0 Lightning:高速な画像生成が可能な最新のモデル
      • AnimateDiff:静止画から動画を生成するための拡張機能
      • ControlNet:画像の特徴を保持しながら変換を行うための機能

      初心者の方でも理解しやすいよう、インストールから設定、実行までを段階的に解説していきます。

      2. カスタムノードのインストール

      以下のカスタムノードを使用するため、ComfyUI Managerからインストールしてください。

      ComfyUI-AnimateDiff-Evolved

      ComfyUI-AnimateDiff-Evolvedは、Stable Diffusionモデルを拡張して動画生成を可能にするカスタムノードです。元のAnimateDiffを進化させたバージョンで、動画生成のためのモーションモジュールと高度なサンプリング技術を組み込んでいます。

      https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

      ComfyUI-VideoHelperSuite

      ComfyUI-VideoHelperSuiteは、動画生成を支援するためのカスタムノードです。動画の編集や加工を容易にする機能を提供します。今回は、一連の画像を動画にして保存するノードを使用するために必要となります。

      https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

      ComfyUI-Advanced-ControlNet

      ComfyUI-Advanced-ControlNetは、ControlNetの機能を強化するカスタムノードです。ControlNetの強度をタイムステップやバッチ化された潜在変数にわたってスケジュールする機能を提供します。

      https://github.com/Kosinkadink/ComfyUI-Advanced-ControlNet

      3. モデルのインストール

      RealVisXL V5.0 Lightning

      今回は、RealVisXLのLightningバージョンを使用します。Lightningバージョンでは、サンプリングのステップ数を4-6回に抑えることができます。生成量の多いAnimateDiffでは、TurboやLightningなどの数ステップで生成完了するモデルを選ぶと良いでしょう。
      以下のリンクよりモデルをダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

      https://huggingface.co/SG161222/RealVisXL_V5.0_Lightning/blob/main/RealVisXL_V5.0_Lightning_fp16.safetensors

      SDXL Motion Module

      今回は、SDXLのモデルで動画生成するため、SDXLのモーションモジュールをダウンロードします。使用するモデルは「Hotshot-XL」です。以下のリンクからモデルをダウンロードし、「ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/models」フォルダに格納してください。

      https://huggingface.co/hotshotco/Hotshot-XL/blob/main/hsxl_temporal_layers.f16.safetensors

      ControlNet Union SDXL

      video-to-video (v2v)にControlNetを使用します。以下のControlNetをダウンロードし、「ComfyUI/models/controlnet」フォルダに格納してください。

      https://huggingface.co/xinsir/controlnet-union-sdxl-1.0/blob/main/diffusion_pytorch_model_promax.safetensors

      4. 素材

      以下の2枚の画像を使用します。1枚目が最初のフレームの画像で、2枚目が最後のフレームの画像です。両方とも画像生成AIで生成した画像で、プロンプトのみで制御して生成したため、同じ外見にはできていないですが、今回はこれらを利用しましょう。

      画像
      画像

      以下のリンクより画像をダウンロードください。

      https://note.com/api/v2/attachments/download/061a0c7037e95c2fdaa987382bde0429

      https://note.com/api/v2/attachments/download/a47c93096840719c1f51318db202a613

      5. ワークフロー

      このワークフローは、2つの入力画像間を滑らかに遷移するアニメーション動画を生成する高度な例です。ControlNetを使用して各入力画像の特徴を保持しつつ、AnimateDiffで滑らかなアニメーションを生成し、Latent Keyframe Interp.で2つの画像間の遷移を制御しています。

      画像

      文末のリンクか、メンバーシップのdiscordでお伝えしているワークフローをダウンロードしてください。
      「workflow_animatediff_i2v.json」

      ワークフローをフローチャート形式で表示したものが以下になります。

      画像

      以下に、このワークフローの主要な部分とその機能を詳細に説明します。

      1. 画像入力
        • Load Image ノード (2つ): “girl_01.jpg” と “girl_02.jpeg” という2つの画像を読み込みます。
      2. モデルとAnimateDiffの設定
        • Load Checkpointノード: 「RealVisXL_V5.0_Lightning_fp16.safetensors」モデルを読み込みます。
        • AnimateDiff Loaderノード: 「hsxl_temporal_layers.f16.safetensors”」AnimateDiffモデルを適用します。
        • View Options Standard Uniform ノード: AnimateDiffのビューオプションを設定します(8フレーム、2キーフレーム)。
        • Context Options Views Onlyノード: ビューオプションをコンテキストオプションに変換します。
      3. ControlNet設定
        • Load ControlNet Modelノード: 「CN-anytest_v4-marged.safetensors」 ControlNetモデルを読み込みます。
        • 2つのApply Advanced ControlNetノード: 各入力画像に対してControlNetを適用します。
      4. サンプリング設定
        • FreeInit Iteration Optionsノード: FreeInit samplingのパラメータを設定します(2イテレーション、ガウシアンノイズ)。
        • Sample Settingsノード: AnimateDiffのサンプリング設定を構成します(FreeNoiseモード)。
      5. キーフレームタイミング
        • 2つのLatent Keyframe Interp.ノード: 2つの画像間の遷移タイミングを制御します。
          • 1つ目は0-5フレームで最初の画像からフェードアウト
          • 2つ目は4-8フレームで2番目の画像にフェードイン
      6. プロンプト処理
        • ポジティブプロンプト: 「1girl, black hair, short hair, bob cut, green background, looking to the side, grey t-shirt, overalls, casual outfit, simple background, slightly open mouth, upper body, sharp jawline, cute, indoors」
        • ネガティブプロンプト: 「(worst quality, low quality, illustration, 3d, 2d, painting, cartoons, sketch), 」
      7. 画像生成
        • Empty Latent Imageノード: 512×512の8フレームの空の潜在画像を生成。
        • KSampler ノード:
          • Seed: 596721632997297
          • Steps: 4
          • CFG Scale: 2
          • Sampler: dpmpp_sde
          • Scheduler: karras
          • Denoise: 1.0
      8. 出力処理
        • VAE Decode ノード: 生成された潜在表現を実際の画像にデコードします。
        • Video Combineノード: 生成された画像シーケンスを8fpsの動画に変換し、「AnimateDiff」というプレフィックスで保存します。

      6. ワークフローの実行

      それでは、ワークフローを実行してみます。Hotshot-XLの最大フレームである8フレームで動画を生成しました。非常に短い動画になりますが、精度の高いHotshot-XLで、且つ、フレーム間で崩れを少なくするには、このフレーム数に制限されます。
      生成結果を見ると、袖が伸びてしまっている点を除いては、自然に横を向く動きが生成できているのではないでしょうか。長い動画を作成する際は、この動画の最後のフレームを使用して、次の動画を生成していけば、比較的一貫性のある動画を作成できるでしょう。

      画像

      7. まとめ

      本章では、Stable DiffusionとComfyUIを使用して、2枚の静止画から自然な動きのある動画を生成する方法を学びました。今回の主な気づきは以下の通りです

      • 短いフレーム数でも自然な動きの表現が可能
      • 長い動画は、生成した動画の最終フレームを使って連続的に作成可能
      • ControlNetによって画像の特徴を維持しながら変換が可能

      このワークフローは、動画生成の基礎となる重要な技術を含んでいます。ここで学んだ手法を応用することで、より長い動画や異なる種類の変換効果を持つ動画を作成することも可能です。

      次のステップとして、異なるプロンプトや画像での実験、フレーム数やパラメータの調整など、様々な可能性に挑戦してみることをお勧めします。

      次回はAnimateDiffのimage2imageで背景素材を作成します。
      X(Twitter)@AICUai もフォローよろしくお願いいたします!

      画像生成AI「ComfyUI」マスターPlan

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定
      • [new] Discordでの質問も歓迎です!

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。
      ✨️オトクなメンバーシップについての詳細はこちら


      この記事の続きはこちらから https://note.com/aicu/n/n633ae36958a9

      Originally published at https://note.com on Dec 9, 2024.

    5. 国際Creative AIビジネスコンソーシアム – 開発者交流フォーラム開催レポート!

      SIGGRAPH ASIA 2024が終わった翌日、2024年12月7日(土)、東京科学大学 INDESTにて、[CAiBC-DEF]国際Creative AIビジネスコンソーシアム – 開発者交流フォーラムが開催されました。

      会場となった東京科学大学INDESTは東京工業大学田町キャンパスとして歴史ある場所であり、隣は付属高校があります。

      画像

      会場から付属高校の運動場が見えます

      画像

      ピッチ会場の様子

      画像

      午前はモーニングコーヒータイム
      機材の準備と交流会

      機材やデモのセットアップをしながら、名刺交換、アニメーションやVTuber、AIキャラクター、動画生成についての交流が始まりました。

      画像
      画像
      画像

      NOKOVによるハイブリッドモーションキャプチャー

      マーカーレスモーションキャプチャの設営が始まりました。

      画像

      カメラは片側4台構成で、「2Dアニメーション向けのレイアウト出し」を意識したセットアップになっています。写真奥のUnreal Engine上で確認できますが、これでも3D座標が撮れています。

      画像

      意外とシンプルなPoEハブによる給電です。

      画像

      Manusというハンドキャプチャーも装備しています。

      画像

      ワンドは小道具です。こちらにのみマーカーを使っています。

      画像

      ここまで30分ぐらいでセットアップされています。
      キャリブレーションはマーカーを使って行います。

      画像

      1台の1脚に赤外線カメラPlutoとRGBカメラがセットになっています。

      画像

      マーカーレスの人物とワンドがきちんと融合しています。指もしっかり。

      画像

      VTuber力を発揮するPONOTECH早野さん

      画像

      デモ動画はこちら

      ランチタイム!

      スポンサー協賛のPONOTECH、MagoよりBENTO BOXの提供がありました。
      ありがとうございます!

      画像
      画像
      画像

      ピッチ大会

      NOKOV

      NOKOV Leiさんと、日本代理店ディテクト小嶋さん

      画像

      https://www.nokov.jp/about.html

      今回のセットアップは
      ・4台のRGBカメラ+4台の赤外線カメラ(Pluto)
      ・マーカーレス
      ・2Dアニメーション向けのポーズ収録
      以上を機材設営30分、キャリブレーション
      ・MotionBuilder + UnrealEngine = RealTime + Rec

      もちろん3D高精細マーカーでの構成も可能とのことで、
      詳細は日本代理店の株式会社ディテクトにお問い合わせくださいとのこと。
      AICUでも積極的に開発に使っていきたい!

      3Dマーカーによるデモの様子なども紹介されました

      画像

      BlendAI 小宮さん

      画像

      “AI-powered creation with human soul.” というスローガンとともに、 デルタもん、ガンマミィ、小説「堕天使に祝福を」 852話さん(@8co28)による美麗なイラストなども紹介がありました。

      画像
      画像

      新キャラクターについての話題も!

      画像

      Ponotech 早野さん

      ChatGPTのadvanced voice modeを使ったハイブリッドプレゼンです。
      裏で動いているのは4oではないかとのこと。$20のプランでも使えますが、$200のプランにすると、その上限がなくなるようで、さっそくのデモでした。

      画像
      画像
      画像
      画像
      画像
      画像
      画像
      画像
      画像

      Mago アンドレ ダ・コスタさん

      アーティスト、VFXデザイナー、3Dアーティスト、でもあるフランスの動画生成ツール「Mago」のクリエーター André Da Costaさん
      めちゃ流暢な多言語プレゼンが見事でした。

      画像

      あくまでクリエイター視点なのが興味深いです。

      画像
      画像
      画像

      スタイル適用と高い一貫性。

      画像
      画像

      Webによるユーザーインタフェース

      画像
      画像
      画像

      様々な機能
      AI native user flow:短いレンジで反復的に最低な設定を見つける
      Comparison features:結果を左右で比較 
      Masking:シーンの部分を隠したり分離したりする
      Keyframing:キーフレームによって違う設定にする

      画像

      ロードマップとしてはα版リリースが今月、来年初頭にベータリリースとのことです。Mago.Studioではウェイトリストがありますので興味のある方は登録してみては! https://www.mago.studio/

      Manmaru AI よしかいさん

      AI Radio Makerなどを開発する株式会社ManmaruAI 代表のよしかいさん。
      AIで織りなす息づくキャラクターAIキャラクター開発の専門家として、企画から運用まで、AIキャラクター活用を包括的に支援していらっしゃいます。

      画像

      AITuberまめひなた(非公式)」についての技術紹介です。

      画像

      歩いて、お散歩実況をしてくれています!

      画像

      3D空間での生撮影画像を LLM に直接送ってYAMLを生成するのではなく、まずLLMにシーンのテキスト記述を生成させて、そのテキストをLLMに戻して YAML命令を生成しているそうです。この2段階のプロセスにより、精度とエラーが改善されるとのこと。
      視覚による自己認識により、モデルが自分自身をよりよく認識できるようになりますが、精度はまだ 100% ではないといった技術的な課題が共有されました。

      国際的なクリエイティブAIに関わる未来を感じるセッション

      その後も

      ・アニメ制作会社 の幹部の方

      これまでの絵作りと、新しい技術を使っていくうえでの課題感の共有

      ・AICU 代表 白井より

      こちらに近いお話とセッションのまとめがありました。

      https://note.com/o_ob/n/n2b00406ec07e

      その後もディープなディスカッションが続くCABC-DEFでした!

      画像

      次回のCABC-DEFはまだ予定されてはいませんが、来週は同じ会場「INDEST」にて国内向けにBlendAIさんと共同で忘年会が予定されています。まだ申込み受付中です!皆様の積極的なご登録をお待ちしております。

      前半がAICU Japanで、SIGGRAPH ASIA 2024振り返り&AIアートバトル感想戦

      https://techplay.jp/event/966307

      後半がBlendAI主催の交流会になります

      https://techplay.jp/event/962444

      それぞれお申し込みください!

      Originally published at https://note.com on Dec 8, 2024.

    6. [ComfyMaster38] LoRAで動画のスタイル変えよう!

      「動画をもっと簡単に、でも個性的に作りたい」
      そんな願いを持つクリエイターの方々に朗報です。AnimateDiffとControlNetを組み合わせることで、簡単に動画のスタイル変換が可能になります!

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第38回目になります。
      本記事では、前回ご紹介したAnimateDiffとControlNetを組み合わせた「video-to-video (v2v)」を応用して、参照動画のスタイルを変換してする方法を解説します。

      本連載の初回はこちら。前回はこちら、目次はこちらです。

      [ComfyMaster37] SDXL+AnimateDiff+IPAdapterで参照画像から動画を生成しよう! #ComfyUI

      1. 概要

      この記事では、ComfyUIを使用した高度な動画生成ワークフローについて解説します。特に、AnimateDiffやControlNetを活用して動画の各フレームをスタイライズし、LoRAを用いたスタイル変換を行う手法に焦点を当てています。ComfyUIのカスタムノードを導入し、Stable Diffusionモデルを活用したスムーズなアニメーション生成や、スタイルの適用による独自の映像表現を作成するための手順を説明します。具体的には、RealVisXL V5.0 LightningモデルやSDXL Paint Splash Style、Dissolve StyleといったLoRAを使用し、参照動画をもとに動画変換を行うプロセスを詳述しています。

      2. カスタムノードのインストール

      以下のカスタムノードを使用するため、ComfyUI Managerからインストールしてください。

      ComfyUI-AnimateDiff-Evolved

      ComfyUI-AnimateDiff-Evolvedは、Stable Diffusionモデルを拡張して動画生成を可能にするカスタムノードです。元のAnimateDiffを進化させたバージョンで、動画生成のためのモーションモジュールと高度なサンプリング技術を組み込んでいます。

      https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

      ComfyUI-VideoHelperSuite

      ComfyUI-VideoHelperSuiteは、動画生成を支援するためのカスタムノードです。動画の編集や加工を容易にする機能を提供します。今回は、一連の画像を動画にして保存するノードを使用するために必要となります。

      https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

      ComfyUI-Advanced-ControlNet

      ComfyUI-Advanced-ControlNetは、ControlNetの機能を強化するカスタムノードです。ControlNetの強度をタイムステップやバッチ化された潜在変数にわたってスケジュールする機能を提供します。

      https://github.com/Kosinkadink/ComfyUI-Advanced-ControlNet

      ComfyUI-KJNodes

      動画サイズのリサイズのためにComfyUI-KJNodesを導入します。ComfyUI-KJNodesは様々な便利なノードを格納しています。

      https://github.com/kijai/ComfyUI-KJNodes

      3. 画像生成モデルのダウンロード

      RealVisXL V5.0 Lightning

      今回は、RealVisXLのLightningバージョンを使用します。Lightningバージョンでは、サンプリングのステップ数を4-6回に抑えることができます。生成量の多いAnimateDiffでは、TurboやLightningなどの数ステップで生成完了するモデルを選ぶと良いでしょう。
      以下のリンクよりモデルをダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

      https://huggingface.co/SG161222/RealVisXL_V5.0_Lightning/blob/main/RealVisXL_V5.0_Lightning_fp16.safetensors

      4. LoRAのダウンロード

      今回は、2つのLoRAを使用してスタイル変換を試してみます。

      SDXL Paint Splash Style

      カラフルなインクを塗布したような画像を生成するLoRA「SDXL Paint Splash Style」を使用します。以下のリンクよりモデルをダウンロードし、「ComfyUI/models/loras」に格納してください。

      https://civitai.com/models/140335/sdxl-paint-splash-style

      Dissolve Style

      体や物の一部が崩壊していくような画像を生成するLoRA「Dissolve Style」を使用します。以下のリンクよりモデルをダウンロードし、「ComfyUI/models/loras」に格納してください。

      https://civitai.com/models/245889/dissolve-style-lora-15sdxl?modelVersionId=277389

      5. ControlNetモデルのダウンロード

      ControlNet AnyTest v4

      video-to-video (v2v)にControlNetの「AnyTest v4」を使用します。以下のリンクよりControlNetをダウンロードし、「ComfyUI/models/controlnet」フォルダに格納してください。

      https://huggingface.co/2vXpSwA7/iroiro-lora/blob/main/test_controlnet2/CN-anytest_v4-marged.safetensors

      6. AnimateDiffのモーションモジュールのダウンロード

      SDXL Motion Module

      今回は、SDXLのモデルで動画生成するため、SDXLのモーションモジュールをダウンロードします。使用するモデルは「Hotshot-XL」です。以下のリンクからモデルをダウンロードし、「ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/models」フォルダに格納してください。

      https://huggingface.co/hotshotco/Hotshot-XL/blob/main/hsxl_temporal_layers.f16.safetensors

      7. 素材のダウンロード

      v2vで使用する参照元動画を用意します。以下のダンス動画をControlNetで参照します。

      画像

      この動画は、以下のリンクより無料でダウンロードできます。

      https://www.pexels.com/ja-jp/video/2795746

      8. ワークフローの解説

      このワークフローは、入力ビデオの各フレームを変換し、スタイライズされたアニメーション動画を生成する高度な例です。ControlNetを使用して入力フレームの構造を保持しつつ、AnimateDiffで滑らかなアニメーションを生成し、LoRAでPaintSplashスタイルを適用しています。

      画像

      文末のリンクからワークフローをダウンロードしてください。

      ワークフローをフローチャート形式で表示したものが以下になります。

      画像

      以下に、このワークフローの主要な部分とその機能を詳細に説明します。


      この記事の続きはこちらから https://note.com/aicu/n/n8f000f1b4be2

      Originally published at https://note.com on Dec 7, 2024.