つくる人をつくる AICU Inc.

投稿者: media

新ドメイン「AICU.jp」のおしらせ

2024年12月17日、「つくる人をつくる」をビジョンに「わかるAIを届ける」を続けてきたAICUが、新たなドメイン「AICU.jp」で活動を開始します。

2つの「AICU」でパワーアップ!!

2023年7月24日に米国企業として創立したAICU Inc.と2024年11月11日に日本企業として創立したAICU Japan株式会社は独立した企業体として活動します。

今後、AICU Inc. (本社・米国サニーベール/CEO Akihiko SHIRAI, Ph.D)は、
国際企業連携、Kindle、日本企業やAI時代のクリエイターの海外進出支援を中心に、ライツ管理、ライセンシングを担当します。
Amazon/Kindleを中心に展開している出版事業は変わらず「AICU media」となります。

新生「AICU Japan株式会社」（本社・港区）は、50万PV・1,200フォロワー・年間365本、連続投稿200日を超えるnoteでの記事開発をより強化し、クリエイティブAIによって企業や大学、公共のDXを推進する「AIDX事業」、AIキャラクターやAITuberなど「AI-IP」事業、そして検定試験やスキル認定などを行う「Cert事業」を担当します。

「つくる人をつくる」AI時代のクリエイターの育成を強化

既存のnoteや出版事業は便宜上「AICU編集部」と呼び、編集長は代表であるしらいはかせ(白井暁彦)が担当し、コラボクリエイターの増強や、資金調達、採用活動を強化し、いままで以上に品質高くAICUのビジョンである「つくる人をつくる」を実行してまいります。

従来よりご協力いただいてきたコラボクリエイターの皆様には、今後も変わらず、また、より活躍の場を創出すべく、メンバーシップの強化、コンテストやワークショップ、ギャラリーイベントや展示会といった「単なる知識獲得ではない」コミュニティ醸成機会の開発、国際イベントへの出展、上映、発信支援といった形で応援してまいります。

https://ja.aicu.ai/aicu-siggraph-asia-20241204

新ドメイン「AICU.jp誕生」

2023年10月より、日本最大のブログサイト「note」にて運用してきた AICU media（note.com/aicu）ですが、これまでの記事を継承する形で今後はAICU Japan株式会社が、新ドメイン「aicu.jp」にて運用をいたします。過去記事は自動でリダイレクトされ、読者の皆様への影響は軽微でありますが、より短いURLで、読者の皆様にアクセスしやすくなることを心がけていきます。

既存の商品群はAICU Inc.で継続

Kindleおよびペーパーバックで配本中の月刊誌「AICU Magazine」をはじめ、『SD黄色本』で親しまれている「画像生成AI Stable Diffusionスタートガイド」（SBクリエイティブ刊）は国際出版プロジェクトとして複数の言語での翻訳版が準備されています。生成AIブームの火付け役となった英国「Stability AI」や、クリエイティブ学習メディアの注目企業・韓国「Coloso」とのコラボレーション成果である「生成AIクリエイティブAICU」の3本のラーニングメディア番組「超入門：Stable Diffusionではじめる画像生成AI」、「初級者：広告企画から動画制作までのプロセス」、「ComfyUIマスター：カスタムノードとアプリ開発」は、おかげさまで大きな反響をいただき、多くの方から感謝やフィードバックをいただいております。

国際連携では2024年12月16日から応募開始した国際AI映像制作コンペ「Project Odyssey」に公式スポンサーとして参加しており、日本からのクリエイターの応募を支援させていただいております。

https://aicu.jp/n/ne4456e0ed64a

今回の新ドメインでの noteブログ展開は、既存のAICUファンの皆様の利便性を損なわずに、より多くのユーザーにとって、柔軟かつ品質高く、先進的なサービスを提供しやすくする施策となっております。

新サービスの開発も進行中

読み物メディア中心で展開してきたAICUですが、新ドメイン「AICU.jp」でのサービスは note をさらに活用し、ファンの皆様のご期待やお悩みに答えられるような価値あるサービス、商品、イベントをスピード感速く開発してまいります。
AIDXとは「AIによるDX」というAICUの造語ですが、LINEやDiscord, Difyを使ったチャットボット開発、AIキャラクター運用、クリエイティブAIサービス、大学・自治体・企業等の社内教育、PoC開発や研究開発戦略や、映像制作・漫画・広告や出版、イベント、ワークショップ開発など、既存のIT産業だけでは解決しない「AI＋プロフェッショナル」の情報メディア、コンテンツ生成マネジメント、イメージングソリューションを展開していきます。

https://ja.aicu.ai/gammamy-20241011

https://ja.aicu.ai/comfymaster30-aws-20241105

日本のパートナー企業との連携を促進

AI時代のオープンソースソフトウェアを活用するクリエイティブAI分野の世界的なリーディングカンパニーとして、成果物もオープンに、多様なパートナー企業と連携できるよう、AIラーニングメディアのOEMや提携、ソリューションの導入支援やブランディング、パートナー企業との連携も積極的に行ってまいります。

https://ja.aicu.ai/sora-20241214

イベント等の掲載依頼などはこちらで承っております。

https://ja.aicu.ai/aicu-20241121

お問い合わせは X@AICUai のDMまでいただけましたら幸いです。

以上、お知らせとなります。
今後とも宜しくお願いいたします。

AICU Inc. / AICU Japan株式会社　社員一同

#AICU #AI #生成AI #AIとやってみた
#画像生成AI #画像生成 #Stabilityai

Originally published at https://aicu.jp/ on Dec 16, 2024.

2024-12-16
[作品募集中]Soraリリース記念!!クリスマス動画コンテスト[随時更新]

Soraリリース記念!!様々なAI動画生成ツールを使った
クリスマス動画コンテストを開催しています！

https://j.aicu.ai/SoraX24

クリスマスをテーマに魅力的な動画を製作して、使用したツールや指定ハッシュタグ「 #AICU 」をつけてX.comやTikTok、Instagramに投稿しよう！
AI動画生成ツールはSoraだけに限りません！

応募フォームはこちらです
短縮URL https://j.aicu.ai/SoraX24

締切は2024年12月24日(火) 23:59

参考資料: OpenAI「Sora」クイックスタートガイド

https://ja.aicu.ai/openaisora-20241213

【募集要項】

【募集テーマ】OpenAI Sora のリリースを記念して、「クリスマスを盛り上げる動画作品」をX(Twitter)やTikTok、Instagram上で募集します。

【応募期間】エントリー期間: 2024年12月14日～2024年10月24日(火) 23:59

【審査基準】

・クオリティ
・発想力
・拡散力

【ハッシュタグについて】
「つくる人をつくる」を応援するAICUは、みなさんが作品制作に作ったツールの共有を推奨します。また生成に使うツールはSoraに限りません。例えば Soraを使った場合は指定ハッシュタグ「 #Sora #AICU 」を入れた公開投稿であることをお願いしております。同様にRunwayやSunoなど使用したツールがある場合は「 #Runway #Suno #AICU 」などツールのハッシュタグを入れた公開投稿でお願いします。
動画生成AIツール”だけ”で作る必要はありません、編集なども可能です。

【賞】

AICU賞

AICU media編集部の人力選出により、「つくる人をつくる」を刺激する、もっとも素晴らしい作品にAmazonギフト券1万円分をプレゼント！また入選作品はAICU mediaでの特集ブログ、YouTubeでの紹介、およびAICUマガジン紙面での紹介企画、他コンテストへの推薦等を予定しております。

セツナクリエイション賞

AICUコラボクリエイター、セツナクリエイション藤吉香帆先生が選ぶ「セツナクリエイション賞」です。

Colosoで大人気の生成AIクリエイティブ「AICU」シリーズ第2弾「広告企画から動画制作までのプロセス」のディレクションを担当していただいております。

https://corp.aicu.ai/ja/coloso-20241028

https://note.com/iamkaho/n/n76dd32e4856a

セツナクリエイション賞の選出をフォーム上でご指定ただいた作品は、藤吉先生が直接レビューします。最優秀作品にはAmazonギフト券1万円を予定しております。

https://ja.aicu.ai/runway20240714

Ponotech賞

AICUコラボクリエイター、Ponotech株式会社早野康寛先生が選ぶ「Ponotech賞」です。

AICUで大人気の「ComfyUIマスター」と、生成AIクリエイティブ「AICU」シリーズ第3弾「ComfyUIマスター：カスタムノードとアプリ開発」を担当していただいております。

https://ja.aicu.ai/comfyui20240731

https://j.aicu.ai/Coloso3

ComfyUIでの動画生成を使った作品で、Ponotech賞の選出をフォーム上でご指定ただいた作品は、早野先生が直接レビューします。最優秀作品にはAmazonギフト券1万円を予定しております。

BlendAI賞

AIキャラクターで人類を豊かにする「BlendAI」代表・小宮自由先生が選ぶ「BlendAI賞」です。

デルタもん＆ガンマミィ「AICUマガジン Vol.6より」
https://j.aicu.ai/MagV6

AICUマガジン「BlendAI通信」で人気のデルタもん＆ガンマミィのキャラクターを使った作品で、BlendAI賞の選出をフォーム上でご指定ただいた作品は、小宮先生が直接レビューします。最優秀作品にはAmazonギフト券1万円を予定しております。

https://j.aicu.ai/MagV6

https://ja.aicu.ai/blendai-20241212

デルタもん＆ガンマミィの素材はこちらから入手可能です。
利用規約を守って正しくお使いください。

https://blendai.jp/contents

【随時更新中です】

協賛の賞設定も募集しております！ X@AICUai のDMにてご相談ください。

Soraリリース記念!!
様々なAI動画生成ツールを使った
クリスマス動画コンテストを開催しています！#AICU pic.twitter.com/917kvaXmwL
— AICU (@AICUai) December 15, 2024

コンテストに向けて
ガンマミィを踊らせてみます！#ガンマミィ #Runway #AICU pic.twitter.com/VViFG1BHdD
— AICU (@AICUai) December 15, 2024

Originally published at https://note.com on Dec 14, 2024.

2024-12-14
OpenAI「Sora」クイックスタートガイド
ついにユーザー登録が再開された「Sora」のクイックスタートガイドです。

OpenAIから動画生成モデル「Sora Turbo」正式リリース！世界シミュレーターとしての実力はいかに？
初期設定

OpenAI「Sora」は単独のサイトにて提供されています。
まず https://sora.com/ に行きましょう。

お使いのGmailアカウントでサインアップ（ユーザー登録）できます。ChatGPTで有料契約を持っているアカウントを使ってログインすることをおすすめします。新規ユーザーの場合、生年月日の入力が必要です。

プランの選択

ChatGPT Plus ($20/月)もしくは ChatGPT Pro($200/月)が選べます。
いきなり高い方を選ぶひとはいませんね！

すでにChatGPT Plusに加入済みの場合はこのように「Subscribed」と表示されますので「Continue」を選びましょう。

ユーザーネームの指定

3文字以上で設定できます。

ユーザーネームの指定がおわれば利用できます。

「Create Video」と「Storyboard」

下部にプロンプトを入れる場所があります。ここに文字を入れれば動画が生成されるという仕組みです。実は日本語が使えますが、細かい制御をしようと思ったら英語と日本語をうまく使ったほうが良いです。

縦横比や解像度、長さ、同時に生成する動画の本数以外に、
「Create Video」と「Storyboard」があります。

まずはCreate Videoで「Skydiving by Miku」を生成してみます。

これはAICU編集部での新モデル調査の標準手順なのですが、ここでデジタルイラスト調の初音ミクさんがたくさん出てきたら「何を学習したんだろう…？」と色々想像しなければならなくなります…。一方でこの色は初音ミクさんミク色（ブルーグリーン）ですが、キャラクターなどの名前タグや露出など、かなり慎重にキュレーションされていることが想像できます。

OpenAI「Sora」が登録できるようになりました！

まずはCreate Videoで「Skydiving by Miku」を生成してみましたが…！

この色はMikuですが、キャラクターや露出など、かなり慎重にキュレーションされていることがわかりますね。 #OpenAI #Sora pic.twitter.com/GxgwmsPqFg
— AICU (@AICUai) December 13, 2024

同様に商品名などもある程度、回避されるようです。
「Optimus robot uses Segway in downtown」とした動画がこちら。

@aicuai

Urban Robot on Segway♬ original sound – AICU media –

「Urban Robot on Segway」という感じに変換されています。Segwayは商品名ですが、人物や有名人ではなく、乗り物だから大丈夫なのでしょうね。

なお日本語も使えます！
生成が終わると右上に通知されます。
右上でダウンロードができます。MP4以外にGIFも選択できるのが嬉しいですね。

「Storyboard」を選ぶと、解説が表示されます。

ストーリーボードは、ビデオ内のアクション、シーケンス、タイミングを視覚化するのに役立つツールです。最終的なビデオを生成する前に、写真、ビデオ、テキストを使用して、タイムラインに沿って各ショットを説明していくことができます。

例えば「Rocketia by Elon Musk」とプロンプトに書いて「Storyboard」を実行すると…

以下の2つのプロンプトが生成されました。

①A well-dressed business figure stands confidently on a stage, a large screen behind him displays the word ‘Rocketia’ in bold letters. He gestures passionately as he speaks about the future of technology and space exploration. The audience, visible in the shadows, seems captivated by his words. The setting is a modern conference hall, with sleek design elements and ambient lighting enhancing the atmosphere of innovation and ambition. The business figure is charismatic, exuding confidence as he shares his vision.
①身なりのよいビジネスマンがステージに自信満々に立っており、背後の大きなスクリーンには「Rocketia」という文字が太字で表示されている。彼は技術と宇宙探査の未来について熱く語り、その影に隠れた聴衆は彼の言葉に魅了されているようだ。舞台は現代的な会議室で、洗練されたデザイン要素と間接照明が革新と野心の雰囲気を高めている。ビジネスマンはカリスマ性があり、ビジョンを語る際に自信をにじませている。

②The business figure points to a projection of a futuristic rocket design on the screen.
②ビジネスマンはスクリーンに映し出された未来的なロケットのデザインを指差している。

これをそのまま生成してみます。

ちょっと普通の動画になっちゃいましたので、②を鉛筆マークを押すと、更にリライト（改善）してもらえるようです。

②Suddenly, a missile falls. The transformed Iron Masked Hero is caught in the blast and flies out.
②突然ミサイルが落ちてきます。爆風に巻き込まれる周囲の中から変身した鉄仮面のヒーローが飛んでいきます。

さらに改善してもらいます。

②the shot is abrupt and intense, with a dramatic shift from anticipation to chaos. suddenly, a missile falls, captured in a dynamic wide shot. the scene shows a transformed armored hero, barely visible amidst the explosion, caught in the blast’s powerful force. the debris and fire surround him as he is sent flying out of the frame. the atmosphere is tense and shocking, switching from visionary ambition to immediate danger, leaving the previously attentive conference audience in stunned silence and confusion.
②ショットは突然で強烈、期待から混乱へと劇的に切り替わる。突然、ミサイルが落下し、ダイナミックなワイドショットで捉えられる。シーンには、爆発の真っ只中にかろうじて見える、変身した装甲ヒーローが爆発の強力な力に巻き込まれる。破片と炎が彼を取り囲み、彼はフレームから吹き飛ばされる。雰囲気は緊張感と衝撃に満ち、先見の明のある野心から差し迫った危険へと切り替わり、それまで熱心に聞いていた会議の聴衆は唖然として沈黙し、混乱する。

Storyboard機能による生成です pic.twitter.com/vCLVZSxdvZ
— AICU (@AICUai) December 13, 2024

爆破シーンにはなりましたが、2シーンで描くには難しいですね。詰め込みすぎないように、絵コンテや映像監督としてのシナリオ対話力が鍛えられそうです。

他のユーザーの生成は「Recent」でみれます

シェアされた作品を見ているだけでも楽しいですね。

アップロード機能

メディアライブラリがあり、そちらにファイルをアップロードする機能があります。初回実行時に同意書が現れます。よく考えられたUI/UXですね。

【メディアアップロード契約】以下の各項目のボックスにチェックを入れて、以下の内容を読んで同意したことを確認してください。
・本人の同意を得ずに人物や 18 歳未満の人物を含むメディアをアップロードしないことに同意します。
・暴力や露骨なテーマを含むメディアをアップロードしないことに同意します。
・アップロードするメディアに必要なすべての権利を有していることに同意します。
・メディアアップロードを不正に使用した場合、返金なしでアカウントが停止または禁止される可能性があります。
これは強力なツールですので、創造的に、敬意を持って使用してください。

さらに注意書きが表示されます。

【人物を含むメディア】
現在、お使いのアカウントでは、人物を含むアップロードされたメディアを使用したビデオの作成はサポートされていません。人物を含む写真またはビデオをアップロードすると、ビデオは生成されず、クレジットは請求されません。

前述の通り、人物を含むメディアについては厳しい制限が設定されているようです。「お使いのアカウントでは」と書かれている点と「ChatGPT Pro」でも解除はされないようなので、映画産業などのプロ向け用途には異なるライセンスが存在するのかもしれませんね。

Video Remix

アップロードしたビデオをリミックスしますが、あまり長い動画をアップロードしないほうがいいようです。だいたい10秒以下のクリップが良いでしょう。

今回は実験としてこちらの動画を使ってみます。

ビデオのブレンド

2つのビデオを選んでブレンドできます

トランジション、ミックス、サンプル、カスタムの4種類があり、寄与率の適用モデルを変えられるようです。
例えばカスタムにするとこんな感じ。

右側にあったビデオの要素が切り出されました。窓の外にもひとが居ます。
よく見ると巨人化している感じです。
何も考えずに融合させるのは良い結果を生みませんね…！

さて、ここからのクリエイションはアナタの版です！

AICUでは Sora オンライン動画コンテストを予定しております。

テーマはクリスマス！

気になる料金体系

https://help.openai.com/en/articles/10245774-sora-billing-credits-faq

Sora公式 – 料金とクレジットに関するFAQから Soraの利用料金とクレジットに関するよくある質問とその回答をまとめました。

クレジットとは？
- クレジットは、Soraで動画を生成するために使用されます。
- 動画生成にかかるクレジット数は、動画の品質と長さによって異なります。
動画生成に必要なクレジット数
- 解像度と長さごとの必要クレジット数
  - 480p (正方形): 5秒あたり20クレジット、10秒あたり40クレジット、15秒あたり60クレジット、20秒あたり80クレジット
  - 480p: 5秒あたり25クレジット、10秒あたり50クレジット、15秒あたり100クレジット、20秒あたり150クレジット
  - 720p (正方形): 5秒あたり30クレジット、10秒あたり75クレジット、15秒あたり150クレジット、20秒あたり225クレジット
  - 720p: 5秒あたり60クレジット、10秒あたり180クレジット、15秒あたり360クレジット、20秒あたり540クレジット
  - 1080p (正方形): 5秒あたり100クレジット、10秒あたり300クレジット、15秒あたり650クレジット、20秒あたり1000クレジット
  - 1080p: 5秒あたり200クレジット、10秒あたり600クレジット、15秒あたり1300クレジット、20秒あたり2000クレジット
- 複数のバリエーションを同時にリクエストした場合、2つの別々の生成リクエストを実行した場合と同じ料金が発生します。
- リカット、リミックス、ブレンド、ループ使用時の必要クレジット数
  - リカット、リミックス、ブレンド、ループを使って5秒刻み以外の長さの動画を作る場合、以下のクレジットが消費されます。
  - 0-5秒: 480p (正方形) は4クレジット、480pは5クレジット、720p (正方形) は6クレジット、720pは12クレジット、1080p (正方形) は20クレジット、1080pは40クレジット
  - 5-10秒: 480p (正方形) は4クレジット、480pは5クレジット、720p (正方形) は9クレジット、720pは24クレジット、1080p (正方形) は40クレジット、1080pは80クレジット
  - 10-15秒: 480p (正方形) は4クレジット、480pは10クレジット、720p (正方形) は15クレジット、720pは36クレジット、1080p (正方形) は70クレジット、1080pは140クレジット
  - 15-20秒: 480p (正方形) は4クレジット、480pは10クレジット、720p (正方形) は15クレジット、720pは36クレジット、1080p (正方形) は70クレジット、1080pは140クレジット
- ChatGPT Proユーザーは、クレジットを消費しないリラックス動画を生成できます。リラックス動画の生成は、ChatGPT Proアカウントのクレジットが不足した際に有効になります。
各プランで付与されるクレジット数
- ChatGPT Plus:
  - 最大50本の優先動画（1,000クレジット）
  - 最大720pの解像度と5秒の長さ
- ChatGPT Pro:
  - 最大500本の優先動画（10,000クレジット）
  - 無制限のリラックス動画
  - 最大1080pの解像度、20秒の長さ、5つの同時生成
  - 透かしなしでダウンロード可能
- クレジットは、サブスクリプション更新の支払いが完了した時点のUTC午前0時に適用されます。支払いがUTC午前0時以降に処理された場合、クレジットは翌日のUTC午前0時に追加されます。
プランのアップグレードまたはキャンセル方法
- Soraページの右上隅にあるプロフィールアイコンをクリックし、ドロップダウンメニューから「My plan」を選択します。
- 設定メニューで「My plan」に移動し、「Manage plan」ボタンをクリックします。
- アップグレードを完了するには、「Plan type」の下の「Upgrade」ボタンをクリックします。
- 現在のプランの下にある「Cancel plan」ボタンから、プランをキャンセルすることもできます。プランをキャンセルすると、アカウント内の既存のクレジットは直ちに無効になります。
リラックス動画とは？
- ChatGPT Proでは、リラックスモードで動画を生成できます。
- リラックスモードでは、サイトのトラフィックが少ないときに完了するように動画をキューに入れることができます。
- リラックスモードは、ChatGPT Proアカウントのクレジットが不足したときに有効になります。
- リラックス動画にはクレジットは必要ありません。
- 一般的に、リラックス動画は優先動画よりも作成に時間がかかります。
追加クレジットの購入について
- 現時点では、追加クレジットをその都度購入することはできません。
- ChatGPT Plusを利用していて、Soraで使用するクレジットを増やしたい場合は、Proプランにアップグレードできます。
クレジットの繰り越しについて
- Soraのクレジットは累積されず、翌月に繰り越されません。
- クレジットは、各請求サイクルの終了時に失効します。
- 月額プランのクレジットは、請求サイクルの開始時のUTC午前0時にリセットされます。
請求日について
- 請求日は、最初にプランを開始した日であり、月額サブスクリプション料金が発生する日でもあります。
- ChatGPTプランのサブスクリプションは、サブスクリプション開始日から暦月単位で請求されます。
アカウントの削除方法
- 削除されたアカウントは復元できません。
- ChatGPTまたはOpenAIのプライバシーセンターでアカウントを自分で削除すると、アクティブな有料サブスクリプションがすべてキャンセルされます。
- 以前にOpenAIアカウントを削除した場合、同じメールアドレスで新しいアカウントを作成したり、古いアカウントを再アクティブ化したりすることはできません。
- ChatGPTでアカウントを削除するには、次の手順に従います。
  1. ChatGPTにサインインします。
  2. 右上のプロフィールアイコンをクリックします。
  3. 「Settings」をクリックします。
  4. 「Settings」で「Data Controls」をクリックします。
  5. 「Delete account」の下の「Delete」をクリックします。
  6. 過去10分以内にログインしている場合にのみ、アカウントを削除できます。過去10分以内にログインしていない場合は、再度サインインする必要があります。
  7. 確認画面が表示され、アカウントのメールアドレスと「DELETE」を入力フィールドに入力して、「Permanently delete my account」ボタンのロックを解除する必要があります。
  8. 入力が完了すると、「Permanently delete my account」ボタンのロックが解除されます。
  9. 「Permanently delete my account」をクリックして、アカウントを削除します。
「You do not have an account because it has been deleted or deactivated」というエラーが表示される理由
- ログインまたはアカウントを作成しようとしたときにこのエラーが表示される場合は、サインアップ/ログインに使用しようとしているメールアドレスに関連付けられたアカウントがアカウント削除されたことを意味します。
- これは、ChatGPTでアカウントを削除したか、プライバシーセンターにメールを送信して削除を依頼したために発生します。
以上、スタートガイドでした！

コンテストの募集はこちらの X@AICUai で開始予定です。
応募を楽しみにしております

Originally published at https://note.com on Dec 13, 2024.
2024-12-13
「ガンマミィ」に魂が入る瞬間…BlendAIによる音声収録現場レポート！

「ガンマミィ」とは、BlendAIが展開する「デルタもん」に続く2体目のAIキャラクターです。デルタもんと同じく、利用規約に従えば、自由に利用や二次創作が可能です。そのガンマミィの音声収録が行われましたのでAICU編集部が現地を取材させていただきました。

BlendAI株式会社（東京都中央区、代表：小宮自由）は、2024年11月6日、東京都内のスタジオにて清水詩音さん（ホリプロインターナショナル所属）を起用したガンマミィのボイス収録を実施しました。収録には、キャラクター制作チーム、音響専門スタッフ、広報チームが参加し、緻密な準備と情熱が注がれた、充実した現場となりました。

＜動画：ガンマミィ (CV: 清水詩音さん) 音声収録＞

収録の合間にご協力いただき、BlendAI小宮氏へのインタビューを実施しました。

まず最初に「ガンマミィ」クラウドファンディング参加者へ向けて小宮氏は「支援者の皆さまのおかげで、この重要なステップを成功させることができました」と熱い御礼を語りました。

収録では、キャラクター設定や台本に基づき、AIが活用できる音声データが追加収録されました。収録されたボイスデータは、クラウドファンディングでボイスコースをご支援した支援者の方々への音声データとして提供される予定です。さらに、ガンマミィの魅力を存分に感じられるメッセージボイスも準備中とのことです。

AI音声システムを通じた幅広い活用を予定

今回収録されたボイスデータは、支援者限定での利用を皮切りに、将来的にはAI音声システムを通じた幅広い活用を予定しています。例えば、個人プロジェクトやコンテンツ制作でガンマミィの声を自由に使用できる仕組みを整備中です。このプロジェクトは、単なる音声データの提供ではなく、キャラクターに命を吹き込む新たな体験の提供を目指しています。

※AICUマガジンVol.5のガンマミィ漫画を読む清水詩音さん (https://j.aicu.ai/MagV5 にて発売中)

本プロジェクトでは、声優の持つ表現力とAI技術を組み合わせることで、キャラクターの個性を最大限に引き出そうとしています。演技の中で生まれる感情やニュアンスは、キャラクターに不可欠な「魂」となり、それをAI技術でさらに拡張するという取り組みです。このモデルは、声優の新たな活躍の場を広げる可能性を示すものであり、BlendAIの今後のプロジェクトでも積極的に声優の方々とのコラボレーションを計画しているとのことです。

さらに進む「ガンマミィ」キャラクター開発と
ひろがるクリエイターの活躍の場。

「デルタもん」「ガンマミィ」をはじめとする今後のプロジェクトでも、Blenderを活用したキャラクターの3Dモデル制作も進行中です。キャラクターの世界観や個性を立体的に表現するこの作業は、モデルやデザインの可能性をさらに広げる挑戦でもあります。今後も、新キャラクターの開発や3Dモデリングにおいて、優れた技術を持つクリエイターとの連携を推進していきたいとのことです。

声優の表現力とAI技術の融合によってさらに新しい世界を描く

小宮氏は「有名キャラクターを手掛ける機会を探しているクリエイターの方々にとっても、注目いただきたいプロジェクトです」と語りました。
「この取り組みを通じて、私たちは『キャラクター創作は、声優の表現力とAI技術の融合によってさらに新しい世界を描ける』という確信を得ました。今回のクラウドファンディングで得た知見を次回の挑戦に活かし、さらに多くの方々に楽しんでいただけるプロジェクトをお届けしたいと考えています。また、今後のプロジェクトでも、Blenderを活用したキャラクターの3Dモデル制作も進行中です。

（といってインタビューの最中に紹介されたのはこちら）

2024年11月20日に公開されたガンマミィLINEスタンプでした。

ついに、ガンマミィのLINEスタンプが登場しました！
日常会話にも使いやすい仕様となっております(≧▽≦)
ダウンロード、宜しくお願いします！！
購入先はリプ欄をチェック↓↓ pic.twitter.com/16prNpAKzH
— デルタもん@アルパラ (@BlendAIjp) November 20, 2024

LINEのスタンプストアで購入できます！

https://store.line.me/stickershop/product/28830369/ja

最後に小宮氏は「ご支援をいただいた皆さま、そしてプロジェクトに関わるすべての方々に、改めて感謝申し上げます。次回もどうぞお楽しみに！」と感謝のメッセージを加えました。

音声合成AIと著作権、声のお仕事やキャラクターデザインのお仕事に、新たな可能性を開拓されるBlendAI・小宮自由氏。
アルファプロジェクトの次のキャラクターの準備も進んでいるようです。

先日の国際Creative AIビジネスコンソーシアム – 開発者交流フォーラム開催での BlendAI小宮自由氏の発表の様子。レポートはこちら！ #CABCDEF https://note.com/aicu/n/n9d5b2f8be5df

国際Creative AIビジネスコンソーシアム – 開発者交流フォーラム開催レポート！

キャラクタービジネスにおいては、AI技術は社会問題が多く語られますが、実際にはこの問題に真剣に立ち向かっているプレイヤーは稀有ではないでしょうか。

声の無断生成は違法？音声合成AIと著作権のこれから

2025年はAITuberなどのAIキャラクターサービスが活況になると予想されます。オープンな音声合成モデルなども大量に配布される中で、今後の価値創出やそのエコシステムへの参加が重要な鍵になりそうです。

BlendAIのXはこちら @blendaijp

生成AI時代に「つくる人をつくる」をビジョンにしているAICUも応援していきたいと思います！

Originally published at https://note.com on Dec 12, 2024.

2024-12-12
OpenAIから動画生成モデル「Sora Turbo」正式リリース！世界シミュレーターとしての実力はいかに？
OpenAIの動画生成モデル、Soraがついにリサーチプレビューを終了し、「Sora Turbo」として正式リリースされました！
Soraは、テキストからリアルな動画を生成できるモデルとして今年初めに発表され、世界シミュレーションに関する初期の研究成果が共有されました。

https://corp.aicu.ai/ja/openai-sora-announced

Soraは、現実を理解しシミュレートするAIの基盤として機能し、現実世界と相互作用できるモデルの開発に向けた重要な一歩となります。

https://note.com/o_ob/n/n3d2c3246ecdb

今回リリースされた「Sora Turbo」は、2月にプレビューされたモデルよりも大幅に高速化されています。Sora.com にてスタンドアロン製品として、ChatGPT PlusおよびProユーザー向けに提供開始されています。

[Sora.com] https://sora.com/

Sora専用の新インターフェース

テクニカルレポートで最初に共有された幅広い機能がリリースされます。
- 最大1080pの解像度、最大20秒の長さ、ワイドスクリーン、縦型、または正方形のアスペクト比で動画を生成。
- 独自の素材を持ち込んで拡張、リミックス、ブレンドしたり、テキストからまったく新しいコンテンツを生成できます。
- テキスト、画像、動画でSoraにプロンプトを入力しやすくするための新しいインターフェースを開発。
- ストーリーボードツールで、フレームごとに正確に入力を指定できる。
- コミュニティからの作品で常に更新される注目のフィードと最近のフィードもあります。
[Soraの機能に関する詳細情報] https://openai.com/sora/

Soraの主な機能

Soraの主な機能は以下の通りです。
- テキスト、画像、動画からの動画生成: ユーザーはテキストを入力するだけでなく、既存の画像や動画を基に、新しい動画を生成できます。
- リミックス: 動画の要素を置き換えたり、削除したり、再構成したりすることが可能です。例えば、動画の中のドアをフレンチドアに置き換えたり、図書館のシーンを宇宙船に変えたりできます。
- リカット: 動画の最適なフレームを見つけて拡張し、シーンを完成させることが可能です。
- ストーリーボード: 動画を個人のタイムライン上で整理・編集することが可能です。
- ループ: 動画をトリミングして、シームレスに繰り返される動画を作成することが可能です。
- ブレンド: 2つの動画を1つのシームレスなクリップに結合することが可能です。
- スタイルプリセット: ユーザーは、想像力を捉えたスタイルを作成し、共有することが可能です。例えば、段ボールとペーパークラフト、アーカイバル、フィルムノワールなどのプリセットが用意されています。
Soraの利用とサブスクリプション
- ChatGPT Plus: 月額20ドル
  - 最大50本の優先動画（1,000クレジット）
  - 最大720pの解像度と5秒の長さ
- ChatGPT Pro: 月額200ドル
  - 最大500本の優先動画（10,000クレジット）
  - 無制限のリラックス動画
  - 最大1080pの解像度、20秒の長さ、5つの同時生成
  - 透かしなしでダウンロード可能
Soraは、月額$20の ChatGPT Plusであれば、毎月、480p解像度で最大50本の動画、または720pでより少ない本数の動画を生成できます。

10倍高価な月額 $200の ChatGPT Pro プランには10倍の利用量、より高い解像度、より長い再生時間が含まれています。

OpenAIとしては、さまざまなタイプのユーザー向けに調整された価格設定に取り組んでおり、来年初めに提供開始予定とのことです。

今回展開される「Sora Turbo」の制限

今回展開されるSoraのバージョン「Sora Turbo」には、多くの制限があります。非現実的な物理現象が生成されることが多く、長時間におよぶ複雑なアクションには苦労するとのことです。Sora Turboは2月のプレビュー版よりもはるかに高速ですが、すべての人が利用しやすい価格にするために、まだ課題が残るそうです。

倫理面の対策技術としてC2PAメタデータが付属

すべてのSora生成動画には、透明性を提供するためにSoraからのものであることを識別するC2PAメタデータが付属しており、来歴やオリジナルの検証に使用できます。不完全ではありますが、デフォルトで目に見えるウォーターマークなどの安全策を追加し、生成されたコンテンツの技術的属性を使用してコンテンツがSoraからのものであるかどうかを検証するのに役立つ内部検索ツールを構築されています。社会がこの技術の可能性を探求し、責任ある使用を保証するための規範と安全策を共同で開発するための時間を与えることを目指しているそうです。

現在、児童性的虐待素材や性的ディープフェイクなど、特に有害な形態の乱用をブロックしています。人物のアップロードは開始時に制限されますが、ディープフェイクの軽減策を改良するにつれて、より多くのユーザーにこの機能を展開する予定とのことです。

Soraの制限事項
1. Soraは、ChatGPT Team、Enterprise、またはEduには含まれていません。また、現在18歳未満の方はご利用いただけません。現在、英国、スイス、欧州経済地域を除き、ChatGPTが利用可能なすべての場所でSoraにアクセスできます。今後数か月でアクセスをさらに拡大する予定です。
2. 今後、NGOや研究機関との提携を探り、来歴エコシステムを成長させ、改善していく予定です。このようなツールは、デジタルコンテンツへの信頼を築き、ユーザーが本物の作品を認識するのに役立つために不可欠であると考えています。
3. 最優先事項は、児童性的虐待素材（CSAM）や性的ディープフェイクなど、特に有害な形態の乱用を防ぐことです。作成をブロックし、アップロードをフィルタリングおよび監視し、高度な検出ツールを使用し、CSAMまたは子供が危険にさらされていることが判明した場合は、全米行方不明・搾取児童センター（NCMEC）に報告します。
4. 類似性機能は現在、少数の初期テスターにパイロット機能としてのみ提供されています。肖像の不正使用やディープフェイクに関する懸念に対処するため、人物が登場するアップロードに対して特に厳格なモデレーション基準を設定し、ヌードを含むコンテンツをブロックし続けています。この機能にアクセスできるユーザーには、許可されることと許可されないことを含む、ポリシーに関する製品内リマインダーも表示されます。悪用のパターンを積極的に監視し、発見した場合はコンテンツを削除し、適切な措置を講じ、これらの初期の学習を使用して安全対策へのアプローチを繰り返します。
5. Soraをより広範な使用に備えるために、偽情報、違法コンテンツ、安全性などの分野のドメイン専門家であるレッドチームと協力して、モデルを厳密にテストし、潜在的なリスクを特定しました。彼らのフィードバックは、Soraを形作る上で重要な役割を果たし、モデルを可能な限り便利にしながら、安全策を微調整するのに役立ちました。また、ChatGPT、DALL·E、およびAPI製品をサポートするために長年にわたって開発および改良されてきた堅牢な安全システムを基盤に構築しています。
Soraシステムカード
https://openai.com/index/sora-system-card/

公式作品から

業界では噂になっていたアーティストによるSoraの公式作品がYouTubeに収録されています。日本の作品もあります。

タイムラインの作品から

現在、（希望者の多さからか）新規の受付は停止されています。

AICU media編集部、コラボクリエイターのみなさんなどもChatGPT Plus、10倍高い Proのユーザーもいるのですが、課金額ではなく、登録したタイミングにより、現在は利用できる状態にはないようです。
AI開発者のよしかいさんが運良く利用できるようなので作品を紹介させていただきました。

Soraで作った「もう一人の僕」です pic.twitter.com/acmrZtGYqG
— よしかい (@yoshikai_man) December 11, 2024

君写真と違くない？ sora pic.twitter.com/NkM6DKL1AQ
— よしかい (@yoshikai_man) December 10, 2024

自画像 to 自画像? by Sora pic.twitter.com/NkbzhNK3gx
— よしかい (@yoshikai_man) December 11, 2024

りょうしコンピュータ by sora pic.twitter.com/I6N5c26PeY
— よしかい (@yoshikai_man) December 10, 2024

soraでアニメ作るのムズい pic.twitter.com/ZKovwZ7c6E
— よしかい (@yoshikai_man) December 10, 2024

SoraとSunoでどこまでやれるのか実験中。
これは架空アニメ「Ngo」のPV
キャラクター設定を考えたら、nijijourneyで画像を作って、SoraのStoryboardで指定。
なかなか一発で満足のいく動画は出力はされなくてRe-cut機能で何度も一部を作り直して制作しててめっちゃ大変・・・… pic.twitter.com/hP3d4gtq6S
— よしかい (@yoshikai_man) December 11, 2024

よしかいさん @yoshikai_man 資料提供ありがとうございました。
皆さんの作品も紹介していきたい！

npakaさんによる作品。声や歌までついてます！

Sora + にじボイス + Suno pic.twitter.com/srKwNzDbmw
— 布留川英一 / Hidekazu Furukawa (@npaka123) December 11, 2024

Sora + にじボイス + Suno pic.twitter.com/5ifuaT94b4
— 布留川英一 / Hidekazu Furukawa (@npaka123) December 11, 2024

Soraを使える動画生成レポーター募集

AICU media編集部では、Soraを使える動画生成のレポーターを募集しています。詳細は X@AICUai にてDMにてお問い合わせいただけましたら幸いです。

Originally published at https://note.com on Dec 11, 2024.
2024-12-11
xAIが「Grok」で画像生成モデル「Aurora」をリリース。もう使えるの？実験で証明しつつ最近の高品質画像生成を日本語で比較してみた！

旧Twitterなどを運営する X Corp.グループの xAI社 (x.ai) は2024年12月9日、Grok の機能をアップデートし、𝕏 プラットフォームで利用可能な、コードネーム「Aurora」と呼ばれる新しい自己回帰画像生成モデルを同社の対話型AIサービス「Grok」に搭載しました。

https://x.ai/blog/grok-image-generation-release

「Aurora」は、テキストと画像データを交互に配置したデータから次のトークンを予測するようにトレーニングされた、自己回帰型の Mixture-of-Experts ネットワークになっているとのこと。何十億ものインターネット上の例でモデルをトレーニングしたため、世界を深く理解しています。その結果、写真のようにリアルなレンダリングとテキストによる指示への正確な追従に優れているだけでなく、テキスト以外にも、マルチモーダル入力のネイティブサポートも備えている設計であり、ユーザーが提供した画像からインスピレーションを得たり、直接編集したりできます。

Grok の新しい機能は、一部の国で 𝕏 プラットフォームで利用できるようになり、1 週間以内にすべてのユーザーに展開される予定とのことです。

画像生成

Grok は、他の画像生成モデルが苦労するいくつかの分野で高品質の画像を生成できるようになりました。実世界のエンティティ(実体)、テキスト、ロゴの正確な視覚的詳細をレンダリングし、人間のリアルなポートレートを作成できます。

＜画像のサンプルについては文末で紹介します＞

エンティティ生成

プロンプト: オーロラの下のサイバートラック（Cybertruck under an aurora）

[Grok、Imagen 3、Flux.1 Pro、Ideogram 2.0、DALL-E 3 の生成結果比較]

まだ発売されて間もないTesla社の「Cybertruck」ですが、Grokにより見事にオーロラの下で生成されています。Google Deepmindの「Imagen 3」とIdegoramによる「Ideogram 2.0」は、かろうじてそれらしいトラックを生成していますが、「Flux.1 Pro」は従来型のトレーラー、「Dall-E 3」に至っては「生成できません」という表示になっています。

アーティスティックなテキスト

プロンプト：「Grok」と綴る銀河の星（Stars in a galaxy spelling “Grok”）

同様に、星として描けているのは Grok, Imagen 3, Ideogram 2.0であり、Dall-E 3とFlux.1 Proはイラスト調になっています。

ミーム生成

プロンプト：Anime Pepe

「Pepe」とはMatt Furie氏による世界的なインターネットミームです。

https://en.wikipedia.org/wiki/Pepe_the_Frog

非常に抽象的で難しいお題だと思います。Flux.1 Proにとっては難しかったようです。

リアルなポートレート

プロンプト：濡れた虹色の髪とネオンブルーのレインコートを着た男性が、激しい雨の中、街の通りに立っています（A man with wet rainbow hair and a neon blue raincoat standing in heavy rain on the city street）

著名人

プロンプト：イーロン・マスクが xAI ジャケットを着て、背景にアメリカ国旗を掲げている（Elon Musk wearing an xAI jacket with a USA flag in the background）

Imagen 3、Dall-E 3にとっては苦手なお題かもしれませんね。Grokのヒゲの描写が素晴らしいです。

画像編集

Grokの新しい画像生成モデルは、画像を入力として受け取ることができるようです。この機能は、今後 𝕏 プラットフォームのユーザーにリリースされる予定とのこと。

プロンプト: 猫をアニメスタイルにする（Make the cat anime style）

プロンプト：カウボーイハットを追加する（Add a cowboy hat）

プロンプト：金髪にする（Make him blonde）

プロンプト：雪模様にする（Make it snowy）

AICU編集部による日本語での画像生成実験

公式リリースだけで記事を書いてはAICUらしくありませんので、手を動かして評価してみます。あえて日本語でプロンプトを与えてみます。

Grok2(内部は不明)

※「Grok 2 new」と表記されていますが、Auroraであるかどうかは現時点では判定が難しい状態です。

プロンプト：メタル調の画像がほしい「MASTER GUIDE」

たしかに日本語で一発でこのクオリティが生成できるのは素晴らしいですね。右下に「GROK」のロゴが入ります。

プロンプトを英語にしてみました。

ボイラープレートというよりは、モダンな感じになってしまった感じはあります。
日本語の文字生成も試してみます。

Ideogram 2.0

回数制限は多いのですが、実は無料で使えるサービスとして Ideogram 2.0は優秀であるといえます。

metallic boiler plate of “MASTER GUIDE” (Ideogram 2.0)

日本語プロンプト：メタル調の画像がほしい「MASTER GUIDE」

Imagen 3

Imagen 3はGeminiのインタフェースから利用できます。

https://gemini.google.com

日本語でもきちんと生成できているのは印象的です。
英語のプロンプトにしてみます。

Flux1.1 pro ultra

Flux.1.1 pro ultraをFal経由で実験しています
https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra

プロンプト：メタル調の「MASTER GUIDE」ボイラープレート（銘板）

プロンプト：metallic boiler plate of “MASTER GUIDE”

錆などの表現はできていますが、文字のフォントそのものの表現は、他のモデルに比べると見劣りし始めているかもしれません。

Dall-E 3

ChatGPT 4o(有料版)にて生成してみます。

プロンプト「画像の作成:メタル調の「MASTER GUIDE」ボイラープレート（銘板）」

英語のほうが確実のようです。

よく見ると文字に間違いがありますね。

2024年12月時点の総合評価

上記の実験を「文字描写力」「日本語解釈」それから「真贋性情報」を加えて星取表で表現してみました。

エンティティの生成能力や表現能力や、アニメなどの画風での表現力では差を評価しづらい点もありますので、あくまで文字描写力と日本語ユーザーとしての日本語解釈（日本語を描写できるモデルはこの中では存在していません）として評価すると、総合評価ではたしかにGrok2(Aurora)が高い評価となります。特に「Flux1.1 pro ultra」やStability AIの「Stable Diffusion 3.5」などもありますが、その他のモデルは「無料で使用できる」という視点で、あくまでホビーやカジュアルユーザーがテキストチャットで対話的に画像生成を使いたい、という視点で評価しています。

実はxAIはFluxを開発するblack forest labs.と提携関係あり「FLUX.1 now on Grok 2.0」というアナウンスを8月14日に行っていました。

Welcome to the forest @xai https://t.co/lkXq6O0eQu pic.twitter.com/h7rqSmI6wA
— Black Forest Labs (@bfl_ml) August 14, 2024

つまり、これまでの（現在も）Grok2の能力は Black Forest Labs. (BFL) の Fluxによる提供である可能性がありますが、今回リリースされた「Aurora」の能力は「新しい自己回帰画像生成モデル（a new autoregressive image generation model）」と呼んでいますので、内部でFluxの改善版を利用している可能性もあります。

現状のGrok2がAuroraを使っているのかどうか、という意味では、上記の実験からFluxには日本語解釈能力が著しく劣るため、「現在のGrok2はAuroraになっている」と確認できたと言ってもよいでしょう。

BFLのビジネスモデルについてはよくわからない部分もありますが、今後のxAIとの関係やAuroraの展開によっては、プロ用とxAIなどB2B経由のコンシューマ用に分かれていくような可能性もあるのかもしれませんね。このあたりはビッグテック同士の「仁義なき戦い」なのでしょうか。

真贋性情報があるのは Dall-E 3 と Imagen 2のみ

今回の調査で並列して、C2PAによる真贋性を確認しました。
ダウンロードした画像に埋め込み情報があるかどうかを確認しています。
https://contentcredentials.org/verify

実際のところ、AdobeやOpenAI、Stability AI、Microsoft、AWS、Googleなどが参加しているC2PAで真贋性情報を埋め込んでいるモデルは DALL-E 3以外はないようです。

C2PAの運営委員会メンバー
https://c2pa.org/membership/

https://contentcredentials.org/verify

ImagenはGoogle Deepmindが開発した真贋性判定技術（画像合成判定技術）「SynthID」を使って判定可能でした。スマホアプリの「Googleレンズ」を使って「この画像について」を選択すると「Google AIによって生成」と表示されます。

※Tadashi Honjoさんご指摘いただきありがとうございました

AndroidのChromeであれば検出できますよ！

Googleレンズから「この画像について」を選択すると画像の説明の中に「GoogleAIによって生成」という表示が追加されます。 pic.twitter.com/7i72aZ5Rb3
— Tadashi Honjo🏪AIリテールテック研究所 (@AutoIntelliMode) December 10, 2024

なお、総合的な画像生成判定を行いたい場合はHiveが提供する「AI生成コンテンツ検出ツール」がオススメです。

https://hivemoderation.com/ai-generated-content-detection

AI生成であることを総合的に判定し、どのモデルが使用されたかも含めて推論します。

以上、2024年を総括するに相応しい、テキスト画像生成のビッグテック同士の戦いをまとめさせていただきました。

なお、とき同じくして、ついにOpenAIから世界シミュレーターとしての動画生成モデル「Sora」がリリースされたようです。

https://openai.com/sora

今後、Stability AIの新作モデルや中国からのプレイヤーの参戦が楽しみですね！

Stability AI APIを学ぶなら、こちらがおすすめ！
「超入門：Stable Diffusionではじめる画像生成AI」
生成AIクリエイティブ AICU
https://j.aicu.ai/coloso1

Auroraギャラリー

最後に公式のギャラリーより生成例を紹介します。

https://x.ai/blog/grok-image-generation-release

Lockheed SR-71 Blackbird in an abstract style

Optimus wearing a Xmas costume in a Xmas scene

Generate a creative logo for “GROK” with a golden color and sunglasses

Cherry blossom

An origami Cybertruck

A superposition of a cat in a hyperbolic time chamber in the style of Van Gogh

Jackie Chan in Donald Trump’s hairstyle
ドナルド・トランプの髪型をしたジャッキー・チェン

Dog drinking a tea

A comic of a young man standing by the sea, looking back and saying “Make it happen yesterday.”
海辺に立って振り返りながら「昨日実現させろ」と言う若い男性の漫画

Crude crayon drawing of a Tesla driving through a fiery meadow
燃える草原を走るテスラのクレヨン画

A castle in the clouds

Elon Musk as a Ghibli character

Baby capybara

A close-up of a female warrior with a sword
剣を持った女性戦士のクローズアップ

Originally published at https://note.com on Dec 9, 2024.

2024-12-09
[ComfyMaster39] AnimateDiffで最初と最後のフレームの画像を指定して動画を生成しよう！
特定の画像を動画にしたくないですか？
AnimateDiffでも最初と最後のフレームの画像を指定して動画生成できます！

こんにちわ、AICU media編集部です。
「ComfyUI マスターガイド」第36回目になります。
本記事では、具体的なワークフローと実際の設定値を使用しながら、最初のフレームと最後のフレームを指定した動画生成の実践的な手順を詳しく説明していきます。

本連載の初回はこちら。前回はこちらで、ComfyUIを使った動画生成の中でもAnimateDiffとControlNetを組み合わせることで、動画のスタイル変換を行う「video-to-video(v2v)」手法を解説しました。全体の目次はこちらです。

[ComfyMaster38] LoRAで動画のスタイル変えよう！ #ComfyUI

[ComfyMaster38] LoRAで動画のスタイル変えよう！

1. 概要

本章では、Stable DiffusionとComfyUIを使用して、静止画から動画を生成する方法を解説します。画像生成AIとして注目を集めるStable Diffusionですが、適切な拡張機能を使用することで、魅力的な動画も作成できます。

ここでは、2枚の静止画を滑らかにつなぎ合わせて短い動画を作る手順を、具体的な例を用いて説明していきます。使用するのは以下の主要な要素です：
- RealVisXL V5.0 Lightning：高速な画像生成が可能な最新のモデル
- AnimateDiff：静止画から動画を生成するための拡張機能
- ControlNet：画像の特徴を保持しながら変換を行うための機能
初心者の方でも理解しやすいよう、インストールから設定、実行までを段階的に解説していきます。

2. カスタムノードのインストール

以下のカスタムノードを使用するため、ComfyUI Managerからインストールしてください。

ComfyUI-AnimateDiff-Evolved

ComfyUI-AnimateDiff-Evolvedは、Stable Diffusionモデルを拡張して動画生成を可能にするカスタムノードです。元のAnimateDiffを進化させたバージョンで、動画生成のためのモーションモジュールと高度なサンプリング技術を組み込んでいます。

https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

ComfyUI-VideoHelperSuite

ComfyUI-VideoHelperSuiteは、動画生成を支援するためのカスタムノードです。動画の編集や加工を容易にする機能を提供します。今回は、一連の画像を動画にして保存するノードを使用するために必要となります。

https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

ComfyUI-Advanced-ControlNet

ComfyUI-Advanced-ControlNetは、ControlNetの機能を強化するカスタムノードです。ControlNetの強度をタイムステップやバッチ化された潜在変数にわたってスケジュールする機能を提供します。

https://github.com/Kosinkadink/ComfyUI-Advanced-ControlNet

3. モデルのインストール

RealVisXL V5.0 Lightning

今回は、RealVisXLのLightningバージョンを使用します。Lightningバージョンでは、サンプリングのステップ数を4-6回に抑えることができます。生成量の多いAnimateDiffでは、TurboやLightningなどの数ステップで生成完了するモデルを選ぶと良いでしょう。
以下のリンクよりモデルをダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

https://huggingface.co/SG161222/RealVisXL_V5.0_Lightning/blob/main/RealVisXL_V5.0_Lightning_fp16.safetensors

SDXL Motion Module

今回は、SDXLのモデルで動画生成するため、SDXLのモーションモジュールをダウンロードします。使用するモデルは「Hotshot-XL」です。以下のリンクからモデルをダウンロードし、「ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/models」フォルダに格納してください。

https://huggingface.co/hotshotco/Hotshot-XL/blob/main/hsxl_temporal_layers.f16.safetensors

ControlNet Union SDXL

video-to-video (v2v)にControlNetを使用します。以下のControlNetをダウンロードし、「ComfyUI/models/controlnet」フォルダに格納してください。

https://huggingface.co/xinsir/controlnet-union-sdxl-1.0/blob/main/diffusion_pytorch_model_promax.safetensors

4. 素材

以下の2枚の画像を使用します。1枚目が最初のフレームの画像で、2枚目が最後のフレームの画像です。両方とも画像生成AIで生成した画像で、プロンプトのみで制御して生成したため、同じ外見にはできていないですが、今回はこれらを利用しましょう。

以下のリンクより画像をダウンロードください。
- girl_01.jpg（右クリックで保存）
https://note.com/api/v2/attachments/download/061a0c7037e95c2fdaa987382bde0429
- girl_02.jpg（右クリックで保存）
https://note.com/api/v2/attachments/download/a47c93096840719c1f51318db202a613

5. ワークフロー

このワークフローは、2つの入力画像間を滑らかに遷移するアニメーション動画を生成する高度な例です。ControlNetを使用して各入力画像の特徴を保持しつつ、AnimateDiffで滑らかなアニメーションを生成し、Latent Keyframe Interp.で2つの画像間の遷移を制御しています。

文末のリンクか、メンバーシップのdiscordでお伝えしているワークフローをダウンロードしてください。
「workflow_animatediff_i2v.json」

ワークフローをフローチャート形式で表示したものが以下になります。

以下に、このワークフローの主要な部分とその機能を詳細に説明します。
1. 画像入力
  - Load Image ノード (2つ): “girl_01.jpg” と “girl_02.jpeg” という2つの画像を読み込みます。
2. モデルとAnimateDiffの設定
  - Load Checkpointノード: 「RealVisXL_V5.0_Lightning_fp16.safetensors」モデルを読み込みます。
  - AnimateDiff Loaderノード: 「hsxl_temporal_layers.f16.safetensors”」AnimateDiffモデルを適用します。
  - View Options Standard Uniform ノード: AnimateDiffのビューオプションを設定します（8フレーム、2キーフレーム）。
  - Context Options Views Onlyノード: ビューオプションをコンテキストオプションに変換します。
3. ControlNet設定
  - Load ControlNet Modelノード: 「CN-anytest_v4-marged.safetensors」 ControlNetモデルを読み込みます。
  - 2つのApply Advanced ControlNetノード: 各入力画像に対してControlNetを適用します。
4. サンプリング設定
  - FreeInit Iteration Optionsノード: FreeInit samplingのパラメータを設定します（2イテレーション、ガウシアンノイズ）。
  - Sample Settingsノード: AnimateDiffのサンプリング設定を構成します（FreeNoiseモード）。
5. キーフレームタイミング
  - 2つのLatent Keyframe Interp.ノード: 2つの画像間の遷移タイミングを制御します。
    
    1つ目は0-5フレームで最初の画像からフェードアウト
    
    2つ目は4-8フレームで2番目の画像にフェードイン
6. プロンプト処理
  - ポジティブプロンプト: 「1girl, black hair, short hair, bob cut, green background, looking to the side, grey t-shirt, overalls, casual outfit, simple background, slightly open mouth, upper body, sharp jawline, cute, indoors」
  - ネガティブプロンプト: 「(worst quality, low quality, illustration, 3d, 2d, painting, cartoons, sketch), 」
7. 画像生成
  - Empty Latent Imageノード: 512×512の8フレームの空の潜在画像を生成。
  - KSampler ノード:
    
    Seed: 596721632997297
    
    Steps: 4
    
    CFG Scale: 2
    
    Sampler: dpmpp_sde
    
    Scheduler: karras
    
    Denoise: 1.0
8. 出力処理
  - VAE Decode ノード: 生成された潜在表現を実際の画像にデコードします。
  - Video Combineノード: 生成された画像シーケンスを8fpsの動画に変換し、「AnimateDiff」というプレフィックスで保存します。
6. ワークフローの実行

それでは、ワークフローを実行してみます。Hotshot-XLの最大フレームである8フレームで動画を生成しました。非常に短い動画になりますが、精度の高いHotshot-XLで、且つ、フレーム間で崩れを少なくするには、このフレーム数に制限されます。
生成結果を見ると、袖が伸びてしまっている点を除いては、自然に横を向く動きが生成できているのではないでしょうか。長い動画を作成する際は、この動画の最後のフレームを使用して、次の動画を生成していけば、比較的一貫性のある動画を作成できるでしょう。

7. まとめ

本章では、Stable DiffusionとComfyUIを使用して、2枚の静止画から自然な動きのある動画を生成する方法を学びました。今回の主な気づきは以下の通りです
- 短いフレーム数でも自然な動きの表現が可能
- 長い動画は、生成した動画の最終フレームを使って連続的に作成可能
- ControlNetによって画像の特徴を維持しながら変換が可能
このワークフローは、動画生成の基礎となる重要な技術を含んでいます。ここで学んだ手法を応用することで、より長い動画や異なる種類の変換効果を持つ動画を作成することも可能です。

次のステップとして、異なるプロンプトや画像での実験、フレーム数やパラメータの調整など、様々な可能性に挑戦してみることをお勧めします。

次回はAnimateDiffのimage2imageで背景素材を作成します。
X(Twitter)@AICUai もフォローよろしくお願いいたします！

画像生成AI「ComfyUI」マスターPlan

画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。メンバーシップ掲示板を使った質問も歓迎です。
- メンバー限定の会員証が発行されます
- 活動期間に応じたバッジを表示
- メンバー限定掲示板を閲覧できます
- メンバー特典記事を閲覧できます
- メンバー特典マガジンを閲覧できます
- 動画資料やworkflowといった資料への優先アクセスも予定
- [new] Discordでの質問も歓迎です！
ゼロから学ぶ「ComfyUI」マガジン

https://note.com/aicu/m/md2f2e57c0f3c

マガジン単体の販売は1件あたり500円を予定しております。
2件以上読むのであればメンバーシップ参加のほうがお得です！というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

もちろん、初月は無料でお試しいただけます！
毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
退会率はとても低く、みなさまにご満足いただいております。
✨️オトクなメンバーシップについての詳細はこちら

[新連載] ここからはじめる「ComfyUIマスターガイド」

この記事の続きはこちらから https://note.com/aicu/n/n633ae36958a9

Originally published at https://note.com on Dec 9, 2024.
2024-12-09
国際Creative AIビジネスコンソーシアム – 開発者交流フォーラム開催レポート！

SIGGRAPH ASIA 2024が終わった翌日、2024年12月7日(土)、東京科学大学 INDESTにて、[CAiBC-DEF]国際Creative AIビジネスコンソーシアム – 開発者交流フォーラムが開催されました。

[CAiBC-DEF]国際Creative AIビジネスコンソーシアム – 開発者交流フォーラム開催！(2024/12/7)

会場となった東京科学大学INDESTは東京工業大学田町キャンパスとして歴史ある場所であり、隣は付属高校があります。

会場から付属高校の運動場が見えます

ピッチ会場の様子

午前はモーニングコーヒータイム
機材の準備と交流会

機材やデモのセットアップをしながら、名刺交換、アニメーションやVTuber、AIキャラクター、動画生成についての交流が始まりました。

NOKOVによるハイブリッドモーションキャプチャー

マーカーレスモーションキャプチャの設営が始まりました。

カメラは片側4台構成で、「2Dアニメーション向けのレイアウト出し」を意識したセットアップになっています。写真奥のUnreal Engine上で確認できますが、これでも3D座標が撮れています。

意外とシンプルなPoEハブによる給電です。

Manusというハンドキャプチャーも装備しています。

ワンドは小道具です。こちらにのみマーカーを使っています。

ここまで30分ぐらいでセットアップされています。
キャリブレーションはマーカーを使って行います。

1台の1脚に赤外線カメラPlutoとRGBカメラがセットになっています。

マーカーレスの人物とワンドがきちんと融合しています。指もしっかり。

VTuber力を発揮するPONOTECH早野さん

デモ動画はこちら

Nokov @NokovJapan によるピッチです

日本ではディテクト(DITECT)さんが代理店だそうです

AICUでも購入してみたい #CABCDE https://t.co/RD4pPW4zWB pic.twitter.com/REQQNHb37m
— AICU (@AICUai) December 7, 2024

ランチタイム！

スポンサー協賛のPONOTECH、MagoよりBENTO BOXの提供がありました。
ありがとうございます！

ピッチ大会

NOKOV

NOKOV Leiさんと、日本代理店ディテクト小嶋さん

https://www.nokov.jp/about.html

エキシビジョンブース
NOKOVのマーカーレスモーションキャプチャの何がすごいかを1分でお届けします@NokovJapan #SIGGRAPHAsia2024 #nokov pic.twitter.com/1Cz89BTaWs
— AICU (@AICUai) December 4, 2024

東京ゲームショウ2024でみつけたエンタメxAI技術！融合型モーションキャプチャー

今回のセットアップは
・4台のRGBカメラ＋4台の赤外線カメラ(Pluto)
・マーカーレス
・2Dアニメーション向けのポーズ収録
以上を機材設営30分、キャリブレーション
・MotionBuilder + UnrealEngine = RealTime + Rec

もちろん3D高精細マーカーでの構成も可能とのことで、
詳細は日本代理店の株式会社ディテクトにお問い合わせくださいとのこと。
AICUでも積極的に開発に使っていきたい！

3Dマーカーによるデモの様子なども紹介されました

BlendAI 小宮さん

“AI-powered creation with human soul.” というスローガンとともに、デルタもん、ガンマミィ、小説「堕天使に祝福を」 852話さん（@8co28）による美麗なイラストなども紹介がありました。

ちょっとやってみたくなったのでSunoAIで曲を生成しました！
歌詞は只今連載中の「堕天使に祝福を」の一章をChatGPTに読んでもらい生成。
今回はあくまで曲を作ってみたかったので、歌声はデルタもんではないです。すみません。
デルタもんに歌ってもらえるよう頑張ります！#AI音楽 #安心AI生成 pic.twitter.com/SNKdv2f67U
— デルタもん@アルパラ (@BlendAIjp) December 6, 2024

新キャラクターについての話題も！

Ponotech 早野さん

ChatGPTのadvanced voice modeを使ったハイブリッドプレゼンです。
裏で動いているのは4oではないかとのこと。$20のプランでも使えますが、$200のプランにすると、その上限がなくなるようで、さっそくのデモでした。

Mago アンドレダ・コスタさん

アーティスト、VFXデザイナー、3Dアーティスト、でもあるフランスの動画生成ツール「Mago」のクリエーター André Da Costaさん
めちゃ流暢な多言語プレゼンが見事でした。

あくまでクリエイター視点なのが興味深いです。

スタイル適用と高い一貫性。

Webによるユーザーインタフェース

様々な機能
AI native user flow：短いレンジで反復的に最低な設定を見つける
Comparison features：結果を左右で比較
Masking：シーンの部分を隠したり分離したりする
Keyframing：キーフレームによって違う設定にする

ロードマップとしてはα版リリースが今月、来年初頭にベータリリースとのことです。Mago.Studioではウェイトリストがありますので興味のある方は登録してみては！　https://www.mago.studio/

Manmaru AI よしかいさん

AI Radio Makerなどを開発する株式会社ManmaruAI 代表のよしかいさん。
AIで織りなす息づくキャラクターAIキャラクター開発の専門家として、企画から運用まで、AIキャラクター活用を包括的に支援していらっしゃいます。

「AITuberまめひなた（非公式）」についての技術紹介です。

歩いて、お散歩実況をしてくれています！

AITuberまめひなた(非公式)のお散歩配信の準備してる。カメラの画像を取得してVisionで解析、実況させてる pic.twitter.com/i84cYPo2Vx
— よしかい (@yoshikai_man) December 6, 2024

今日登壇する英語スライドができてきた。終わってないけど…
今後はなるべく技術的な話をNoteとかに書いてストックを貯めていきたい所存 pic.twitter.com/0AtmszuQBI
— よしかい (@yoshikai_man) December 6, 2024

3D空間での生撮影画像を LLM に直接送ってYAMLを生成するのではなく、まずLLMにシーンのテキスト記述を生成させて、そのテキストをLLMに戻して YAML命令を生成しているそうです。この2段階のプロセスにより、精度とエラーが改善されるとのこと。
視覚による自己認識により、モデルが自分自身をよりよく認識できるようになりますが、精度はまだ 100% ではないといった技術的な課題が共有されました。

国際的なクリエイティブAIに関わる未来を感じるセッション

その後も

・アニメ制作会社の幹部の方

これまでの絵作りと、新しい技術を使っていくうえでの課題感の共有

・AICU 代表白井より

こちらに近いお話とセッションのまとめがありました。

https://note.com/o_ob/n/n2b00406ec07e

その後もディープなディスカッションが続くCABC-DEFでした！

次回のCABC-DEFはまだ予定されてはいませんが、来週は同じ会場「INDEST」にて国内向けにBlendAIさんと共同で忘年会が予定されています。まだ申込み受付中です！皆様の積極的なご登録をお待ちしております。

前半がAICU Japanで、SIGGRAPH ASIA 2024振り返り＆AIアートバトル感想戦

https://techplay.jp/event/966307

後半がBlendAI主催の交流会になります

https://techplay.jp/event/962444

それぞれお申し込みください！

Originally published at https://note.com on Dec 8, 2024.

2024-12-08
[ComfyMaster38] LoRAで動画のスタイル変えよう！

「動画をもっと簡単に、でも個性的に作りたい」
そんな願いを持つクリエイターの方々に朗報です。AnimateDiffとControlNetを組み合わせることで、簡単に動画のスタイル変換が可能になります！

こんにちわ、AICU media編集部です。
「ComfyUI マスターガイド」第38回目になります。
本記事では、前回ご紹介したAnimateDiffとControlNetを組み合わせた「video-to-video (v2v)」を応用して、参照動画のスタイルを変換してする方法を解説します。

本連載の初回はこちら。前回はこちら、目次はこちらです。

[ComfyMaster37] SDXL＋AnimateDiff＋IPAdapterで参照画像から動画を生成しよう！ #ComfyUI

[ComfyMaster37] SDXL＋AnimateDiff＋IPAdapterで参照画像から動画を生成しよう！

1. 概要

この記事では、ComfyUIを使用した高度な動画生成ワークフローについて解説します。特に、AnimateDiffやControlNetを活用して動画の各フレームをスタイライズし、LoRAを用いたスタイル変換を行う手法に焦点を当てています。ComfyUIのカスタムノードを導入し、Stable Diffusionモデルを活用したスムーズなアニメーション生成や、スタイルの適用による独自の映像表現を作成するための手順を説明します。具体的には、RealVisXL V5.0 LightningモデルやSDXL Paint Splash Style、Dissolve StyleといったLoRAを使用し、参照動画をもとに動画変換を行うプロセスを詳述しています。

2. カスタムノードのインストール

以下のカスタムノードを使用するため、ComfyUI Managerからインストールしてください。

ComfyUI-AnimateDiff-Evolved

ComfyUI-AnimateDiff-Evolvedは、Stable Diffusionモデルを拡張して動画生成を可能にするカスタムノードです。元のAnimateDiffを進化させたバージョンで、動画生成のためのモーションモジュールと高度なサンプリング技術を組み込んでいます。

https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

ComfyUI-VideoHelperSuite

ComfyUI-VideoHelperSuiteは、動画生成を支援するためのカスタムノードです。動画の編集や加工を容易にする機能を提供します。今回は、一連の画像を動画にして保存するノードを使用するために必要となります。

https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

ComfyUI-Advanced-ControlNet

ComfyUI-Advanced-ControlNetは、ControlNetの機能を強化するカスタムノードです。ControlNetの強度をタイムステップやバッチ化された潜在変数にわたってスケジュールする機能を提供します。

https://github.com/Kosinkadink/ComfyUI-Advanced-ControlNet

ComfyUI-KJNodes

動画サイズのリサイズのためにComfyUI-KJNodesを導入します。ComfyUI-KJNodesは様々な便利なノードを格納しています。

https://github.com/kijai/ComfyUI-KJNodes

3. 画像生成モデルのダウンロード

RealVisXL V5.0 Lightning

今回は、RealVisXLのLightningバージョンを使用します。Lightningバージョンでは、サンプリングのステップ数を4-6回に抑えることができます。生成量の多いAnimateDiffでは、TurboやLightningなどの数ステップで生成完了するモデルを選ぶと良いでしょう。
以下のリンクよりモデルをダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

https://huggingface.co/SG161222/RealVisXL_V5.0_Lightning/blob/main/RealVisXL_V5.0_Lightning_fp16.safetensors

4. LoRAのダウンロード

今回は、2つのLoRAを使用してスタイル変換を試してみます。

SDXL Paint Splash Style

カラフルなインクを塗布したような画像を生成するLoRA「SDXL Paint Splash Style」を使用します。以下のリンクよりモデルをダウンロードし、「ComfyUI/models/loras」に格納してください。

https://civitai.com/models/140335/sdxl-paint-splash-style

Dissolve Style

体や物の一部が崩壊していくような画像を生成するLoRA「Dissolve Style」を使用します。以下のリンクよりモデルをダウンロードし、「ComfyUI/models/loras」に格納してください。

https://civitai.com/models/245889/dissolve-style-lora-15sdxl?modelVersionId=277389

5. ControlNetモデルのダウンロード

ControlNet AnyTest v4

video-to-video (v2v)にControlNetの「AnyTest v4」を使用します。以下のリンクよりControlNetをダウンロードし、「ComfyUI/models/controlnet」フォルダに格納してください。

https://huggingface.co/2vXpSwA7/iroiro-lora/blob/main/test_controlnet2/CN-anytest_v4-marged.safetensors

6. AnimateDiffのモーションモジュールのダウンロード

SDXL Motion Module

今回は、SDXLのモデルで動画生成するため、SDXLのモーションモジュールをダウンロードします。使用するモデルは「Hotshot-XL」です。以下のリンクからモデルをダウンロードし、「ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/models」フォルダに格納してください。

https://huggingface.co/hotshotco/Hotshot-XL/blob/main/hsxl_temporal_layers.f16.safetensors

7. 素材のダウンロード

v2vで使用する参照元動画を用意します。以下のダンス動画をControlNetで参照します。

この動画は、以下のリンクより無料でダウンロードできます。

https://www.pexels.com/ja-jp/video/2795746

8. ワークフローの解説

このワークフローは、入力ビデオの各フレームを変換し、スタイライズされたアニメーション動画を生成する高度な例です。ControlNetを使用して入力フレームの構造を保持しつつ、AnimateDiffで滑らかなアニメーションを生成し、LoRAでPaintSplashスタイルを適用しています。

文末のリンクからワークフローをダウンロードしてください。

ワークフローをフローチャート形式で表示したものが以下になります。

以下に、このワークフローの主要な部分とその機能を詳細に説明します。

この記事の続きはこちらから https://note.com/aicu/n/n8f000f1b4be2

Originally published at https://note.com on Dec 7, 2024.

2024-12-07
Houdini使いが気になる研究7選！植物の種子を飛ばしたり粉と水を混ぜたり！

AICU media ライターのやまぐちです！現在開催されているSIGGRAPH Asia 2024の中で気になった研究7選をお届けします。
Technical Papers Programの各セッションの開催情報についてはこちら

SIGGRAPH Asia 2024特集(1) 最先端のCG研究を3時間で！【Technical Papers Fast-Forward】全ジャンル予習リスト

InstantDrag: Improving Interactivity in Drag-based Image Editing (InstantDrag：ドラッグ操作で画像編集のインタラクティブ性を向上)

#SIGGRAPHAsia2024 で発表された「InstantDrag」がすごい！
モーション生成とモーション条件付き画像生成に分解することで、ビデオの顔をドラッグするだけで表情を編集できます pic.twitter.com/GcYyBEZZj4
— AICU Inc. (@AICUai) December 6, 2024

発表セッション: It’s All About Change: Image Editing (変えることのすべて：画像編集)

https://asia.siggraph.org/2024/?post_type=page&p=32163&sess=sess116

ドラッグベースの画像編集は、そのインタラクティブ性と精度から最近人気を集めています。しかし、テキストから画像へのモデルは 1 秒以内にサンプルを生成できるにもかかわらず、画像コンテンツを維持しながらユーザー操作を正確に反映するという課題のため、ドラッグ編集はまだ遅れをとっています。既存のアプローチの中には、計算集約的な画像ごとの最適化や複雑なガイダンスベースの方法に依存しているものがあり、移動可能な領域のマスクやテキストプロンプトなどの追加入力が必要となり、編集プロセスのインタラクティブ性が損なわれます。そこで、最適化不要のパイプラインでインタラクティブ性と速度を向上させ、入力として画像とドラッグ命令のみを必要とする InstantDrag を紹介します。InstantDrag は、ドラッグ条件付きオプティカルフロージェネレーター (FlowGen) とオプティカルフロー条件付き拡散モデル (FlowDiffusion) という 2 つの慎重に設計されたネットワークで構成されています。InstantDrag は、タスクをモーション生成とモーション条件付き画像生成に分解することで、実際のビデオデータセットでのドラッグベースの画像編集のモーションダイナミクスを学習します。顔のビデオデータセットと一般的なシーンでの実験を通じて、マスクやテキストプロンプトなしで高速でフォトリアリスティックな編集を実行できる InstantDrag の機能を実証しました。これらの結果は、ドラッグベースの画像編集を処理する当社のアプローチの効率性を強調しており、インタラクティブなリアルタイムアプリケーションにとって有望なソリューションとなっています。

https://asia.siggraph.org/2024/presentation/?id=papers_884&sess=sess116 より翻訳

こちらはTPFFでのパフォーマンスが面白かったのでピックアップしました。紹介動画が作り込まれており、とても印象的でした。30秒程度の発表で来場者の記憶に刻み込むのは簡単ではありませんが、成功すると注目度が一気に上がりますね。

デモのためのソースコードなども開発者によって公開されています
https://joonghyuk.com/instantdrag-web/

Computational Biomimetics of Winged Seeds (翼を持つ種子(翼果)の計算生物模倣学)

https://asia.siggraph.org/2024/presentation/?id=papers_275&sess=sess109

発表セッション: Geometry and Fabrication (ジオメトリと組み立て)
https://asia.siggraph.org/2024/?post_type=page&p=32163&sess=sess109

本研究は、有翼種子のバイオミメティックデザインを容易にする計算パイプラインを開発する。我々のアプローチは、自然の有翼種子の3Dスキャンを活用し、3D差分同型群の測地線座標でそれらを補間することにより、生物にインスパイアされた設計空間を構築する。我々は、確率的な性能目標を持つ空力設計タスクを定式化し、設計空間を探索し、性能目標の期待値を効率的かつ効果的に最小化するために、勾配のないオプティマイザを適応させる。我々のパイプラインは、長距離散布や誘導飛行を含む空力タスクにおいて、自然界を凌駕する新しい有翼種子デザインを発見する。我々は、設計空間において選択された有翼種子のペーパーモデルを紹介し、シミュレーションと現実における類似した空気力学的挙動を報告することにより、我々のパイプラインの物理的忠実性を検証する。

概要の翻訳

翼を持つ種子がどのように飛ぶか、という研究。種子の飛び方を定式化しています。これにより、自然界を凌駕する新しい有翼種子デザインを発見できるそうです。たくさんの種子を実際に集めて3Dスキャンしているところに魅力を感じました。

研究者の公開サイトはこちら

https://leqiqin.github.io/publication/seeds2024

https://dl.acm.org/doi/10.1145/3687899

NeuSmoke: Efficient Smoke Reconstruction and View Synthesis with Neural Transportation Fields (ニュースモーク: ニューラル輸送場を用いた効率的な煙の再構成と視界合成)

発表セッション: Path Guiding, Scattering (パスガイド、散乱)

https://asia.siggraph.org/2024/?post_type=page&p=32163&sess=sess110

煙のシーンの新しいビュー合成は困難な問題である。これまでのニューラルアプローチは、不十分な品質と非効率な学習に悩まされてきた。本研究では、ニューラル輸送場を用いた動的煙再構成のための効率的なフレームワークであるNeuSmokeを紹介し、多視点映像からの高品質な密度再構成とノベルビュー合成を可能にする。我々のフレームワークは2つのステージから構成される。第一段階では、輸送方程式と神経輸送場を統合した新しい神経流体場表現を設計する。これには、再構成された煙の空間的・時間的整合性を高めるための、複数のタイムスタンプの適応的埋め込みが含まれる。第2段階では、煙の再構築を洗練させるために畳み込みニューラルネットワーク（CNN）を採用し、斬新な色情報と深度情報を組み合わせる。我々のモデルは、これまでの物理情報に基づいたアプローチよりも10倍以上高速な処理を実現する。広範な実験により、本手法は、実世界および合成データセットにおいて、ノベルビュー合成と体積密度推定において既存技術を凌駕することが実証された。

概要の翻訳

https://dl.acm.org/doi/10.1145/3680528.3687667

煙を合成するシミュレーション。上の画像からも、2色の煙がとてもきれいに混ざっていることが分かります。TPFFで流れていたデモ動画ではさらに分かりやすく、普段シミュレーションを扱う人間としてとても興味深かったです。

Quark: Real-time, High-resolution, and General Neural View Synthesis (クォーク：リアルタイム、高解像度、汎用的なニューラル・ビュー合成)

発表セッション: Look at it Differently: Novel View Synthesis (見方を変えよう: 新しいビューの合成)

https://asia.siggraph.org/2024/?post_type=page&p=32163&sess=sess113

高品質、高解像度、リアルタイムの新しいビュー合成を実行するための新しいニューラルアルゴリズムを紹介します。入力 RGB 画像またはビデオストリームのスパースセットから、ネットワークは 3D シーンを再構築し、NVIDIA A100 で 30fps で 1080p 解像度の新しいビューをレンダリングします。フィードフォワードネットワークは、さまざまなデータセットとシーンに一般化され、リアルタイムメソッドとして最先端の品質を生み出します。品質は、いくつかのトップオフラインメソッドの品質に近づき、場合によってはそれを上回ります。これらの結果を達成するために、いくつかの重要な概念を新しく組み合わせ、それらを結合してまとまりのある効果的なアルゴリズムにします。半透明のレイヤーを使用してシーンを表す以前の研究を基に、反復学習によるレンダリングとリファインアプローチを使用してそれらのレイヤーを改善します。フラットレイヤーの代わりに、複雑な深度とオクルージョンのあるシーンを効率的に表現するレイヤー化された深度マップ (LDM) を再構築します。反復更新ステップは、マルチスケールの UNet スタイルのアーキテクチャに組み込まれており、解像度を下げて可能な限り多くの計算を実行します。各更新ステップでは、複数の入力ビューからの情報をより適切に集約するために、特殊な Transformer ベースのネットワークコンポーネントを使用します。これにより、入力ごとの画像処理の大部分をレイヤー空間ではなく入力画像空間で実行できるようになり、効率がさらに向上します。最後に、再構成とレンダリングのリアルタイム性により、フレームごとに内部 3D ジオメトリを動的に作成および破棄し、ビューごとに LDM を生成します。これらを総合すると、ビュー合成のための斬新で効果的なアルゴリズムが生まれます。広範な評価を通じて、リアルタイムレートで最先端の品質を実現できることを実証しました。

https://asia.siggraph.org/2024/presentation/?id=papers_683&sess=sess113 より翻訳

Googleによる発表です。3D シーンを再構築し、NVIDIA A100 で 30fps で 1080p 解像度の新しいビューをレンダリングします
https://quark-3d.github.io/

ArXivに置かれた論文を解説しながら朗読してくれる動画を見つけました…！

普通の動画からDepth Mapが生成でき、元の動画の解像度が粗くても高画質な動画に変換して新しいビューを作り出すことができるという研究です。NVIDIA A100といえば、AICUでもGoogle Colabでよく使うプロ向けGPU環境です。この研究にもNeural View Synthesis、Neural 3D、Neural Renderingといった手法が用いられており、今後、NeRFで有名になったNeural Fields (ニューラル場)の応用が一般化していくことが予想できます。

End-to-End Hybrid Refractive-Diffractive Lens Design with Differentiable Ray-Wave Model (微分可能な光波モデルを用いた端から端までハイブリッド屈折・回折レンズ設計)

https://asia.siggraph.org/2024/presentation/?id=papers_689&sess=sess223

ハイブリッド屈折回折レンズは、屈折レンズの光効率と回折光学素子（DOE）の情報符号化能力を組み合わせたもので、次世代の撮像システムとして大きな可能性を秘めています。しかし、このようなハイブリッド設計を正確にシミュレートすることは一般的に困難であり、特に、十分な精度を持つハイブリッドレンズ用の微分可能な画像形成モデルは存在しません。
本研究では、光学収差と回折位相変調の両方を正確にシミュレートするための新しいハイブリッド光線追跡および波動伝搬（光線波）モデルを提案します。DOEは、最後の屈折面と画像センサーの間、つまりDOEの位置としてよく使用されるフーリエ平面から離れた場所に配置されます。提案された光線波モデルは完全に微分可能であり、勾配逆伝播法を使用して、屈折回折レンズの最適化と画像再構成ネットワークのエンドツーエンドの共同設計を行うことができます。提案モデルの精度は、シミュレートされた点像分布関数 (PSF) を理論結果と比較することで検証し、また、シミュレーション実験では、Zemax などの市販ソフトウェアパッケージに実装されているソリューションよりも当社のモデルの方が正確であることを示しています。実際の実験を通じて提案モデルの有効性を実証し、収差補正と拡張被写界深度 (EDoF) イメージングの両方で大幅な改善が見られました。提案モデルは、計算イメージング、計算写真、高度な光学設計における幅広いアプリケーションへのさらなる調査のきっかけになると考えています。

https://asia.siggraph.org/2024/session/?sess=sess223 より翻訳

光学系設計に革命かも。サウジアラビアのキングアブドラ科学技術大学KAUSTの研究チームが、屈折と回折を組み合わせたハイブリッドレンズの設計を可能にするEnd-to-Endモデルを開発しています。このEnd-to-Endモデル「Ray-Wave Model」は、回折光学素子(DOE)の位置を最適化することで、収差補正と被写界深度拡張を同時に実現しており、スマホカメラやHMDにも応用可能。レンズのサイズがとても小さいのですが、それでもレンズとしてしっかりと機能するようで驚きました。どのような使い心地なのか非常に気になります。

おまけ：KAUSTの研究者でDeepLensという研究をされている方もいらっしゃいます。Differentiable ray-tracing and wave-propagation model、という研究のようです。

https://singer-yang.github.io

https://github.com/singer-yang/DeepLens

https://arxiv.org/abs/2406.00834

MiNNIE: a Mixed Multigrid Method for Real-time Simulation of Nonlinear Near-Incompressible Elastics (MiNNIE：非線形近圧縮性弾性体のリアルタイムシミュレーションのための混合マルチグリッド法)

https://asia.siggraph.org/2024/presentation/?id=papers_148&sess=sess141

発表セッション：Elastics / Solvers / Neural Physics (弾性／ソルバー／ニューラル物理学)
https://asia.siggraph.org/2024/?post_type=page&p=32163&sess=sess141

本研究では、非線形近圧縮性弾性体のリアルタイムシミュレーションのための、シンプルかつ包括的なフレームワークであるMiNNIEを提案する。線形有限要素法(FEM)の高ポアソン比における一般的な体積ロックの問題を回避するために、MiNNIEを混合FEMフレームワーク上に構築し、さらにマルチグリッドソルバの優れた収束を保証する圧力安定化項を組み込む。私たちの圧力安定化戦略は、準ニュートン法を使用して除去することができる節点変位に有界の影響を注入します。MiNNIEは、修正されたスキニング空間補間スキーム、新しい頂点Vankaスムーザー、およびSchur補数を使用した効率的な密なソルバーを含む、特別に調整されたGPUマルチグリッドソルバーを備えています。MiNNIEは様々な弾性材料モデルをサポートし、リアルタイムでシミュレーションを行い、0.5までのあらゆるポアソン比をサポートすると同時に、大きな変形、要素の反転、自己衝突を処理します。

キャラクターモデルをリアルタイムで変形させたりアニメーションさせたりするための新たな手法とのことです。キャラクターの動きがスライムのようになるのですが、リアルタイムのシミュレーションという点が興味深いです。

A Unified MPM Framework supporting Phase-field Models and Elastic-viscoplastic Phase Transition (位相場モデルと弾性-粘塑性相転移をサポートする統合MPMフレームワーク)

https://asia.siggraph.org/2024/presentation/?id=tog_109&sess=sess144

発表セッション: Fluid Simulation (流体シミュレーション)
https://asia.siggraph.org/2024/presentation/?id=tog_109&sess=sess144

近年、流体、固体、およびそれらの微妙な結合に関する物理ベースのモデリングやシミュレーションのアルゴリズムや手法が、コンピュータアニメーションにおいて急速に普及しています。しかし、流体-固体の相転移に伴う複雑な弾性-粘塑性挙動をモデル化し、同じフレームワーク内でシームレスな相互作用を促進することは、依然として困難な問題である。本稿では、粒状流体、粘塑性液体、弾塑性固体、剛体、および相互作用をシミュレートし、溶解、融解、冷却、膨張、収縮など、現実的な相転移を伴う新しい現象をすべて重くサポートできる実用的な手法を提案する。物理学のレベルでは、粒状、弾性、塑性、粘性材料、液体、非ニュートン流体、およびそれらの滑らかな進化の挙動を記述することができる、統一された位相場駆動EVPモデルを確立するために、フォンミーゼスとドラッカー・プラーガーおよびカム・クレイ降伏モデルを組み合わせ、変形させることを提案する。数値計算レベルでは、Cahn-Hilliard方程式とAllen-Cahn方程式の離散化形式を物質点法によって導出し、界面における境界条件の明示的な取り扱いを避けることで、位相場の進化を効果的に追跡する。応用レベルでは、化学ポテンシャル、密度曲線など、ユーザー定義のスキームを用いて特殊な挙動を制御する新しい学問的戦略を設計する。この新しい統一的アプローチの有効性と汎用性を検証するために、困難なシナリオからなる多数の実験結果を示す。この柔軟で安定性の高いフレームワークは、様々な相間の統一的な取り扱いとシームレスな結合、そして効果的な数値離散化を基盤としており、相転移を多用する新しい現象に対して、芸術的な創造性と指導力をもってアニメーションを作成するというユニークな利点がある。

粘度の違うものを混ぜるシミュレーションです。個人的にはこういうシミュレーションが大好き! デモ動画では小麦粉に次第に牛乳を混ぜているようなシミュレーション結果が流れていました。このセッションは実際に足を運んでみてさらに詳しい情報を知りたいです。

https://dl.acm.org/doi/10.1145/3638047

他にも興味深い発表がいっぱい！

以上、流体好きが選ぶ、論文7本でした！

TPFFでは277本ぐらい発表があったので、個別に扱うと驚きやさんみたいになってしまいますが、WOW!は大事ですね。
他にもこんな発表がありました。

🤯え、嘘でしょ！？漫画の動画補間がここまで進化！？😳

「ToonCrafter」が革命的すぎる！✨　従来の手法じゃ不可能だった複雑な動き&オクルージョンも自然に補間！生成AIで動画制作の新時代到来か…！？

#ToonCrafter #動画補間 #生成AI #SIGGRAPHAsia2024 pic.twitter.com/VeSdUTjwCI
— AICU Inc. (@AICUai) December 6, 2024

技術的、もしくは数理としての難しさなどはあると思いますが、やはり絵作りにおいて驚きのある映像をつくる、かつ物理的に正しいと考えられる方法を探求されているところは興味深く、本編の発表にも足を向けていきたいと思います！

この記事に「いいね！」と思ったら、いいねとフォロー、おすすめをお願いします！
https://note.com/aicu/ X(Twitter)@AICUai

★会期中「これを取材して！！」というリクエストもDMでどうぞ！

このようなイベントのレポートに興味がある方はこちらもオススメ
https://ja.aicu.ai/category/events/
この記事に「いいね！」と思ったら、いいねとフォロー、おすすめをお願いします！

Originally published at https://note.com on Dec 5, 2024.

2024-12-05