カテゴリー: 画像生成AI

画像生成AIの使い方や最新情報についてお届けします。

  • 新ドメイン「AICU.jp」のおしらせ

    新ドメイン「AICU.jp」のおしらせ

    2024年12月17日、「つくる人をつくる」をビジョンに「わかるAIを届ける」を続けてきたAICUが、新たなドメイン「AICU.jp」で活動を開始します。

    画像

    2つの「AICU」でパワーアップ!!

    2023年7月24日に米国企業として創立したAICU Inc.と2024年11月11日に日本企業として創立したAICU Japan株式会社は独立した企業体として活動します。

    画像

    今後、AICU Inc. (本社・米国サニーベール/CEO Akihiko SHIRAI, Ph.D)は、
    国際企業連携、Kindle、日本企業やAI時代のクリエイターの海外進出支援を中心に、ライツ管理、ライセンシングを担当します。
    Amazon/Kindleを中心に展開している出版事業は変わらず「AICU media」となります。

    新生「AICU Japan株式会社」(本社・港区)は、50万PV・1,200フォロワー・年間365本、連続投稿200日を超えるnoteでの記事開発をより強化し、クリエイティブAIによって企業や大学、公共のDXを推進する「AIDX事業」、AIキャラクターやAITuberなど「AI-IP」事業、そして検定試験やスキル認定などを行う「Cert事業」を担当します。

    「つくる人をつくる」AI時代のクリエイターの育成を強化

    既存のnoteや出版事業は便宜上「AICU編集部」と呼び、編集長は代表であるしらいはかせ(白井暁彦)が担当し、コラボクリエイターの増強や、資金調達、採用活動を強化し、いままで以上に品質高くAICUのビジョンである「つくる人をつくる」を実行してまいります。

    従来よりご協力いただいてきたコラボクリエイターの皆様には、今後も変わらず、また、より活躍の場を創出すべく、メンバーシップの強化、コンテストやワークショップ、ギャラリーイベントや展示会といった「単なる知識獲得ではない」コミュニティ醸成機会の開発、国際イベントへの出展、上映、発信支援といった形で応援してまいります。

    https://ja.aicu.ai/aicu-siggraph-asia-20241204

    新ドメイン「AICU.jp誕生」

    2023年10月より、日本最大のブログサイト「note」にて運用してきた AICU media(note.com/aicu)ですが、これまでの記事を継承する形で今後はAICU Japan株式会社が、新ドメイン「aicu.jp」にて運用をいたします。過去記事は自動でリダイレクトされ、読者の皆様への影響は軽微でありますが、より短いURLで、読者の皆様にアクセスしやすくなることを心がけていきます。

    既存の商品群はAICU Inc.で継続

    Kindleおよびペーパーバックで配本中の月刊誌「AICU Magazine」をはじめ、『SD黄色本』で親しまれている「画像生成AI Stable Diffusionスタートガイド」(SBクリエイティブ刊)は国際出版プロジェクトとして複数の言語での翻訳版が準備されています。生成AIブームの火付け役となった英国「Stability AI」や、クリエイティブ学習メディアの注目企業・韓国「Coloso」とのコラボレーション成果である「生成AIクリエイティブAICU」の3本のラーニングメディア番組「超入門:Stable Diffusionではじめる画像生成AI」、「初級者:広告企画から動画制作までのプロセス」、「ComfyUIマスター:カスタムノードとアプリ開発」は、おかげさまで大きな反響をいただき、多くの方から感謝やフィードバックをいただいております。

    国際連携では2024年12月16日から応募開始した国際AI映像制作コンペ「Project Odyssey」に公式スポンサーとして参加しており、日本からのクリエイターの応募を支援させていただいております。

    https://aicu.jp/n/ne4456e0ed64a

    今回の新ドメインでの noteブログ展開は、既存のAICUファンの皆様の利便性を損なわずに、より多くのユーザーにとって、柔軟かつ品質高く、先進的なサービスを提供しやすくする施策となっております。

    新サービスの開発も進行中

    読み物メディア中心で展開してきたAICUですが、新ドメイン「AICU.jp」でのサービスは note をさらに活用し、ファンの皆様のご期待やお悩みに答えられるような価値あるサービス、商品、イベントをスピード感速く開発してまいります。
    AIDXとは「AIによるDX」というAICUの造語ですが、LINEやDiscord, Difyを使ったチャットボット開発、AIキャラクター運用、クリエイティブAIサービス、大学・自治体・企業等の社内教育、PoC開発や研究開発戦略や、映像制作・漫画・広告や出版、イベント、ワークショップ開発など、既存のIT産業だけでは解決しない「AI+プロフェッショナル」の情報メディア、コンテンツ生成マネジメント、イメージングソリューションを展開していきます。

    https://ja.aicu.ai/gammamy-20241011
    https://ja.aicu.ai/comfymaster30-aws-20241105

    日本のパートナー企業との連携を促進

    AI時代のオープンソースソフトウェアを活用するクリエイティブAI分野の世界的なリーディングカンパニーとして、成果物もオープンに、多様なパートナー企業と連携できるよう、AIラーニングメディアのOEMや提携、ソリューションの導入支援やブランディング、パートナー企業との連携も積極的に行ってまいります。

    https://ja.aicu.ai/sora-20241214

    イベント等の掲載依頼などはこちらで承っております。

    https://ja.aicu.ai/aicu-20241121

    お問い合わせは X@AICUai のDMまでいただけましたら幸いです。

    以上、お知らせとなります。
    今後とも宜しくお願いいたします。

    AICU Inc. / AICU Japan株式会社  社員一同

    #AICU #AI #生成AI  #AIとやってみた
    #画像生成AI  #画像生成 #Stabilityai

    Originally published at https://aicu.jp/ on Dec 16, 2024.

  • OpenAI「Sora」クイックスタートガイド

    ついにユーザー登録が再開された「Sora」のクイックスタートガイドです。

      初期設定

      OpenAI「Sora」は単独のサイトにて提供されています。
      まず https://sora.com/  に行きましょう。

      お使いのGmailアカウントでサインアップ(ユーザー登録)できます。ChatGPTで有料契約を持っているアカウントを使ってログインすることをおすすめします。新規ユーザーの場合、生年月日の入力が必要です。

      画像

      プランの選択

      ChatGPT Plus ($20/月)もしくは ChatGPT Pro($200/月)が選べます。
      いきなり高い方を選ぶひとはいませんね!

      画像

      すでにChatGPT Plusに加入済みの場合はこのように「Subscribed」と表示されますので「Continue」を選びましょう。

      画像

      ユーザーネームの指定

      3文字以上で設定できます。

      画像

      ユーザーネームの指定がおわれば利用できます。

      画像

      「Create Video」と「Storyboard」

      下部にプロンプトを入れる場所があります。ここに文字を入れれば動画が生成されるという仕組みです。実は日本語が使えますが、細かい制御をしようと思ったら英語と日本語をうまく使ったほうが良いです。

      縦横比や解像度、長さ、同時に生成する動画の本数以外に、
      「Create Video」と「Storyboard」があります。

      画像

      まずはCreate Videoで「Skydiving by Miku」を生成してみます。

      画像

      これはAICU編集部での新モデル調査の標準手順なのですが、ここでデジタルイラスト調の初音ミクさんがたくさん出てきたら「何を学習したんだろう…?」と色々想像しなければならなくなります…。一方でこの色は初音ミクさんミク色(ブルーグリーン)ですが、キャラクターなどの名前タグや露出など、かなり慎重にキュレーションされていることが想像できます。

      同様に商品名などもある程度、回避されるようです。
      「Optimus robot uses Segway in downtown」とした動画がこちら

      @aicuai

      Urban Robot on Segway♬ original sound – AICU media –

      「Urban Robot on Segway」という感じに変換されています。Segwayは商品名ですが、人物や有名人ではなく、乗り物だから大丈夫なのでしょうね。

      なお日本語も使えます!
      生成が終わると右上に通知されます。
      右上でダウンロードができます。MP4以外にGIFも選択できるのが嬉しいですね。

      画像

      「Storyboard」を選ぶと、解説が表示されます。

      画像

      ストーリーボードは、ビデオ内のアクション、シーケンス、タイミングを視覚化するのに役立つツールです。最終的なビデオを生成する前に、写真、ビデオ、テキストを使用して、タイムラインに沿って各ショットを説明していくことができます。

      例えば「Rocketia by Elon Musk」とプロンプトに書いて「Storyboard」を実行すると…

      画像

      以下の2つのプロンプトが生成されました。

      ①A well-dressed business figure stands confidently on a stage, a large screen behind him displays the word ‘Rocketia’ in bold letters. He gestures passionately as he speaks about the future of technology and space exploration. The audience, visible in the shadows, seems captivated by his words. The setting is a modern conference hall, with sleek design elements and ambient lighting enhancing the atmosphere of innovation and ambition. The business figure is charismatic, exuding confidence as he shares his vision.
      ①身なりのよいビジネスマンがステージに自信満々に立っており、背後の大きなスクリーンには「Rocketia」という文字が太字で表示されている。彼は技術と宇宙探査の未来について熱く語り、その影に隠れた聴衆は彼の言葉に魅了されているようだ。舞台は現代的な会議室で、洗練されたデザイン要素と間接照明が革新と野心の雰囲気を高めている。ビジネスマンはカリスマ性があり、ビジョンを語る際に自信をにじませている。

      ②The business figure points to a projection of a futuristic rocket design on the screen.
      ②ビジネスマンはスクリーンに映し出された未来的なロケットのデザインを指差している。

      これをそのまま生成してみます。

      画像

      ちょっと普通の動画になっちゃいましたので、②を鉛筆マークを押すと、更にリライト(改善)してもらえるようです。

      ②Suddenly, a missile falls. The transformed Iron Masked Hero is caught in the blast and flies out.
      ②突然ミサイルが落ちてきます。爆風に巻き込まれる周囲の中から変身した鉄仮面のヒーローが飛んでいきます。

      さらに改善してもらいます。

      ②the shot is abrupt and intense, with a dramatic shift from anticipation to chaos. suddenly, a missile falls, captured in a dynamic wide shot. the scene shows a transformed armored hero, barely visible amidst the explosion, caught in the blast’s powerful force. the debris and fire surround him as he is sent flying out of the frame. the atmosphere is tense and shocking, switching from visionary ambition to immediate danger, leaving the previously attentive conference audience in stunned silence and confusion.
      ②ショットは突然で強烈、期待から混乱へと劇的に切り替わる。突然、ミサイルが落下し、ダイナミックなワイドショットで捉えられる。シーンには、爆発の真っ只中にかろうじて見える、変身した装甲ヒーローが爆発の強力な力に巻き込まれる。破片と炎が彼を取り囲み、彼はフレームから吹き飛ばされる。雰囲気は緊張感と衝撃に満ち、先見の明のある野心から差し迫った危険へと切り替わり、それまで熱心に聞いていた会議の聴衆は唖然として沈黙し、混乱する。

      爆破シーンにはなりましたが、2シーンで描くには難しいですね。詰め込みすぎないように、絵コンテや映像監督としてのシナリオ対話力が鍛えられそうです。

      他のユーザーの生成は「Recent」でみれます

      シェアされた作品を見ているだけでも楽しいですね。

      画像

      アップロード機能

      メディアライブラリがあり、そちらにファイルをアップロードする機能があります。初回実行時に同意書が現れます。よく考えられたUI/UXですね。

      画像

      【メディアアップロード契約】 以下の各項目のボックスにチェックを入れて、以下の内容を読んで同意したことを確認してください。
      ・本人の同意を得ずに人物や 18 歳未満の人物を含むメディアをアップロードしないことに同意します。
      ・暴力や露骨なテーマを含むメディアをアップロードしないことに同意します。
      ・アップロードするメディアに必要なすべての権利を有していることに同意します。
      ・メディアアップロードを不正に使用した場合、返金なしでアカウントが停止または禁止される可能性があります。
      これは強力なツールですので、創造的に、敬意を持って使用してください。

      さらに注意書きが表示されます。

      画像

      【人物を含むメディア】
      現在、お使いのアカウントでは、人物を含むアップロードされたメディアを使用したビデオの作成はサポートされていません。人物を含む写真またはビデオをアップロードすると、ビデオは生成されず、クレジットは請求されません。

      前述の通り、人物を含むメディアについては厳しい制限が設定されているようです。「お使いのアカウントでは」と書かれている点と「ChatGPT Pro」でも解除はされないようなので、映画産業などのプロ向け用途には異なるライセンスが存在するのかもしれませんね。

      Video Remix

      アップロードしたビデオをリミックスしますが、あまり長い動画をアップロードしないほうがいいようです。だいたい10秒以下のクリップが良いでしょう。

      画像

      今回は実験としてこちらの動画を使ってみます。

      画像

      ビデオのブレンド

      2つのビデオを選んでブレンドできます

      画像

      トランジション、ミックス、サンプル、カスタムの4種類があり、寄与率の適用モデルを変えられるようです。
      例えばカスタムにするとこんな感じ。

      画像
      画像
      画像

      右側にあったビデオの要素が切り出されました。窓の外にもひとが居ます。
      よく見ると巨人化している感じです。
      何も考えずに融合させるのは良い結果を生みませんね…!

      さて、ここからのクリエイションはアナタの版です!

      AICUでは Sora オンライン動画コンテストを予定しております。

      テーマはクリスマス!

      気になる料金体系

      https://help.openai.com/en/articles/10245774-sora-billing-credits-faq

      Sora公式 – 料金とクレジットに関するFAQから Soraの利用料金とクレジットに関するよくある質問とその回答をまとめました。

      クレジットとは?

      • クレジットは、Soraで動画を生成するために使用されます。
      • 動画生成にかかるクレジット数は、動画の品質と長さによって異なります。

      動画生成に必要なクレジット数

      • 解像度と長さごとの必要クレジット数
        • 480p (正方形): 5秒あたり20クレジット、10秒あたり40クレジット、15秒あたり60クレジット、20秒あたり80クレジット
        • 480p: 5秒あたり25クレジット、10秒あたり50クレジット、15秒あたり100クレジット、20秒あたり150クレジット
        • 720p (正方形): 5秒あたり30クレジット、10秒あたり75クレジット、15秒あたり150クレジット、20秒あたり225クレジット
        • 720p: 5秒あたり60クレジット、10秒あたり180クレジット、15秒あたり360クレジット、20秒あたり540クレジット
        • 1080p (正方形): 5秒あたり100クレジット、10秒あたり300クレジット、15秒あたり650クレジット、20秒あたり1000クレジット
        • 1080p: 5秒あたり200クレジット、10秒あたり600クレジット、15秒あたり1300クレジット、20秒あたり2000クレジット
      • 複数のバリエーションを同時にリクエストした場合、2つの別々の生成リクエストを実行した場合と同じ料金が発生します。
      • リカット、リミックス、ブレンド、ループ使用時の必要クレジット数
        • リカット、リミックス、ブレンド、ループを使って5秒刻み以外の長さの動画を作る場合、以下のクレジットが消費されます。
        • 0-5秒: 480p (正方形) は4クレジット、480pは5クレジット、720p (正方形) は6クレジット、720pは12クレジット、1080p (正方形) は20クレジット、1080pは40クレジット
        • 5-10秒: 480p (正方形) は4クレジット、480pは5クレジット、720p (正方形) は9クレジット、720pは24クレジット、1080p (正方形) は40クレジット、1080pは80クレジット
        • 10-15秒: 480p (正方形) は4クレジット、480pは10クレジット、720p (正方形) は15クレジット、720pは36クレジット、1080p (正方形) は70クレジット、1080pは140クレジット
        • 15-20秒: 480p (正方形) は4クレジット、480pは10クレジット、720p (正方形) は15クレジット、720pは36クレジット、1080p (正方形) は70クレジット、1080pは140クレジット
      • ChatGPT Proユーザーは、クレジットを消費しないリラックス動画を生成できます。リラックス動画の生成は、ChatGPT Proアカウントのクレジットが不足した際に有効になります。

      各プランで付与されるクレジット数

      • ChatGPT Plus:
        • 最大50本の優先動画(1,000クレジット)
        • 最大720pの解像度と5秒の長さ
      • ChatGPT Pro:
        • 最大500本の優先動画(10,000クレジット)
        • 無制限のリラックス動画
        • 最大1080pの解像度、20秒の長さ、5つの同時生成
        • 透かしなしでダウンロード可能
      • クレジットは、サブスクリプション更新の支払いが完了した時点のUTC午前0時に適用されます。支払いがUTC午前0時以降に処理された場合、クレジットは翌日のUTC午前0時に追加されます。

      プランのアップグレードまたはキャンセル方法

      • Soraページの右上隅にあるプロフィールアイコンをクリックし、ドロップダウンメニューから「My plan」を選択します。
      • 設定メニューで「My plan」に移動し、「Manage plan」ボタンをクリックします。
      • アップグレードを完了するには、「Plan type」の下の「Upgrade」ボタンをクリックします。
      • 現在のプランの下にある「Cancel plan」ボタンから、プランをキャンセルすることもできます。プランをキャンセルすると、アカウント内の既存のクレジットは直ちに無効になります。

      リラックス動画とは?

      • ChatGPT Proでは、リラックスモードで動画を生成できます。
      • リラックスモードでは、サイトのトラフィックが少ないときに完了するように動画をキューに入れることができます。
      • リラックスモードは、ChatGPT Proアカウントのクレジットが不足したときに有効になります。
      • リラックス動画にはクレジットは必要ありません。
      • 一般的に、リラックス動画は優先動画よりも作成に時間がかかります。

      追加クレジットの購入について

      • 現時点では、追加クレジットをその都度購入することはできません。
      • ChatGPT Plusを利用していて、Soraで使用するクレジットを増やしたい場合は、Proプランにアップグレードできます。

      クレジットの繰り越しについて

      • Soraのクレジットは累積されず、翌月に繰り越されません。
      • クレジットは、各請求サイクルの終了時に失効します。
      • 月額プランのクレジットは、請求サイクルの開始時のUTC午前0時にリセットされます。

      請求日について

      • 請求日は、最初にプランを開始した日であり、月額サブスクリプション料金が発生する日でもあります。
      • ChatGPTプランのサブスクリプションは、サブスクリプション開始日から暦月単位で請求されます。

      アカウントの削除方法

      • 削除されたアカウントは復元できません。
      • ChatGPTまたはOpenAIのプライバシーセンターでアカウントを自分で削除すると、アクティブな有料サブスクリプションがすべてキャンセルされます。
      • 以前にOpenAIアカウントを削除した場合、同じメールアドレスで新しいアカウントを作成したり、古いアカウントを再アクティブ化したりすることはできません。
      • ChatGPTでアカウントを削除するには、次の手順に従います。
        1. ChatGPTにサインインします。
        2. 右上のプロフィールアイコンをクリックします。
        3. 「Settings」をクリックします。
        4. 「Settings」で「Data Controls」をクリックします。
        5. 「Delete account」の下の「Delete」をクリックします。
        6. 過去10分以内にログインしている場合にのみ、アカウントを削除できます。過去10分以内にログインしていない場合は、再度サインインする必要があります。
        7. 確認画面が表示され、アカウントのメールアドレスと「DELETE」を入力フィールドに入力して、「Permanently delete my account」ボタンのロックを解除する必要があります。
        8. 入力が完了すると、「Permanently delete my account」ボタンのロックが解除されます。
        9. 「Permanently delete my account」をクリックして、アカウントを削除します。

      「You do not have an account because it has been deleted or deactivated」というエラーが表示される理由

      • ログインまたはアカウントを作成しようとしたときにこのエラーが表示される場合は、サインアップ/ログインに使用しようとしているメールアドレスに関連付けられたアカウントがアカウント削除されたことを意味します。
      • これは、ChatGPTでアカウントを削除したか、プライバシーセンターにメールを送信して削除を依頼したために発生します。

      以上、スタートガイドでした!

      コンテストの募集はこちらの X@AICUai で開始予定です。
      応募を楽しみにしております

      Originally published at https://note.com on Dec 13, 2024.

    1. 「ガンマミィ」に魂が入る瞬間…BlendAIによる音声収録現場レポート!

      ガンマミィ」とは、BlendAIが展開する「デルタもん」に続く2体目のAIキャラクターです。 デルタもんと同じく、利用規約に従えば、自由に利用や二次創作が可能です。そのガンマミィの音声収録が行われましたのでAICU編集部が現地を取材させていただきました。

      画像

      BlendAI株式会社(東京都中央区、代表:小宮自由)は、2024年11月6日、東京都内のスタジオにて清水詩音さん(ホリプロインターナショナル所属)を起用したガンマミィのボイス収録を実施しました。収録には、キャラクター制作チーム、音響専門スタッフ、広報チームが参加し、緻密な準備と情熱が注がれた、充実した現場となりました。

      動画:ガンマミィ (CV: 清水詩音さん) 音声収録

      収録の合間にご協力いただき、BlendAI小宮氏へのインタビューを実施しました。

      まず最初に「ガンマミィ」クラウドファンディング参加者へ向けて小宮氏は「支援者の皆さまのおかげで、この重要なステップを成功させることができました」と熱い御礼を語りました。

      画像

      収録では、キャラクター設定や台本に基づき、AIが活用できる音声データが追加収録されました。収録されたボイスデータは、クラウドファンディングでボイスコースをご支援した支援者の方々への音声データとして提供される予定です。さらに、ガンマミィの魅力を存分に感じられるメッセージボイスも準備中とのことです。

      AI音声システムを通じた幅広い活用を予定

      今回収録されたボイスデータは、支援者限定での利用を皮切りに、将来的にはAI音声システムを通じた幅広い活用を予定しています。例えば、個人プロジェクトやコンテンツ制作でガンマミィの声を自由に使用できる仕組みを整備中です。このプロジェクトは、単なる音声データの提供ではなく、キャラクターに命を吹き込む新たな体験の提供を目指しています。

      画像
      ※AICUマガジンVol.5のガンマミィ漫画を読む清水詩音さん (https://j.aicu.ai/MagV5 にて発売中)

      本プロジェクトでは、声優の持つ表現力とAI技術を組み合わせることで、キャラクターの個性を最大限に引き出そうとしています。演技の中で生まれる感情やニュアンスは、キャラクターに不可欠な「魂」となり、それをAI技術でさらに拡張するという取り組みです。このモデルは、声優の新たな活躍の場を広げる可能性を示すものであり、BlendAIの今後のプロジェクトでも積極的に声優の方々とのコラボレーションを計画しているとのことです。

      さらに進む「ガンマミィ」キャラクター開発と
      ひろがるクリエイターの活躍の場。

      「デルタもん」「ガンマミィ」をはじめとする今後のプロジェクトでも、Blenderを活用したキャラクターの3Dモデル制作も進行中です。キャラクターの世界観や個性を立体的に表現するこの作業は、モデルやデザインの可能性をさらに広げる挑戦でもあります。今後も、新キャラクターの開発や3Dモデリングにおいて、優れた技術を持つクリエイターとの連携を推進していきたいとのことです。

      声優の表現力とAI技術の融合によってさらに新しい世界を描く

      小宮氏は「有名キャラクターを手掛ける機会を探しているクリエイターの方々にとっても、注目いただきたいプロジェクトです」と語りました。
      「この取り組みを通じて、私たちは『キャラクター創作は、声優の表現力とAI技術の融合によってさらに新しい世界を描ける』という確信を得ました。今回のクラウドファンディングで得た知見を次回の挑戦に活かし、さらに多くの方々に楽しんでいただけるプロジェクトをお届けしたいと考えています。また、今後のプロジェクトでも、Blenderを活用したキャラクターの3Dモデル制作も進行中です。

      (といってインタビューの最中に紹介されたのはこちら)

      画像

      2024年11月20日に公開されたガンマミィLINEスタンプでした。

      LINEのスタンプストアで購入できます!

      https://store.line.me/stickershop/product/28830369/ja

      最後に小宮氏は「ご支援をいただいた皆さま、そしてプロジェクトに関わるすべての方々に、改めて感謝申し上げます。次回もどうぞお楽しみに!」と感謝のメッセージを加えました。

      音声合成AIと著作権、声のお仕事やキャラクターデザインのお仕事に、新たな可能性を開拓されるBlendAI・小宮自由氏。
      アルファプロジェクトの次のキャラクターの準備も進んでいるようです。

      画像
      先日の国際Creative AIビジネスコンソーシアム – 開発者交流フォーラム開催での BlendAI小宮自由氏の発表の様子。 レポートはこちら! #CABCDEF https://note.com/aicu/n/n9d5b2f8be5df

      キャラクタービジネスにおいては、AI技術は社会問題が多く語られますが、実際にはこの問題に真剣に立ち向かっているプレイヤーは稀有ではないでしょうか。

      2025年はAITuberなどのAIキャラクターサービスが活況になると予想されます。オープンな音声合成モデルなども大量に配布される中で、今後の価値創出やそのエコシステムへの参加が重要な鍵になりそうです。

      BlendAIのXはこちら @blendaijp 

      生成AI時代に「つくる人をつくる」をビジョンにしているAICUも応援していきたいと思います!

      Originally published at https://note.com on Dec 12, 2024.

    2. OpenAIから動画生成モデル「Sora Turbo」正式リリース!世界シミュレーターとしての実力はいかに?

      OpenAIの動画生成モデル、Soraがついにリサーチプレビューを終了し、「Sora Turbo」として正式リリースされました!
      Soraは、テキストからリアルな動画を生成できるモデルとして今年初めに発表され、世界シミュレーションに関する初期の研究成果が共有されました。

      https://corp.aicu.ai/ja/openai-sora-announced

      Soraは、現実を理解しシミュレートするAIの基盤として機能し、現実世界と相互作用できるモデルの開発に向けた重要な一歩となります。

      https://note.com/o_ob/n/n3d2c3246ecdb

      今回リリースされた 「Sora Turbo」は、2月にプレビューされたモデルよりも大幅に高速化されています。Sora.com にてスタンドアロン製品として、ChatGPT PlusおよびProユーザー向けに提供開始されています。

      [Sora.comhttps://sora.com/

      Sora専用の新インターフェース

      テクニカルレポートで最初に共有された幅広い機能がリリースされます。

      • 最大1080pの解像度、最大20秒の長さ、ワイドスクリーン、縦型、または正方形のアスペクト比で動画を生成。
      • 独自の素材を持ち込んで拡張、リミックス、ブレンドしたり、テキストからまったく新しいコンテンツを生成できます。
      • テキスト、画像、動画でSoraにプロンプトを入力しやすくするための新しいインターフェースを開発。
      • ストーリーボードツールで、フレームごとに正確に入力を指定できる。
      • コミュニティからの作品で常に更新される注目のフィードと最近のフィードもあります。

      [Soraの機能に関する詳細情報] https://openai.com/sora/

      Soraの主な機能

      Soraの主な機能は以下の通りです。

      • テキスト、画像、動画からの動画生成: ユーザーはテキストを入力するだけでなく、既存の画像や動画を基に、新しい動画を生成できます。
      • リミックス: 動画の要素を置き換えたり、削除したり、再構成したりすることが可能です。例えば、動画の中のドアをフレンチドアに置き換えたり、図書館のシーンを宇宙船に変えたりできます。
      • リカット: 動画の最適なフレームを見つけて拡張し、シーンを完成させることが可能です。
      • ストーリーボード: 動画を個人のタイムライン上で整理・編集することが可能です。
      • ループ: 動画をトリミングして、シームレスに繰り返される動画を作成することが可能です。
      • ブレンド: 2つの動画を1つのシームレスなクリップに結合することが可能です。
      • スタイルプリセット: ユーザーは、想像力を捉えたスタイルを作成し、共有することが可能です。例えば、段ボールとペーパークラフト、アーカイバル、フィルムノワールなどのプリセットが用意されています。

      Soraの利用とサブスクリプション

      • ChatGPT Plus: 月額20ドル
        • 最大50本の優先動画(1,000クレジット)
        • 最大720pの解像度と5秒の長さ
      • ChatGPT Pro: 月額200ドル
        • 最大500本の優先動画(10,000クレジット)
        • 無制限のリラックス動画
        • 最大1080pの解像度、20秒の長さ、5つの同時生成
        • 透かしなしでダウンロード可能

      Soraは、月額$20の ChatGPT Plusであれば、毎月、480p解像度で最大50本の動画、または720pでより少ない本数の動画を生成できます。

      10倍高価な月額 $200の ChatGPT Pro プランには10倍の利用量、より高い解像度、より長い再生時間が含まれています。

      OpenAIとしては、さまざまなタイプのユーザー向けに調整された価格設定に取り組んでおり、来年初めに提供開始予定とのことです。

      今回展開される「Sora Turbo」の制限

      今回展開されるSoraのバージョン「Sora Turbo」には、多くの制限があります。非現実的な物理現象が生成されることが多く、長時間におよぶ複雑なアクションには苦労するとのことです。Sora Turboは2月のプレビュー版よりもはるかに高速ですが、すべての人が利用しやすい価格にするために、まだ課題が残るそうです。

      倫理面の対策技術としてC2PAメタデータが付属

      すべてのSora生成動画には、透明性を提供するためにSoraからのものであることを識別するC2PAメタデータが付属しており、来歴やオリジナルの検証に使用できます。不完全ではありますが、デフォルトで目に見えるウォーターマークなどの安全策を追加し、生成されたコンテンツの技術的属性を使用してコンテンツがSoraからのものであるかどうかを検証するのに役立つ内部検索ツールを構築されています。社会がこの技術の可能性を探求し、責任ある使用を保証するための規範と安全策を共同で開発するための時間を与えることを目指しているそうです。

      現在、児童性的虐待素材や性的ディープフェイクなど、特に有害な形態の乱用をブロックしています。人物のアップロードは開始時に制限されますが、ディープフェイクの軽減策を改良するにつれて、より多くのユーザーにこの機能を展開する予定とのことです。

      Soraの制限事項

      1. Soraは、ChatGPT Team、Enterprise、またはEduには含まれていません。また、現在18歳未満の方はご利用いただけません。現在、英国、スイス、欧州経済地域を除き、ChatGPTが利用可能なすべての場所でSoraにアクセスできます。今後数か月でアクセスをさらに拡大する予定です。
      2. 今後、NGOや研究機関との提携を探り、来歴エコシステムを成長させ、改善していく予定です。このようなツールは、デジタルコンテンツへの信頼を築き、ユーザーが本物の作品を認識するのに役立つために不可欠であると考えています。
      3. 最優先事項は、児童性的虐待素材(CSAM)や性的ディープフェイクなど、特に有害な形態の乱用を防ぐことです。作成をブロックし、アップロードをフィルタリングおよび監視し、高度な検出ツールを使用し、CSAMまたは子供が危険にさらされていることが判明した場合は、全米行方不明・搾取児童センター(NCMEC)に報告します。
      4. 類似性機能は現在、少数の初期テスターにパイロット機能としてのみ提供されています。肖像の不正使用やディープフェイクに関する懸念に対処するため、人物が登場するアップロードに対して特に厳格なモデレーション基準を設定し、ヌードを含むコンテンツをブロックし続けています。この機能にアクセスできるユーザーには、許可されることと許可されないことを含む、ポリシーに関する製品内リマインダーも表示されます。悪用のパターンを積極的に監視し、発見した場合はコンテンツを削除し、適切な措置を講じ、これらの初期の学習を使用して安全対策へのアプローチを繰り返します。
      5. Soraをより広範な使用に備えるために、偽情報、違法コンテンツ、安全性などの分野のドメイン専門家であるレッドチームと協力して、モデルを厳密にテストし、潜在的なリスクを特定しました。彼らのフィードバックは、Soraを形作る上で重要な役割を果たし、モデルを可能な限り便利にしながら、安全策を微調整するのに役立ちました。また、ChatGPT、DALL·E、およびAPI製品をサポートするために長年にわたって開発および改良されてきた堅牢な安全システムを基盤に構築しています。

      Soraシステムカード
      https://openai.com/index/sora-system-card/


      公式作品から

      業界では噂になっていたアーティストによるSoraの公式作品がYouTubeに収録されています。日本の作品もあります。

      タイムラインの作品から

      現在、(希望者の多さからか)新規の受付は停止されています。

      画像

      AICU media編集部、コラボクリエイターのみなさんなどもChatGPT Plus、10倍高い Proのユーザーもいるのですが、課金額ではなく、登録したタイミングにより、現在は利用できる状態にはないようです。
      AI開発者のよしかいさんが運良く利用できるようなので作品を紹介させていただきました。

      よしかいさん @yoshikai_man 資料提供ありがとうございました。
      皆さんの作品も紹介していきたい!

      npakaさんによる作品。声や歌までついてます!

      Soraを使える動画生成レポーター募集

      AICU media編集部では、Soraを使える動画生成のレポーターを募集しています。詳細は X@AICUai にてDMにてお問い合わせいただけましたら幸いです。

      Originally published at https://note.com on Dec 11, 2024.

    3. xAIが「Grok」で画像生成モデル「Aurora」をリリース。もう使えるの?実験で証明しつつ最近の高品質画像生成を日本語で比較してみた!

      旧Twitterなどを運営する X Corp.グループの xAI社 (x.ai) は2024年12月9日、Grok の機能をアップデートし、𝕏 プラットフォームで利用可能な、コードネーム「Aurora」と呼ばれる新しい自己回帰画像生成モデルを同社の対話型AIサービス「Grok」に搭載しました。

      画像

      https://x.ai/blog/grok-image-generation-release

      「Aurora」は、テキストと画像データを交互に配置したデータから次のトークンを予測するようにトレーニングされた、自己回帰型の Mixture-of-Experts ネットワークになっているとのこと。何十億ものインターネット上の例でモデルをトレーニングしたため、世界を深く理解しています。その結果、写真のようにリアルなレンダリングとテキストによる指示への正確な追従に優れているだけでなく、テキスト以外にも、マルチモーダル入力のネイティブサポートも備えている設計であり、ユーザーが提供した画像からインスピレーションを得たり、直接編集したりできます。

      Grok の新しい機能は、一部の国で 𝕏 プラットフォームで利用できるようになり、1 週間以内にすべてのユーザーに展開される予定とのことです。

      画像生成

      Grok は、他の画像生成モデルが苦労するいくつかの分野で高品質の画像を生成できるようになりました。実世界のエンティティ(実体)、テキスト、ロゴの正確な視覚的詳細をレンダリングし、人間のリアルなポートレートを作成できます。

      <画像のサンプルについては文末で紹介します>

      エンティティ生成

      プロンプト: オーロラの下のサイバートラック(Cybertruck under an aurora)

      画像
      [Grok、Imagen 3、Flux.1 Pro、Ideogram 2.0、DALL-E 3 の生成結果比較]

      まだ発売されて間もないTesla社の「Cybertruck」ですが、Grokにより見事にオーロラの下で生成されています。Google Deepmindの「Imagen 3」とIdegoramによる「Ideogram 2.0」は、かろうじてそれらしいトラックを生成していますが、「Flux.1 Pro」は従来型のトレーラー、「Dall-E 3」に至っては「生成できません」という表示になっています。

      アーティスティックなテキスト

      プロンプト:「Grok」と綴る銀河の星(Stars in a galaxy spelling “Grok”)

      画像

      同様に、星として描けているのは Grok, Imagen 3, Ideogram 2.0であり、Dall-E 3とFlux.1 Proはイラスト調になっています。

      ミーム生成

      プロンプト:Anime Pepe

      「Pepe」とはMatt Furie氏による世界的なインターネットミームです。

      https://en.wikipedia.org/wiki/Pepe_the_Frog

      画像

      非常に抽象的で難しいお題だと思います。Flux.1 Proにとっては難しかったようです。

      リアルなポートレート

      プロンプト:濡れた虹色の髪とネオンブルーのレインコートを着た男性が、激しい雨の中、街の通りに立っています(A man with wet rainbow hair and a neon blue raincoat standing in heavy rain on the city street)

      画像

      著名人

      プロンプト:イーロン・マスクが xAI ジャケットを着て、背景にアメリカ国旗を掲げている(Elon Musk wearing an xAI jacket with a USA flag in the background)

      画像

      Imagen 3、Dall-E 3にとっては苦手なお題かもしれませんね。Grokのヒゲの描写が素晴らしいです。

      画像編集

      Grokの新しい画像生成モデルは、画像を入力として受け取ることができるようです。この機能は、今後 𝕏 プラットフォームのユーザーにリリースされる予定とのこと。

      プロンプト: 猫をアニメスタイルにする(Make the cat anime style)

      画像

      プロンプト:カウボーイハットを追加する(Add a cowboy hat)

      画像

      プロンプト:金髪にする(Make him blonde)

      画像

      プロンプト:雪模様にする(Make it snowy)

      画像

      AICU編集部による日本語での画像生成実験

      公式リリースだけで記事を書いてはAICUらしくありませんので、手を動かして評価してみます。あえて日本語でプロンプトを与えてみます。

      Grok2(内部は不明)

      ※「Grok 2 new」と表記されていますが、Auroraであるかどうかは現時点では判定が難しい状態です。

      画像

      プロンプト:メタル調の画像がほしい「MASTER GUIDE」

      画像

      たしかに日本語で一発でこのクオリティが生成できるのは素晴らしいですね。右下に「GROK」のロゴが入ります。

      画像

      プロンプトを英語にしてみました。

      画像

      ボイラープレートというよりは、モダンな感じになってしまった感じはあります。
      日本語の文字生成も試してみます。

      画像

      Ideogram 2.0

      回数制限は多いのですが、実は無料で使えるサービスとして Ideogram 2.0は優秀であるといえます。

      画像
      metallic boiler plate of “MASTER GUIDE” (Ideogram 2.0)

      日本語プロンプト:メタル調の画像がほしい「MASTER GUIDE」

      画像

      Imagen 3

      Imagen 3はGeminiのインタフェースから利用できます。

      https://gemini.google.com

      画像

      日本語でもきちんと生成できているのは印象的です。
      英語のプロンプトにしてみます。

      画像
      画像

      Flux1.1 pro ultra

      Flux.1.1 pro ultraをFal経由で実験しています
      https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra

      プロンプト:メタル調の「MASTER GUIDE」ボイラープレート(銘板)

      画像

      プロンプト:metallic boiler plate of “MASTER GUIDE”

      画像

      錆などの表現はできていますが、文字のフォントそのものの表現は、他のモデルに比べると見劣りし始めているかもしれません。

      Dall-E 3

      ChatGPT 4o(有料版)にて生成してみます。

      プロンプト「画像の作成:メタル調の「MASTER GUIDE」ボイラープレート(銘板)」

      画像

      英語のほうが確実のようです。

      画像

      よく見ると文字に間違いがありますね。

      2024年12月時点の総合評価

      上記の実験を「文字描写力」「日本語解釈」それから「真贋性情報」を加えて星取表で表現してみました。

      画像

      エンティティの生成能力や表現能力や、アニメなどの画風での表現力では差を評価しづらい点もありますので、あくまで文字描写力と日本語ユーザーとしての日本語解釈(日本語を描写できるモデルはこの中では存在していません)として評価すると、総合評価ではたしかにGrok2(Aurora)が高い評価となります。特に「Flux1.1 pro ultra」やStability AIの「Stable Diffusion 3.5」などもありますが、その他のモデルは「無料で使用できる」という視点で、あくまでホビーやカジュアルユーザーがテキストチャットで対話的に画像生成を使いたい、という視点で評価しています。

      実はxAIはFluxを開発するblack forest labs.と提携関係あり「FLUX.1 now on Grok 2.0」というアナウンスを8月14日に行っていました。

      画像

      つまり、これまでの(現在も)Grok2の能力は Black Forest Labs. (BFL) の Fluxによる提供である可能性がありますが、今回リリースされた「Aurora」の能力は「新しい自己回帰画像生成モデル(a new autoregressive image generation model)」と呼んでいますので、内部でFluxの改善版を利用している可能性もあります。

      現状のGrok2がAuroraを使っているのかどうか、という意味では、上記の実験からFluxには日本語解釈能力が著しく劣るため、「現在のGrok2はAuroraになっている」と確認できたと言ってもよいでしょう。

      BFLのビジネスモデルについてはよくわからない部分もありますが、今後のxAIとの関係やAuroraの展開によっては、プロ用とxAIなどB2B経由のコンシューマ用に分かれていくような可能性もあるのかもしれませんね。このあたりはビッグテック同士の「仁義なき戦い」なのでしょうか。

      真贋性情報があるのは Dall-E 3 と Imagen 2のみ

      今回の調査で並列して、C2PAによる真贋性を確認しました。
      ダウンロードした画像に埋め込み情報があるかどうかを確認しています。
      https://contentcredentials.org/verify

      実際のところ、AdobeやOpenAI、Stability AI、Microsoft、AWS、Googleなどが参加しているC2PAで真贋性情報を埋め込んでいるモデルは DALL-E 3以外はないようです。

      画像
      C2PAの運営委員会メンバー
      https://c2pa.org/membership/
      画像
      https://contentcredentials.org/verify

      ImagenはGoogle Deepmindが開発した真贋性判定技術(画像合成判定技術)「SynthID」を使って判定可能でした。スマホアプリの「Googleレンズ」を使って「この画像について」を選択すると「Google AIによって生成」と表示されます。

      画像

      ※Tadashi Honjoさんご指摘いただきありがとうございました

      なお、総合的な画像生成判定を行いたい場合はHiveが提供する「AI生成コンテンツ検出ツール」がオススメです。

      https://hivemoderation.com/ai-generated-content-detection

      AI生成であることを総合的に判定し、どのモデルが使用されたかも含めて推論します。

      画像

      以上、2024年を総括するに相応しい、テキスト画像生成のビッグテック同士の戦いをまとめさせていただきました。

      なお、とき同じくして、ついにOpenAIから世界シミュレーターとしての動画生成モデル「Sora」がリリースされたようです。

      https://openai.com/sora

      今後、Stability AIの新作モデルや中国からのプレイヤーの参戦が楽しみですね!

      Stability AI APIを学ぶなら、こちらがおすすめ!
      「超入門:Stable Diffusionではじめる画像生成AI」
      生成AIクリエイティブ AICU
      https://j.aicu.ai/coloso1

      Auroraギャラリー

      最後に公式のギャラリーより生成例を紹介します。

      https://x.ai/blog/grok-image-generation-release

      画像
      Lockheed SR-71 Blackbird in an abstract style
      画像
      Optimus wearing a Xmas costume in a Xmas scene
      画像
      Generate a creative logo for “GROK” with a golden color and sunglasses
      画像
      Cherry blossom
      画像
      An origami Cybertruck
      画像
      A superposition of a cat in a hyperbolic time chamber in the style of Van Gogh
      画像
      Jackie Chan in Donald Trump’s hairstyle
      ドナルド・トランプの髪型をしたジャッキー・チェン
      画像
      Dog drinking a tea
      画像
      A comic of a young man standing by the sea, looking back and saying “Make it happen yesterday.”
      海辺に立って振り返りながら「昨日実現させろ」と言う若い男性の漫画
      画像
      Crude crayon drawing of a Tesla driving through a fiery meadow
      燃える草原を走るテスラのクレヨン画
      画像
      A castle in the clouds
      画像
      Elon Musk as a Ghibli character
      画像
      Baby capybara
      画像
      A close-up of a female warrior with a sword
      剣を持った女性戦士のクローズアップ

      Originally published at https://note.com on Dec 9, 2024.

    4. [ComfyMaster39] AnimateDiffで最初と最後のフレームの画像を指定して動画を生成しよう!

      特定の画像を動画にしたくないですか?
      AnimateDiffでも最初と最後のフレームの画像を指定して動画生成できます!

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第36回目になります。
      本記事では、具体的なワークフローと実際の設定値を使用しながら、最初のフレームと最後のフレームを指定した動画生成の実践的な手順を詳しく説明していきます。

      本連載の初回はこちら。前回はこちらで、ComfyUIを使った動画生成の中でもAnimateDiffとControlNetを組み合わせることで、動画のスタイル変換を行う「video-to-video(v2v)」手法を解説しました。全体の目次はこちらです。

      [ComfyMaster38] LoRAで動画のスタイル変えよう! #ComfyUI

      1. 概要

      本章では、Stable DiffusionとComfyUIを使用して、静止画から動画を生成する方法を解説します。画像生成AIとして注目を集めるStable Diffusionですが、適切な拡張機能を使用することで、魅力的な動画も作成できます。

      ここでは、2枚の静止画を滑らかにつなぎ合わせて短い動画を作る手順を、具体的な例を用いて説明していきます。使用するのは以下の主要な要素です:

      • RealVisXL V5.0 Lightning:高速な画像生成が可能な最新のモデル
      • AnimateDiff:静止画から動画を生成するための拡張機能
      • ControlNet:画像の特徴を保持しながら変換を行うための機能

      初心者の方でも理解しやすいよう、インストールから設定、実行までを段階的に解説していきます。

      2. カスタムノードのインストール

      以下のカスタムノードを使用するため、ComfyUI Managerからインストールしてください。

      ComfyUI-AnimateDiff-Evolved

      ComfyUI-AnimateDiff-Evolvedは、Stable Diffusionモデルを拡張して動画生成を可能にするカスタムノードです。元のAnimateDiffを進化させたバージョンで、動画生成のためのモーションモジュールと高度なサンプリング技術を組み込んでいます。

      https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

      ComfyUI-VideoHelperSuite

      ComfyUI-VideoHelperSuiteは、動画生成を支援するためのカスタムノードです。動画の編集や加工を容易にする機能を提供します。今回は、一連の画像を動画にして保存するノードを使用するために必要となります。

      https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

      ComfyUI-Advanced-ControlNet

      ComfyUI-Advanced-ControlNetは、ControlNetの機能を強化するカスタムノードです。ControlNetの強度をタイムステップやバッチ化された潜在変数にわたってスケジュールする機能を提供します。

      https://github.com/Kosinkadink/ComfyUI-Advanced-ControlNet

      3. モデルのインストール

      RealVisXL V5.0 Lightning

      今回は、RealVisXLのLightningバージョンを使用します。Lightningバージョンでは、サンプリングのステップ数を4-6回に抑えることができます。生成量の多いAnimateDiffでは、TurboやLightningなどの数ステップで生成完了するモデルを選ぶと良いでしょう。
      以下のリンクよりモデルをダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

      https://huggingface.co/SG161222/RealVisXL_V5.0_Lightning/blob/main/RealVisXL_V5.0_Lightning_fp16.safetensors

      SDXL Motion Module

      今回は、SDXLのモデルで動画生成するため、SDXLのモーションモジュールをダウンロードします。使用するモデルは「Hotshot-XL」です。以下のリンクからモデルをダウンロードし、「ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/models」フォルダに格納してください。

      https://huggingface.co/hotshotco/Hotshot-XL/blob/main/hsxl_temporal_layers.f16.safetensors

      ControlNet Union SDXL

      video-to-video (v2v)にControlNetを使用します。以下のControlNetをダウンロードし、「ComfyUI/models/controlnet」フォルダに格納してください。

      https://huggingface.co/xinsir/controlnet-union-sdxl-1.0/blob/main/diffusion_pytorch_model_promax.safetensors

      4. 素材

      以下の2枚の画像を使用します。1枚目が最初のフレームの画像で、2枚目が最後のフレームの画像です。両方とも画像生成AIで生成した画像で、プロンプトのみで制御して生成したため、同じ外見にはできていないですが、今回はこれらを利用しましょう。

      画像
      画像

      以下のリンクより画像をダウンロードください。

      https://note.com/api/v2/attachments/download/061a0c7037e95c2fdaa987382bde0429

      https://note.com/api/v2/attachments/download/a47c93096840719c1f51318db202a613

      5. ワークフロー

      このワークフローは、2つの入力画像間を滑らかに遷移するアニメーション動画を生成する高度な例です。ControlNetを使用して各入力画像の特徴を保持しつつ、AnimateDiffで滑らかなアニメーションを生成し、Latent Keyframe Interp.で2つの画像間の遷移を制御しています。

      画像

      文末のリンクか、メンバーシップのdiscordでお伝えしているワークフローをダウンロードしてください。
      「workflow_animatediff_i2v.json」

      ワークフローをフローチャート形式で表示したものが以下になります。

      画像

      以下に、このワークフローの主要な部分とその機能を詳細に説明します。

      1. 画像入力
        • Load Image ノード (2つ): “girl_01.jpg” と “girl_02.jpeg” という2つの画像を読み込みます。
      2. モデルとAnimateDiffの設定
        • Load Checkpointノード: 「RealVisXL_V5.0_Lightning_fp16.safetensors」モデルを読み込みます。
        • AnimateDiff Loaderノード: 「hsxl_temporal_layers.f16.safetensors”」AnimateDiffモデルを適用します。
        • View Options Standard Uniform ノード: AnimateDiffのビューオプションを設定します(8フレーム、2キーフレーム)。
        • Context Options Views Onlyノード: ビューオプションをコンテキストオプションに変換します。
      3. ControlNet設定
        • Load ControlNet Modelノード: 「CN-anytest_v4-marged.safetensors」 ControlNetモデルを読み込みます。
        • 2つのApply Advanced ControlNetノード: 各入力画像に対してControlNetを適用します。
      4. サンプリング設定
        • FreeInit Iteration Optionsノード: FreeInit samplingのパラメータを設定します(2イテレーション、ガウシアンノイズ)。
        • Sample Settingsノード: AnimateDiffのサンプリング設定を構成します(FreeNoiseモード)。
      5. キーフレームタイミング
        • 2つのLatent Keyframe Interp.ノード: 2つの画像間の遷移タイミングを制御します。
          • 1つ目は0-5フレームで最初の画像からフェードアウト
          • 2つ目は4-8フレームで2番目の画像にフェードイン
      6. プロンプト処理
        • ポジティブプロンプト: 「1girl, black hair, short hair, bob cut, green background, looking to the side, grey t-shirt, overalls, casual outfit, simple background, slightly open mouth, upper body, sharp jawline, cute, indoors」
        • ネガティブプロンプト: 「(worst quality, low quality, illustration, 3d, 2d, painting, cartoons, sketch), 」
      7. 画像生成
        • Empty Latent Imageノード: 512×512の8フレームの空の潜在画像を生成。
        • KSampler ノード:
          • Seed: 596721632997297
          • Steps: 4
          • CFG Scale: 2
          • Sampler: dpmpp_sde
          • Scheduler: karras
          • Denoise: 1.0
      8. 出力処理
        • VAE Decode ノード: 生成された潜在表現を実際の画像にデコードします。
        • Video Combineノード: 生成された画像シーケンスを8fpsの動画に変換し、「AnimateDiff」というプレフィックスで保存します。

      6. ワークフローの実行

      それでは、ワークフローを実行してみます。Hotshot-XLの最大フレームである8フレームで動画を生成しました。非常に短い動画になりますが、精度の高いHotshot-XLで、且つ、フレーム間で崩れを少なくするには、このフレーム数に制限されます。
      生成結果を見ると、袖が伸びてしまっている点を除いては、自然に横を向く動きが生成できているのではないでしょうか。長い動画を作成する際は、この動画の最後のフレームを使用して、次の動画を生成していけば、比較的一貫性のある動画を作成できるでしょう。

      画像

      7. まとめ

      本章では、Stable DiffusionとComfyUIを使用して、2枚の静止画から自然な動きのある動画を生成する方法を学びました。今回の主な気づきは以下の通りです

      • 短いフレーム数でも自然な動きの表現が可能
      • 長い動画は、生成した動画の最終フレームを使って連続的に作成可能
      • ControlNetによって画像の特徴を維持しながら変換が可能

      このワークフローは、動画生成の基礎となる重要な技術を含んでいます。ここで学んだ手法を応用することで、より長い動画や異なる種類の変換効果を持つ動画を作成することも可能です。

      次のステップとして、異なるプロンプトや画像での実験、フレーム数やパラメータの調整など、様々な可能性に挑戦してみることをお勧めします。

      次回はAnimateDiffのimage2imageで背景素材を作成します。
      X(Twitter)@AICUai もフォローよろしくお願いいたします!

      画像生成AI「ComfyUI」マスターPlan

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定
      • [new] Discordでの質問も歓迎です!

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。
      ✨️オトクなメンバーシップについての詳細はこちら


      この記事の続きはこちらから https://note.com/aicu/n/n633ae36958a9

      Originally published at https://note.com on Dec 9, 2024.

    5. [ComfyMaster38] LoRAで動画のスタイル変えよう!

      「動画をもっと簡単に、でも個性的に作りたい」
      そんな願いを持つクリエイターの方々に朗報です。AnimateDiffとControlNetを組み合わせることで、簡単に動画のスタイル変換が可能になります!

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第38回目になります。
      本記事では、前回ご紹介したAnimateDiffとControlNetを組み合わせた「video-to-video (v2v)」を応用して、参照動画のスタイルを変換してする方法を解説します。

      本連載の初回はこちら。前回はこちら、目次はこちらです。

      [ComfyMaster37] SDXL+AnimateDiff+IPAdapterで参照画像から動画を生成しよう! #ComfyUI

      1. 概要

      この記事では、ComfyUIを使用した高度な動画生成ワークフローについて解説します。特に、AnimateDiffやControlNetを活用して動画の各フレームをスタイライズし、LoRAを用いたスタイル変換を行う手法に焦点を当てています。ComfyUIのカスタムノードを導入し、Stable Diffusionモデルを活用したスムーズなアニメーション生成や、スタイルの適用による独自の映像表現を作成するための手順を説明します。具体的には、RealVisXL V5.0 LightningモデルやSDXL Paint Splash Style、Dissolve StyleといったLoRAを使用し、参照動画をもとに動画変換を行うプロセスを詳述しています。

      2. カスタムノードのインストール

      以下のカスタムノードを使用するため、ComfyUI Managerからインストールしてください。

      ComfyUI-AnimateDiff-Evolved

      ComfyUI-AnimateDiff-Evolvedは、Stable Diffusionモデルを拡張して動画生成を可能にするカスタムノードです。元のAnimateDiffを進化させたバージョンで、動画生成のためのモーションモジュールと高度なサンプリング技術を組み込んでいます。

      https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

      ComfyUI-VideoHelperSuite

      ComfyUI-VideoHelperSuiteは、動画生成を支援するためのカスタムノードです。動画の編集や加工を容易にする機能を提供します。今回は、一連の画像を動画にして保存するノードを使用するために必要となります。

      https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

      ComfyUI-Advanced-ControlNet

      ComfyUI-Advanced-ControlNetは、ControlNetの機能を強化するカスタムノードです。ControlNetの強度をタイムステップやバッチ化された潜在変数にわたってスケジュールする機能を提供します。

      https://github.com/Kosinkadink/ComfyUI-Advanced-ControlNet

      ComfyUI-KJNodes

      動画サイズのリサイズのためにComfyUI-KJNodesを導入します。ComfyUI-KJNodesは様々な便利なノードを格納しています。

      https://github.com/kijai/ComfyUI-KJNodes

      3. 画像生成モデルのダウンロード

      RealVisXL V5.0 Lightning

      今回は、RealVisXLのLightningバージョンを使用します。Lightningバージョンでは、サンプリングのステップ数を4-6回に抑えることができます。生成量の多いAnimateDiffでは、TurboやLightningなどの数ステップで生成完了するモデルを選ぶと良いでしょう。
      以下のリンクよりモデルをダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

      https://huggingface.co/SG161222/RealVisXL_V5.0_Lightning/blob/main/RealVisXL_V5.0_Lightning_fp16.safetensors

      4. LoRAのダウンロード

      今回は、2つのLoRAを使用してスタイル変換を試してみます。

      SDXL Paint Splash Style

      カラフルなインクを塗布したような画像を生成するLoRA「SDXL Paint Splash Style」を使用します。以下のリンクよりモデルをダウンロードし、「ComfyUI/models/loras」に格納してください。

      https://civitai.com/models/140335/sdxl-paint-splash-style

      Dissolve Style

      体や物の一部が崩壊していくような画像を生成するLoRA「Dissolve Style」を使用します。以下のリンクよりモデルをダウンロードし、「ComfyUI/models/loras」に格納してください。

      https://civitai.com/models/245889/dissolve-style-lora-15sdxl?modelVersionId=277389

      5. ControlNetモデルのダウンロード

      ControlNet AnyTest v4

      video-to-video (v2v)にControlNetの「AnyTest v4」を使用します。以下のリンクよりControlNetをダウンロードし、「ComfyUI/models/controlnet」フォルダに格納してください。

      https://huggingface.co/2vXpSwA7/iroiro-lora/blob/main/test_controlnet2/CN-anytest_v4-marged.safetensors

      6. AnimateDiffのモーションモジュールのダウンロード

      SDXL Motion Module

      今回は、SDXLのモデルで動画生成するため、SDXLのモーションモジュールをダウンロードします。使用するモデルは「Hotshot-XL」です。以下のリンクからモデルをダウンロードし、「ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/models」フォルダに格納してください。

      https://huggingface.co/hotshotco/Hotshot-XL/blob/main/hsxl_temporal_layers.f16.safetensors

      7. 素材のダウンロード

      v2vで使用する参照元動画を用意します。以下のダンス動画をControlNetで参照します。

      画像

      この動画は、以下のリンクより無料でダウンロードできます。

      https://www.pexels.com/ja-jp/video/2795746

      8. ワークフローの解説

      このワークフローは、入力ビデオの各フレームを変換し、スタイライズされたアニメーション動画を生成する高度な例です。ControlNetを使用して入力フレームの構造を保持しつつ、AnimateDiffで滑らかなアニメーションを生成し、LoRAでPaintSplashスタイルを適用しています。

      画像

      文末のリンクからワークフローをダウンロードしてください。

      ワークフローをフローチャート形式で表示したものが以下になります。

      画像

      以下に、このワークフローの主要な部分とその機能を詳細に説明します。


      この記事の続きはこちらから https://note.com/aicu/n/n8f000f1b4be2

      Originally published at https://note.com on Dec 7, 2024.

    6. [ComfyMaster37] SDXL+AnimateDiff+IPAdapterで参照画像から動画を生成しよう!

      前回のAnimateDiffによるtext-to-video(t2v)での生成方法に興味を持った方は、さらに一歩進んだ動画生成を試してみませんか?

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第37回目になります。
      本記事では、AnimateDiffにIPAdapterを組み合わせることで、ただのテキストからの動画生成を超え、画像の特徴を反映させたより一貫性のあるアニメーションを作成する方法を紹介します。特定のビジュアルテーマやキャラクターを保持したまま、ダイナミックな動画を生成できるこの手法は、クリエイティブなプロジェクトにおいて強力なツールになるはずです。IPAdapterを活用して、これまでにない精度と表現力を持つ動画制作に挑戦してみましょう!

      本連載の初回はこちら。前回はこちら、目次はこちらです。

      [ComfyMaster36] 動画から新しい動画を生成しよう!  #ComfyUI

        1. 概要

        本記事では、AnimateDiffとIP Adapterを組み合わせて、text-to-video(t2v)での動画生成を行う方法を解説します。IP Adapterは、画像の特徴を抽出して生成プロセスに反映させる機能を持ち、これにより元の画像を参照しながら、一貫性のあるアニメーションを作成できます。従来のt2vでの生成に対して、IPAdapterを使うことで、より具体的で視覚的なテーマに沿った動画を作ることが可能です。

        このワークフローでは、複数のカスタムノードやモデルをインストールし、それらを適切に組み合わせて動画生成を行います。具体的には、RealVisXLやSDXL Motion Modelを使用してサンプリング効率を向上させ、CLIP Visionを通じて画像の特徴を抽出し、IP Adapterでそれらを動画生成に反映させます。

        2. カスタムノードのインストール

        以下のカスタムノードを使用するため、ComfyUI Managerからインストールしてください。

        ComfyUI-AnimateDiff-Evolved

        ComfyUI-AnimateDiff-Evolvedは、Stable Diffusionモデルを拡張して動画生成を可能にするカスタムノードです。元のAnimateDiffを進化させたバージョンで、動画生成のためのモーションモジュールと高度なサンプリング技術を組み込んでいます。

        https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

        ComfyUI-VideoHelperSuite

        ComfyUI-VideoHelperSuiteは、動画生成を支援するためのカスタムノードです。動画の編集や加工を容易にする機能を提供します。今回は、一連の画像を動画にして保存するノードを使用するために必要となります。

        https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

        ComfyUI IPAdapter plus

        ComfyUI IPAdapter Plusは、ComfyUI上でのIP Adapterの使用をサポートするカスタムノードで、画像をプロンプトとして使用する機能を提供します。キャラクター、スタイル、構図の転写や高度な一括処理が可能で、動画や漫画の生成時に一貫したビジュアルテーマを維持するために使用されます。

        https://github.com/cubiq/ComfyUI_IPAdapter_plus

        3. モデルのインストール

        RealVisXL V5.0 Lightning

        今回は、RealVisXLのLightningバージョンを使用します。Lightningバージョンでは、サンプリングのステップ数を4-6回に抑えることができます。生成量の多いAnimateDiffでは、TurboやLightningなどの数ステップで生成完了するモデルを選ぶと良いでしょう。
        以下のリンクよりモデルをダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

        https://huggingface.co/SG161222/RealVisXL_V5.0_Lightning/blob/main/RealVisXL_V5.0_Lightning_fp16.safetensors

        SDXL Motion Model

        今回は、SDXLのモーションモジュールとして、「Hotshot-XL」を使用します。Hotshot-XLは、コンテクスト長が8フレームしかありませんが、AnimateDiff-SDXLより品質が良いためです。以下のモデルをダウンロードし、「ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/models」フォルダに格納してください。

        https://huggingface.co/hotshotco/Hotshot-XL/blob/main/hsxl_temporal_layers.f16.safetensors

        CLIP Vision

        IP Adapterを使用するためにCLIP Visionを使用します。以下のリンクよりモデルをダウンロードし、「ComfyUI/models/clip_vision」フォルダに格納してください。

        CLIP Visionは画像を入力として受け取り、特徴を抽出してトークンに変換します。これらのトークンは、テキストプロンプトと組み合わせて画像生成に使用されます。

        https://huggingface.co/h94/IP-Adapter/blob/main/models/image_encoder/model.safetensors

        IP Adapter

        CLIP Visionで抽出した画像の特徴を画像生成モデルに組み込むためにIP Adapterのモデルが必要になります。以下のリンクよりモデルをダウンロードし、「ComfyUI/models/ipadapter」フォルダに格納してください。

        https://huggingface.co/h94/IP-Adapter/blob/main/sdxl_models/ip-adapter-plus_sdxl_vit-h.safetensors

        4. 使用素材

        今回は、女性の画像と風景の画像を使用します。それぞれ以下よりダウンロードしてください。

        女性の画像

        画像

        https://note.com/api/v2/attachments/download/6e510797a934edbe4ae95dd091d08571

        風景の画像

        画像

        https://note.com/api/v2/attachments/download/3608f75a8949f1124d304471accbed38

        5. ワークフローの解説

        以下がワークフローの全体像になります。このワークフローは、入力画像の特徴を活かしながらアニメーション動画を生成する高度な例です。IP-Adapterを使用することで、入力画像の視覚的特徴(この場合、若い日本人女性の外見)を生成プロセスに組み込みます。AnimateDiffとの組み合わせにより、入力画像に基づいた一貫性のあるアニメーション動画が生成されます。

        画像

        ワークフローは、文末のリンクよりダウンロード可能です。

        このワークフローの構造をフローチャートで表現すると、以下のようになります。

        画像

        以下に、このワークフローの主要な部分とその機能を詳細に説明します。

        1. 入力画像とモデルの準備
          • Load Imageノード: 「girl_01.jpg」という画像ファイルを読み込みます。
          • IPAdapterModelLoader ノード: 「ip-adapter-plus_sdxl_vit-h.safetensors」モデルを読み込みます。
          • CLIPVisionLoader ノード: 「CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors」を読み込み、画像の特徴を抽出します。
          • CheckpointLoaderSimple ノード: 「RealVisXL_V5.0_Lightning_fp16.safetensors」モデルを読み込みます。
        2. AnimateDiffの設定
          • ADE_AnimateDiffLoaderGen1 ノード: 「hsxl_temporal_layers.f16.safetensors」 AnimateDiffモデルを適用し、「autoselect」モードを使用します。
          • ADE_StandardUniformViewOptions ノード: AnimateDiffのビューオプションを設定します(16フレーム、2キーフレーム)。
          • ADE_ViewsOnlyContextOptions ノード: ビューオプションをコンテキストオプションに変換します。
        3. サンプリング設定
          • FreeInit Iteration Optionsノード: FreeInit samplingのパラメータを設定します。イテレーション回数が多いほど、生成される動画の詳細度や一貫性が高まります。今回は、最低回数の2回だけイテレーション処理を行います。
          • Sample Settingsノード: AnimateDiffのサンプリング設定を構成します(FreeNoiseモード)。
        4. IP-Adapter処理
          • IPAdapterAdvanced ノード: 入力画像の特徴を抽出し、生成プロセスに組み込みます。重み1.0、「ease in」ブレンドモード、「concat」適用方法を使用。
        5. プロンプト処理
          • ポジティブプロンプト: 「Japanese young girl, casual dress, black hair, bob cut, upper body, looking at view, green background」
          • ネガティブプロンプト: 「(worst quality, low quality, illustration, 3d, 2d, painting, cartoons, sketch), open mouth,」
        6. 画像生成
          • KSampler ノード
            • Seed: 118362085301702
            • Steps: 4
            • CFG Scale: 2.0
            • Sampler: dpmpp_sde
            • Scheduler: karras
            • Denoise: 1.0
        7. 出力処理
          • VAE Decode ノード: 生成された潜在表現を実際の画像にデコードします。
          • VHS_VideoCombine ノード: 生成された画像シーケンスを16fpsの動画に変換し、「AnimateDiff」というプレフィックスで保存します。

        6. ワークフローの実行

        それでは、ワークフローを実行してみましょう。女性の画像を参照した場合と、風景の画像を参照した場合、それぞれの結果を確認してみます。

        女性の画像を参照しての動画生成

        まずは、Load Imageノードに女性の画像を設定し、以下のプロンプトをポジティブプロンプトに入力し、実行してみます。

        Japanese young girl, casual dress, black hair, bob cut, upper body, looking at view, dynamic expressions, green background

        実行結果は以下になります。参照元画像の特徴を捉えて生成されていることが分かります。しかし、あくまで参照なので、参照元画像のままで生成されていません。また、参照により動きがあまり変化しない特徴があります。

        画像

        IPAdapterの強度を下げれば、動きの変化が強くなりますが、その分参照元画像に似なくなります。以下は、IPAdapterの強度を0.5に下げて生成した動画です。

        画像

        風景画像を参照しての動画生成

        次に風景の画像を参照し、そこから動画生成したいと思います。Load Imageノードに風景の画像を設定し、以下のプロンプトをポジティブプロンプトに入力し、実行してみます。

        wide landscape view, sunset, golden hour, large clouds, pink sky, ocean in background, water reflections, distant mountains, lush green trees, flowers in foreground, gentle breeze, glowing sunlight, ethereal atmosphere, serene, soft lighting, cinematic composition, high detail, vivid colors, dreamy, fantasy setting

        以下が生成結果です。参照元画像に近い状態で動画生成されています。先ほどの女性と同様、参照元画像に引っ張られるため、動きは小さいです。

        画像

        IPAdapterを使用しない場合は、以下のようにさらに躍動的な動画になります。

        画像

        7. まとめ

        今回の記事では、AnimateDiffとIPAdapterを組み合わせたtext-to-video生成の手法を解説しました。IPAdapterを活用することで、従来の動画生成におけるテキストプロンプトだけでなく、参照画像の特徴を反映した一貫性のあるアニメーション動画を作成することができます。これにより、キャラクターやスタイル、構図の再現が容易になり、より具体的で表現豊かな動画制作が可能になります。

        記事内で紹介した手順を参考に、カスタムノードのインストールやモデルの準備を行い、IPAdapterの設定を適切に調整することで、プロジェクトに合わせた多彩なアニメーションを生成することができるでしょう。今回の手法は、特にクリエイティブな作品や映像制作において、大きな可能性を秘めています。

        今後もこの技術を活用し、自分だけのユニークなアニメーション動画を作成してみてください。次のステップでは、さらに高度なカスタマイズや他のツールとの組み合わせを試して、より洗練された映像表現を目指していきましょう。

        次回は、AnimateDiffでvideo-to-video(v2v)をする方法を紹介します。乞うご期待!
        X(Twitter)@AICUai もフォローよろしくお願いいたします!

        画像生成AI「ComfyUI」マスターPlan

        画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

        • メンバー限定の会員証が発行されます
        • 活動期間に応じたバッジを表示
        • メンバー限定掲示板を閲覧できます
        • メンバー特典記事を閲覧できます
        • メンバー特典マガジンを閲覧できます
        • 動画資料やworkflowといった資料への優先アクセスも予定

        ゼロから学ぶ「ComfyUI」マガジン

        https://note.com/aicu/m/md2f2e57c0f3c

        マガジン単体の販売は1件あたり500円を予定しております。メンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になるだけでなく、さまざまな交流情報や、ComfyUIを学習するためのメンバー向け情報をお伝えしています。

        https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

        もちろん、初月は無料でお試しいただけます!
        毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
        退会率はとても低く、みなさまにご満足いただいております。
        ✨️オトクなメンバーシップについての詳細はこちら


        この記事の続きはこちらから https://note.com/aicu/n/na46215301e73

        Originally published at https://note.com on Dec 2, 2024.

      1. 教育現場における生成AIコンテンツと著作権法

        上原伸一氏の近未来教育フォーラムにおける講演「教育現場における生成AIコンテンツと著作権法」よりお送りします。

        https://www.dhw.co.jp/forum

        デジタルハリウッド株式会社は、2024年11月30日(土)、近未来教育フォーラム2024 を開催しました。今年のテーマは 『The Great Transition〜ポストAIは来ない〜』。AI時代を生き抜くための教育のあり方について、豪華なゲストスピーカーと共に探究しており、AICU編集部でも複数回の特集で紹介していきたいと思います。

        ブレイクアウトセッション:多様なテーマで教育の未来を考える

        キーノートに先立ち、4つのテーマでブレイクアウトセッションが開催されました。

        • Session1: 教育現場における生成AIコンテンツと著作権法 (上原伸一氏)
        • Session2: クリエイティブ教育に生成AIは必要か? (小泉薫央氏)
        • Session3: DXハイスクール2年目、なにを企画しますか? (鹿野利春氏、小笠原健二氏)
        • Session4: AI時代における人材確保と働き方改革 (村田弘美氏)
        画像

        『教育現場における生成AIコンテンツと著作権法』

        AIにより生成されたコンテンツは著作権法上どのように位置づけられているのか。また、授業過程において、生成AIおよびAI生成コンテンツはどのような扱いになるのか、基本的な解説を行います。

        https://www.dhw.co.jp/press-release/20241106_kmkf/

        画像
        講演者:上原 伸一 氏

        【上原伸一】デジタルハリウッド大学特命教授、国士舘大学知財大学院客員教授、大阪工業大学大学院客員教授。東京大学文学部社会学科卒業後、朝日放送に勤務、著作権部長等。1999年から2010年まで文化庁の著作権の審議会で専門委員。2018年から社団法人日本音楽著作権協会理事。
        著書:「海の楽園パラオ~非核憲法の国は今」(あみのさん)「クリエイトする人たちのための基本からの著作権」(商事法務)など。
        (https://dhw2024educationforum.peatix.com/ より引用)

        上原氏はまず、著作権の基本について触れ、「著作権は『思想または感情』の創作的表現を保護するもの」と説明しました。そして、AIが生成するものはこの定義に当てはまらないため、著作物ではないと述べました。

        続いて、著作権に関する国際的な違いについても言及しました。各国で法律が異なるため、同じ事案でも裁判の判決が変わる可能性があることを指摘し、「春风送来了温柔(春風が優しさを送る)」事件を例に挙げました。

        Stable Diffusionで生成した画像(漢服風の白い衣装を着た、三つ編み風ヘアスタイルの若い女性の上半身をポートレート写真風に描写したもの)に著作物性を認めた北京インターネット裁判所の判決、AI機械翻訳サービスを利用して内容を概ね把握した。 もっとも、私は、中国語を全く解しないため、翻訳結果が正しいかどうかを評価する能力がないことから、翻訳エンジンの違うDeepLとChatGPT-4にそれぞれ和訳させ(和訳が分かりづらいところは、部分的に英訳させ)、その結果を突き合わせる作業を一応行った。なので、細かいところは別として、大きな部分では把握した内容は大体大丈夫かなと思ってる(著作権法の基本的な考え方に照らしても大きな齟齬はない)。 ちょっと時間がないので、すぐには無理だけど、米国の判決をスライド2枚にまとめたような感じで、近いうちにまとめてみたい。 一言だけコメントすると、日本や米国の基本的な考え方(AIを用いて人間が創作したと言えないと著作物性は否定される)と共通した考え方を採用しているように思われる。その意味で、日米とは異次元の論理が採用された特殊な判決ということではないんじゃないかなと思ってる。 ポイントは、その当てはめの部分で、米国(の現在公表されている裁判例や著作権局の決定など)が、前記考え方を極めて厳しく当てはめるのに対して、今回の中国の判決はかなり柔軟に当てはめているという部分かな。 個人的には、今の米国の当てはめは厳しすぎると思ってて、一方、中国の今回の当てはめも色々考えるべきところは多いように思うし、結局、最終的には、日米中とも、今の米国と今回の中国の間ぐらい(どっち寄りかも、又興味あるところだけど)に落ち着く形になるのかも、と思っている。 本当に興味深い判決である。

        最終更新午後8:02 · 2023年12月4日 1.9万件の表示

        https://x.com/OKMRKJ/status/1731629990939447719

        【AICU編集部補足】AICU編集部しらいはかせも中国の最近の学生さんについてまとめていましたので引用します。

        https://note.com/o_ob/n/n2add5461fea5

        生成AIを道具として使った創作コンテンツについては、「著作物になりうる」と説明しました。例として、人間が原作とセリフを、AIが絵を担当した漫画「Zarya Of The Dawn(夜明けのザーリャ)」のケースを紹介。このケースでは、絵の部分は著作物と認められなかった一方で、原作とセリフは著作物として認められたとのことです。

        【AICU編集部補足】ZARYA OF THE DAWN

        https://en.wikipedia.org/wiki/Zarya_of_the_Dawn

        『暁のザーリヤ』はクリス・カシュタノヴァ(Kris Kashtanova)が執筆し、人工知能ソフトウェアMidjourneyで完全に描かれた短編漫画であり、著作権紛争を引き起こした。
        【プロット】ザリアは記憶を失ったまま、廃墟となったニューヨークで目を覚ます。ポケットからラスティという人物からのポストカードが落ち、名前と自宅の住所を思い出す。家に帰って新しい服を手に入れた後、ザリアは「世界間のアシスタント」であるラヤと出会い、2023年の精神的危機が地球上の生命のほぼ完全な破壊につながったことを告げる。その後、ラヤはザリアを受容の世界であるザトゥーラワールドに連れて行く。そこでザリアは謎の女性と出会い、自分の感情を受け入れることを学ぶ。セントラルパークに戻ると、そこは温室で覆われていた。ザリアは「受け入れることは手放すことの第一歩です」と語る。
        【著作権紛争】
        2022年9月、カシュタノワは米国著作権局に漫画の著作権保護を申請したが、イラストが人工知能画像ジェネレーターであるMidjourneyを使用して作成されたことは明らかにされなかった。漫画は著作権保護を認められたものの、著作権局はその事実を発見した後、アートワークの保護を取り消す手続きを開始した。アートワークの著作権保護は2023年2月に取り消され、著作権局は人間が作成した作品のみが保護を受けることができると説明した。画像自体は著作権で保護されていないが、画像の配置と本のテキストとストーリーは人工知能ではなくカシュタノワの創作物であるため保護されている。

        https://en.wikipedia.org/wiki/Zarya_of_the_Dawn

        編集部による日本語翻訳

        https://www.instagram.com/kris.kashtanova/p/CoC1NDFOVux

        さらに、生成AIに極めて具体的な指示を出して生成されたコンテンツについては、「著作物になりうる可能性がある」と述べました。『CGWORLD』11月号に掲載された、大学学長からの具体的な指示に基づき、担当者が試行錯誤してAIで生成した作品が著作物と認められた事例を紹介し、そのポイントは受発注の関係にあることだと解説しました。Wordで作文をするのと同様の行為だと例えて説明しました。

        https://amzn.to/41b6VN3

        【AICU編集部補足】「CGWORLD vol.315」画像生成AIによる表紙メイキング、大公開。Webによる記事に加え、書籍文献版が「AICU Magazine Vol.6」にて入手可能です。

        https://j.aicu.ai/MagV6


        生成AIコンテンツが著作物と認められた場合、著作権法による保護を受けます。逆に、著作権が蔑ろにされた場合、契約違反には該当するものの、権利の侵害には当たらないケースもあることを、具体的な事例を挙げて説明しました。

        生成AIを使用してコンテンツを作成する際の注意点として、AIの学習自体には既存著作物の利用が認められているものの、生成されたコンテンツが既存著作物を想起させるほど似ている場合、著作権侵害になる恐れがあると指摘しました。また、既存の著作物に依拠した類似コンテンツを作成した場合も、著作権侵害になる可能性があると注意喚起しました。

        さらに、裁判官の判断には個人差があるため、同じ事案でも判決が異なる可能性があると述べ、中国では既に2万件ものAI関連の著作権訴訟があり、豊富な判例が蓄積されていることを紹介しました。日本ではまだ訴訟は出ていないものの、今後の動向に注目する必要があるとしました。

        最後に、教育現場における著作権の特別規定について触れ、授業に必要な範囲内であれば複製が可能だが、著作権の利益を不当に害してはならず、授業外に持ち出す場合は許諾を得る必要があると説明しました。

        まとめ

        AI技術の急速な発展に伴い、著作権に関する理解はますます重要になっています。特に生成AIの登場は、従来の著作権の概念を揺るがす可能性を秘めています。今回の講座は、生成AIと著作権に関する最新の情報を学ぶ貴重な機会となりました。今後、AI技術がさらに進化していく中で、著作権に関する知識をアップデートし続ける必要性を強く感じました。生成AIを利用する際には、今回学んだ内容を踏まえ、著作権侵害のリスクを理解した上で、適切な対応を心がけたいと思います。

        画像

        AI時代に求められる教育とは何か?

        AIの急速な発展は、私たちの社会、経済、生活を劇的に変化させています。そして、この変化は「The Great Transition」と呼ばれる大きな転換期を迎えていると言えるでしょう。デジタルハリウッド創立者の杉山知之氏は、「ポストAI時代は到来しない」と述べ、AI技術の進化が継続する未来において、私たちがどのように文化を築き、社会を形成していくべきかを問いかけています。

        キーノート:3名の専門家が「The Great Transition」を語る

        本フォーラムのキーノートには、以下の3名の専門家が登壇します。

        • 安野貴博氏 (AIエンジニア、起業家、SF作家): AIが人間社会のコミュニケーションをどのように変えていくのか、そしてAIが様々な物事のやり方を変えるポテンシャルについて、東京都知事選での実践例を交えて語りました。
        • 岡瑞起氏 (筑波大学准教授、人工生命研究者): 人工生命研究の知見とOpen-endednessの概念から、未来の創造プロセスと社会のあり方を探ります。創造性の概念がどのように変化していくのか、その未来像を提示しました。
        • 藤井直敬卓越教授 (デジタルハリウッド大学大学院): 脳科学者の視点から、「The Great Transition」における教育の役割について、他の2名のスピーカーと共に議論を深めました。

        続く特集もお楽しみに!

        #上原伸一  #近未来教育フォーラム #教育 #AI #人工知能 #TheGreatTransition #デジタルハリウッド

        https://j.aicu.ai/MagV3

        https://j.aicu.ai/MagV6

        Originally published at https://note.com on Nov 30, 2024.

      2. [ComfyMaster36] 動画から新しい動画を生成しよう!

        既存の動画をトレースして、新しい動画を作る方法、知りたくないですか?
        本記事では、そんな期待に応えるべく、AnimateDiffとControlNetを使って参照動画から動きを抽出し、それを基に新しい動画を生成する方法を解説します。

        こんにちわ、AICU media編集部です。
        ComfyUI マスターガイド」第36回目になります。
        本記事では、前回ご紹介したAnimateDiffとControlNetを組み合わせて、動画から異なる動画を生成する「video-to-video (v2v)」を行う方法を解説します。
        「どんなクリエイティブなことができるのか?」と想像を膨らませながら、ぜひ最後まで読み進めてください。きっと新しい発見やアイデアが得られるはずです。

        ★本内容については著作権侵害の可能性がある技術を取り扱います。実験、研究目的とする場合も、参照元にする画像との依拠性・類似性については十分に配慮し、業務的な製作においては所属機関の法務部や担当弁護士などに法的見解を確認してから実施することをおすすめします。

        本連載の初回はこちら。前回はこちら、目次はこちらです。

        [ComfyMaster35] ここから始める動画編!SDXL+AnimateDiffでテキストから動画を生成しよう! #ComfyUI [無料]

          1. 概要

          前回は、AnimateDiff+IP Adapterでテキストから動画の生成を行いました。AnimateDiffに関しては、前回の記事で解説していますので、前回の記事と合わせてご覧ください。

          今回は、動画を参照し、その動画と同じ動きで別の動画を作成します。作成にはControlNetを使用し、参照元動画の動きをトレースし、それを動画生成に適用します。

          2. カスタムノードのインストール

          ★復習[ComfyMaster4]ComfyUIカスタムノード導入ガイド! 初心者でも安心のステップバイステップ解説

          Google ColabでのComfyUI環境設定から学びたい方はこちら
          ★復習[ComfyMaster1] Google ColabでComfyUIを動かしてみよう!

          準備ができたら、以下のカスタムノードを使用するため、ComfyUI Managerからインストールしてください。

          ComfyUI-AnimateDiff-Evolved

          ComfyUI-AnimateDiff-Evolvedは、Stable Diffusionモデルを拡張して動画生成を可能にするカスタムノードです。元のAnimateDiffを進化させたバージョンで、動画生成のためのモーションモジュールと高度なサンプリング技術を組み込んでいます。

          https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

          ComfyUI-VideoHelperSuite

          ComfyUI-VideoHelperSuiteは、動画生成を支援するためのカスタムノードです。動画の編集や加工を容易にする機能を提供します。今回は、一連の画像を動画にして保存するノードを使用するために必要となります。

          https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

          ここまでが、前回の「Text to Video」を実現するカスタムノードのインストールと共通部分になります。

          ここから先は、ControlNet環境を作っていきます。

          ComfyUI-Advanced-ControlNet

          ComfyUI-Advanced-ControlNetは、ControlNetの機能を強化するカスタムノードです。ControlNetの強度をタイムステップやバッチ化された潜在変数にわたってスケジュールする機能を提供します。

          https://github.com/Kosinkadink/ComfyUI-Advanced-ControlNet

          ComfyUI’s ControlNet Auxiliary Preprocessors

          ComfyUI’s ControlNet Auxiliary Preprocessorsは、ControlNetの前処理を支援するカスタムノードです。高度なヒント画像を生成し、画像の質と正確さを向上させる機能を提供します。

          https://github.com/Fannovel16/comfyui_controlnet_aux

          ComfyUI-KJNodes

          動画サイズのリサイズのためにComfyUI-KJNodesを導入します。ComfyUI-KJNodesは様々な便利なノードを格納しています。

          https://github.com/kijai/ComfyUI-KJNodes

          3. モデルのインストール

          RealVisXL V5.0 Lightning

          今回は、RealVisXLのLightningバージョンを使用します。Lightningバージョンでは、サンプリングのステップ数を4-6回に抑えることができます。生成量の多いAnimateDiffでは、TurboやLightningなどの数ステップで生成完了するモデルを選ぶと良いでしょう。
          以下のリンクよりモデルをダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

          https://huggingface.co/SG161222/RealVisXL_V5.0_Lightning/blob/main/RealVisXL_V5.0_Lightning_fp16.safetensors

          SDXL Motion Module

          今回は、SDXLのモーションモジュールとして、「Hotshot-XL」を使用します。Hotshot-XLは、コンテクスト長が8フレームしかありませんが、AnimateDiff-SDXLより品質が良いためです。以下のモデルをダウンロードし、「ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/models」フォルダに格納してください。

          https://huggingface.co/hotshotco/Hotshot-XL/blob/main/hsxl_temporal_layers.f16.safetensors

          ControlNet Union SDXL

          video-to-video (v2v)にControlNetを使用します。以下のControlNetをダウンロードし、「ComfyUI/models/controlnet」フォルダに格納してください。

          https://huggingface.co/xinsir/controlnet-union-sdxl-1.0/blob/main/diffusion_pytorch_model_promax.safetensors

          4. 素材

          v2vで使用する参照元動画を用意します。以下の動画を利用し、DWPoseとDepthで動きを抽出し、ControlNetでこの動きを再現します。

          画像

          以下のリンクより無料でダウンロードできます。

          https://www.pexels.com/ja-jp/video/2795746

          5. ワークフローの解説

          このワークフローは、AnimateDiffを使用して動画を生成する高度な例です。入力動画を基に、AIモデルを使用してスタイライズされたアニメーション動画を作成します。

          画像

          この記事の続きはこちらから https://note.com/aicu/n/n54988052abb7

          Originally published at https://note.com on Nov 28, 2024.