カテゴリー: 画像生成AI

画像生成AIの使い方や最新情報についてお届けします。

  • AICU代表 しらいはかせ がAIアートバトル「AIBATO」にて優勝! 作品とAICU開発技術を公開解説 [期間限定メンバーシップ先行]

    AICU Inc./AICU Japan株式会社 代表 白井暁彦(aka しらいはかせ/AICU編集長/Dr.Hakase:以下「しらいはかせ編集長」)が、AI人工知能EXPO内で開催された「AIアートバトル」チャンピオンシップ決勝に4人のファイナリストとして選出。Stable Diffusion部門で初代優勝を勝ち取りました。

    AICU media編集部は、しらいはかせ編集長の個人クリエイターとしての活動は、(業務に支障がない限り)他の所属クリエイター同様、個人活動として平らに尊重して扱っております。改めておめでとうございます。

    画像
    https://x.com/o_ob/status/1859883395855384816

    本稿では開催概要にあわせて、決勝での作品について紹介し、AICUがこれまで開発に関わってきた技術とともに公開解説いたします。

    AIBATO (AIアートバトル) イベント概要

    https://prtimes.jp/main/html/rd/p/000000006.000147393.html

    主催: 株式会社LimerenceAI
    イベント名: AIBATO (アイバト) – 国内初*のオフラインAIアートバトル
    *注: 国内初の「オフラインAIアートバトル」として (2024年8月時点、株式会社LimerenceAI調べ)

    公式サイト: https://aiartbattle.jp/

    イベントの目的: クリエイターとAIの融合による新しい芸術表現の開拓、AIクリエイターの発掘・支援。

    ポイント:

    • 国内初のオフラインで開催されるAIアートバトル。
    • MidjourneyとStable Diffusion、それぞれでチャンピオンが決定。
    • 著名なクリエイターやAI業界関係者が審査員を務める。
    • 予選はポートフォリオ審査、決勝はリアルタイムのバトル形式。

    開催日時:
    2024年11月21日(木): チャンピオンシップ決勝 (Midjourney使用)
    2024年11月22日(金): チャンピオンシップ決勝 (Stable Diffusion使用)

    開催場所: 幕張メッセ NexTech Week 2024 (AI・人工知能 EXPO) 内 LimerenceAIブース

    審査員:

    • 木下健太郎 (THE FIRST TAKE 映像プロデューサー)
    • 佐藤カズー (TBWA HAKUHODO CCO)
    • 平久江勤 (TBWA HAKUHODO プロデューサー)
    • 元木大介 (KandaQuantum 代表取締役社長)
    • 本田崇人 (株式会社メロン 共同代表CTO)
    • マドカ・ジャスミン (タレント、KandaQuantum CMO)
    • Hakushi (ShiftAI AIクリエイティブ講師)

    大会MC: トンピ (eスポーツキャスター)

    画像
    https://x.com/AI_Marika1018/status/1859923877369168212

    競技形式

    • 予選 (作品選考): ポートフォリオによる審査。MidjourneyとStable Diffusionそれぞれ8名が決勝進出。
    • チャンピオンシップ決勝 (リアルイベント): 主催者からのお題に基づき、制限時間内に画像生成。シングルエリミネーション方式。

    使用ツール: Midjourney, Stable Diffusion


    しらいはかせ本人の個人ブログにて手記が公開されております

    準備編

    https://note.com/o_ob/n/n3ed4cc5266c1

    予習編

    https://note.com/o_ob/n/ndf85d8b24d46

    実況編

    https://note.com/o_ob/n/nf7a760746933


    [PR]使用された技術について

    使用された画像生成テクノロジーにつきましては大会レギュレーションに基づき、多くはAICUメディア編集部より発行されております以下の技術群によって構成されています。

    GPU不要で利用できるAUTOMATIC1111学習のための教科書
    「画像生成AI Stable Diffusionスタートガイド」(SBクリエイティブ刊)

    https://j.aicu.ai/SBXL

    Stability AI APIに関する日本語の情報発信(note無料マガジン)

    Stability AI Fan!|AICU media

    https://note.com/aicu/m/m6000f560d1db

    AICUマガジン Vol.5特集「Stability AI Forever!」

    https://j.aicu.ai/MagV5

    「CGWORLD vol.315」画像生成AIによる表紙メイキング、大公開。
    #デジタルハリウッド30周年 記念寄稿

    上記の原稿はAICU Magazine Vol.6特集「エンターテインメントxAI」に収録されております。 https://j.aicu.ai/MagV6

    Google ColabとGoogle Slidseを使った再現性の高い絵作り技術についてはこちらの記事「#10分で学べるAI」が関連あります。

    https://note.com/aicu/n/n4fcc8c200569

    AICUマガジン5月号「次世代まんが制作術!」に収録されております

    https://j.aicu.ai/Mag2405

    Coloso「生成AIクリエイティブ AICU」シリーズ

    Stability AI API、Google Slides、Google Colabを使った画作りについて短時間で実用的な技術を学ぶことができます。

    ■「超入門:Stable Diffusionではじめる画像生成AI」

    https://j.aicu.ai/coloso1

    ■「初級者:広告企画から動画制作までのプロセス」

    https://j.aicu.ai/coloso2

    ■「ComfyUIマスター:カスタムノードとアプリ開発」

    https://j.aicu.ai/coloso3

    詳細なテクニックにつきましては今後も、AICUマガジンにて特集を組んで紹介予定です。

    https://j.aicu.ai/mag

    「つくる人をつくる・わかるAIを伝える」
    AICU media https://note.com/aicu

    チャンピオンシップ決勝での作品

    しらいはかせのコメントや実際に使われたプロンプトとともに、期間限定メンバーシップ向け先行でお送りします。


    ウォーミングアップ編

    当日のMCが前日のMidJourney部門の報告を行うタイミングや、第1試合が実施されている傍らでリアルタイム生成した画像はこちらになります。

    画像
    正確な文字盤を持った目覚まし時計と、ベッドで横たわる青年
    “prompt”: “photorealistic, detailed, highly detailed, alarm clock with accurate dial, young man lying on bed, bedroom scene, realistic lighting and shadows”, “negativePrompt”: “blurred, blurry, out of focus, low quality, distorted, disfigured, deformed, mutilated, extra limbs, poorly drawn, bad anatomy, bad proportions, ugly, monstrous, mutation, mutant, extra body parts, extra heads, extra faces, extra arms, extra legs, extra hands, extra feet, extra fingers, extra toes, malformed hands, malformed feet, malformed legs, malformed arms, malformed digits, malformed limbs, malformed face, malformed body, malformed proportions, poorly rendered, poorly rendered face, poorly rendered hands, poorly rendered body, poorly rendered proportions, artifacts, errors, defects, low resolution, text, watermark, signature, username, logo, ui, hud, bad quality”
    画像
    “prompt”: “photorealistic, highly detailed, young girl, squinting, blinded by bright flash, dazzled, overwhelmed, dramatic lighting, dynamic pose, intense expression, detailed facial features, detailed eyes, detailed hair, intricate clothing”, “negativePrompt”: “blurred, blurry, out of focus, low quality, distorted, disfigured, deformed, mutilated, extra limbs, poorly drawn, bad anatomy, bad proportions, ugly, monstrous, mutation, mutant, extra body parts, extra heads, extra faces, extra arms, extra legs, extra hands, extra feet, extra fingers, extra toes, malformed hands, malformed feet, malformed legs, malformed arms, malformed digits, malformed limbs, malformed face, malformed body, malformed proportions, poorly rendered, poorly rendered face, poorly rendered hands, poorly rendered body, poorly rendered proportions, artifacts, errors, defects, low resolution, text, watermark, signature, username, logo, ui, hud, bad quality”
    画像
    “prompt”: “movie poster, intense, gripping, thrilling, action, suspense, drama, security, robust, impenetrable, fortress, stronghold, armored, shielded, protected, guarded, cinematic, photorealistic, highly detailed, dynamic composition, dramatic lighting, bold typography”, “negativePrompt”: “blurred, blurry, out of focus, low quality, distorted, disfigured, deformed, mutilated, extra limbs, poorly drawn, bad anatomy, bad proportions, ugly, monstrous, mutation, mutant, extra body parts, extra heads, extra faces, extra arms, extra legs, extra hands, extra feet, extra fingers, extra toes, malformed hands, malformed feet, malformed legs, malformed arms, malformed digits, malformed limbs, malformed face, malformed body, malformed proportions, poorly rendered, poorly rendered face, poorly rendered hands, poorly rendered body, poorly rendered proportions, artifacts, errors, defects, low resolution, text, watermark, signature, username, logo, ui, hud, bad quality”

    まず、これらの非常に長いプロンプトを英語で表現する上で、シードやモデルとともに一貫性を維持するため、プロンプトエンジンとしてAWSを利用した自社開発のシステムを運用しております。

    ベースになっているシステムはAWSが公開しているオープンソースでのGenUであり、AWS 生成 AI 実用化推進プログラムの協力もあり、実用レベルでの実証実験を行っております。

    例えば、AICUが実施を担当している、神奈川県「ともいきメタバース講習会プロジェクト」でも障害者むけワークショップでiPad等で利用されており、以下の書籍でも報告されております。

    ■メタバースとAIで「ともに生きる」を実装する本 ~ 神奈川県の障害福祉現場で開発してみた!(技術書典17:DHGS_CAIL デジハリ大学院「クリエイティブAIラボ」)

    https://techbookfest.org/product/2wMwe21GnNdPPpQeby4Dc9?productVariantID=pD8wVXcUzd5zcvXRwH122L

    ネット環境やPC、GPU環境が乏しい環境においても安定して日本語でStable Diffusion XLを用いた画像生成が行える環境になります。構築についてのご相談はAICU AIDX Labまでお問い合わせください。

    画像

    さらに続きます。
    上記のプロンプトエンジンは、あくまでベースモデルとなるStable Diffusion XL (SDXL)での生成となります。このプロンプトをベースに複数のモデルにおいて、適した画像を生成していく方針になります。またSDXLは2023年6月に公開されたモデルであり、ベースモデルとしてオープンに公開されており、また光の表現や構図構成力、解像度などはSD1.5系とは一線を画すレベルですが、指の表現や人物・人種の偏りには難があります。またメモリ消費が大きくローカルGPUでの複数モデル同時利用は現実的ではありません。そのため、近年公開されたSD3系のモデルを複数並列してAPIを経由して利用します。

    例えばGoogle ColabやGoogle Slides、Windowsのバッチファイルなど、ありとあらゆるインタフェースやツールを使い、並列して再現性高く評価していきます。また同様に、SD3だけでなく、SD3.5やFlux、またそのLoRAなども並列して評価を行っています。

    Shot1テーマ: ”息が止まる”

    画像
    “prompt”: “manga, comic panel, underwater scene, swimmer, holding breath, intense gaze, blue water, bubbles, athletic body, dynamic pose, comic shading, manga line art”, “negativePrompt”: “blurry, low quality, watermarks, text, logos, inappropriate content, explicit nudity, gore, violence”,

    例えばこちらは、Google Slidesでのテストです。

    画像

    Google Driveに生成された中間生成群です。

    画像

    もともと「AIバリエーション広告」(AICU用語で制御高く広告のバリエーションを生成するテクニック、またAIでスタイルを制御しながらA/Bテストなどを準備して入稿するところまでを指すこともあります)のためにStability AIさんの協力でAICUが開発したものです。

    実際にお手元のGoogle Slidesでお使いいただけるリンクも紹介します。

    第2テーマは「最新AIツールの広告」

    作品「AI代供養に出資しませんか?」、こちらは上記の手法で、Google Slides上でできています。「実況編」にあるとおり、主催の平田茉莉花さんの「AI仏壇」をテーマにキャッチコピーとビジュアルコンセプトを考えたものですが、Google Slidesなので文字のタイプセットやフォント、装飾などもスタイリッシュにテンプレートを作り込むことができます。

    画像
    “prompt”: “futuristic buddhist altar, money printing, stacks of cash, blonde short-haired businesswoman, black suit, tight skirt, boots, slick advertising, unethical business practices, ai technology”, “negativePrompt”: “blurry, low quality, watermarks, text, logos, offensive content, illegal activities, extreme views, hate symbols, religious insensitivity, sexualized imagery, inappropriate elements”,
    画像
    Style used: digital-art Prompt=futuristic buddhist altar, money printing, stacks of cash, blonde short-haired businesswoman, black suit, tight skirt, boots, slick advertising, unethical business practices, ai technology NP=NSFW, worst quality, ugry, blurry, low quality, watermarks, text, logos, offensive content, illegal activities, extreme views, hate symbols, religious insensitivity, sexualized imagery, inappropriate elements

    処理としても、プロンプトを設定してから数十枚の画像の結果を見るまで、他の処理系や評価に集中できるので、確実に短い時間で、確実に品質の高いアウトプットを、確実に制御性高く出力することができます。

    画像

    このGoogle Slidesを使ったツール内部はGoogle Apps Scriptで書かれており、一番最初のスライド上の各テキストオブジェクトにプロンプトやパラメータを設定するという風変わりなツールになっています。
    これは画像生成AI時代の「ガトリング砲」のような手法であり、プロフェッショナルな画像生成案件において培われたノウハウでもあります。

    決勝Shot1お題は「ニルヴァーナ」

    作品「魑魅魍魎曼陀羅」です。同様の手法で作られていますが、仕上げの段階が異なってきます。

    画像
    画像
    画像
    画像
    画像
    画像
    画像

    AICU-Stability-AdGenerator を使った絵作りの利点として、スライド上での評価が高速に行える点があります。写真を比較して差分を確認して、より良い広告を作るためのノウハウは先に述べたとおりですが、表情やスタイルの違いを横断的に評価できます。またレイアウトも自由に検討できます。
    さらにバッチ処理の待ち時間に並行してGoogle Colabを使ったスタイル学習を試しています。

    [AIBATO]AICU_Coloso1_Original_Tool.ipynb という Coloso第一弾の購入者向けに開発したツールであり、プロンプトを分割して Stable Image Ultraで生成したり、シードを横断的に指定したり、スタイルを学習させることができます。

    画像
    画像

    例えばこの絵は「ニルヴァーナ感は高いですが、平田茉莉花さんのキャラクターとしては神々しさよりももっと邪悪な狡猾さをきちんと組み込んでいきたいな」といった判断があります。大会レギュレーションに沿うと縦長画像を生成する必要がある一方で、ディスプレイとしては横長であり、PCモニタとディスプレイの色味も異なるので、生成しつつもどちらで勝負するかは考えながら審査表示用の画像やツイートなども準備しています。

    ツイートに関しては、勝負を馬鹿にしたり余裕を噛ましているのではなく、「余裕時間や区切りを作っている」というテクニックになります。「時間最後までギリギリにやるぞ」と考えていると、画像生成にかかる時間を逆算できなくなりますので、「最後はツイートまでするぞ」と保存やツイートにかかる時間を逆算しつつ、タイムスタンプとしての時系列を記録しています。また後ほどこの原稿のようにタイムラインを振り返るためにも必要な行為です。こうして、制御性の高いプロフェッショナルの絵作りノウハウが積み重ねられていく、以上が解説になります。

    最終テーマは「背水の陣」

    以上が基本テクニックです。エンターテインメントとしての生成AIアートバトルを意識して、これまで作ったプロンプトを合体させつつ斬新なコンセプトやウィットの利いたジョークをキャッチコピーと画像のコンセプトに忍ばせつつ、品質の高い制御された絵作りをツイート込みで続けていきます。

    最終テーマは「背水の陣」ですが、ここでゼロからの絵作りを勝負するのは良い戦法ではありません。審査員も観客も、すべての手の内を見ておりますので、目も肥えてきます。隠し武器はたくさん持っているのですが、文字通り「背水の陣」であれば、いままで使ってきたテクニックだけでより完成度の高い統合や、世界観、広告としてのエンゲージメントを勝ち取らねばなりません。

    特に世界観を支える背景や、キャラクターデザイン、それを支えるモデルやシードは運ではなく、開発して錬成して制御していく要素なので、短い時間で緊張感のある現場ですが、丁寧にログが残る形でGoogle Colabノートブックで生成しています。

    画像
    画像

    リクエストはREST APIによって行われ、繰り返し構文「For」を使ってシードやフィデリティパラメータを調整していきます。ファイル名にプロンプトやパラメータが残るようになっています。

    画像
    画像
    画像
    画像

    一見余裕を噛ましているように見えますが、こういうときは「この系は一旦終わりにしよう」という意味でもあります。
    息を吐くようにツイートし、写真や漫画やイラストレーションなどで経験があるしらいはかせならではの行動かもしれませんが、絵師さんがツイートするときも同じような気持ちの切り替え行動をしていると想像します。

    なお、表情の探求についてはプロンプトとスタイル制御で行います。このあたりは細かいところはColoso動画で紹介しています。

    画像

    これは「半目閉じ」を指定しつつ、背景に魑魅魍魎が足りなかった、また曼荼羅としての方位を示す要素が甘かった、などで没になった画像です。このような画像の評価もGoogle Colabは便利ではなく、Google DriveやSlidesを使うように連携しています。

    画像
    画像

    最後の方は秒単位まで集中していますので、コピーライティングとしての文字や漢字のトンマナ調整、レイアウトなども整理させていただくとこんな感じになると思います。これもGoogle Slidesでの作業です。

    画像

    以上が主なツールや技術の紹介になります。
    Coloso第一弾企画の復習ですね! 
    本当に良い講座なので、幅広い人にみてもらいたい。

    https://j.aicu.ai/coloso1


    作品の文字なしクリア素材や中間生成物、ツールなどについては有料パートに置かせていただきます。

    ここから先はAICUマガジンの特集の方で公開していく予定ですが、ご質問等はコメントいただけましたら、解説を拡充していきたいと思います。

    以上ご報告でした。
    今後ともAICU mediaをよろしくお願いいたします。

    寄稿・生成AIクリエイター しらいはかせ (@o_ob)


    この記事の続きはこちらから https://note.com/aicu/n/n26c3001b2b13

    Originally published at https://note.com on Nov 26, 2024.

  • 2025年はAITuber元年!?『gogh(ゴッホ): Focus with Your Avatar』に注目!!

    AICUマガジンで人気の「サクッと先取り !クリエイティブAIツール」、略して「サクリ!AIツール」としてマガジン連載化しました。毎日どんどん登場するクリエイティブなAIツールの要点をサクッと短く紹介します。
    今回はちょっと変わったアプリ『gogh(ゴッホ): Focus with Your Avatar』というスマホアプリを紹介します。

    「gogh」はアバターメイカー、ルームビルダー、ペット育成、集中ツールが一体となった「作業の集中」を目的としたツールです。ポモドーロタイマー(仕事を 25 分ずつのセッションに分け、そのあいだに短い休憩をはさんで行う時間管理術)のようでもあります。勝手に動くVTuberつまり「未来のAI Tuber」のようでもあります。作業の集中を前景に、可愛いアバター、自分好みにカスタマイズした部屋、心地よいLofi音楽と環境音などを背景にした、一見「地味」ではありますがクリエイティブなAIツール…これは「つくる人をつくる」「わかるAIを届ける」をビジョンにするAICU編集部としては「なんか気になる…未来感」があるアプリなのです。

    アプリ版「gogh」とは?

    『gogh』は、iOS/Androidアプリとしてすでに公開されており、2024年7月の公開からわずか1ヶ月で、国内10万ダウンロードを突破したそうです。

    noteでのユーザーの声を調査してみました

    自動作業ゲームといえばAIアルゴリズムの活用の古典のような分野であります。工場自動化シュミレーションゲームや「クラッシュ・ロワイヤル」や「ドラゴンクエスト」のような戦闘を自動化したゲームなどは存在しますが、いずれも「主体的なゲーム体験」が存在します。特に主体的な目的がなく「作業の集中」を前景に、背景を自動化した、くつろぎやリラックスといった「チル(chill)」を目的とする独特のユーザー体験が、ユーザーにとってどのように受け止められているのか、AICU編集部の独自取材によって調査してみました。

    ■『ambr、アバター集中支援アプリ「gogh(ゴッホ)」ベータ版をリリース。AI同僚と働くメタ世界へ』~【web3&AI-テックビジネスのアイディアのタネ】2024.7.25(モリプト タツヤさん)

    https://note.com/morika_wa/n/ncc07e1ce0a23

    ■【gogh(ゴッホ)】という映えるアバターアプリ✨️(こざめ👾Lv.100 さん)

    https://note.com/lovely_eel5339/n/na7af4c2fa734

    ■ gogh。自分にはできない生活をアバターがしている喜びについて。(砂さん)

    https://note.com/sandriver/n/n1973c6186d96

    ■ 自分で創った推しが秒速30万kmで突っ込んできた話 ~gogh~ (志乃屋の空蝉さん)

    https://note.com/shinoya_ustusemi/n/nf785912112d7

    新しすぎる体験ではありますが、ポジティブな共感、特にアバターの可愛さへの共感や、趣味に全力を投じる生活感に共感しているユーザーが一定数いることが観測できます。

    開発企業である日本の株式会社ambrから、この「gogh」にPC版のリリースがアナウンスされました。Steamストアページでは、世界に向けて各国語版のトレイラー動画も公開されています。ウィッシュリストへの登録も開始しています。

    Steamストアページ: https://store.steampowered.com/app/3213850/gogh

    スマホアプリ版を超える機能満載の作業ゲームの進化系

    画像

    gogh: Focus with Your Avatarは、アバターメイカー、ルームビルダー、ペット育成、集中ツールが融合した作業用ゲームです。好きに囲まれた部屋、Lofi音楽や美しい環境音、作業を共にするかわいいアバターや成長する不思議なキャラクターが、あなたのデスクワークをもっと楽しく!

    Steamストアページ:https://store.steampowered.com/app/3213850/gogh

    画像
    • 圧倒的自由度の部屋づくり:
      家具や小物を自在に配置、色替えできる自由度の高いルームカスタマイズ。配置ができたらモニターやポスターやレコードなどのルームアイテムに好きな画像やGIFを貼って、あなただけの唯一無二の部屋にしよう! つくった部屋は複数保存して、気分にあわせた切り替えも。
    画像
    画像
    • 可愛いアニメスタイルのアバター
      豊富な顔パーツや髪型、ファッションで、あなたと作業を共にするアバターを自在にカスタマイズ。タイマーと連動して集中と休憩を繰り返すので、作業の「相棒」感は抜群。さらに、ベッドや床など好きな場所に移動したり、作業以外のさまざまなアニメーションをさせたりと、フォトモードでの撮影も楽しめるようになるそうです
    画像
    画像
    • 育成ゲームと融合した集中ツール: シンプルなToDoリストと多機能タイマーでタスク管理と集中を支援。作業時間に応じて不思議な生き物が成長・世代交代を繰り返し、日々のタスクを「新種を育てる楽しさ」へと変えます。
    画像
    • チルなLofiビートと環境音ブレンド
      日本発のLofi音楽レーベル“Japanolofi Records”によるチルな楽曲など、気分や時間帯に合わせて選べる豊富なプレイリストでリラックス。また、好みに合わせて組み合わせられる環境音や、タイピング音などのアバターASMRも重なって、心地よいサウンドが部屋中に広がります。

    ▼日本発のアバター×作業集中ゲーム『gogh: Focus with Your Avatar』2025年発売決定のお知らせ 2024年11月12日 11時00分

    https://prtimes.jp/main/html/rd/p/000000041.000043299.html

    ユーザーからのPC版への要望は多かったようで、ユーザーからの要望に応える形でSteamでの発売が決定したそうです。縦画面だったアプリ版の機能に加え、ペット育成や複数ルーム保存など、さらに進化した機能も追加予定とのことです。

    まとめ:編集部の「ここがサクリ!」

    AICU編集部的に「ココが刺さる!」というポイント、特に未来的な可能性をまとめておきます。

    VRとゲームとキャラクターを熟知したスタジオによる最新作

    開発元 ambrは “The World Is a Playground.”をビジョンに掲げる、仮想世界スタジオです。自社独自の仮想世界やIP・ブランド向けの仮想空間開発を手掛けており、「東京ゲームショウ」のVR版を2021年から4年連続で担当していらっしゃいます。
    https://prtimes.jp/main/html/rd/p/000000039.000043299.html

    またゆるキャラのイベント「ゆるバース」のバーチャル空間をRoblox上に開発するといった活動もされております。
    https://prtimes.jp/main/html/rd/p/000000040.000043299.html

    VRとゲームとキャラクターを熟知したスタジオ、しかも東京ゲームショウや公共に信頼されたスタジオによる最新作、これは日本が得意とするIP(知的財産、キャラクターなど)を大切にすることが上手なスタジオのオリジナル作であり、可能性を感じます。

    主張しない「窓」のようなスマホアプリの未来

    「ゲームなのかツールなのか」という軸は「役に立つか、立たないか」という軸であると表現もできますが、「gogh」の目的はチルであり、あくまで環境として、主張しない立ち位置です。これは「もう一つの世界の窓」として機能するアプリになる可能性があります。

    そして結果として、あなたのスマホの起動時間ランキングでは、1位が取れる可能性があるのかもしれません。そういえば睡眠に注目したアプリ「ポケモン・スリープ」はアプリ起動時間ランキング上位であり、そのユーザーの睡眠時間の結果などを共有しています。

    https://prtimes.jp/main/html/rd/p/000000004.000126093.html

    【世界の『Pokémon Sleep』ユーザー10万人以上のプレイデータから算出】世界7カ国の平均睡眠時間をランキング!世界の平均睡眠時間は6時間28分 日本は世界平均より36分少なく最下位!(株式会社ポケモン 2024年1月26日)

    しかし、3カ月以上継続してプレイした日本のユーザーは、1カ月プレイでは約30分3カ月以上プレイすれば約1時間10分睡眠時間が増え、睡眠学の世界的権威 柳沢先生も「日本人もやれば出来るんだ」と驚く結果に

    https://prtimes.jp/main/html/rd/p/000000004.000126093.html

    一見役立たなさそうなところに、きちんと可能性がある、非常に興味深い未来の価値が見え隠れしていますね。

    エモーションにそっと訴えかける個性的なデザイン

    上記の睡眠時間や集中時間といったサイエンスやマーケットとしての価値とは別に、スプラトゥーンのようなスタイルのデフォルメ頭身でのスタイリッシュなアバターや、趣味の生活満載の空間は、イラストレーションが好きな方やクリエイターのみなさんには好まれる方も多いと想像します。本記事ではあえて「クリエイティブAIツール」という切り口で紹介していますが、このツールはAIによって人間のクリエイティブを”破壊”するのではなく、人間の集中を個性的なアバターで”助力”することでクリエイティブな時間を大切にしています。具体的にはスマホを通信やSNSといったクリエイティブな集中時間から阻害する要素をやんわりと保護してくれています。
    noteのユーザーさんのブログにもあるように、仕事に子育てに、日々とても忙しい方々にとって「代わりに趣味を満喫して集中してくれる」という代理をする「もうひとりの自分の姿を愛でる」も新しい体験かもしれません。

    21世紀も四半世紀が経過する中で、より多様化するライフのあり方に、可能性を感じます。

    日本発のアバター×作業集中ゲーム『gogh: Focus with Your Avatar』の発売は2025年。AICUではこれを「2025年はAITuber元年!」とらえ、Steamストアにてウィッシュリストでのスタートダッシュを応援していきたいと思います。

    https://prtimes.jp/main/html/rd/p/000000041.000043299.html

    Steamストアページ:https://store.steampowered.com/app/3213850/gogh


    [notice]本稿はプレスリリースをもとにAICU編集部の独自取材によって構成されております。
    企業のPR案件、プレスリリースのお伝えはこちらのフォームよりどうぞ。

    https://j.aicu.ai/pubreq

    https://note.com/aicu/m/m8c3003efc9f8

    Originally published at https://note.com on Nov 23, 2024.

  • Black Forest Labs「FLUX.1 Tools」発表!異次元の高画質を自在に操る新機能4つを試してみた

    2024年11月21日、Black Forest Labsは、ベースのテキスト画像生成モデルFLUX.1に制御性と操作性をもたらすモデルスイート、「FLUX.1 Tools」のリリースすることを発表しました。

      「FLUX.1 Tools」リリース概要

      オープンアクセスモデルと FLUX.1 [pro]を補完するBFL APIで利用可能な4つの異なる機能で構成されています。

      • FLUX.1 Fill: 最先端のインペイントとアウトペイントモデル。テキストとバイナリマスクで現実の画像と生成された画像の編集と拡張を可能に。
      • FLUX.1 Depth: 入力画像から抽出された深度マップとテキストプロンプトに基づいて、構造的ガイダンスを可能にするモデル。
      • FLUX.1 Canny: 入力画像から抽出されたキャニーエッジとテキストプロンプトに基づいて、構造的ガイダンスを可能にするモデル。
      • FLUX.1 Redux: 入力画像とテキストプロンプトを混合および再作成できるアダプター。

      このリリースは、研究コミュニティ向けに最先端のオープンウェイトモデルを提供すると同時に、APIを通じてクラス最高の機能を提供するという、二重のコミットメントを強化する目的とのことで、各ツールは BFL API で FLUX.1 [pro] のバリアント(亜種)としてリリースしつつ、推論コードと重みをガイダンス蒸留されたオープンアクセスFLUX.1 [dev]バリアントとして提供します。さらに、リリースされたモデルは、パートナーの fal.aiReplicate, Together.ai, Freepikkrea.ai からも入手できます。

      以下公式提供の画像より

      FLUX.1 Fillによるインペイントとアウトペイント

      FLUX.1 Fillは、Ideogram 2.0などの既存のツールや、Alimama CreativeのFLUX-Controlnet-Inpaintingなどの人気のあるオープンソースバリアントを凌駕する高度なインペイント機能を導入します。既存の画像と自然に統合されるシームレスな編集が可能です。

      画像

      さらに、FLUX.1 Fillはアウトペイントをサポートしており、ユーザーは元の境界を超えて画像を拡張できます。

      画像

      [ベンチマークへのリンク]を実施した結果、Flux.1 Fill [pro]は他のすべての競合方法よりも優れており、現在までの最先端のインペイントモデルとなっています。2番目はFlux.1 Fill [dev]で、独自のソリューションよりも優れており、推論の効率も高くなっています。

      画像

      Flux.1 Fill [dev]はFlux Dev Licenseの下で利用可能です。

      • Hugging Faceで入手可能な完全なモデルの重み: [Fill]
      • GitHubで入手可能な推論コード: GitHub
      • Flux.1 Fill [pro]は[BFL API]で利用可能です。

      FLUX.1 Canny / Depthによる構造的コンディショニング

      構造的コンディショニングは、キャニーエッジまたは深度検出を使用して、画像変換中の正確な制御を維持します。エッジまたは深度マップを通じて元の画像の構造を保持することにより、ユーザーはコアとなる構成をそのまま維持しながら、テキストガイド付きの編集を行うことができます。これは、画像のテクスチャ変更に特に効果的です。

      画像
      画像

      [ベンチマークへのリンク]の評価では、FLUX.1 DepthはMidjourney ReTextureなどの独自モデルよりも優れています。特に、FLUX.1 Depth [pro]はより高い出力多様性を提供し、FLUX.1 DepthのDevバージョンは深度認識タスクでより一貫した結果を提供します。キャニーエッジモデルの場合、[ベンチマークへのリンク]はこちらで、FLUX.1 Canny [pro]がクラス最高で、FLUX.1 Canny [dev]がそれに続きます。

      画像

      FLUX.1 Canny / Depthは、最大限のパフォーマンスのためのフルモデルと、開発を容易にするためのFLUX.1 [dev]に基づくLoRAバージョンの2つのバージョンで利用可能です。

      Flux Depth / Canny [dev]はFlux Dev Licenseの下で利用可能です。

      • Hugging Faceで入手可能な完全なモデルの重み:[Depth] [Canny]
      • Hugging Faceで入手可能なLoRAの重み: [Depth] [Canny]
      • GitHubで入手可能な推論コード: GitHub
      • Flux.1 Depth / Canny [pro]はBFL APIで利用可能です。BFL API

      FLUX.1 Reduxによる画像のバリエーションとリスタイリング

      FLUX.1 Reduxは、画像バリエーション生成のためのすべてのFLUX.1ベースモデルに対応するアダプターです。入力画像が与えられると、FLUX.1 Reduxはわずかなバリエーションで画像を再現し、特定の画像を改良できます。

      これは、プロンプトによる画像のリスタイリングを可能にする、より複雑なワークフローに自然に統合されます。リスタイリングは、画像とプロンプトを提供することにより、APIを通じて利用できます。この機能は最新のモデルFLUX1.1 [pro] Ultraでサポートされており、入力画像とテキストプロンプトを組み合わせて、柔軟なアスペクト比で高品質の4メガピクセル出力を生成できます。

      画像

      [ベンチマークへのリンク]は、FLUX.1 Reduxが画像バリエーションにおいて最先端のパフォーマンスを達成していることを示しています。

      画像
      画像

      Flux.1 Redux [dev]はFlux Dev Licenseの下で利用可能です。

      • Hugging Faceで入手可能なモデルの重み: [Redux]
      • GitHubで入手可能な推論コード: GitHub
      • FLUX1.1 [pro] UltraをサポートするFlux.1 Reduxは BFL APIで利用可能です。

      有料APIは[api.bfl.ml]で提供されています。
      ドキュメントはこちら  https://docs.bfl.ml/


      Falでの環境を確認!異次元の高画質を自在に操る新機能4つを試してみた

      ここから先はAICU編集部による”自腹調査”です。
      Falでは既にリリースされていました。

      画像

      こちらの検索結果に表示されています。

      https://fal.ai/models?keywords=flux&categories=image-to-image

      Fill: 強力なインペイント機能

      https://fal.ai/models/fal-ai/flux-pro/v1/fill

      ベースの画像がこちらです。

      画像

      与えるマスク画像がこちらです。盾をざっくり塗った感じです。

      画像

      以下のプロンプトを投じてみます。

      A knight in shining armour holding a greatshield with “AICU” on it

      できました!

      画像
      画像

      コストは1メガピクセルあたり0.05ドルだそうです。

      Canny: 高度な置き換え機能

      サンプル「Flux-lora-canny」ではフクロウをピンクに塗り替えています。
      https://fal.ai/models/fal-ai/flux-lora-canny

      画像
      画像
      画像

      サンプル「Flux-pro-canny」ではFLUX.1 [pro]を使ったCannyが体験できます。
      https://fal.ai/models/fal-ai/flux-pro/v1/canny

      画像

      Depth

      サンプルが何故かブラックホールの奥行き、という謎の画像なので開設を割愛します。

      画像

      Redux

      Flux[pro] ultra Redux https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra/redux

      入力画像とプロンプトを使って、もとのスタイルに近い画像を生成できるようです。

      画像
      画像

      出力結果です。
      制御性はあまり良くない印象ですが、画質は素晴らしいので使い道を考えて生きたいところですね。

      画像

      ComfyUIがゼロデイ対応

      「FLUX.1 Tools」が、ComfyUI で初日からサポートされるようになりました。
      – FLUX.1 塗りつぶし – >画像の塗りつぶしや拡大に最適
      – FLUX.1 Redux – >イメージの異なるバージョンを作成する
      – コントロールネット – >キャニーガイドまたは深度ガイドを使用して画像を制御する

      サンプル画像としてわかりやすいのでこちらのポストをぜひご確認ください。

      編集部の印象

      Stability AI の API群とも近い感じですが、リリース直後からFalやReplicate、ComfyUIなどで利用できるのは流石ですね!
      また商用利用できる点も良いですね。
      FLUX1[pro]自体の画質は過学習気味な印象があります。

      Alimama Creative の例では商用IPに類似した出力が示されていますが、Image-to-Imageに商用IPを使うのは日本の著作権法を侵害する可能性が非常に高いので、技術的にできるという点と、倫理的にやっていいか、という視点は並列に持っておくほうが良さそうですね。

      いずれにせよ今回の「FLUX.1 Tools」はモデルとAPIだけでシンプルに制御できるので、サービスを開発するには役立ちそうです。Staility AI 3.5系の熾烈な戦いが始まりますね。

      [PR] 基本を学びたいひとはこちら!

      https://j.aicu.ai/coloso1

      Originally published at https://note.com on Nov 21, 2024.

    1. [ComfyMaster35] ここから始める動画編!SDXL+AnimateDiffでテキストから動画を生成しよう!

      Stable Diffusionをベースに開発されたAnimateDiffは、シンプルなテキストプロンプトから動画を簡単に作成できます。画像生成AIを使って動画を生成する基本を知りたい方に向けて、この記事で一気に詳しく解説しています。

      ※本記事はワークフロー含め、期間限定無料で提供します!

      [PR] ComfyUIマスター:カスタムノードとアプリ開発

      https://j.aicu.ai/Coloso3

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第35回目、ついに動画編に突入です!

      本記事では、SDXLとAnimateDiffを用いて、テキストから動画を作成する方法を説明します。AnimateDiff単体では、生成された動画は一貫性を保持しにくいですが、その原因と緩和方法をあわせて解説していきます。

      本連載の初回はこちら。前回はこちら目次はこちらです。

      [ComfyMaster34] 便利LoRA紹介: Detail Tweaker XLで画像の精細さをコントロール #ComfyUI

        1. AnimateDiffの概要

        AnimateDiffとは

        AnimateDiffは、Stable Diffusionをベースに開発された画像から動画を生成するtext-to-video(t2v)の技術です。既存のtext-to-image(t2i)モデルを特別な調整なしにアニメーション生成モデルに変換する実用的なフレームワークであり、これにより、ユーザーは高品質な画像生成能力を持つt2iモデルを、そのまま滑らかで視覚的に魅力的なアニメーションを生成するために活用できるようになります。

        AnimateDiffの仕組み

        AnimateDiffの核心は「モーションモジュール」という、事前にトレーニングされたプラグアンドプレイのモジュールにあります。このモジュールは、リアルな動画データからモーションプライア(Motion Priors)を学習しており、一度トレーニングされると、同じ基盤となるT2Iモデルを使用する他のパーソナライズT2Iモデルにもシームレスに統合可能です。具体的な仕組みは以下の3つのステップに分かれます。

        モーションプライア(Motion Priors)とは?

        モーションプライアとは、動画データから学習される「動きの先行知識」を指します。これには以下の特徴があります。

        • 動きのパターンの学習:モーションプライアは、動画の連続フレーム間の変化やダイナミクスを捉え、自然な動きを再現します。
        • 汎用性の確保:一度学習されたモーションプライアは、異なるt2iモデルにも適用可能で、モデルごとに動きを学習し直す必要がありません。
        • 高品質なアニメーション生成:モーションプライアにより、生成されるアニメーションが時間的な一貫性と滑らかさを持ちます。

        1. ドメインアダプターの導入

        画像

        AnimateDiffでは、まず「ドメインアダプター」と呼ばれる別のネットワークを導入します。これは、画像データと動画データの間に存在する画質や内容の違いを補正するためのものです。動画データはしばしば動きのブレや圧縮アーティファクト、ウォーターマークが含まれるため、直接学習させるとアニメーションの品質が低下する恐れがあります。ドメインアダプターを用いることで、モーションモジュールはモーションプライアのみを学習し、画像の質に関する情報は元のT2Iモデルが保持します。

        2. モーションモジュールの学習

        画像

        次に、「モーションモジュール」を学習します。これは、動画データから動きのパターンであるモーションプライアを抽出し、アニメーション生成に必要な時間的なダイナミクスをモデルに追加する役割を担います。モーションモジュールは、Transformerアーキテクチャをベースにしており、動画の各フレーム間の関連性を学習します。このモジュールをT2Iモデルに統合することで、生成される画像が時間とともに自然に動くアニメーションへと変換されます。

        3. MotionLoRAによる動きのパターンの微調整

        画像

        最後に、「MotionLoRA」と呼ばれる軽量な微調整技術を用います。これは、既に学習済みのモーションモジュールを新しい動きのパターンに適応させるためのもので、例えばカメラのズームインやパンニングといった特定の動きを追加したい場合に使用します。MotionLoRAは少数の参考動画と短時間のトレーニングで新しい動きのパターンを学習できるため、ユーザーは簡単に特定の効果を追加できます。

        AnimateDiffの利点

        AnimateDiffの主な利点は以下の通りです。

        • モデル固有の調整が不要: 既存のt2iモデルをそのままアニメーション生成に活用できるため、ユーザーは手間をかけずにアニメーションを作成できます。
        • 高品質なアニメーション: モーションモジュールがモーションプライアを学習することで、生成されるアニメーションは自然で視覚的に魅力的です。
        • 柔軟な動きのカスタマイズ: MotionLoRAを用いることで、特定の動きのパターンを簡単に追加・調整できます。
        • 効率的なトレーニングと共有: MotionLoRAは少量のデータと短時間のトレーニングで動きを学習できるため、ユーザー間でのモデル共有も容易です。

        2. カスタムノードのインストール

        さて早速はじめていきましょう。
        ComfyUIでのカスタムノードのインストール方法があやふやな方はこちらを復習お願いいたします。

        ★復習[ComfyMaster4]ComfyUIカスタムノード導入ガイド! 初心者でも安心のステップバイステップ解説

        Google ColabでのComfyUI環境設定から学びたい方はこちら
        ★復習[ComfyMaster1] Google ColabでComfyUIを動かしてみよう!

        準備ができたら、以下のカスタムノードを使用するため、ComfyUI Managerからインストールしてください。

        ComfyUI-AnimateDiff-Evolved

        ComfyUI-AnimateDiff-Evolvedは、Stable Diffusionモデルを拡張して動画生成を可能にするカスタムノードです。元のAnimateDiffを進化させたバージョンで、動画生成のためのモーションモジュールと高度なサンプリング技術を組み込んでいます。

        https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved

        ComfyUI-VideoHelperSuite

        ComfyUI-VideoHelperSuiteは、動画生成を支援するためのカスタムノードです。動画の編集や加工を容易にする機能を提供します。今回は、一連の画像を動画にして保存するノードを使用するために必要となります。

        https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

        3. モデルのインストール

        RealVisXL V5.0 Lightning

        今回は、RealVisXLのLightningバージョンを使用します。Lightningバージョンでは、サンプリングのステップ数を4-6回に抑えることができます。生成量の多いAnimateDiffでは、TurboやLightningなどの数ステップで生成完了するモデルを選ぶと良いでしょう。
        以下のリンクよりモデルをダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

        https://huggingface.co/SG161222/RealVisXL_V5.0_Lightning/blob/main/RealVisXL_V5.0_Lightning_fp16.safetensors

        SDXL Motion Module

        SDXLのモデルで動画生成するため、SDXLのモーションモジュールをダウンロードします。SDXLのモーションモデルには、「AnimateDiff-SDXL」「Hotshot-XL」の2種類があります。AnimateDiff-SDXLは16フレーム、Hotshot-XLは8フレームのコンテクストに対応しており、AnimateDiff-SDXLのコンテクストは長く、一貫した動画を作成しやすいですが、一方で品質が悪いことが指摘されています。詳細は、以下のIssueをご確認ください。

        https://github.com/guoyww/AnimateDiff/issues/382

        今回は、両方のモデルを使用してみます。それぞれ以下よりダウンロードし、「ComfyUI/custom_nodes/ComfyUI-AnimateDiff-Evolved/models」フォルダに格納してください。

        • AnimateDiff-SDXL

        https://huggingface.co/guoyww/animatediff/blob/main/mm_sdxl_v10_beta.ckpt

        • Hotshot-XL

        https://huggingface.co/hotshotco/Hotshot-XL/blob/main/hsxl_temporal_layers.f16.safetensors

        4. ワークフローの解説

        以下がワークフローの全体像になります。このワークフローは、テキストプロンプトから直接アニメーション動画を生成する簡潔な例です。AnimateDiffを使用することで、フレーム間の一貫性を保ちながら滑らかなアニメーションを生成します。低ステップ数(4ステップ)での高速生成を行いながら、AnimateDiffの特性を活かして品質を維持しています。

        画像

        ワークフローは、以下のリンクよりダウンロードしてください。

        https://note.com/api/v2/attachments/download/2aaedfeba22c3cfd52c3184503b3c893

        このワークフローの構造を以下の通りにフローチャートで表現します。

        画像

        以下に、このワークフローの主要な部分とその機能を詳細に説明します。

        1. モデルとAnimateDiffの設定:
          • Load Checkpoint ノード: 「RealVisXL_V5.0_Lightning_fp16.safetensors」モデルを読み込みます。
          • AnimateDiff Loader ノード: AnimateDiffのモーションモジュールをベースモデルに適用します。
            • model_name: 「mm_sdxl_v10_beta.ckpt」または「hsxl_temporal_layers.fp16.safetensors」を設定します。
            • beta_schedule: autoselect
          • Context Options Standard Uniformノード: AnimateDiffのコンテキストオプションを設定します。
            • context_length: 16(Hotshot-XLの場合は8)
            • context_stride: 1
            • context_overlap: 4
            • fuse_method: pyramid
            • use_on_equal_length: false
            • start_percent: 0
            • guarantee_steps: 1
          • Sample Settingsノード: アニメーション生成プロセスの様々な要素をコントロールするための設定をまとめるノード
            • noise_typeをFreeNoiseに設定します。FreeNoiseは、FreeInitという、動画生成モデルにおける時間的一貫性を向上させるための手法を利用して各フレームを生成します。これにより、一貫性を持った動画を作成しやすくなります。コンテクスト間で一貫性を保てる一方、FreeNoiseを使用しない場合と比較して、変化が小さくなります。
        2. サンプリング設定:
          • FreeInit Iteration Optionsノード: FreeInit samplingのパラメータを設定します。
          • Sample Settingsノード: AnimateDiffのサンプリング設定を構成します(FreeNoiseモード)。
        3. プロンプト処理:
          • ポジティブプロンプト: 「1girl, Japanese, cute, black long hair, white shirt, navy blue skirt, white shoes, upper body, green background,」
          • ネガティブプロンプト: 「(worst quality, low quality, illustration, 3d, 2d, painting, cartoons, sketch), open mouth, socks,」
        4. 潜在画像の準備:
          • Empty Latent Image ノード: 1024×1024の80フレームの空の潜在画像を生成。
            • Hotshot-XLは、次の解像度でトレーニングされているため、次の解像度のいずれかを設定してください: 320 x 768、384 x 672、416 x 608、512 x 512、608 x 416、672 x 384、768 x 320
        5. 画像生成:
          • KSampler ノード:
            • Seed: 12345
            • Steps: 4
            • CFG Scale: 2
            • Sampler: dpmpp_sde
            • Scheduler: karras
            • Denoise: 1.0
        6. 出力処理:
          • VAE Decode ノード: 生成された潜在表現を実際の画像にデコードします。
          • Video Combine ノード: 生成された画像シーケンスを16fpsの動画に変換し、「AnimateDiff」というプレフィックスで保存します。

        5. ワークフローの補足

        Context OptionsとView Options

        通常、モーションモジュールでは、短いフレーム数しか扱えない(AnimateDiffは16フレーム、HotshotXLは8フレーム)です。これをかいかつするのがContext OptionsView Optionsです。これらは、アニメーションを作成する際に、AnimateDiffやHotshotXLといったモデルの制限を超えて、より長いアニメーションを作るための方法です。

        Context Optionsは、アニメーションの一部ずつを処理する方法です。これにより、同時に使うメモリ(VRAM)の量を制限できます。要するに、大きな作業を小分けにして進めることで、VRAMの負担を減らしているのです。これには、Stable Diffusionの拡散処理やControlNetなどの補助技術が含まれます。

        View Optionsは、モーション(動き)を処理するモデルが、見るべきデータ(潜在変数)を小分けにする方法です。この方法ではVRAMを節約できませんが、処理が安定しやすく、より速く動きます。なぜなら、データが全ての処理を経る必要がないからです。

        Context OptionsとView Optionsの違いは、Context Optionsがメモリを節約して少しずつアニメーションを処理するのに対し、View Optionsはメモリの節約はできませんが、速くて安定しています。

        この2つを組み合わせることで、長くて安定したアニメーションを作りながら、VRAMの使用量をうまく調整することができます。VRAMに余裕がある場合は、処理をより速く行うためにView Optionsをメインに使うこともできます。

        Sample Settings

        「Sample Settings」ノードは、通常のKSamplerノードでは設定できないサンプリングプロセスをカスタマイズするための機能を提供します。デフォルトの設定では何の影響も与えないため、安全に接続しても動作に変更はありません。

        Sample Settingsのnoise_typeで生成されるノイズのタイプを選択できます。この中のFreeNoiseは、安定性を増すために利用できます。FreeNoiseは、FreeInitという、動画生成モデルにおける時間的一貫性を向上させるための手法を用いています。この方法は、追加のトレーニングを行うことなく、ビデオ拡散モデルを使用して生成された動画の全体的な品質を改善します。
        基本的に最初のcontext_lengthウィンドウと同じ初期ノイズをコンテキストの重複部分で再利用し、それ以降のコンテキストウィンドウの重複部分にはランダムにシャッフルされたバージョンを配置します。コンテキストウィンドウの重複部分でノイズをシャッフルしないため、context_lengthフレームごとに内容が繰り返されるという副作用があります。

        FreeInit イテレーションオプション

        前述したFreeInitの特性上、FreeInitはイテレーションが最低2回必要になります。FreeInitの動作としては、最初のイテレーションで生成された動画から低周波のノイズを取得し、それをランダムに生成された高周波のノイズと組み合わせて次のイテレーションを実行します。各イテレーションは完全なサンプルであり、イテレーションが2回行われると、1回またはイテレーションオプションが接続されていない場合に比べて実行時間が2倍になります。

        1. FreeInit [sampler sigma]: この方法は、サンプラーから得られるシグマ値を使用してノイズを適用します。既存の潜在変数からの低周波ノイズとランダムに生成された潜在変数からの高周波ノイズを組み合わせることで、アニメーションの時間的一貫性を高めることを目的としています。
        2. FreeInit [model sigma]: この方法は、サンプラーではなくモデルからシグマ値を使用します。カスタムKSamplerを使用する際に特に有用で、ノイズの適用がモデルの特性と一致するようにします。
        3. DinkInit_v1: これはFreeInitの初期実装で、開発者が方法をさらに洗練する前に作成されたものです。他の2つのオプションほど最適化されていないかもしれませんが、特定のコンテキストで満足のいく結果を得ることができます。

        6. ワークフローの実行

        それでは、ワークフローを実行してみましょう。マシンスペックにもよりますが、5秒の動画を生成するにも多くの時間を要します(A100のGPUで1分、A6000で3分ほどでした)。

        AnimateDiff-SDXLの結果

        以下は、Sample Settingsを適用しない場合の生成結果です。プロンプトに従い女性の動画が生成されていますが、一貫性がないことが分かります。これは、AnimateDiffの特性で、Context Optionsノードのcontext_length内でしかコンテクストを正しく保持できないためです。context_overlapで数フレームをオーバーラップさせることで、次のコンテクストでの生成に前の生成結果を反映させますが、それも限界があるようです。

        画像

        次にSample Settingsのnoise_typeをFreeNoiseにして生成結果です。先ほどよりも変化が少なく、コンテクスト間で一貫性が保たれていることが分かります。

        画像

        その他に、一貫性を保つ方法として、Motion LoRAを使う方法があります。しかし、Motion LoRAは、SD1.5用しか存在せず、SDXLには適用できません。SD系列だと、SDXLがメジャーになっている中で、SD1.5を使用する人はあまりいないと思います。そのため、これがSDXL+AnimateDiffでのt2vの限界だと思います。ただし、この特性を活かした面白い表現をしたり、抽象的な表現をするには十分にAnimateDiffを活かせると思います。

        Hotshot-XLの生成結果

        次は、Sample Settingsのnoise_typeをdefautで、モーションモデルにHotshot-XLを使用して生成した結果です。コンテクスト長が8フレームしかないため、0.5秒ごとにコンテクストが変わってしまい、AnimateDiff-SDXL以上に変化の激しい動画となっています。

        画像

        次にSample Settingsのnoise_typeをFreeNoiseにして生成した結果です。AnimateDiff-SDXLと同様、先ほどよりも一貫性が増しました。Hotshot-XLの方がAnimateDiff-SDXLより明瞭だと言われますが、対応している解像度がAnimateDiff-SDXLは1024×1024、Hotshot-XLは512×512なので、解像度が異なることもあり、違いが分かりづらいです。Hires.fixすれば、どちらもそれほど気にならないかもしれません(text2videoに限れば)。

        画像

        7. まとめ

        AnimateDiffは、Stable Diffusionの技術を基に、画像生成AIの枠を超えて動画生成を実現した画期的なツールです。軽量でありながら、自然で一貫性のあるアニメーションを生成できるため、クリエイティブな用途に広く活用が期待されます。特に、テキストプロンプトから直接アニメーションを生成できる点は、デザイナーやアニメーターにとって大きな利便性を提供します。

        しかし、現状ではContext Optionsノードの制約やMotion LoRAの対応が限定的で、完全に安定した結果を得るためには工夫が必要です。今後、SDXLシリーズに最適化された技術の進展により、さらに質の高い動画生成が可能になることが期待されます。

        新しい技術に挑戦し続けることは、より高品質で魅力的なコンテンツを生み出す力となります。AnimateDiffを駆使して、これまでにないアニメーション表現に挑戦してみてください。

        次回は、AnimateDiffでvideo-to-video(v2v)をする方法を紹介します。乞うご期待!
        X(Twitter)@AICUai もフォローよろしくお願いいたします!

        [PR] ComfyUIマスター:カスタムノードとアプリ開発

        https://j.aicu.ai/Coloso3

        画像生成AI「ComfyUI」マスターPlan

        画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

        • メンバー限定の会員証が発行されます
        • 活動期間に応じたバッジを表示
        • メンバー限定掲示板を閲覧できます
        • メンバー特典記事を閲覧できます
        • メンバー特典マガジンを閲覧できます
        • 動画資料やworkflowといった資料への優先アクセスも予定

        ゼロから学ぶ「ComfyUI」マガジン

        https://note.com/aicu/m/md2f2e57c0f3c

        マガジン単体の販売は1件あたり500円を予定しております。
        2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

        https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

        もちろん、初月は無料でお試しいただけます!
        毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
        退会率はとても低く、みなさまにご満足いただいております。
        ✨️オトクなメンバーシップについての詳細はこちら


        この記事の続きはこちらから https://note.com/aicu/n/n1728bd0668f5

        Originally published at https://note.com on Nov 20, 2024.

      1. [ComfyMaster34] 便利LoRA紹介: Detail Tweaker XLで画像の精細さをコントロール

        画像生成AIの世界は、日々進化し続けています。その中で、作品にどれだけ細かなディテールを与えられるかが、仕上がりのクオリティを左右する重要なポイントとなっています。美しい風景や繊細なキャラクター、壮大な建築物など、細部までこだわった表現は、見る者の心を掴み、深い感動を呼び起こします。

        そんな中、注目を集めているのが「Detail Tweaker XL」というLoRAモデルです。このモデルを使うことで、精緻でシャープなディテールを持つ作品が生み出されます。作品の魅力を一段階引き上げたいと考えているすべてのクリエイターにとって、このモデルは強力な味方となるでしょう。

        こんにちわ、AICU media編集部です。
        ComfyUI マスターガイド」第34回目になります。
        本記事では、この「Detail Tweaker XL」がどのような特徴を持ち、どのように活用できるのかを詳しく見ていきます。

        本連載の初回はこちら。前回はこちら、目次はこちらです。

        [ComfyMaster33] 便利LoRA紹介: Envy Zoom Slider XLで画角を調整しよう! #ComfyUI

          1. 概要

          Detail Tweaker XLは、その名が示す通り、画像の細部を強化することに特化したLoRAモデルです。このモデルを使用すると、生成される画像全体のディテールが著しく向上し、より鮮明で精緻な結果を得ることができます。

          https://civitai.com/models/122359/detail-tweaker-xl

          具体的には、物体の表面テクスチャがより精密に表現され、細かな凹凸や模様が際立つようになります。また、画像全体のシャープネスが増し、輪郭がくっきりと定義されるため、より「解像度が高い」印象を与える画像が生成されます。これは特に、建築物や自然風景、あるいは精密な機械部品などの複雑な構造を持つ被写体を生成する際に顕著な効果を発揮します。

          さらに、Detail Tweaker XLの興味深い特徴として、その汎用性の高さが挙げられます。このLoRAは特定のスタイルや主題に限定されることなく、幅広いプロンプトや設定と組み合わせて使用できます。風景画から人物ポートレート、あるいはSF的な未来世界の描写まで、様々なジャンルの画像生成において、その効果を発揮することができるのです。

          Detail Tweaker XLのページの説明では、強度を±3.0の範囲で使用することが推奨されています。また、使い方として、詳細度を上げる場合は、強度を+1.5から開始し、そこから調整していくことがおすすめされています。

          2. 使用準備

          今回使用するLoRA「Detail Tweaker XL」を以下よりダウンロードし、「ComfyUI/models/loras」フォルダに格納してください。

          https://civitai.com/models/122359/detail-tweaker-xl

          3. ワークフローの構成

          ワークフローは、標準ワークフローにLoad LoRAノードを追加したものになります。モデルにはSDXLのベースモデルを使用しています。

          画像

          ワークフローは以下よりダウンロードしてください。

          https://note.com/api/v2/attachments/download/9fa23fa1821fb0c06031cef55c7e30a0

          プロンプトは以下の通りです。

          • ポジティブプロンプト
          1girl, detailed, beautiful, intricate design, delicate, flowing hair, soft lighting, pastel colors, ornate dress, lace, floral patterns, long hair, glowing, ethereal, serene expression, detailed eyes, highly detailed background, flowers, soft shading, elegant, fantasy setting, fairy tale atmosphere, sparkles, graceful, warm tones
          • ネガティブプロンプト
          bad hands, bad anatomy, ugly, deformed, (face asymmetry, eyes asymmetry, deformed eyes, deformed mouth, open mouth)

          KSamplerノードの各ウィジェットの設定は以下の通りです。

          • seed: 747064347533087
          • control_after_generate: fixed
          • steps: 20
          • cfg: 8.0
          • sampler_name: euler
          • scheduler: normal
          • denoise: 1.0

          4. 生成結果の検証

          まずは、LoRAなしで生成してみます。以下が生成結果です。この状態でも十分に美麗な画像となっています。

          画像

          次にLoRAの強度を+3.0にし、画像生成してみます。

          画像

          以下が生成結果です。LoRAなしよりも明瞭になったのではないでしょうか。例えば、周囲の花や、頭の花飾り、ドレスの柄が細かく描写されています。

          画像

          次は、LoRAの強度を-3.0にし、詳細度を落としてみました。全体的に細かさが減っているように見えます。例えば、頭の花飾りの花が大きくなっていたり、洋服の柄の細かさも少なくなっています。

          画像

          微妙な違いもあるので、ChatGPTに評価してもらいました。以下がChatGPTの評価結果です。

          【レビュー】
          1. ディテールの精密さ
          ・1枚目 (LoRAなし)
          ディテールは十分に美しく描かれていますが、特に髪やドレスの質感において、少し柔らかくぼやけた印象があります。特に髪の毛の一本一本や、刺繍の細かい部分はやや滑らかで、精細度が少し低いと感じます。
          ・2枚目 (LoRA +3.0適用)
          LoRAが適用されたことで、全体的に細部がよりシャープに、そして明瞭に見えます。特に髪の毛の一本一本の描写が非常に鮮明で、光の反射や髪の質感がリアルに表現されています。また、ドレスの刺繍部分の細かい装飾がより詳細に描かれており、ドレスの素材感もはっきりと感じられるようになっています。
          ・3枚目 (LoRA -3.0適用)
          LoRAがマイナス強度で適用されているため、ディテールはLoRAなしの状態よりも減少しています。特に、髪の毛の一本一本の描写がやや滑らかになり、ドレスの刺繍や質感も控えめになっています。光の反射や細かいテクスチャがややぼやけており、ディテールが抑えられています。

          2. 色の表現
          ・1枚目 (LoRAなし)
          カラーパレットは柔らかく、少し淡いトーンでまとめられており、全体的にやや控えめな印象を与えます。色の深みやコントラストが少し少なく、ふんわりとした雰囲気です。
          ・2枚目 (LoRA +3.0適用)
          LoRAを適用することで、色彩がより豊かに、そして鮮明に表現されています。特にドレスの花の色や背景の光のコントラストがより強調され、色の深みが増しています。全体的に鮮やかで、色が際立って見えます。
          ・3枚目 (LoRA -3.0適用)
          LoRAがマイナス強度で適用されているため、色の表現も抑えられており、少し淡い印象になっています。特にドレスや背景の花々の色がやや薄れており、全体的により控えめで穏やかなトーンになっています。LoRAなしと比べると、少し彩度が低下しているように見えます。

          3. 質感の表現
          ・1枚目 (LoRAなし)
          ドレスの素材や髪の質感が柔らかく描かれており、特に繊細な部分において、質感のリアルさが若干欠けている印象です。
          ・2枚目 (LoRA +3.0適用)
          LoRAにより、ドレスの布の繊維や刺繍部分の立体感が増し、髪の質感もよりリアルに描かれています。光の反射や影のつけ方が繊細で、まるで実物に近い感覚をもたらします。
          ・3枚目 (LoRA -3.0適用)
          LoRAがマイナス強度で適用されることで、質感の描写がLoRAなしの状態よりも抑えられています。ドレスの刺繍部分がより滑らかで、立体感が少し薄れており、布地のテクスチャも控えめです。髪の毛の質感も若干ぼやけており、LoRAなしよりも滑らかな印象です。

          4. 背景の詳細
          ・1枚目 (LoRAなし)
          背景の窓やキャンドルのデザインが少し滑らかで、細部がぼやけているように感じられます。全体的に柔らかい表現がされています。
          ・2枚目 (LoRA +3.0適用)
          LoRAが適用されているため、背景の装飾や窓のステンドグラスの模様がより細かく描かれており、キャンドルの光の反射や炎の描写も非常に細やかになっています。
          ・3枚目 (LoRA -3.0適用)
          LoRAがマイナス強度で適用されているため、背景の細部がよりぼやけた印象です。特に花々や窓のデザインが柔らかくなり、光の反射や細かい装飾が控えめに描写されています。全体的にソフトフォーカスのような効果があり、背景が少し曖昧になっています。

          5. 全体的な印象
          ・1枚目 (LoRAなし)
          全体的にやや柔らかく、ふんわりとした幻想的な雰囲気を持っていますが、細部の描写や質感の表現において少し控えめです。
          ・2枚目 (LoRA +3.0適用)
          LoRAによって細部の精密さが向上し、全体的に高い解像度で描かれています。ディテールが際立ち、特に質感や色の深みが増しているため、よりリアルで華やかな印象を与えます。
          ・3枚目 (LoRA -3.0適用)
          LoRAを-1.5の強度で適用することで、全体がより柔らかく、ぼやけた印象に変わっています。LoRAなしと比較すると、ディテールが減少し、特に質感や色の鮮やかさが控えめで、ソフトな印象が強まっています。幻想的で柔らかい雰囲気が際立つ一方、細部の描写は抑えられており、より優しく控えめな印象を与えます。

          【結論】
          LoRAを通常の強度で適用すると、画像のディテールが大幅に向上し、質感や色彩、細部がよりシャープでリアルに表現されます。詳細な描写を求める場合、LoRAは効果的です。一方、LoRAをマイナス強度で適用すると、逆にディテールが減少し、全体的に柔らかく、ぼんやりとした印象になります。質感や色彩も控えめになり、幻想的で穏やかな雰囲気が強まるため、LoRAなしよりもシャープさが失われる結果となります。

          ChatGPT

          結論、プラスの強度でDetail Tweaker XLを適用すると、全体的に詳細に描かれて明瞭な画像となり、マイナスの強度で適用すると、詳細さが失われていくことになります。

          5. おまけ: XY Plotで画角の変化を一括で確認

          以前の記事で「XY Plot」で生成結果を一括で確認する方法を解説しました。今回もXY Plotを使用して、画角の変化を一括で確認してみます。XY Plotの解説記事は以下になります。

          ワークフローの全体像は以下になります。X軸にLoRAの強度、Y軸にSeedを設定しています。

          画像

          ワークフローは、文末のリンクよりダウンロードしてください。

          以下が生成結果です。一括でLoRAの強度の変化を確認できます。Detail Tweaker XLに関しては、遠目では詳細度の違いが分かりづらいので、アップにして確認が必要ですね。

          画像

          6. まとめ

          Detail Tweaker XLは、画像生成においてディテールを強化する優れたLoRAモデルです。特に、複雑な構造やテクスチャの描写において、その効果が顕著に表れます。建築物や自然風景、人物、さらにはSF的なシーンに至るまで、幅広いジャンルで活用でき、ユーザーの創造力を最大限に引き出すツールとなっています。

          LoRAの強度をプラスに調整すると、画像は鮮明で精緻な仕上がりとなり、視覚的なインパクトが増します。一方で、強度をマイナスに調整することで、より柔らかく、幻想的な表現を得ることも可能です。これにより、シーンの雰囲気やテーマに合わせた柔軟なアプローチが可能となります。

          Detail Tweaker XLは、さまざまなシーンで使用することができ、その汎用性と効果の高さから、クリエイティブな作品づくりに欠かせないツールとなるでしょう。

          次回からいよいよComfyUIによる動画編が始まります。乞うご期待!

          ここから始める動画編!SDXL+AnimateDiffでテキストから動画を生成しよう!

          X(Twitter)@AICUai もフォローよろしくお願いいたします!

          画像生成AI「ComfyUI」マスターPlan

          画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

          • メンバー限定の会員証が発行されます
          • 活動期間に応じたバッジを表示
          • メンバー限定掲示板を閲覧できます
          • メンバー特典記事を閲覧できます
          • メンバー特典マガジンを閲覧できます
          • 動画資料やworkflowといった資料への優先アクセスも予定

          ゼロから学ぶ「ComfyUI」マガジン

          https://note.com/aicu/m/md2f2e57c0f3c

          マガジン単体の販売は1件あたり500円を予定しております。
          2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

          https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

          もちろん、初月は無料でお試しいただけます!
          毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
          退会率はとても低く、みなさまにご満足いただいております。
          ✨️オトクなメンバーシップについての詳細はこちら

          メンバーシップ加入者向けのおまけ

          Detail Tweaker XL に XY-plotを追加したワークフローはこちらです

          画像
          画像
          画像

          この記事の続きはこちらから https://note.com/aicu/n/na628f140e954

          Originally published at https://note.com on Nov 18, 2024.

        1. Stability AI、Amazonとの連携を拡大 – Stable Diffusion 3.5 LargeがAmazon SageMaker JumpStartで利用可能に

          Stability AI、Amazonとの連携を拡大 – Stable Diffusion 3.5 LargeがAmazon SageMaker JumpStartで利用可能に

          主なポイント:

          • Stability AIは、Amazon Web Services (AWS) との連携を拡大し、最先端のテキスト画像生成モデルであるStable Diffusion 3.5 LargeをAmazon SageMaker JumpStartで提供開始しました。
          • 世界中のスタートアップ企業や大企業は、この最先端技術にアクセスし、プロフェッショナルグレードの画像を大規模に作成できます。
          • 80億のパラメータを持つStable Diffusion 3.5 Largeは、3D、写真、線画、絵画などのスタイルで高品質な1メガピクセルの画像を生成することに優れており、プロンプトの精度と画質の両方でより大きなモデルよりも優れたパフォーマンスを発揮します。
          • Stable Diffusion 3.5 Largeの使用を開始するには、Amazon SageMaker JumpStartをご覧ください。

          Stability AIは、最先端のテキスト画像生成モデルであるStable Diffusion 3.5 LargeがAmazon SageMaker JumpStartで利用可能になったことをお知らせしています。これは、2023年7月にStable Diffusion XL (SDXL 1.0) がリリースされて以来、SageMaker JumpStartで初めて登場する新しいStable Diffusionモデルとなります。

          今回のAWSとの連携拡大により、スタートアップ企業と大企業の両方に最新の生成AIツールが提供されることになります。これにより、SageMaker JumpStartの仮想プライベートクラウド (VPC) 内にStable Diffusion 3.5 Largeを安全にデプロイし、データ保護とプライバシーを確保できます。

          Stability AIの最先端技術とAWSのリーチを組み合わせることで、世界中の企業が、このテクノロジーを使用してプロフェッショナルグレードの画像を大規模に作成できるようになります。

          モデルの優位性

          Stable Diffusion 3.5 Large は、プロンプトへの忠実度と画質において最高レベルのパフォーマンスを維持しながら、以下の分野で優れています。

          • 効率的なパフォーマンス: 幅広いユーザーがアクセスしやすく、使いやすくなるように、効率性のために最適化されています。
          • 多様な出力: 広範なプロンプトを必要とせずに、1種類の人々だけでなく、さまざまな肌の色や特徴を持つ、世界を代表する画像を作成します。
          • 多様なスタイル: 3D、写真、絵画、線画など、想像できるほぼすべてのビジュアルスタイルを生成できます。

          アイデア出しから制作まで、このモデルは、ビジュアルメディア制作パイプライン全体で貴重なクリエイティブパートナーとして機能し、メディア、ゲーム、広告などの業界をサポートします。

          使用開始するには

          Stable Diffusion 3.5 Largeモデルは、本日(2024年11月15日)よりAmazon SageMaker JumpStartで利用可能です。使用方法とSageMaker Studioの設定方法の詳細については、Amazon SageMaker Studioのドキュメントを参照してください。

          https://docs.aws.amazon.com/sagemaker/latest/dg/studio.html

          https://aws.amazon.com/jp/pm/sagemaker

          安全性へのコミットメント

          Stability AIは、安全で責任あるAIの実践を信条としており、開発の初期段階から整合性を確保するための対策を講じています。これは、悪意のある人物によるStable Diffusion 3.5の悪用を防ぐために、合理的な措置を講じており、今後も講じていくことを意味します。安全性への取り組みの詳細については、Stable Safetyページをご覧ください。

          https://stability.ai/safety

          Originally published at https://note.com on Nov 15, 2024.

        2. 声の無断生成は違法?音声合成AIと著作権のこれから

          生成AIクリエイターに訊く生成AIと倫理。シリーズ第2回は生成AIを使ったシステム開発と、AIキャラクターの展開を行っている企業「BlendAI」代表・小宮自由さんに、先日2024年10月19日に開催された「あんしんAIセミナー」講演録をベースにご寄稿いただきました。


          エキサイティングな生成AIの年になった2024年も、もう残り僅かになってきました。「つくる人をつくる」をビジョンにするAICU Inc. は、新たな挑戦をいくつか準備していきます。その一つが「『生成AI倫理』に「AIクリエイター視点でしっかりと意見を述べていこう」という取り組みです。

          ■あんしんなクリエイティブAIで「陽のあたる場所」をつくる(白井暁彦)

          第2回:BlendAI株式会社 CEO 小宮自由さん

          東京工業大学でコンピュータサイエンスを学び、東京大学ロースクールで法律を学ぶ。幾つかの職を経た後に渡欧し、オランダのIT企業でエンジニアとして従事する。その後東京に戻り、リクルートホールディングスでAI(自然言語処理)のソフトウェア作成業務に携わり、シリコンバレーと東京を行き来しながら働く。その後、ブロックチェーン業界に参入。数年間ブロックチェーンに関する知見を深める。現在は BlendAI という企業の代表としてAIキャラクター「デルタもん」を発表するなど、AIに関係した事業を行っている。

          小宮自由さん プロフィール

          ※本講演は法律に関するお話も含まれますが、あくまで小宮さん個人による法的見解を述べるものです。実際にAI生成ビジネスをやるために法的見解を知りたい方は、個別に弁護士にご相談ください。

            「あんしんAIセミナー」での講演:画像と声

            画像生成AIと法律と聞いて多くの方が気になることと言えば、おそらく以下の2点が挙げられると思います。

            • 生成画像って著作権侵害に当たるものなの?
            • どうしたら著作権を守った画像生成ができるの?

            今回は以上の2点について、小宮さんの法的見解をお話しくださいました。

            結論から言うと、「用法を守れば生成画像を作成しても構わない。」のだそうです!ちゃんとルールさえ守っていれば使っても全く問題ないとのこと。

            画像

            「生成された画像自体はオリジナルのデザインのもので著作権を侵害しなさそうだけど、その画像を生成するためにAIが学習する段階で著作権を侵害しているんじゃないか?」という意見がありますね。また、「AIを使っていわゆるファンアート(アニメ作品などの二次創作)を生成するのは大丈夫なの?」という意見もあります。これらは関連する法律が変わってくるので個別に見ていきます。

            著作権が関連する形態と、問われるポイント

            現行の著作権法を読み解くと、生成されたイラストは著作権侵害にならないそうです。学習はどうなるかと言うと、これも許されるとのこと。

            著作権法には例外的に侵害に当たると判断されるケースがあります。それは、以下の2つのケースです。

            • 著作権者の著作物の利用市場と衝突する。
            • 将来における著作物の潜在的市場を阻害する。

            これらの例外があり、なんだかAI画像は該当してしまいそうに思えます。しかし、AIに学習させる段階では侵害に当たる可能性が低いそうです。どうしてなのでしょう?

            画像

            大丈夫な事例

            著作権的に大丈夫な事例から見てみます。例えば、マクドナルドがAIを使ったCMを公開したことがありました。「これは著作権の侵害に当たるんじゃないか?」という意見もありましたが、このCMに出てきた女優さんは特定の人を想起させない、オリジナルの人物の顔になっていました。また、アニメキャラクターのようなイラストを生成する場合でも、特定のキャラクターを想起させないものであれば違法とは言えません。

            画像

            ですが、特定のキャラクターなどを想起させるものだと、先ほどの例外的な侵害に当たるケースとなる可能性もあるのです。

            怪しい事例

            その怪しい事例を見てみます。例えば、次の画像はどう見てもポケモンのピカチュウですよね。これは株式会社ポケモンが公式で描いたものではなく、AIで描かれたものです。直接公式からデザインをパクってきたわけではないですが、ものすごく類似しています。このような場合、株式会社ポケモンが似たような作品を出すときや商品化しようとするときなどに競合する可能性が高いです。株式会社ポケモンにとっては、著作権の運用に関して損害が出る可能性があります。そのため、こうした特定のキャラクターなどを想起させる生成画像だと著作権法違反だと判断される可能性が高いのです。

            このように、現在の日本の法律ではAI画像を生成した段階で違法性を問われる可能性はありますが、一方でAI画像に関して著作権法を争点にした判例がまだありません。今後、さまざまな判例が出てくる中で、「このような生成画像は違法だ」、「それならこのような学習も違法だろう」といった議論が生じる可能性があります。ただ、学習だけでその違法性が判断されるような事例は、今後も少ないだろうと小宮さんは考えているため、基本的には生成された画像を見て著作権の判断をするとよいとのことです。

            手描きの二次創作とAI生成とで基準は変わらない

            手描きの二次創作とAIの画像生成では、現行の法律では判断基準が変わりません。「画像に対して複製や編集をしてはいけないけど、著作権者の同意があればOK」とよく言われますよね。
            イラストに関して言えば、「複製」と「翻案(元の趣旨に沿いつつ作り変えること)」に当たらなければ概ねOKということです。

            画像
            画像

            つまりは、パクリとならないよう、ガイドラインに従っていればOKということになります。AI画像も同じです。生成の段階では、手描きと同じことを気をつければ、問題が生じることは少ないのです。

            二次創作・二次利用ガイドラインが無い物に関して

            問題は、二次創作や二次利用のガイドラインがない場合です。多くの場合、日本のコンテンツにはガイドラインが存在しません。それゆえに著作権侵害に当たるような形の二次創作なども多く見られます。ですが、訴えられることなく放置される事例もあると思います。

            画像

            これには、好きで描いてくれているのに「著作権侵害だ!」と言うことができない、つまりファンの応援を無下にできないという事情があります。そして、二次創作などはプロモーションにもつながるため、創作してもらったほうがよいと判断されることもあります。そういった経済合理性があるならある程度は許し、ちょっとやりすぎなのがあったら許さない、といったグレーゾーンとなっているのです。

            画像

            小宮さんは、二次創作の手段にAIか手描きかは全く区別はないと考えています。AIを使う場合でも、本当にその作品が好きで作っている場合は訴えられる可能性は低いでしょうし、逆にAIでたくさん作ってたくさん売って稼ごう!などということをしたら訴えられる可能性が高いということになるでしょう。二次創作をする場合は、版元の意向などをしっかり確認し、怒られたりしたらすぐに謝って取り下げるといった常識的な行動がとても大事になります。「本来はダメだけど黙認してもらっている」ということを忘れないようにする必要がありますね。

            ガイドラインがある事例

            ガイドラインがある事例として、「BlendAI」では、開発した「デルタもん」や「ガンマミィ」といったキャラクターは基本的に商用・非商用問わずAI画像生成を許可しています。また、漫画家の奥浩哉先生は、自身の作品について、性的な表現はNGですが、AI画像生成はいくらでもOKということをX(旧Twitter)で言っていたことがあります。

            画像

            このように、AIであろうと手描きであろうと、版元の意向はきちんと確認するようにしましょう。

            有志の声優による「NOMORE無断生成AI」

            ちなみに、声に関しても最近ニュースがありました。声優の有志が集まり、AIで無断で自分たちの声を学習して使うのやめてほしいという啓発活動「NOMORE無断生成AI」が発表されました。これについては法的見解はどうなのでしょう?

            声の無断生成は「違法だ」とは言いづらい

            小宮さんの意見としては、違法だとはちょっと言いづらいのだそう。実際に、その活動では法律違反だからやめてほしいとは一言も言っていません。

            というのも、声自体には著作権は認められません。画風に著作権がないのと同じです。例えば、鳥山明先生の画風に似たイラストを書いてもそれそれに著作権は主張できません。キャラクターである孫悟空を描くのはダメですが、鳥山明先生風のオリジナルキャラクターを書いて、既存のキャラクターと全然似てない場合は基本的に著作権侵害にならないのです。

            画像

            声も同じようなもので、偶然その人の声と似た声の人なんかもいますよね。たまたま似た声だっただけで、その声を使って商業的な活動できない、動画などを公開できないとなると、それはもう明らかに不合理です。そのため、声自体に著作権は認められません。

            ただし、声で演技をすると著作隣接権が認められる可能性が出てきます。しかし、著作隣接権は著作権より権利が少し弱く、AIに対して主張が難しいです。次の図の左にあるように、著作権法の30条の4には著作隣接権については書いていないので、「我々の利益を不当に侵害してるから声の学習は違法だ」とは言えないのです。

            技術は止められない

            それに加えて、一般的な話として、技術の発展は止められません。皆さんもここ1年ぐらい、AIが進歩して社会の中に定着していくのを実感していることでしょう。

            画像

            写真の技術が登場した当時は、写真に反対する人もいました。「画家の仕事を奪うとからよくない。魂を込めて書いてるのにそれを無駄する」というような話がありました。しかし、今となっては写真は普及して当たり前に使われるようになりましたよね。AIも写真と同様です。ものすごく便利で有用なものであるので、社会に普及していくのはこれはもう止められないと思います。懸念を示すことも重要ながら、共存する方法を考えるのが大事だと小宮さんは考えています

            「声の印税」という発想

            そこで、小宮さんは「声の印税」というものを提案しています。これは「AIが声を学習して生成する許可を出す代わりに、印税のようなロイヤリティを支払うことを声優や事務所に約束する」というもの。これが定着すれば、先ほどのような声優が訴える「無断生成」というものは無くせそうです。実は、文化庁も以前同じようなことを提案しており、法律では解決が難しいけれど、クリエイターと利用者の間で納得できるルールを作った上で解決するのが望ましいという風に言っています。

            画像

            声に関して詳しいまとめはこちらを参照してください。
            「声の印税」で声優とAIは共存できる

            画像
            https://x.com/BlendAIjp/status/1846902659980353892

            「BlendAI」では、「CotoVerse(コトバース)」というものを新しく作りました。キャラクターの声と3Dモデルをつけて会話できるようにするというクラウドファンディングをやっています。これはキャラクターの声優に対してその売上の一定の割合を永続的に払うという、まさに「声の印税」を実現しているそうです。よければ小宮さんのクラウドファンディングをチェックしてみてくださいね!

            <BlendAIさんの音声収録の現場より>

            画像

            オピニオンのまとめ

            • 生成AIで生成した画像は、用法を守れば著作権侵害には当たらない。
            • AIの学習段階での著作権侵害の可能性は低い。ただし、生成画像が既存の著作物の市場を阻害する場合は侵害となる可能性がある。
            • 特定のキャラクターを想起させないオリジナルの生成画像は問題ないが、既存キャラクターに酷似した画像は著作権侵害となる可能性が高い。
            • AI画像生成に関する判例はまだ少ないため、今後の判例形成が重要。
            • 手描きの二次創作とAI生成の判断基準は同じ。複製や翻案に当たらない限り、概ね問題ない。
            • 二次創作・二次利用のガイドラインがない場合は、ファンの活動の促進と権利保護のバランスが考慮される。
            • ガイドラインがある場合はそれに従う必要がある。
            • 声の無断生成は違法とは言い切れないが、倫理的な問題が指摘されている。
            • 声の印税のような、クリエイターと利用者の間で納得できるルール作りが重要。

            とても丁寧に著作権法とAI生成画像との関わりを読み解いて解説してくださったおかげで、オリジナルのAI生成画像の場合は、ガイドラインを意識しながら発信して楽しむことが何よりも大事だということがわかりました。今後法律が変わっていく可能性もあるため、常に新しい情報を取り入れていくことが望ましいのでしょう。


            シリーズ「AIクリエイターに訊く生成AI倫理」

            生成AI分野、特にクリエイティブなAI、クリエイティブとAI分野で活躍する第一線のクリエイターの方々に直接!インタビューや講演録、寄稿や公開質問といったオピニオンを通して、法律や技術と同時に「ほんとうの意味で生成AIに求められる倫理感とは?」について時間をかけて考えてみたいというシリーズ企画「AIクリエイターに訊く生成AI倫理」を続けていきます。

            AICU マガジン Vol.3での特集「生成AIの社会と倫理」では弁護士さんの見解も解説されています。2024年末限定での動画コンテンツも含まれています。

            https://j.aicu.ai/MagV3

            みなさんの意見も訊きたい!

            ご感想はこの記事のコメント欄、もしくは
            Xでは引用いただいて、ハッシュタグは
            #AIクリエイターに訊く #生成AI倫理
            でよろしくお願い致します。みなさんの建設的な意見はネット上のみならず、AICU Magazineや動画メディアや論文等でも扱っていきたいと考えております。

            また「私はAIクリエイター、なので意見を述べたい!」という方はご寄稿いただく仕組みも準備しております。X@AICUai にてDMをいただけると幸いです。

            小宮自由さんよりお知らせ:生成AI忘年会

            2024/12/14(土) 18:00 〜 20:00 詳細はこちら

            https://techplay.jp/event/962444

            生成AI を使った創作活動をしている人限定の忘年会です。
            生成AI を使って創作をしているクリエイター、創作を支援するツールを作っているエンジニア等が、AIを使ったものづくりを語り合う等して交流する会です。希望者は自分の作品やツールを発表することもできます。
            創作活動の規模やレベルは問いません。初めて間もない方でも参加可能です。
            こんな人におすすめ
            生成AIを活用しているクリエイター
            生成AIを創作に活かしているエンジニア
            創作を支援するツールを作っている人

            https://techplay.jp/event/962444

            Originally published at https://note.com on Nov 14, 2024.

          1. 「ComfyUI V1」クローズドβリリース!

            画像生成のためのWebインタフェース「ComfyUI」を開発する「Comfy Org」より、既にアナウンスされていた単体アプリ「ComfyUI V1」がクローズドβでリリースされました!

            いち早く入手したAICU media編集部によるハンズオンレポートをお送りします!

            ※スクリーンショットは日本語に翻訳しているものがあります。また開発中のためリリース版とは異なる可能性があります。

            画像

            ダウンロードしたWindows用インストーラー「ComfyUI Setup 0.2.10 – x64.exe」は247MBでした。

            画像

            なおMac版V1もまもなくリリース予定だそうです!

            インストールディレクトリを選択します。
            ここでは「C:\Comfy」を選択しました。

            既存のComfyUIがインストールされており、既存のモデルをインポートしたい場合は、古いディレクトリのルートを選択し、「ComfyUI」フォルダ(例:D:¥ComfyUI_windows_portable¥ComfyUI)を選択します。インストールが正常に完了すると、デフォルトのインターフェースに直接インストールできるそうです。

            画像

            セットアップはPython環境を丸ごとインストールします。

            画像

            特にエラーやログなどは表示されません。静かにインストールが進行しています。

            画像

            インストール直後はモデルが存在しません。

            画像

            右上の「★Maneger」メニューから「Back」→「Models Manager」を使って SD_XLをインストールしてみましょう。

            ダウンロードボタンでダウンロードしたあとは、リフレッシュを実施します。リフレッシュボタンは画面下部のキュー「Queue」の並びにあります。

            非常に一覧性高く、不足モデルを管理・入手できました。

            「ノードライブラリ」はノードを一覧できて便利そうです。

            画像

            ヘルプメニューもあります。

            画像

            ComfyUI Managerがデフォルトでインストールされています。

            画像

            Workflowメニューから選べるワークフローのテンプレートが便利そうです。

            画像

            試しに image2imageを選択したら「モデルがない」というメッセージとともにダウンロードリンクが表示されました。助かる!
            クリックすると、ブラウザに対して直接ダウンロードがはじまります。

            画像

            ダウンロードした v1-5-pruned-emaonly.safetensors ファイルを checkpointsディレクトリに置きます。

            「Load All Folders」を押すと、反映されます。再起動は不要です!

            画像
            画像

            Stability Matrixのインストールディレクトリを指定してみた

            一つ一つのモデルをダウンロードしても良いのですが、過去に使っていたStability Matrixのディレクトリを直接指定した場合はどうなるでしょうか。

            タスクトレイの右クリックで「Reset Install Location」を選んでみました。

            画像

            インストール先をDドライブにインストールしたStability Matrixを選択してみます。

            D:\StabilityMatrix-win-x64\StabilityMatrix-win-x64\Data\Packages\ComfyUI

            ※不要なStability Matrixの環境においてのみこの操作を試してください。この操作を行うとStability Matrixの環境を破壊する可能性があります。

            見事に動きました。

            画像

            「MODEL LIBRARY」でリロードしてみると、アイコンの表示なども対応しています。

            画像

            最初の例のようにモデルを手動で追加する場合、この例の場合であれば「D:\StabilityMatrix-win-x64\StabilityMatrix-win-x64\Data\Packages\ComfyUI\models\checkpoints」になります。

            その他の機能を一挙紹介!

            ComfyUIのシームレスなデスクトップ体験を実現するため、Comfy Orgの開発チームは2ヶ月このプロジェクトに取り組んできました。技術的な知識のないユーザーにも可能な限りスムーズな体験を楽しんでいただくこと、さらにスタンドアロンパッケージに比べて、以下のような改善が加えられています。

            • コード署名済みで安全:ComfyUIは、セキュリティ警告を発生させることなく起動するようになりました。アプリはコード署名済みなので、弊社から直接提供されたバージョンであることが常にわかります。
            • クロスプラットフォーム:Windows / macOS / Linuxで利用可能
            • 自動更新:自動更新により、ComfyUIの安定版リリースを維持できます。
            • 軽量パッケージ:バンドルはわずか200MBです!
            • 推奨Python環境:手動でのセットアップの煩わしさはもうありません。インストールプロセスをよりスムーズにするために、推奨Python環境を含んでいます。
            • ComfyUIマネージャーをデフォルトで同梱:ComfyUIレジストリから直接ノードをインストールし、最新のセマンティックバージョン付きノードにアクセスできます。最新のGitコミットから、ナイトリーバージョンも引き続きご利用いただけます。
            • タブ:複数のワークフローを開き、それらを移動できるようになりました。
            • カスタムキーバインド:ブラウザレベルのコマンドに干渉されることなく、カスタムキーバインドを定義できるようになりました。
            • 自動リソースインポート:インストール時にディレクトリを選択することで、既存のComfyUIを再利用できます。入力、モデル、出力を自動的にインポートします。
            • 統合ログビューア:デバッグが必要な場合にサーバーログを表示できます。
            • 自動リソースインポート:インストールディレクトリを既存のWindowsパッケージにリンクすると、ComfyUIが自動的に入力、モデル、出力をインポートします
            • モデルライブラリサイドバーを参照し、既存のモデルが表示されているか確認します
            • トレイアイコンを右クリックすると、モデルファイルや入出力ファイルに素早くアクセスできます。既存のモデル、入力、出力フォルダが開きます。
            • カスタムノードはインポートできません
            • 自動更新:ComfyUIのビルドが更新された場合、ComfyUIにログインするとポップアップが表示されます。「再起動」をクリックすると、ComfyUIが自動的に最新ビルドに更新されます。
            • アンインストール:システム設定で ComfyUI アプリをアンインストールします。このアンインストールでは、モデル/カスタムノード/入力/出力ファイルは削除されません。
            • 手動による完全アンインストール

            以下2つを削除してください。
            C:¥Users¥WINDOWS¥AppData¥Local¥ComfyUI_electron

            C:¥Users¥WINDOWS¥AppData¥Roaming¥ComfyUI

            インストール先として選択したディレクトリも削除すると、モデル/カスタムノード/入力/出力ファイルも削除されます。

            ログの確認

            C:¥Users¥<ユーザー名>¥AppData¥Roaming¥ComfyUI¥logs
            main.logはデスクトップアプリケーションのログで、comfyui_<日付>.logがComfyUIサーバーのログです。

            Pipパッケージのインストール

            ComfyUIデスクトップには、スタンドアロンPythonランタイムが付属しています。ターミナルを使用して、そのPython環境を更新することができます。

            フィードバック求む!

            ドキュメントによると「V1はまだクローズドベータ版です。ComfyUIの改善に役立つフィードバックをお寄せください。こちらからご報告ください:forum.comfy.org」とあります。

            Originally published at https://note.com on Nov 13, 2024.

          2. [ComfyMaster33] 便利LoRA: Envy Zoom Slider XLで画角調整しよう!

            プロンプトで画角を指定しても、思ったような画角にならないといった体験をしたことはありませんか?もっと直感的に画角を調整したいですよね。
            そんな画角調整を可能にするのが「Envy Zoom Slider XL 01」です。「Envy Zoom Slider XL 01」は、画角調整の自由度を飛躍的に向上させる革新的なLoRAとして注目を集めています。


            この記事の続きはこちらから https://note.com/aicu/n/n3b1ef1cc3fac

            Originally published at https://note.com on Nov 8, 2024.

          3. [ComfyMaster32] AWS上にComfyUI環境を構築しよう!(業務用)

            AWS上にComfyUI環境を構築しよう!
            3回に渡ってお送りしているAWS編。ホビーとしての画像生成を超えて、プロ向けかつコスト効果大なAWSクラウドサービス上でのComfyUI環境の構築を解説しています。最終回はマルチユーザーでの利用や認証、「業務用」として「業務利用での設定」をしっかりと解説していきます。

            ※チームでComfyUIを使う必要がある方に向けたプロ向け記事ですので本来は有料設定するべきですが、「祝!AWS ジャパン生成AI実用化推進プログラム採択」キャンペーンで期間限定でリポストで無料とさせていただいております。またこの内容はColoso「ComfyUIマスター:カスタムノードとアプリ開発」や近日発売予定の書籍に収録される予定です。動画メディアや書籍メディアで学びたい方はそちらもオススメいたします!

            ユーザーの作成

            AWS SageMaker Studio を使ったデフォルト設定のComfyUIにアクセスすると、まずログインを求められます。デプロイオプションでセルフサインアップを有効化している場合は、この画面からサインアップが可能ですが、デフォルトでは無効化されています。この場合は、ユーザー認証を担当するAWSのサービス「Cognito」からアカウントを直接作成しましょう。

            画像

            Cognitoのユーザープール、つまりログインできるユーザーの一覧を表示します。ここには、「ComfyUIuserPool〜」という名称のユーザープールが作られていますので、それをクリックします(以下の画像では2つありますが、初回の実行では1つしかないはずです)。

            画像

            表示された画面を下にスクロールすると、ユーザーセクションが見えます。初期状態では誰もユーザーが居ないので、「ユーザーを作成」ボタンをクリックして作成します。

            画像

            ユーザーアカウントの新規作成画面が開きます。ここで、ユーザー名とパスワードを入力し、最後に「ユーザーを作成」ボタンをクリックします。

            画像

            そうすると、新規ユーザーが追加されます。このユーザーでComfyUIにログインすることができます。

            画像

            ComfyUIへのログイン

            それでは、先ほど作成したユーザー名とパスワードでログインします。

            画像

            パスワードの変更が求められるので、新規パスワードを入力し、「Send」ボタンをクリックしてください。

            画像

            そうすると、ComfyUI画面が開き、ComfyUIを使えるようになります。

            画像

            ComfyUI Workspace Managerのインストール

            AWSの場合、ComfyUIにモデルやワークフローの追加をするためには、SSHで接続する必要がありますが、毎回接続するのは手間ですし、ITに詳しくない人も使用することを考えると、あまり良い手段とは言えません。
            そこで、「ComfyUI Workspace Manager」を使用します。このカスタムノードは、ワークフローの管理やモデルのインストールをComfyUI上で行えるようにするカスタムノードです。ComfyUI  Managerから、このカスタムノードをインストールしてください。

            https://github.com/11cafe/comfyui-workspace-manager

            Workspace Managerをインストールすると、左上にフォルダアイコンと「Model」と表示されます。

            画像

            Workspace Managerからのモデルのインストール

            「Model」をクリックすると、以下のようにCivitAIから取得されたモデル一覧が表示されます。ここから各モデルの「Install」ボタンをクリックするだけで、モデルをインストールできます。
            しかし、CivitAIのモデルの中には、ログインしていないとダウンロードできないモデルもあります。その場合は、右上の「Set Civitai API Key」をクリックし、表示されたダイアログにCivitAIで取得したAPIキーを設定することで、ログインが必要なモデルのダウンロードも可能になります。

            画像

            ※Civitaiの業務での利用については弁護士や各事業のAIコンプライアンスを担当する事業法務にご確認を推奨します。

            Workspace Managerでのワークフローの管理と生成画像の一覧表示

            Workspace Managerでは、左上のフロッピーアイコンをクリックすると、ワークフローを保存することができます。

            画像

            保存されたワークフローは、フォルダアイコンをクリックすると開かれる画面で管理できます。

            画像

            ワークフローを保存すると、左上に写真アイコン(ギャラリー)が増えます。ここでは、現在開いているワークフローで生成された画像の一覧を確認できます。

            画像

            ギャラリーを開くと、以下のように生成した画像一覧を閲覧できます。また、ここから画像をクリックすると、画像が別タブで開くので、そこで画像をダウンロードできます。

            画像

            画像ファイルをスWebsocketで外部保存するようなテクニックについては既にこの連載で扱ってきましたのでご参照ください。

            デプロイオプションの変更

            前回は、構築を行う前に、セルフサインアップや自動シャットダウンなどの設定はデフォルトのまま実行しました。ここから先はデプロイオプションの内容を確認しましょう。
            最新のオプションはこちらのURLに資料があります。

            https://github.com/aws-samples/cost-effective-aws-deployment-of-comfyui/blob/main/docs/DEPLOY_OPTION.md

            app.pyでパラメーターを変更することで構成します。
            https://github.com/aws-samples/cost-effective-aws-deployment-of-comfyui/blob/main/app.py

            app.pyでの値の変更方法

            app.pyファイル内でパラメーターを設定します。例えば、self_sign_up_enabled=Trueと設定することでセルフサインアップを有効にできます。その後、新しい設定で再デプロイするために以下のコマンドを実行します。

            npx cdk deploy

            セキュリティ関連の設定: セルフサインアップの有効化

            ユーザーがアプリに簡単にオンボード(利用開始)できるようにするにはセルフサインアップを有効にします。self_sign_up_enabledをTrueに設定します(デフォルトはFalseです)。

            comfy_ui_stack = ComfyUIStack(
                ...
                # Override Parameters
                self_sign_up_enabled=True,
                ...
            )

            MFAの有効化

            MFA(多段階認証)をユーザーに強制するには、mfa_requiredをTrueに設定します(デフォルトはFalseです)。

            comfy_ui_stack = ComfyUIStack(
                ...
                # Override Parameters
                mfa_required=True,
                ...
            )

            サインアップ可能なメールアドレスのドメインを制限

            許可するドメインのリストをallowed_sign_up_email_domainsに設定します。Noneの場合、制限はありません。[]の場合、すべてのドメインが禁止されます。

            comfy_ui_stack = ComfyUIStack(
                ...
                # Override Parameters
                allowed_sign_up_email_domains=["amazon.com", "amazon.co.jp"],
                ...
            )

            AWS WAFによるIPアドレス制限

            アプリケーションへのアクセスをIPアドレスで制限するには、allowed_ip_v4_address_rangesおよびallowed_ip_v6_address_rangesにCIDR範囲を指定します。

            comfy_ui_stack = ComfyUIStack(
                ...
                # Override Parameters
                allowed_ip_v4_address_ranges=["192.168.0.0/24"],
                allowed_ip_v6_address_ranges=["2001:0db8::/32"],
                ...
            )

            SAML認証の有効化

            SAML認証を使用するためにSAMLの設定を有効にします。これによりCognitoによる従来の認証機能は無効になります。

            comfy_ui_stack = ComfyUIStack(
                ...
                # Override Parameters
                saml_auth_enabled=True,
                ...
            )

            コスト関連の設定: スポットインスタンス

            非クリティカルなワークロードでコスト削減を目的として、スポットインスタンスを使用できます。use_spotをFalseに設定すると無効にできます。スポット価格の上限をspot_priceで指定します。

            comfy_ui_stack = ComfyUIStack(
                ...
                # Override Parameters
                use_spot=True,
                spot_price="0.752"
                ...
            )

            自動またはスケジュールでのスケールダウン

            インスタンスをゼロまでスケールダウンしてさらにコストを削減できます。1時間の活動がない場合に自動でスケールダウンするには、auto_scale_downをTrueに設定します。

            comfy_ui_stack = ComfyUIStack(
                ...
                # Override Parameters
                auto_scale_down=True,
                ...
            )

            スケジュールでスケールアップ/ダウンするには、schedule_auto_scalingをTrueに設定し、タイムゾーンとスケジュールを指定します。

            comfy_ui_stack = ComfyUIStack(
                ...
                # Override Parameters
                schedule_auto_scaling=True,
                timezone="Asia/Tokyo",
                schedule_scale_up="0 8 * * 1-5",
                schedule_scale_down="0 19 * * *",
                ...
            )

            NATインスタンスの使用

            NATゲートウェイの代わりにNATインスタンスを使用するには、cheap_vpcをTrueに設定します。

            comfy_ui_stack = ComfyUIStack(
                ...
                # Override Parameters
                cheap_vpc=True,
                ...
            )

            カスタムドメインの使用

            カスタムドメインを利用するには、事前にRoute53のパブリックホストゾーンが作成されている必要があります。host_name、domain_name、hosted_zone_idの値をapp.pyで指定します。

            comfy_ui_stack = ComfyUIStack(
                ...
                # Override Parameters
                host_name="comfyui",
                domain_name="example.com",
                hosted_zone_id="XXXXXXXXXXXXXXXXXXXX",
                ...
            )

            運用コストを下げる技「自動スケールダウン」

            インスタンスを放置すると自動でスケールダウンして運用コストを下げることができます。Scale Up ボタンを押すと5~10分程度でインスタンスが起動し利用できるようになります。

            一方で、業務時間がはっきりしている実務で使う際は auto_scale_down を無効にして指定時刻で起動する方が使いやすいでしょう。

            短時間での起動は現状インスタンスを削除して起動し直しているため、実測で5分以上かかっていますが、この辺りは業務で使う皆様はフィードバックをいただければよりよい改善ができるかもしれません。

            最後に:まとめと謝辞

            このたびAICUは「AWS ジャパン生成 AI 実用化推進プログラム」に採択されました!

            クリエイティブAIで「つくるひとをつくる」をビジョンに、「わかるAIを届ける」をコンセプトに活動しているAICU mediaは、高い技術力と、わかりやすい記事を通して今後もより一層力を入れて、AWS(Amazon Web Services)の企業での社内開発やプロフェッショナル向けの使いこなし事例を当事者目線でお届けしていきます。

            本稿の執筆にあたり、ご協力いただいたAWS前川さん、ありがとうございました。

            ゲーム、広告、アニメ製作など、自社開発での画像生成の自社開発は見返りが大きいです。画像生成AIからプロフェッショナル業務でのオープンソース活用を盛り上げていきましょう!AICUもお手伝いいたします。
            お問い合わせは X@AICUai までDMでどうぞ。


            この記事の続きはこちらから https://note.com/aicu/n/na834888caa78

            Originally published at https://note.com on Nov 7, 2024.