タグ: aiart

  • AICU代表 しらいはかせ がAIアートバトル「AIBATO」にて優勝! 作品とAICU開発技術を公開解説 [期間限定メンバーシップ先行]

    AICU Inc./AICU Japan株式会社 代表 白井暁彦(aka しらいはかせ/AICU編集長/Dr.Hakase:以下「しらいはかせ編集長」)が、AI人工知能EXPO内で開催された「AIアートバトル」チャンピオンシップ決勝に4人のファイナリストとして選出。Stable Diffusion部門で初代優勝を勝ち取りました。

    AICU media編集部は、しらいはかせ編集長の個人クリエイターとしての活動は、(業務に支障がない限り)他の所属クリエイター同様、個人活動として平らに尊重して扱っております。改めておめでとうございます。

    画像
    https://x.com/o_ob/status/1859883395855384816

    本稿では開催概要にあわせて、決勝での作品について紹介し、AICUがこれまで開発に関わってきた技術とともに公開解説いたします。

    AIBATO (AIアートバトル) イベント概要

    https://prtimes.jp/main/html/rd/p/000000006.000147393.html

    主催: 株式会社LimerenceAI
    イベント名: AIBATO (アイバト) – 国内初*のオフラインAIアートバトル
    *注: 国内初の「オフラインAIアートバトル」として (2024年8月時点、株式会社LimerenceAI調べ)

    公式サイト: https://aiartbattle.jp/

    イベントの目的: クリエイターとAIの融合による新しい芸術表現の開拓、AIクリエイターの発掘・支援。

    ポイント:

    • 国内初のオフラインで開催されるAIアートバトル。
    • MidjourneyとStable Diffusion、それぞれでチャンピオンが決定。
    • 著名なクリエイターやAI業界関係者が審査員を務める。
    • 予選はポートフォリオ審査、決勝はリアルタイムのバトル形式。

    開催日時:
    2024年11月21日(木): チャンピオンシップ決勝 (Midjourney使用)
    2024年11月22日(金): チャンピオンシップ決勝 (Stable Diffusion使用)

    開催場所: 幕張メッセ NexTech Week 2024 (AI・人工知能 EXPO) 内 LimerenceAIブース

    審査員:

    • 木下健太郎 (THE FIRST TAKE 映像プロデューサー)
    • 佐藤カズー (TBWA HAKUHODO CCO)
    • 平久江勤 (TBWA HAKUHODO プロデューサー)
    • 元木大介 (KandaQuantum 代表取締役社長)
    • 本田崇人 (株式会社メロン 共同代表CTO)
    • マドカ・ジャスミン (タレント、KandaQuantum CMO)
    • Hakushi (ShiftAI AIクリエイティブ講師)

    大会MC: トンピ (eスポーツキャスター)

    画像
    https://x.com/AI_Marika1018/status/1859923877369168212

    競技形式

    • 予選 (作品選考): ポートフォリオによる審査。MidjourneyとStable Diffusionそれぞれ8名が決勝進出。
    • チャンピオンシップ決勝 (リアルイベント): 主催者からのお題に基づき、制限時間内に画像生成。シングルエリミネーション方式。

    使用ツール: Midjourney, Stable Diffusion


    しらいはかせ本人の個人ブログにて手記が公開されております

    準備編

    https://note.com/o_ob/n/n3ed4cc5266c1

    予習編

    https://note.com/o_ob/n/ndf85d8b24d46

    実況編

    https://note.com/o_ob/n/nf7a760746933


    [PR]使用された技術について

    使用された画像生成テクノロジーにつきましては大会レギュレーションに基づき、多くはAICUメディア編集部より発行されております以下の技術群によって構成されています。

    GPU不要で利用できるAUTOMATIC1111学習のための教科書
    「画像生成AI Stable Diffusionスタートガイド」(SBクリエイティブ刊)

    https://j.aicu.ai/SBXL

    Stability AI APIに関する日本語の情報発信(note無料マガジン)

    Stability AI Fan!|AICU media

    https://note.com/aicu/m/m6000f560d1db

    AICUマガジン Vol.5特集「Stability AI Forever!」

    https://j.aicu.ai/MagV5

    「CGWORLD vol.315」画像生成AIによる表紙メイキング、大公開。
    #デジタルハリウッド30周年 記念寄稿

    上記の原稿はAICU Magazine Vol.6特集「エンターテインメントxAI」に収録されております。 https://j.aicu.ai/MagV6

    Google ColabとGoogle Slidseを使った再現性の高い絵作り技術についてはこちらの記事「#10分で学べるAI」が関連あります。

    https://note.com/aicu/n/n4fcc8c200569

    AICUマガジン5月号「次世代まんが制作術!」に収録されております

    https://j.aicu.ai/Mag2405

    Coloso「生成AIクリエイティブ AICU」シリーズ

    Stability AI API、Google Slides、Google Colabを使った画作りについて短時間で実用的な技術を学ぶことができます。

    ■「超入門:Stable Diffusionではじめる画像生成AI」

    https://j.aicu.ai/coloso1

    ■「初級者:広告企画から動画制作までのプロセス」

    https://j.aicu.ai/coloso2

    ■「ComfyUIマスター:カスタムノードとアプリ開発」

    https://j.aicu.ai/coloso3

    詳細なテクニックにつきましては今後も、AICUマガジンにて特集を組んで紹介予定です。

    https://j.aicu.ai/mag

    「つくる人をつくる・わかるAIを伝える」
    AICU media https://note.com/aicu

    チャンピオンシップ決勝での作品

    しらいはかせのコメントや実際に使われたプロンプトとともに、期間限定メンバーシップ向け先行でお送りします。


    ウォーミングアップ編

    当日のMCが前日のMidJourney部門の報告を行うタイミングや、第1試合が実施されている傍らでリアルタイム生成した画像はこちらになります。

    画像
    正確な文字盤を持った目覚まし時計と、ベッドで横たわる青年
    “prompt”: “photorealistic, detailed, highly detailed, alarm clock with accurate dial, young man lying on bed, bedroom scene, realistic lighting and shadows”, “negativePrompt”: “blurred, blurry, out of focus, low quality, distorted, disfigured, deformed, mutilated, extra limbs, poorly drawn, bad anatomy, bad proportions, ugly, monstrous, mutation, mutant, extra body parts, extra heads, extra faces, extra arms, extra legs, extra hands, extra feet, extra fingers, extra toes, malformed hands, malformed feet, malformed legs, malformed arms, malformed digits, malformed limbs, malformed face, malformed body, malformed proportions, poorly rendered, poorly rendered face, poorly rendered hands, poorly rendered body, poorly rendered proportions, artifacts, errors, defects, low resolution, text, watermark, signature, username, logo, ui, hud, bad quality”
    画像
    “prompt”: “photorealistic, highly detailed, young girl, squinting, blinded by bright flash, dazzled, overwhelmed, dramatic lighting, dynamic pose, intense expression, detailed facial features, detailed eyes, detailed hair, intricate clothing”, “negativePrompt”: “blurred, blurry, out of focus, low quality, distorted, disfigured, deformed, mutilated, extra limbs, poorly drawn, bad anatomy, bad proportions, ugly, monstrous, mutation, mutant, extra body parts, extra heads, extra faces, extra arms, extra legs, extra hands, extra feet, extra fingers, extra toes, malformed hands, malformed feet, malformed legs, malformed arms, malformed digits, malformed limbs, malformed face, malformed body, malformed proportions, poorly rendered, poorly rendered face, poorly rendered hands, poorly rendered body, poorly rendered proportions, artifacts, errors, defects, low resolution, text, watermark, signature, username, logo, ui, hud, bad quality”
    画像
    “prompt”: “movie poster, intense, gripping, thrilling, action, suspense, drama, security, robust, impenetrable, fortress, stronghold, armored, shielded, protected, guarded, cinematic, photorealistic, highly detailed, dynamic composition, dramatic lighting, bold typography”, “negativePrompt”: “blurred, blurry, out of focus, low quality, distorted, disfigured, deformed, mutilated, extra limbs, poorly drawn, bad anatomy, bad proportions, ugly, monstrous, mutation, mutant, extra body parts, extra heads, extra faces, extra arms, extra legs, extra hands, extra feet, extra fingers, extra toes, malformed hands, malformed feet, malformed legs, malformed arms, malformed digits, malformed limbs, malformed face, malformed body, malformed proportions, poorly rendered, poorly rendered face, poorly rendered hands, poorly rendered body, poorly rendered proportions, artifacts, errors, defects, low resolution, text, watermark, signature, username, logo, ui, hud, bad quality”

    まず、これらの非常に長いプロンプトを英語で表現する上で、シードやモデルとともに一貫性を維持するため、プロンプトエンジンとしてAWSを利用した自社開発のシステムを運用しております。

    ベースになっているシステムはAWSが公開しているオープンソースでのGenUであり、AWS 生成 AI 実用化推進プログラムの協力もあり、実用レベルでの実証実験を行っております。

    例えば、AICUが実施を担当している、神奈川県「ともいきメタバース講習会プロジェクト」でも障害者むけワークショップでiPad等で利用されており、以下の書籍でも報告されております。

    ■メタバースとAIで「ともに生きる」を実装する本 ~ 神奈川県の障害福祉現場で開発してみた!(技術書典17:DHGS_CAIL デジハリ大学院「クリエイティブAIラボ」)

    https://techbookfest.org/product/2wMwe21GnNdPPpQeby4Dc9?productVariantID=pD8wVXcUzd5zcvXRwH122L

    ネット環境やPC、GPU環境が乏しい環境においても安定して日本語でStable Diffusion XLを用いた画像生成が行える環境になります。構築についてのご相談はAICU AIDX Labまでお問い合わせください。

    画像

    さらに続きます。
    上記のプロンプトエンジンは、あくまでベースモデルとなるStable Diffusion XL (SDXL)での生成となります。このプロンプトをベースに複数のモデルにおいて、適した画像を生成していく方針になります。またSDXLは2023年6月に公開されたモデルであり、ベースモデルとしてオープンに公開されており、また光の表現や構図構成力、解像度などはSD1.5系とは一線を画すレベルですが、指の表現や人物・人種の偏りには難があります。またメモリ消費が大きくローカルGPUでの複数モデル同時利用は現実的ではありません。そのため、近年公開されたSD3系のモデルを複数並列してAPIを経由して利用します。

    例えばGoogle ColabやGoogle Slides、Windowsのバッチファイルなど、ありとあらゆるインタフェースやツールを使い、並列して再現性高く評価していきます。また同様に、SD3だけでなく、SD3.5やFlux、またそのLoRAなども並列して評価を行っています。

    Shot1テーマ: ”息が止まる”

    画像
    “prompt”: “manga, comic panel, underwater scene, swimmer, holding breath, intense gaze, blue water, bubbles, athletic body, dynamic pose, comic shading, manga line art”, “negativePrompt”: “blurry, low quality, watermarks, text, logos, inappropriate content, explicit nudity, gore, violence”,

    例えばこちらは、Google Slidesでのテストです。

    画像

    Google Driveに生成された中間生成群です。

    画像

    もともと「AIバリエーション広告」(AICU用語で制御高く広告のバリエーションを生成するテクニック、またAIでスタイルを制御しながらA/Bテストなどを準備して入稿するところまでを指すこともあります)のためにStability AIさんの協力でAICUが開発したものです。

    実際にお手元のGoogle Slidesでお使いいただけるリンクも紹介します。

    第2テーマは「最新AIツールの広告」

    作品「AI代供養に出資しませんか?」、こちらは上記の手法で、Google Slides上でできています。「実況編」にあるとおり、主催の平田茉莉花さんの「AI仏壇」をテーマにキャッチコピーとビジュアルコンセプトを考えたものですが、Google Slidesなので文字のタイプセットやフォント、装飾などもスタイリッシュにテンプレートを作り込むことができます。

    画像
    “prompt”: “futuristic buddhist altar, money printing, stacks of cash, blonde short-haired businesswoman, black suit, tight skirt, boots, slick advertising, unethical business practices, ai technology”, “negativePrompt”: “blurry, low quality, watermarks, text, logos, offensive content, illegal activities, extreme views, hate symbols, religious insensitivity, sexualized imagery, inappropriate elements”,
    画像
    Style used: digital-art Prompt=futuristic buddhist altar, money printing, stacks of cash, blonde short-haired businesswoman, black suit, tight skirt, boots, slick advertising, unethical business practices, ai technology NP=NSFW, worst quality, ugry, blurry, low quality, watermarks, text, logos, offensive content, illegal activities, extreme views, hate symbols, religious insensitivity, sexualized imagery, inappropriate elements

    処理としても、プロンプトを設定してから数十枚の画像の結果を見るまで、他の処理系や評価に集中できるので、確実に短い時間で、確実に品質の高いアウトプットを、確実に制御性高く出力することができます。

    画像

    このGoogle Slidesを使ったツール内部はGoogle Apps Scriptで書かれており、一番最初のスライド上の各テキストオブジェクトにプロンプトやパラメータを設定するという風変わりなツールになっています。
    これは画像生成AI時代の「ガトリング砲」のような手法であり、プロフェッショナルな画像生成案件において培われたノウハウでもあります。

    決勝Shot1お題は「ニルヴァーナ」

    作品「魑魅魍魎曼陀羅」です。同様の手法で作られていますが、仕上げの段階が異なってきます。

    画像
    画像
    画像
    画像
    画像
    画像
    画像

    AICU-Stability-AdGenerator を使った絵作りの利点として、スライド上での評価が高速に行える点があります。写真を比較して差分を確認して、より良い広告を作るためのノウハウは先に述べたとおりですが、表情やスタイルの違いを横断的に評価できます。またレイアウトも自由に検討できます。
    さらにバッチ処理の待ち時間に並行してGoogle Colabを使ったスタイル学習を試しています。

    [AIBATO]AICU_Coloso1_Original_Tool.ipynb という Coloso第一弾の購入者向けに開発したツールであり、プロンプトを分割して Stable Image Ultraで生成したり、シードを横断的に指定したり、スタイルを学習させることができます。

    画像
    画像

    例えばこの絵は「ニルヴァーナ感は高いですが、平田茉莉花さんのキャラクターとしては神々しさよりももっと邪悪な狡猾さをきちんと組み込んでいきたいな」といった判断があります。大会レギュレーションに沿うと縦長画像を生成する必要がある一方で、ディスプレイとしては横長であり、PCモニタとディスプレイの色味も異なるので、生成しつつもどちらで勝負するかは考えながら審査表示用の画像やツイートなども準備しています。

    ツイートに関しては、勝負を馬鹿にしたり余裕を噛ましているのではなく、「余裕時間や区切りを作っている」というテクニックになります。「時間最後までギリギリにやるぞ」と考えていると、画像生成にかかる時間を逆算できなくなりますので、「最後はツイートまでするぞ」と保存やツイートにかかる時間を逆算しつつ、タイムスタンプとしての時系列を記録しています。また後ほどこの原稿のようにタイムラインを振り返るためにも必要な行為です。こうして、制御性の高いプロフェッショナルの絵作りノウハウが積み重ねられていく、以上が解説になります。

    最終テーマは「背水の陣」

    以上が基本テクニックです。エンターテインメントとしての生成AIアートバトルを意識して、これまで作ったプロンプトを合体させつつ斬新なコンセプトやウィットの利いたジョークをキャッチコピーと画像のコンセプトに忍ばせつつ、品質の高い制御された絵作りをツイート込みで続けていきます。

    最終テーマは「背水の陣」ですが、ここでゼロからの絵作りを勝負するのは良い戦法ではありません。審査員も観客も、すべての手の内を見ておりますので、目も肥えてきます。隠し武器はたくさん持っているのですが、文字通り「背水の陣」であれば、いままで使ってきたテクニックだけでより完成度の高い統合や、世界観、広告としてのエンゲージメントを勝ち取らねばなりません。

    特に世界観を支える背景や、キャラクターデザイン、それを支えるモデルやシードは運ではなく、開発して錬成して制御していく要素なので、短い時間で緊張感のある現場ですが、丁寧にログが残る形でGoogle Colabノートブックで生成しています。

    画像
    画像

    リクエストはREST APIによって行われ、繰り返し構文「For」を使ってシードやフィデリティパラメータを調整していきます。ファイル名にプロンプトやパラメータが残るようになっています。

    画像
    画像
    画像
    画像

    一見余裕を噛ましているように見えますが、こういうときは「この系は一旦終わりにしよう」という意味でもあります。
    息を吐くようにツイートし、写真や漫画やイラストレーションなどで経験があるしらいはかせならではの行動かもしれませんが、絵師さんがツイートするときも同じような気持ちの切り替え行動をしていると想像します。

    なお、表情の探求についてはプロンプトとスタイル制御で行います。このあたりは細かいところはColoso動画で紹介しています。

    画像

    これは「半目閉じ」を指定しつつ、背景に魑魅魍魎が足りなかった、また曼荼羅としての方位を示す要素が甘かった、などで没になった画像です。このような画像の評価もGoogle Colabは便利ではなく、Google DriveやSlidesを使うように連携しています。

    画像
    画像

    最後の方は秒単位まで集中していますので、コピーライティングとしての文字や漢字のトンマナ調整、レイアウトなども整理させていただくとこんな感じになると思います。これもGoogle Slidesでの作業です。

    画像

    以上が主なツールや技術の紹介になります。
    Coloso第一弾企画の復習ですね! 
    本当に良い講座なので、幅広い人にみてもらいたい。

    https://j.aicu.ai/coloso1


    作品の文字なしクリア素材や中間生成物、ツールなどについては有料パートに置かせていただきます。

    ここから先はAICUマガジンの特集の方で公開していく予定ですが、ご質問等はコメントいただけましたら、解説を拡充していきたいと思います。

    以上ご報告でした。
    今後ともAICU mediaをよろしくお願いいたします。

    寄稿・生成AIクリエイター しらいはかせ (@o_ob)


    この記事の続きはこちらから https://note.com/aicu/n/n26c3001b2b13

    Originally published at https://note.com on Nov 26, 2024.

  • 世界の生成AIアニメツールが初公開「ComfyUI Community Summit Tokyo 2024」

    2024年11月16日、池尻大橋「BPM」にて開催された「Comfy Community Summit Tokyo」を現地突撃取材をいたしました。

    朝10:30~20時という非常に長時間のイベントにも関わらず、会場は100人以上の参加者が所狭しと集結する熱気のある場となっていました。

    画像

    コミュニティのコアメンバーが中国系の開発者 @ZHO_ZHO_ZHO であることもあり、メイン言語は英語でしたが、ほとんどの参加者は中国語話者でした。おそらく日本在住の中国系の参加者がとても多かった印象です。

    画像

    サミットの名にふさわしく、中国系だけでなく、日本や欧米のプレイヤーも集まっていました。
    フランスからUbiSoftの開発者、日本からはAiHubがホストしており、ゲストスピーカーにはCivitaiのVice President (VP of Partnerships) である Matty Shimuraが参加していました。

    画像
    画像

    左からAICUしらいはかせ、AiHub新井モノさん、田中さん、CivitaiのMatty Shimura氏です。なかなか会える人たちではありませんね!

    Civitai・Matty Shimuraによる講演「プロジェクト・オデッセイ 第2シーズン」

    Matty Shimura氏の講演では、画像生成モデルSNS「Civitai」に関する話というよりも、この夏開催された国際AI映像制作コンペ「Project Odyssey」(プロジェクト・オデッセイ)に関する報告と、「第2シーズン」に関する発表が大きかったです。

    画像

    https://www.projectodyssey.ai

    Project Odysseyの第1シーズンでは19社による協賛でしたが、

    画像

    第2シーズンではこれだけのスポンサーがつくそうです。

    画像

    これから3月にかけてコンペが進行していきます。

    画像

    詳しく知りたい方はこちらの動画をどうぞ。

    iKHOR Labsによる世界初公開のアニメ制作ツール「KamikAI」

    プロ向けAIアニメツールを開発するアメリカ西海岸のスタートアップ企業「iKHOR Labs」(アイコールラボ)のCEO、Coco Nittaよりアニメ制作ツール「KamikAI」が世界初公開されました。

    画像

    Coco Nitta氏は グラミー賞ノミネートプロデューサーであり、iKHOR Labs の CEOです。音楽プロデューサーからテクノロジー起業家に転身した日系人で、AI を活用し、人間のアニメーターの力を高めることでアニメ業界に革命を起こすクリエイティブAIツール企業「iKHOR Labs」創設者です。

    画像
    画像
    画像

    今回発表されたツールは非常に安定してアニメ原画を描ける「KamikAI」で、「NDA(守秘義務契約)なしで公開する初の機会」とのことでした。さらにティザー動画だけでなく、ライブデモ実演がありました。

    画像
    画像
    画像

    詳細に興味が有る方はこちらの動画をどうぞ

    「KamikAI」のデモパートはこちら

    AiHub、Tasuku氏によるプレゼンテーション

    Chillout Mixの作者・Tasuku氏( @tasuku2023 )によるAiHub会社紹介が行われました。経済産業省による生成AIチャレンジプログラム「GENIAC」に関するお話などもありました。

    画像
    画像
    画像
    画像
    画像
    画像
    画像
    画像
    画像
    画像
    画像

    日本語と英語のハイブリッド講演です。

    参加者の様子・Xでの投稿から

    画像
    画像
    画像
    画像
    画像
    画像
    画像
    画像

    まとめ

    ComfyUIのミートアップは、アメリカ西海岸を拠点とする開発者本体である「Comfy Org」が既に渋谷で開催いたしましたが、中国系のコミュニティイベントが東京で開催されるという盛り上がり、その熱狂をお伝えしました。

    https://corp.aicu.ai/ja/meetup20240927

    前回のイベントアーカイブも参加者により報告されていますので興味のある方はご参考まで。

    会場ではAICUマガジンや SD黄色本 の中国語版を求める声も…!
    ありがとうございます!頑張ってみます。

    https://j.aicu.ai/MagV6

    これからも大いに盛り上がりが期待されるComfyUIのコミュニティ、AICUも継続して解説ブログや連載Coloso動画ラーニングメディア、イベントやレポート記事等で応援していきたいと考えております。

    https://j.aicu.ai/Coloso3

    ★イベントの告知や取材依頼はこちらからどうぞ → 掲載依頼フォーム

    Originally published at https://note.com on Nov 18, 2024.

  • 「なんかいい展」開催レポート

    「AIの現物展示をしよう」
    「なんかいい」という、「曖昧で深い言葉」、なにか心に引っかかる。
    6人のAIイラストレーターが集まって、「なんかいい展」が2024年10月26日に開催されました。
    「つくる人をつくる」をビジョンにするAICUでは開催を応援する意味で、参加クリエイターにロングインタビューを実施しました。
    各クリエイターの作品や、次回の開催についての情報もあり!
    最後まで味わってお読みください。

    画像
    画像
    画像
    展示会場の様子 (左: Sentaku さんの作品 / 中: Naf / 右:高高度墜落 さんの作品)

    参加クリエイター3名に1時間半のロングインタビューを実施しました。

    「なんかいい展」

    AI illustration group exhibition “kind of like ******”
    東京の門前仲町で、2024年10月26日に1日だけ開催されました。

    いままで大きな企業や展示会でしか企画されていなかったAI画像祭といった企画を「最初はミニマムに」ということで深川ガレージさんをお借りして小規模に実施したかった、ということです。
    素敵なウェルカムボードをご紹介。

    画像

    ”なんかいい”って、曖昧なようでいて、実は深い言葉だと思いませんか?
    はっきり言えないけど、なぜか気になる、なにか心に引っかかる。
    でも、だからこそ価値がある。
    今回は6人のイラストレーターが、この”なんかいい”をテーマに、
    それぞれの視点で新しい感覚を探求しました。

    AIが作るアートに価値はあるのか?
    人間の創造性を奪うのでは?
    AIに魂はないのでは?

    そういう疑問の声もあります。
    けれど、私達はこう考えます。
    AIアートは、人間が想像しなかった視点を提示してくれる。
    偶然が生む美しさや、予測不可能な世界が広がっている。
    それが今の時代に生まれる新しい「なんかいい」かもしれません。

    この展示で、あなたの心にも”なんかいい”が見つかることを願っています。

    【メンバーの紹介】

    集まったメンバー6人は、Sentakuさんの呼びかけにより、SNSもしくはdiscordコミュニティで集まってくれたそうです。

    Sentaku(せんたく) さん

    画像

    Xアカウント:@sentakusound
    https://x.com/sentakusound

    廃材 さん

    画像

    Xアカウント:@haiz_ai
    https://x.com/haiz_ai

    marukichi(まるきち) さん

    画像

    Xアカウント:@marukichi667944
    https://x.com/marukichi667944

    ☆今回のインタビューに参加できなかったメンバーさんからは、メッセージ・プロフ、作品展示写真をご許諾とともに頂いております。

    Naf さん

    画像

    アカウント:@naf_aiart
    https://x.com/naf_aiart

    【Naf】
    初めまして、Nafです。
    AIを使ってイラストを生成しています。

    少女というキャラクターを通して
    その場の空気や温度を感じられるような
    作品を作りたいと思っています。

    人には色々な感情があって
    背景には必ずその理由があります。

    皆さんの目に触れた時に
    心に残る何かがあれば幸いです。

    高高度墜落/kkdfall さん

    画像

    アカウント:@kkdfall
    https://x.com/kkdfall

    【高高度墜落/kkdfall】
    aiをツール化したい墜落さんです。あの日見た景色から落下しています。
    日常の少し隣にある瞬間を捉えたいと考えて取り組んでいます。

    Takoyama さん

    画像

    アカウント:@takoyama9zo
    https://x.com/takoyama9zo

    読者のみなさま、はじめましてTakoyamaです。
    私は色彩とアルゴリズムの交差点に身を投じ、コードと創造が交わる場所で美しいなにかを見たいと願い、日々模索しています。
    AIが考える命の美しさが何かの拍子に現れたらいいなと考えています。

    【どうして「なんかいい展」を開催したの?】

    画像
    (看板)

    ――インタビュワーのAICU media編集長・しらいはかせ です。このたびは「なんかいい展」のご開催おめでとうございます。まずは普段どんな活動をして、何を考えているのか、また何故「なんかいい展」を開催したのかについてお聞かせください。

    Sentaku「みんなに会って話したい」

    ――今回のグループ展の発起人となったSentakuさんですが、どういうモチベーションだったのでしょうか。

    Sentaku:ふだんはテレビ業界のサウンドデザイナをしています。けっこうAIは、この仕事と近いところがあって、自分は「サウンドデザイナーをしているけど楽器はできない」という人材なんです。AIでイラストレーションを作っていくのもとても似ているところがあって。仕事はいつもクライアントワークなので「自分を表現するところが欲しい」とおもってAIアート活動をはじめました。最近は「みんなに会って話したい」、「コミュニティとしてみんなに会ってみたい」と思って企画しました。

    ――その芽生え……。なるほど興味深いです。楽器とかも結局そうなんですよね。演奏するっていういわゆる演奏家の人がいたとしても、楽器を上手に扱えるか 扱えないかみたいなところの軸も当然あるし、さらにそのお客さんに対しての「商品性がある演奏」とか「楽曲などがやれるかどうか」みたいなところの軸もあって……。運よくそのテレビ業界で生業になり糧なりを得ているんだけれども、やはり「表現したい」、「自分の考えたことを表現したい」と思った、と。道具を使いこなして演奏するみたいなところから、画像生成 AI の演奏家として、ひとりひとりのクリエイターとして成立していて、さらにそれが「他の人たちに会いたい」、「作品を通して人に会いたい」っていうモチベーションに育っていったってことなんですね 。

    画像
    Sentaku さんの作品

    marukichi「自分の好きなものに”手綱”をとってもらう」

    marukichiです。普段はIT系でカスタマーサクセスを担当しています。イラストレーションは我流ですが、画材を使って描いたり、立体造形、工芸などをやってきました。AI画像生成とは MidJourney を2022年夏頃から触っていて、デザイン関係でロゴとかを作ったりして「時短ツール」として使って来ました。いままで作ってきたもの、表現できるようになってきたこともあり、X(Twitter)で公開し始めたのは2023年の7月ぐらい。最初はジャンル問わず出していたのだけど、ここ半年ぐらいは「青とメガネ」にこだわっています。

    画像
    会場の様子 (左: marukichiさんの作品 / 右: Sentakuさんの作品)

    ――「最初はジャンル問わず出していたのだけど」ということなんですが、「AIアートならではのスランプ」みたいなのに入ることってありますよね。なんでも出せちゃうし、みんなとの差も生まれづらいですし。

    marukichi:そうなんです。「自分の好きなものに”手綱”をとってもらう」という感じです。

    ――たしかに、その「好きなものドリブン」って大事ですよね。AICUの所属クリエーター・犬澤某さん(@insbow)も「(個人作品では)オーバーオールを着た犬しか描かない」って言ってシバリを入れてますし、そういう「制約」って、クリエイターにとってはとてもいい挑戦になるんですよね。

    画像
    会場の様子(左: Nafさん / 中央左: 高高度墜落さん / 中央: Takoyamaさん / 右: 廃材さん)

    廃材「”AIイラストレーター”という表現にも、複雑な想い」

    ――廃材さんは、どんな活動をされてきたのですか?

    廃材:AIの流行が始まってすぐの頃は、叩かれがちだったり、著作権問題だったりが、重くありました。
    その中で自分としては「クリエイティブをネットに廃棄していく」というスタンスで活動してきたんです。いわゆる『AI絵師』と自分は違う、「廃材」として。でも『捨てている』というスタンスを取っている反面、魂を込めて作品を作っているので、『どこかの誰かの心に触れてほしい』という気持ちも長く持ち続けてきました。「なんかいい展」というグループ展を通して、それを感じてみたいと思いました。”AIイラストレーター”という表現にも、複雑な想いがあります。

    ――いいですね!とても複雑で、いいと思います!AICU mediaも生成AIでの発信活動を2年ぐらい続けて来ましたが、商品としてパブリッシングを行うメディアによって「AI画像生成を”描く”と表現しない」とか、セミリアル、フォトリアルのみを扱い「イラストレーションを扱わない」といった制約を行ったメディアもあります。でも、社会との対話を作品を通して行いたい、という気持ちが芽生えていく姿はとても尊いですね。

    画像
    高高度墜落さん作品
    画像
    Nafさん作品

    【やってみて、どうだった?】

    「なんかいい展」は「見に来る人もお金がかからないように」ということで、「来場無料、グッズ販売などもなしで」、というコンセプトで実施されたそうです。

    ――制作の過程での苦労などをお聞かせください。

    Marukichi:もともと手でアナログアートをやっていたんです。でも時間がかかるので、だんだん、できなくなってきている。それが「AIでイラストを生成できる」という時代がやってきて、「好きなものをトンマナにしよう」と決めて、最近は「青色と眼鏡」でこだわっています。

    ▼展示1枚目

    ▼展示2枚目

    ――ほんとうに!青色と眼鏡、なんですね。ネットでの反応も共感が多く見られますね。

    画像
    展示された marukichiさんの作品

    ――廃材さんは、”普通のプリントではない作品”なのですね!?

    廃材:アクリルの塗料を使って立体感を加えました。キャラクターの眼の部分など。これは、やってみて、お客さんからも反応が良かったです。

    画像
    立体的な質感を持つ廃材さんの作品(スタッフ撮影)

    ――廃材さん、いかがでした?社会に自分の物としての作品を発信してみた、ということなのですが。

    廃材:ホント、一人ではできなかったと思うので、Sentakuさんには感謝です。

    画像
    Takoyamaさん作品

    【お金、どれぐらいかかりました?】

    ―― 来場無料で開催されているのですが、クリエーター側はどのような費用感なのでしょうか?

    Sentaku:ひとりおよそ2万円ぐらいかかっていますね。ギャラリーの場所代が6万円、印刷費用はA2サイズが1枚5,000円、といったところです。

    ―― ギャラリーも大判印刷もけっこうかかりますからね……。ちなみに印刷所についてもお聞きしていいですか?

    Sentaku:今回は「ソクプリ」さんですね  https://www.ooban-senmon.com/

    廃材さん:私は実はたくさん失敗しているので、もっとかかっていますね。

    ―― ああ~!でもそれってたぶん「上手になっても何度もプリントして品質あげちゃうやつ」ですよね……僕も写真出身なのでわかります……!!!

    画像
    廃材さんの作品

    やってみる前は「不安」、やってみたら「みんなあたたか」。

    ―― 来場された方々の反応はいかがでしたか?

    Marukichi:一言でいうと、やって見る前は「不安」、やってみたら「みんなあたたか」、という感じです。来場された方々にも、画像生成でイラストレーションを作っている方々も多くいらっしゃって、「こうやってます」と、変に自分を隠す人もいないし、むしろ「アピールされた」という感想があります。作ってる中の人のことを聞きたい、みんな「やりたい人はたくさんいるんだな」、それを肌で感じました。

    ―― それはおもしろいですね(笑)

    Sentaku:AIアートに対する批判もあるかと思ったのだけど、「なんかいい」に共感する方、共通することが多くて。これこそがアートだと思いました。
    「なんで呼んでくれなかったんですが」とか、「次は声かけてください」とか言ってくださって。それがうれしかった。みんな表現したいんだ、とか「実物を通して伝わったんだ」と思いました。

    ―― 一番大変だった事って何ですか?

    Sentaku「この企画を、とにかく、成立させるんだ!」……これをメインに考えていましたね。全部が初めてだったので。(お客さんが)AIイラストを見た人がどう感じるのか。AIで、デジタルだったものを、物体化してみんなに見せるってことが一番大変だったことかもしれない。

    (僕は仕事柄、AI クリエイターの人たちをたくさん見てるところもあるのですが)ソロでやっている方は「心理的不安」みたいな「まだ同人誌レベルには一般化していないかも」といった不安がある中で、「やる前 、やった後」つまり、やる前は『すげえ 大変だ』と思ったけど、やってみたら『いい話』といったエピソードってありませんか?

    廃材:深川ガレージ(Fukagawa Garage)さんが、ギャラリーの道路沿いに大きな看板を出してくださって……これを見て来場された方々がいらっしゃいました。「開催した」ってことに、価値があると思っています。

    AIアートがギャラリーイベントを通して社会との接点を得る瞬間をみた

    ―― 白井:ネットで出会いようのない人たち、「深川ガレージでしかありえなかった出会い」とか、いただいた意外な感想とか 、あれば。

    Marukichi:サラリーマン、仕事帰り、という感じの方が写真を撮ってふむふむ、という感じで帰っていた。そういうのもいいとおもいました。

    Sentaku:オーナーさんの娘さん(未就学児か小学校低学年ぐらい)が見に来てくれたのが嬉しかったですね。で、「かわいい!」「かわいいけど女の子ばっかり!」って。

    ―― あるあるですね(笑)!女の子じゃないの モチーフにしたらどうなんだろう? みたいな発想はまさに「社会に作品を出してみて初めて気づく新たなチャレンジ」みたいな感じで尊いですね。
    AIアートがギャラリーイベントを通して社会との接点を得ていく瞬間』みたいな……。 

    画像
    会場となった 深川ガレージ(Fukagawa Garage)さん

    Sentaku:プロジェクターを使ってPCの映像を写して…ということもやっていました。その場でNijiJourneyをいじってみたりしてみました。その後、お客さんが「NijiJourneyはじめました」って言ってくれたりもして。

    ―― なるほどそういうワークショップとか需要ありそう。AICUとしてはぜひ 提供したいですね。

    廃材:スクリーンさえあれば、リアルタイムで飾れるわけですよね。AIアートならではの展示方法もありそう。

    ―― さいごに告知等ございましたらどうぞ!

    Sentaku:Sentaku 、廃材、marukichiの3人が「第3回 オオカミの森」展の東京開催にAIイラストを出品します。販売もあります。

    アートで紡ぐ『オオカミ』の新たな物語

    https://forest-of-wolf.crywolves.net

    画像

    🐺第3回「オオカミの森」東京開催🐺
    日時:11/5(tue)~11(mon)
    場所:西武渋谷展 B館5階
    時間:10:00~20:00

    『オオカミ』ってこんなにもカッコよくもあり、愛らしい存在だと知ってほしい!
    そして、日本から姿を消したオオカミが帰ってこれる森を創っていく。
    そんなきっかけになるイベントを目指しています。
    オオカミ好きのクリエーターたちが創る、オオカミ関連のアート、グッズ、雑貨などの作品が一堂に集結するPOPUP。

    おもしろそうな展示会ですね!しかももうすぐ開催ですね!これは楽しみです。

    Sentakuさん、廃材さん、marukichiさん。お忙しいところロングインタビューにご参加いただき本当にありがとうございました!

    AICU mediaは「つくる人をつくる」を応援しています。

    展示会やクリエイティブAIイベントの告知や開催レポートの掲載ご相談・ご出稿はこちらのフォームか、 X@AICUai までお問い合わせください。

    https://j.aicu.ai/pubreq

    ☆こちらの記事はAICU media編集部の方針で期間限定無料配信とさせていただきます

    印刷版「AICU Magazine Vol.6」に収録予定です。
    https://ja.aicu.ai/mag

    もちろん本記事をご購入いただく事は歓迎です!
    ☆シェアしていただいたほうが嬉しいです☆


    この記事の続きはこちらから https://note.com/aicu/n/nb669d5eca8f6

    Originally published at https://note.com on Oct 31, 2024.

  • [ComfyMaster13]ComfyUIでのTextToImageを極める!! (3)Concatで複数CLIPをつなぐ

    ComfyUIで「思い通りの画像を生成したい!けど思うようにいかない…」という方、TextToImage(t2i)を使いこなせていますか?
    Stable Diffusionの内部の仕組みを理解し、ComfyUIでのText to Imageテクニックを身につけて、思い通りの画像を生成できるようになりましょう!

    こんにちわ、AICU media編集部です。
    ComfyUI マスターガイド」第13回目になります。

    前回は「ComfyUIでのTextToImageを極める!!(2)Combineでプロンプト融合」と題して複数プロンプトを組み合わせての生成について解説いたしました。
    今回は、長文プロンプトを分割して意図した絵を生成する方法を解説いたします。

    前回「ComfyUIでのTextToImageを極める!!(2)Combineでのプロンプト融合」はこちら

    前回は複数CLIPの活用として「Combine」を学びました。ComfyUIでは、複数のCLIPTextEncodeノードとConditioning(Combine)ノードを組み合わせることで、複数のプロンプトを同時に使用できます。例えば「龍」と「虎」を別々のCLIPTextEncodeノードに指定すると、「龍」と「虎」を組み合わせた画像を生成することができるようになりました。

    でも今回のカバーアートのような「複数の人物を一つの画像で描くためには?」…?今回はConcat機能と複数CLIPを使って「プロンプトの限界」を超えていきます。

      CLIPの内部と「Concat」

      まず、自然言語処理やStable Diffusionにおける「トークン」とは、プロンプトに入力する単語や文字列といった「テキストデータを処理する際に使用される基本的な単位」を指します。1単語を1トークンとしてカウントし、区切りに使われるカンマ(,)も1トークンとみなされます。
      モデルにもよりますが、SDXLの場合は75トークン(≒単語数)が1つの処理単位(バッチ)であり、75トークンを超える長いプロンプトの場合は、プロンプトを複数のバッチに分割して処理する方法が推奨されます。

      長いプロンプトをChatGPTで作ってみる

      例えば、 “A beautiful garden with red roses and white lilies blooming under a clear blue sky” というプロンプトがあるとします。

      画像
      画像

      例えばChatGPTを使って「もっと詳細を!」と作文してもらいました。
      プロンプトとしてはこんな感じです。

      extract this stable diffusion prompt longer to 75 tokens.
      “A beautiful garden with red roses and white lilies blooming under a clear blue sky”
      make more detail for each words.

      (このStable Diffusionのプロンプトを75トークンに長く引き延ばします。
      「澄み切った青空の下、赤いバラと白いユリが咲き誇る美しい庭」
      それぞれの単語をより詳しく説明)

      A stunning, vibrant garden filled with deep red roses, their petals velvety and rich, alongside pristine white lilies, their petals delicate and gracefully open, all flourishing under a vast, clear blue sky with soft clouds gently drifting in the distance.

      (深紅のバラが咲き誇る見事な庭園。その花びらはビロードのように滑らかで、濃厚な色合いです。その傍らには、花びらが繊細で優雅に開く純白のユリが咲いています。すべては広大な澄み切った青空の下で、遠くには柔らかな雲が静かに漂いながら、咲き誇っています)

      画像

      更に拡大していきます。「more」といえば、ChatGPTがどんどん作ってくれます。

      “A breathtaking, lush garden teeming with radiant, deep crimson roses, each petal exquisitely velvety and glowing under the sunlight. The roses stand tall and proud, surrounded by elegant, snow-white lilies with intricate, soft petals that curve gracefully outward. The lilies’ golden stamens catch the light, contrasting with their pure white petals. The garden is bathed in warm sunlight, the vibrant greenery of the foliage complementing the vivid flowers. Above, the expansive sky is a brilliant, azure blue, with delicate wisps of clouds painted across the horizon, creating a serene and peaceful atmosphere, where every bloom flourishes in perfect harmony with nature.”

      「息をのむほど見事な緑豊かな庭には、鮮やかな深紅のバラが咲き乱れ、その花びらは、日光に照らされて、どれもこれも見事にベルベットのように艶やかです。バラは堂々と誇らしげに咲き、その周りには、複雑に入り組んだ柔らかな花びらが優雅に外側へと反り返る、エレガントな純白のユリが咲いています。ユリの黄金色の雄しべは光を浴びて輝き、純白の花びらとコントラストを描いています。庭は温かい日差しに包まれ、鮮やかな花を引き立てる葉の生き生きとした緑色が映えています。頭上には広々とした空が鮮やかな紺碧色に輝き、水平線には繊細な雲の塊が描かれ、静かで穏やかな雰囲気を醸し出しています。そこでは、あらゆる花が自然と完璧な調和を保ちながら咲き誇っています。」

      画像

      ここまで来ると美しさも素晴らしいのですが、ワードカウントすると101ワードありました。

      画像

      https://wordcounter.io/#google_vignette

      Tokenizerによるトークンの理解

      トークン数についても数えていきましょう。CLIPは実はOpenAIによって開発された技術です。2021年1月5日にOpenAIによって公開された「言語と画像のマルチモーダルモデル」で、インターネットから集めた画像とテキストの40億ペアからなるデータになっています(最新のStable DiffusionではOpenCLIPなど違うCLIPが使われています)。

      トークン化をカウントできるツール「Tokenizer」がOpenAIによって公開されています。

      https://platform.openai.com/tokenizer

      画像

      ワード数は101ワードでしたが、トークン数は137です。

      画像

      [Token IDs]ボタンを押すと、トークンのIDを見ることができます。

      画像

      Claudeを使ったComfyUIソースコードの理解

      トークン数が75トークン超の場合、一般的に言われている仕様は以下のようなものです。

      • 現在のバッチに入りきるだけの単語を追加します。
      • 残りの単語は新しいバッチの先頭に追加します。

      「誰かが言っている」という理解ではなく、実際のソースコードを分析してみる習慣をつけましょう。
      ComfyUIのsd1_clip.pyの処理をClaudeに解説してもらいました。

      https://github.com/comfyanonymous/ComfyUI/blob/8ea165dd1ef877f58f3710f31ce43f27e0f739ab/comfy/sd1_clip.py


      このコードではトークンの最小値と最大値が設定されています。SD1Tokenizer クラスを詳しく見てみましょう

      SD1Tokenizer Token Details
      Token RangeMinimum token value: 0 (pad token when `pad_with_end` is False)
      Maximum token value: Size of the vocabulary – 1
      Special TokensStart token: Typically 49406
      End token: Typically 49407
      Maximum Length`max_length`: 77 (default, can be set in the constructor)
      `max_tokens_per_section`: 75 (max_length – 2)
      Note: The actual vocabulary size and special token values may vary depending on the specific CLIP tokenizer used.

      SD1Tokenizer クラスでは、トークンの範囲が以下のように設定されています:

      1. 最小トークン値:
        • 基本的に 0 です。これは `pad_with_end` が False の場合のパディングトークンとして使用されます。
      2. 最大トークン値:
        • 明示的には設定されていませんが、使用される CLIPTokenizer の語彙サイズによって決まります。
        • 通常、CLIP モデルの語彙サイズは 49408 ですので、最大トークン値は 49407 になります。
      3. 特殊トークン:
        • 開始トークン(start_token): 通常 49406
        • 終了トークン(end_token): 通常 49407
      4. 最大長:
        • `max_length`: デフォルトで 77 に設定されています(コンストラクタで変更可能)
        • `max_tokens_per_section`: `max_length – 2` で、通常は 75 になります

      これらの値は、使用される具体的な CLIP トークナイザーによって若干異なる可能性があります。また、このコードでは埋め込み(embeddings)も扱えるようになっており、これらは通常のトークン範囲外の値を持つ可能性があります。トークナイザーの実装上、0 から語彙サイズ-1 までの整数値がトークンとして使用されます。特殊トークン(開始、終了、パディング)も含めて、この範囲内に収まるように設計されています。全てのトークンをバッチに分けたら、最後のバッチも空欄を追加して75トークンにします。


      Claudeによるソースコード分析は便利で丁寧です。

      他にもこんな質問もできます。

      この処理はどこで扱われますか?
      1.1 倍の重みになる (a b c d e) と、
      数値指定有りでその倍数になる (a b c d e:1.1)

      質問ありがとうございます。その特定の処理は、`token_weights` 関数内で行われています。この関数を詳しく見てみましょう。

      def token_weights(string, current_weight):
          a = parse_parentheses(string)
          out = []
          for x in a:
              weight = current_weight
              if len(x) >= 2 and x[-1] == ')' and x[0] == '(':
                  x = x[1:-1]
                  xx = x.rfind(":")
                  weight *= 1.1
                  if xx > 0:
                      try:
                          weight = float(x[xx+1:])
                          x = x[:xx]
                      except:
                          pass
                  out += token_weights(x, weight)
              else:
                  out += [(x, current_weight)]
          return out
      

      この `token_weights` 関数は、括弧で囲まれたテキストとその重みを処理します。具体的には(略)

      この関数により、(a b c d e)`は1.1倍の重みを持ち、(a b c d e:1.1) は指定された1.1倍の重みを持つようになります。また、これらの構造がネストされている場合も適切に処理されます。

      この処理の結果は、その後 `tokenize_with_weights` メソッド内で使用され、各トークンに適切な重みが割り当てられます。


      AUTOMATIC1111にはプロンプトの文法やトークン数のチェックを行う補助機能がありますが、ComfyUI にはありません。 これはComfyUI の自由度との引き換えになります。しかもAUTOMATIC1111WebUIとは文法は同じでも中身は全然違うようです。AUTOMATIC1111内部ではCLIPの隠れ層出力に重み付けをしたあと、元の平均で正規化します。つまりあるトークンを強くしようとすると、他のトークンは弱くなるようです。ComfyUIでは単に定数倍するのではなく、空文によるCLIP出力を基準に重み付けします。正規化はしないので、重みをつけたトークンのみが影響を受けます。

      このような「CLIPでプロンプトをどのように扱っているか?」はソースコードを直接読んだり分析したりする以外は、モデルとの対話を通して推測することができます。

      AUTOMATIC1111WebUIにおいては「BREAK構文」や、オープンソースで数多くの拡張機能やテクニックが開発されてきました。例えば日本人が開発したExtentions「Regional Prompter」を使うことで複数の特徴を持つ人物を同時にプロンプトで表現できるようになります。

      https://note.com/aicu/n/n832941df99c5

      これから解説する「Concat Conditioning」はComfyUIにおいてAUTOMATIC1111の「BREAK構文」を実装するものです。複数のCLIP出力を結合します。

      分割位置の明示的な指定

      • プロンプトは最初にトークン化されます。
      • トークン化されたプロンプトは、最大長(デフォルト77トークン)のバッチに分割されます。
      • 各バッチは開始トークン(START_TOKEN)、プロンプトのトークン(最大75トークン)、終了トークン(END_TOKEN)、必要に応じてパディングトークンで構成されます。
      • 8トークン以上の「長い単語」は、複数のバッチにまたがって分割される可能性があります。
      • バッチ間で直接的な文脈の共有はありません。
      • 各バッチは独立して処理されます。

      モデルは各バッチを個別に処理するため、バッチ間の長距離の依存関係は失われる可能性があります。
      しかし、全てのバッチが同じプロンプトの一部であるため、全体的なテーマや文脈は維持される傾向があります。

      つまりComfyUIにおいて「長いプロンプトをそのまま1つのCLIPに入力した場合、意図しない位置で分割され、その文脈が無視される可能性がある」ということは知っていてください。しかしこの特性を利用することで、プロンプトレベルで「描き分け」や「色分け」を明示的に行うことができます。

      Conditioning(Concat)ノードの実装

      Conditioning(Concat)ノードを使って「色分け」を実装してみましょう。
      Concatとは「結合」、という意味です。

      標準ワークフローを改造し、以下のプロンプトを意図した位置で分割し、「色分け」を明示的に行った画像を生成してみます。使用するプロンプトは以下になります。

      A fantasy landscape, a red castle on a hill, overlooking a vast green forest,

      「広大な緑の森を見下ろす丘の上の赤い城」という「緑の森」と「赤い城」が混在するプロンプトです。

      普通に生成するとこのような画像になります。色が混ざってしまう事が多くなり、制御性が低く、運任せになってしまいます。

      画像
      画像

      これを「赤い城」と「緑の森」をそれぞれ複数のCLIPで表現できるようになれば制御性がよさそうです。

      • メニューの「Load Default」をクリックし、標準のワークフローをロードした状態にします。前回の続きで改造しても構いません。
      画像
      • ポジティブプロンプト用のCLIPTextEncodeノードを1つ追加します。
      画像
      • 1つ目のCLIPTextEncodeノードのプロンプトに「a red castle on a hill」と入力します。これをCLIP1と呼ぶことにします。
      • 2つ目のCLIPTextEncodeノードのプロンプトに「A fantasy landscape, overlooking a vast green forest」と入力します。これをCLIP2と呼ぶことにします。
      画像
      • Conditioning(Concat)ノードを作成し、2つのCLIPTextEncodeノードの出力を接続します。
      画像
      • Conditioning (Concat)ノードの入力「conditioning_to」と「conditioning_from」をそれぞれ2つのCLIPを接続します。
      • どちらのCLIPを to と from につなぐのかは、この段階ではどちらでも構いません(後ほど解説します)。
      • Conditioning (Concat)ノードの出力をKSamplerpositive入力に接続します。
      画像
      • 以下が最終的なワークフローになります。
      画像

      これでCLIP1が「丘の上の赤い城」、CLIP2が「広大な緑の森を見下ろす幻想的な風景」となり、それぞれがConcatを通して条件づけされることになります。どんな画像が生成されるのでしょうか。

      以下の画像は、分割前と分割後の比較画像になります。分割前は、森は緑ですが、丘が赤くなっています。分割後は、城だけが赤くなっていることが確認できます。

      画像

      Default workflowにて「a red castle on a hill,
      A fantasy landscape, overlooking a vast green forest」(1344×768, seed:13)

      画像

      CLIP1「a red castle on a hill」(1344×768, seed:13)
      CLIP2「A fantasy landscape, overlooking a vast green forest」

      画像

      Conditioning_toとConditioning_fromの意味

      今回の実装例ではConditioning_toとConditioning_fromは「どちらのCLIPに接続しても構いません」としましたが、実際のプロンプトで絵作りをする時にはどのような意味を持っているのでしょうか。まずは入れ替えてみます。

      画像

      Conditioning_to: a red castle on a hill
      Conditioning_from: A fantasy landscape, overlooking a vast green forest
      512×512, seed:12

      画像

      Conditioning_to: A fantasy landscape, overlooking a vast green forest
      Conditioning_from: a red castle on a hill 
      512×512, seed:12

      画像
      画像

      絵的にはほとんど変化がありません。しかしこれはプロンプトが短すぎるせいかもしれません。

      SDXLを使った実験は次回に行うとして、今回は、このノードのソースコードを使って、Claudeに内部の定義を聞いてみましょう。

      https://github.com/comfyanonymous/ComfyUI/blob/febea8c1015888ea81e9efc92236bdb4ceabc623/nodes.py#L105

      Claudeによる解説


      ConditioningConcatクラスの concat メソッドを詳しく見てみると、conditioning_to と conditioning_from には実際に違いがあります。以下にその違いを説明します。

      1. 役割の違い:
        • conditioning_to は主要な条件付けであり、修正される対象です。
        • conditioning_from は付加的な条件付けで、conditioning_to に追加されます。
      2. 処理方法:
        • メソッドは conditioning_to の各要素に対してループを行います。
        • conditioning_from は最初の要素のみが使用されます。
      3. 連結(Concatenation)の方法:
        • conditioning_to の各要素の最初のテンソルが、conditioning_from の最初の要素の最初のテンソルと連結されます。
      4. メタデータの扱い:
        • conditioning_to の各項目のメタデータ(2番目の要素)は保持されます。
        • conditioning_from のメタデータは使用されません。
      5. 出力構造:
        • 出力は conditioning_to の構造を維持しつつ、各要素が連結によって修正されます。

      つまり、英語の「to」と「from」の直感的な意味とは逆で、正しい覚え方は

      「conditioning_to」がベースとなるプロンプトまたは主要な条件付け
      「conditioning_from」が追加または補足的な条件付け

      ということになりそうです(何度か確認しました)。
      以上、Conditioning(Concat)ノードと複数CLIPを結合して「プロンプトの限界」を超え、その内部動作をソースコードから確認しました。
      次回は実験を通して確認していきたいと思います。

      具体的にはこんな絵を作ってみます。

      画像

      まとめ:変化しつつある画像生成AIの常識

      これまで3回にわたってComfyUIでSDXLのプロンプトを記述する基本的な方法から、応用的なテクニックまでを紹介してきました。画像生成AIが登場したばかりの頃のTextToImage、特にプロンプトは、かつては試行錯誤を通してテキストや構造を工夫することが中心でしたが、AUTOMATIC1111とComfyUIのCLIPの扱いが大きく変わっていることに気づかれたと思います。
      AICUでは従来のような仮説や構造、文法や有効なワードを探求するだけでなく、ChatGPTやClaudeなどのLLMを使ってプロンプトそのものをメタに扱ったり、ソースコードを分析して正しい解釈を得たり、実験をして確かな情報を獲得していく方法が重要と考えて記事中で提案しています。次回はさらに実用的に、今回の内容を使って「複数のキャラクターを同時制御する」という実験を行います。様々なプロンプトを試してみて、自分にとって最適な表現方法を見つけてみましょう。

      ComfyUIは、非常に強力な画像生成ツールです。プロンプトの力を最大限に活用することで、あなたの創造性を形にすることができます。ぜひ、色々なプロンプトを試して、素晴らしい画像を生み出してください!

      X(Twitter)@AICUai もフォローよろしくお願いいたします!

      画像生成AI「ComfyUI」マスターPlan

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。
      ✨️オトクなメンバーシップについての詳細はこちら


      この記事の続きはこちらから https://note.com/aicu/n/n301bb146abdd

      Originally published at https://note.com on Sept 4, 2024.

    1. 「AICUマガジンVol.3」Kindle Unlimitedにて無料配信開始!!

      こんにちわ。AICU media編集部です。
      「つくる人をつくる・わかるAIをとどける」高校生でも楽しめる未来のクリエイターのためのクリエイティブAI情報誌「AICUマガジン Vol.3」は2024年6-7月合併号!「いまこそしりたい画像生成AIの社会と倫理」と題して、気になる画像生成AIの法律と倫理についてまとめてお届けします。

      生成AIを使ってみたいけど法律的に大丈夫なの? こんな使い方をしてみたいんだけど炎上しないかな…? そんなお悩みにAICUが具体的な練習問題とともにわかりやすくお届けします! 

      「AICUマガジンVol.3」の見どころ🤩

      ⚖️ 特集「いまこそ知りたい画像生成AIの社会と倫理」⚖️

      AIイラストの著作権問題から、炎上しないための使い方まで徹底解説!🔥 具体的な練習問題で楽しく学べちゃう!💯

      画像

      🚀 特集「AICU media 上半期人気記事一挙紹介」🚀

      2024年上半期にバズったAIツール、サービスを見逃し厳禁!👀

      画像

      🎨 サクッと先取り!クリエイティブAIツール 🎨

      プロンプトからサイトが作れる!?話題の「CREATE.xyz」を使ってみた!未来のWebデザインを体験!✨

      画像

      「Stability AI Fan!」

      Stable Diffusionユーザー必見!ディープな情報満載!😎

      画像
      画像
      画像

      📰 イベントレポート 📰

      「技術書典16」「JETRO AiSalon Tokyo June 2024」「Google for Japan」…注目のイベントをレポート!

      画像
      画像
      画像
      画像

      💡「ようこそ!アイキュー部」💡

      大人気連載漫画!10分でAIの基礎知識をGET!🧠
      なんと豪華51ページ相当の学習コンテンツを一挙掲載!!

      画像

      今回は「ようこそアイキュー部」の漫画版が始まる前の前日譚から…

      • Google Slidesでバリエーション広告を大量生成
      • バッチファイルでバリエーション広告を生成(1)使ってみよう編
      • バッチファイルでバリエーション広告を生成(2)解説編
      • 漫画版 第1話(再掲)
      画像
      画像

      ✍️ 編集コラム ✍️

      「画像生成AIは飽きる、飽きられる、だからこそプロの仕事はこうなる。」プロの視点から見た、画像生成AIとの向き合い方とは…?🤔

      画像

      🌸 はるしね~しょん(編集部だより) 🌸

      編集部の裏側をチラ見せ!AICUマガジンの制作秘話も…?🤫

      🎁 特別コンテンツ 🎁

      2024年12月末まで視聴可能【生成AIの社会と倫理】「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップ

      画像

      話題の #SD黄色本 ワークショップが期間限定で視聴可能! お見逃しなく!

      美麗な表紙は
      インフルエンサーな「デルタもん」

      画像

      イラストレーター/キャラクターデザイナーの犬沢某さんが製作してくださいました

      ▼表紙を担当させていただきました。犬沢某(いぬさわばう)です。
      今回のテーマは「画像生成AI時代の社会と倫理」ということで、
      生成AI時代の社会に支えられるキャラクターの代表でもある「デルタもん」を描かせていただきました。
      近い将来、デルタもんのコスプレをしながら、ファッションモデルのようなインフルエンサーさんが、街中で自撮りをしている姿を見る日が来るかもしれませんね。
      テクニック的にはSD黄色本の内容で、AUTOMATIC1111を使って生成したものです。
      ふだんはオーバーオールを着た犬の少年ばかり描いています。
      犬沢某 (いぬさわばう/BowInusawa)

      🐶ばう先生、いつもありがとうございます🐾

      そして…気になる夏のアートコンテスト結果は…!?ファイナリストの皆さんを紹介

      詳しくは「AICUマガジン Vol.3」本誌🎉 読者のひろば🎉誌上にて!
      力作が集結!栄冠は誰の手に…?🏆


      レベルアップしたクリエイティブな夏休みを過ごそ~!🌻
      Kindle Unlimitedで無料です!

      https://j.aicu.ai/MagV3

      バックナンバーはこちら https://ja.aicu.ai/mag/

      https://note.com/aicu/n/n61476a3fc852

      https://prtimes.jp/main/html/rd/p/000000017.000133647.html

      #AICUマガジン #画像生成AI #著作権 #AIイラスト #生成AIの社会と倫理

      Originally published at https://note.com on Aug 6, 2024.

    2. FLUX.1[dev]の実力は?比較しながらGoogle Colabで動かしてみた。

      2024年8月1日、「世界最強」といわれるベンチャーキャピタル(VC)「アンドリーセン・ホロウィッツ」(a16z)が主導で投資する、Black Forest Labs(以下BFL)が、画像生成AIの新モデル「FLUX.1」発表しました。

      Stable Diffusionの元開発者たちを取り込み開発した画像生成モデルは「12B」つまり「120億パラメータ」という大規模なパラメータサイズで、『Midjourney v6.0、DALL·E 3、Stable Diffusion 3などを上回る性能を達成した』と伝えています。驚異的な画像生成能力を持つだけでなく、『これまでのAIが苦手としてきた人間の手の描写や複雑な場面の再現にも秀でている』と伝えています。さらに、商用からオープンソースまで、多様なニーズに応える3つのバージョンを用意し、ユーザーの需要を満たそうとしています。

      本記事では、FLUX.1の実力をStability AIの「Stable Diffusion 3」と比較しながら調査してみます。そして実際にComfyUIとFLUX.1  [dev]を用いて画像生成を行うまでの手順と、Google Colabで動作するノートブックをメンバーシップ向けに共有します。

      1. FLUX.1について

      画像

      FLUX.1は、Black Forest Labsが開発した最新の画像生成AI技術です。VQGANLatent DiffusionStable Diffusionモデル ( Stable Diffusion XLStable Video DiffusionRectified Flow Transformers )、超高速のリアルタイム画像合成のためのAdversarial Diffusion Distillationの研究開発に関わった人々が参加しています。基本的な信念としては、広くアクセス可能なモデルは、研究コミュニティと学術界内での革新とコラボレーションを促進するだけでなく、信頼と幅広い採用に不可欠な透明性を高めるということです。

      FLUX.1の主な特徴

      1.最先端の性能: 既存の主要なAIモデル(Midjourney v6.0、DALL·E 3、Stable Diffusion 3など)を上回る性能を達成したと伝えています。
      テキストから画像を生成する能力において新たな基準「ELO score」と、画像の詳細さ、プロンプトへの忠実性、スタイルの多様性、シーンの複雑さなどの面で優れた性能を示していると主張しています。

      画像

      たしかに、BFLのモデルはELO scoreにおいて優位性があるようです。
      順位としては FLUX.1 [pro] > FLUX1. [dev] > SD3-Ultra > Ideogram > FLUX.1 [schnell] > Midjourney-V6.0 > Dall-E 3 HD > SD3-Medium > SD3-Turboといった序列が付けられています。このバーグラフが正しければ、FLUX.1 [dev]はSD3-Ultra並であることがわかります。

      画像

      2.多様なバリエーション: FLUX.1 [pro]、FLUX.1 [dev]、FLUX.1 [schnell]の3バージョンを提供します。それぞれ用途やライセンスモデルが異なります。

      画像

      3.革新的な技術: マルチモーダルおよび並列拡散トランスフォーマーブロックのハイブリッドアーキテクチャを採用し、12Bパラメータにスケールアップ。

      4.柔軟性: 0.1から2.0メガピクセルの範囲で多様なアスペクト比と解像度をサポート。

      画像

      5.アクセシビリティ: APIを通じたアクセスと一部バージョンのオープンソース提供。

      FLUX.1の3つのバリエーション

      Black Forest Labsは、異なるニーズに対応するため、FLUX.1を3つのバリエーションで提供しています。

      1. FLUX.1 [pro]:APIのみのフラッグシップ

      FLUX.1 [pro]は、FLUX.1の最高性能を誇るバージョンです。

      • 最先端のパフォーマンスを持つ画像生成
      • トップクラスのプロンプト追従能力
      • 卓越した視覚的品質と画像の詳細さ
      • 多様な出力

      現在、Black Forest LabsはFLUX.1 [pro]の推論コンピューティング能力を徐々に拡大しているそうです。APIを通じてアクセスできるほか、ReplicateやFal.aiなどのパートナー企業を通じても利用可能です。さらに、企業向けのカスタマイズソリューションも提供するとのことです。

      https://fal.ai/models/fal-ai/flux/dev

      https://replicate.com/black-forest-labs/flux-dev

      2. FLUX.1 [dev]:オープンウェイトモデル

      FLUX.1 [dev]は、非商用アプリケーション向けのオープンウェイトモデルです。

      • FLUX.1 [pro]から直接蒸留された効率的なモデル
      • 同等のサイズの標準モデルより高効率
      • 高品質とプロンプト追従能力を維持

      FLUX.1 [dev]の重みはHuggingFaceで公開されており、ReplicateやFal.aiで直接試すこともできます。ガイダンス蒸留を使用したトレーニングを行い、生成された出力は、ライセンスに記載されているように、個人的、科学的、商業的な目的で使用することができます。

      3. FLUX.1 [schnell]:ローカル利用向け

      FLUX.1 [schnell]は、ローカル開発と個人利用に特化した最速モデルです。

      • Apache2.0ライセンスで公開
      • Hugging Faceでweightsを入手可能
      • GitHubで推論コードを公開
      • ReplicateとFal.aiでも利用可能

      各モデルの公開が非常に戦略的に進められていることが印象的です。

      2. ComfyUIでFLUX.1[dev]を使用する

      ComfyUIの作者であるcomfyanonymous氏が早速workflowを公開しています。以下のリンクに詳細がまとめられています。AICU AIDX Labではこのリンクの内容に従い、使用準備を進めていきます。
      文末にメンバーシップ向けにGoogle Colabで動作するノートブックを公開します(AICUのGitHub上でも無償公開しています)。

      https://github.com/comfyanonymous/ComfyUI_examples/tree/master/flux

      weightsのダウンロード

      以下のリンクよりFLUX.1[dev]のweightsをダウンロードします。flux1-dev.sft (23GB) をダウンロードし、ComfyUI/models/unetに格納してください。

      https://huggingface.co/black-forest-labs/FLUX.1-dev

      CLIPのダウンロード

      以下のリンクよりCLIPモデルをダウンロードします。clip_l.safetensorst5xxl_fp16.safetensors(または省メモリ版のt5xxl_fp8_e4m3fn.safetensors)をダウンロードし、ComfyUI/models/clipに格納してください。

      https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main

      VAEのダウンロード

      以下のリンクよりVAEをダウンロードします。ae.sftをダウンロードし、ComfyUI/models/vaeに格納してください。

      https://huggingface.co/black-forest-labs/FLUX.1-schnell/blob/main/ae.sft

      Workflowのロード

      以下の画像をダウンロードし、ComfyUIのキャンバスにドラッグ&ドロップしてください。画像ですが、workflowの情報が含まれているため、キャンバスにロードできます。

      https://github.com/comfyanonymous/ComfyUI_examples/blob/master/flux/flux_dev_example.png

      この狐娘さんの画像にワークフローが仕込まれています!

      画像

      ✨️このあたりのGoogle Colabでの動作がよくわからない方には以下の記事がおすすめです。

      キャンバスに上記のPNGファイルをロードすると、以下のようなフローがロードされます。

      画像

      cute anime girl with massive fluffy fennec ears and a big fluffy tail blonde messy long hair blue eyes wearing a maid outfit with a long black gold leaf pattern dress and a white apron mouth open holding a fancy black forest cake with candles on top in the kitchen of an old dark Victorian mansion lit by candlelight with a bright window to the foggy forest and very expensive stuff everywhere
      黒い金箔模様のロングドレスと白いエプロンのメイド服を着て、口を開けたまま、ろうそくの明かりに照らされた古い暗いビクトリア様式の邸宅の厨房で、ろうそくの上にろうそくを立てた黒い森のケーキを持っているかわいいアニメの女の子

      生成できました!

      画像

      FLUX.1 [dev]のモデルサイズ、Google Colabでは L4 GPU環境(GPU RAM 22.5GB)でギリギリ動作するように設計されているようです。

      画像

      dev版で高品質の画像を生成するためには、50steps必要なので、BasicSchedulerのstepsを50に変更してください。

      画像
      画像

      顔の表現が変わって、ろうそくが5本に増えてますね…

      ネットワークを読み解く

      グラフからFLUX.1のネットワークを分析してみます。

      画像

      モデル→BasicScheduler→SIGMAS→[SamplerCustomAdvanced]
      RandomNoize→[SamplerCustomAdvanced]
      KSamplerSelect→[SamplerCustomAdvanced]
      EmptySD3LatentImage(1024×1024)→[SamplerCustomAdvanced]
      DualCLIPLoader→[CLIP]→FluxGuidance→(Conditioning)→[BasicGUider]→(Guider)→[SamplerCustomAdvanced]

      [SamplerCustomAdvanced]→VAE Decode→Image

      画像

      Stable Diffusion 3の構成によく似ています。
      DualCLIP、EmptySD3LatentImageはStable Diffusion 3の部品と共通で、FluxGuidanceというノードがComfyUIによって新たに開発されています。これが従来のCFGにあたるプロンプトへの忠実度を示す値(現在は3.5)になるようです。ネガティブプロンプトやImage2Image、ControlNetはこのConditioningに与える形で提供されるのでしょうか。
      ComfyUIの開発者を取り込んだ状況や、Kolorsの最近のコミュニティでの開発状況から予想するに、早い段階でControlNet等が提供される可能性もありえます。この分野はオープンソースへのモデル提供という貢献がプラスに働くコミュニティでサイクルさせていく戦略なのでしょう。

      C2PAなどの対応はなし

      オープンモデルを自前で立てたGoogle Colab上で動かしているので当然といえば当然ですが、C2PAの埋込情報はないようです。

      画像

      有料APIでの対応がどのように提供されるのか興味深いところではあります。

      3. FLUX.1[dev]による画像生成

      実際にFLUX.1[dev]で画像生成してみました。以下に使用したプロンプトと生成された画像を貼付します。

      ヘリコプターから飛び降りる女性

      A cinematic image capturing a Japanese woman with long black hair, performing a dramatic dive from a helicopter into the vast open sky. The background features a breathtaking view of the sky filled with soaring birds, accentuating a sense of freedom and exhilaration. The woman's expression is focused and fearless, her hair flowing dramatically behind her as she dives. The helicopter is visible in the upper part of the frame, adding a touch of adventure and scale to the scene. The lighting is dynamic, highlighting the action and the expansive atmosphere.
      画像
      画像

      ダッシュする髭マッチョ男性

      A cinematic image depicting a rugged Japanese man with a beard, sprinting through the bustling streets of Shibuya, Tokyo. He is portrayed as muscular and intense, with his strong physique evident even through his clothing. The scene captures him mid-dash, with the iconic Shibuya crossing in the background blurred by the motion. Neon lights and the vibrant city life add to the dynamic and energetic atmosphere of the image. The lighting is urban and dramatic, emphasizing the man's determined expression and the fast-paced action of the scene.
      画像

      ドラゴンと勇者

      A cinematic fantasy image inspired by RPG themes, featuring a heroic scene with a dragon, a warrior, a wizard, a martial artist, and a cleric. Set in a mystical landscape, the dragon looms large in the background, spewing fire into the sky. The warrior, clad in armor, stands boldly in the foreground with a sword raised. Beside him, a wizard prepares a spell, glowing with magical energy. The martial artist, in dynamic pose, is ready to strike, and the cleric, with a staff in hand, invokes a protective spell. The scene is bathed in the ethereal light of magic and fire, creating a dramatic and epic atmosphere.
      画像

      ゾンビと逃げるカップル

      A cinematic image depicting a male and female couple frantically running from a massive horde of zombies. The scene is set in a chaotic urban environment with the army in the background, engaged in a fierce battle to contain the zombie outbreak. The couple appears desperate and terrified, dodging between abandoned cars and debris. Soldiers can be seen in the periphery, firing at the advancing zombies, providing a grim backdrop. The atmosphere is tense and suspenseful, with dark, ominous lighting amplifying the sense of impending danger.
      画像

      足の生成テスト

      A cinematic image of a Japanese woman casually displaying the soles of her feet, seated on a park bench. The scene captures her in a relaxed pose, perhaps during a leisurely afternoon in a tranquil urban park. The focus is on her bare feet, crossed elegantly as she enjoys a book or the peaceful surroundings. The background is softly blurred, emphasizing her and the detail of her feet. The lighting is warm and natural, highlighting the simplicity and quiet mood of the moment.
      画像

      軍隊の上陸作戦

      A cinematic image depicting a military landing at a beachfront during a defensive operation. The scene captures the intensity of the moment with troops disembarking from landing craft under the cover of smoke and gunfire. The ocean is rough, reflecting the turmoil of battle, with waves crashing against the shore. Soldiers in full gear advance onto the beach, facing resistance from defensive positions in the distance. The sky is overcast, adding a dramatic and somber tone to the scene, emphasizing the gravity of the military engagement.
      画像

      複数の女性がプールで遊ぶ

      A cinematic image featuring multiple Japanese women in swimsuits, enjoying a playful moment in a pool, surrounded by splashing water that creates a fantastical atmosphere. The scene captures them laughing and splashing water at each other, with the sun casting a shimmering glow on the droplets, creating a sparkling effect. The background shows a beautifully designed pool area that enhances the dreamlike quality of the image. The overall mood is joyful and ethereal, with soft, diffused lighting that adds a magical touch to the setting.
      画像

      イラスト: 魔法使いが爆発魔法を唱える

      A cinematic image inspired by anime, depicting a dramatic scene of magical alchemy leading to an explosion. The setting is a dark, mystic chamber filled with ancient symbols and glowing artifacts. In the center, a character performs a complex magical ritual, hands raised as they channel energy into a vibrant, swirling mass of light that culminates in a sudden, intense explosion. The explosion sends colorful magical energies radiating outward, casting vivid shadows and illuminating the room with a spectrum of light. The atmosphere is tense and charged with the power of unleashed magic.
      画像

      イラスト: 異世界転生したプログラマ

      A cinematic image blending realistic and anime styles, featuring a programmer who has been reincarnated into a fantastical other world. The scene shows the programmer sitting at a magical, glowing workstation filled with ancient scrolls and futuristic screens, coding to manipulate the laws of this new world. Around him, elements of a traditional fantasy setting—enchanted forests, distant castles, and mythical creatures—merge with digital effects to symbolize his unique role in this realm. The lighting is dynamic, highlighting the contrast between the old world's mystique and the new digital influence he brings.
      画像

      Animagine XL 3.1のプロンプトでLuC4を生成してみる

      AICUのキャラクターである「LuC4」をAnimagine XL 3.1用公式プロンプトで生成してみます。

      1boy, solo, upper body, front view, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight, hoodie, jeans, newest

      特にアニメ要素は指定していないのですが、非常にいい感じのLuC4くんが生成されました。

      画像
      画像
      画像

      1生成あたり平均129秒といったところです。これは大きい方のCLIPを使いLowVRAMモードで起動しているのでもっと高速化することもできるかもしれません。

      4. 所感と疑問: 過学習?何故かアニメに強い

      12B、ファイルサイズで22GB。

      まず 触ってみた所感として、FLUX.1 [dev]はさすが12B、ファイルサイズで22GBという巨大なサイズです。言語理解力が高く、高品質の画像を生成するモデルではありますが、扱いやすいサイズとは言い難い。Google Colab環境のL4で快適動作するサイズのギリギリ上限として[dev]をリリースされたのは見事です。

      商用利用は可能なのか?その品質は

      商用利用可能ではありませんので、ホビーストが Text to Imageでの一発出しを楽しむレベルつまり、Midjourneyとしては十分な品質を持っているという印象があります。しかし商用ライセンスとしてはまだウェイティングリスト状態ですし、出力される画像はMidJourneyにNijiJourneyが混ざったような総花的な感覚を受けます。

      人物の表現にも偏りや、実在感の不足を感じます。例えば最近のComfyUI環境で使われている「Kolors」はフォトリアル系人物に強い中国系企業によるモデルです。英語と中国語、文字レンダリング、指、そして東アジア各国の人物表現の分離がしっかりできています。

      https://note.com/yas_bizdev/n/nc160fe614725

      https://note.com/yas_bizdev/n/n701bed443641

      ComfyUIコミュニティとの協働は評価できる

      上記の通り、BFLははComfyUIコミュニティとの協働を行っているようです。
      ネガティブプロンプトやImage to Image、ControlNetはまだありませんが、KolorsでのComfyUIが公式からリリースされたように(※2024/8/6追記)、今後、オープンソースコミュニティと協働によって開発が進むのかもしれません。今後新しいワークフローがどこからリリースされるのか注目です。

      https://comfyanonymous.github.io/ComfyUI_examples/flux

      [dev]と[pro]の互換性は?

      [dev]で鍛えたナレッジが[pro]で活かせるのかどうか、プロユーザーは調査していきたいところではあります。蒸留された[dev]と商用API経由の[pro]がシードなどを介して互換性高く利用できるのであれば理想的ですが、特性がまるで異なるようであると、ビジュアル産業の用途には使いづらいと考えます。
      余談ですが、APIモデルのライセンス提供やAPIプロバイダを介した提供などは、今後も各社が頑張っていくところだと予測します。例えばStability AIもFireworks.AI経由で高速なAPIを提供していますし、オープンモデルの商用ライセンスも提供しています。

      https://stability.ai/license

      オウンホストできる[dev]とAPI利用のみになる[pro]に互換性があるのであれば、ビジュアルエフェクトに関わるエンジニアにとって、パイプライン、ワークフローは組みやすくなります。しかし双方が全く異なるアーキテクチャーや特性をもっていると、別のシステムとして扱わなければなりません。

      APIはドキュメントがあるが招待制

      AICUでは [pro]を評価すべく https://api.bfl.ml/  において登録を行いましたが、招待制とのことで利用はできませんでした。

      画像

      API化は演算環境のアウトソーシング化や品質の維持に貢献できますが、一方ではAPI提供企業によるブラックボックス化が進みやすい、透明性を下げる点もあります。
      Stable Diffusionに例えて見回すと、Stable Diffusion 3 Medium や Stability AI が提供するAPIは過去のStable Diffusion 1.xや Stable Diffusion XL (SDXL)に比べてはるかに高速・高機能で高品質です。ですが市場にはまだたくさんのSD1.5やSDXLのモデルで画像生成サービスを提供している企業があるようです。市場の形成という意味では、画像生成AIをサービスしているプレイヤーがきちんと「最新のAPIを使っています」とか「商用ライセンスを買っています!」という企業が増えて欲しいところですし、消費者も目が肥えてきているので、選んで使っていきたいところです。例えばパープレはエンドユーザからの集金と、外部モデルの選択可能性の仕組みを上手くサービスとして構築しているように見えます。

      今後も「とりあえず出せればいい用途」は限りなく無料化していく一方で、きちんと商業ライセンスが確立するサービスには圧倒的な画質と速度、価格と、C2PAなどの来歴データ提供などを含めたトータルな安心・安全までが整備された高品質APIに需要が向くと観測します。

      ▼「Stable Diffusion」の革命から2年、画像生成AIはAPIとコミュニティの時代へ ~倫理問題の「当たり前化」のその先に

      https://forest.watch.impress.co.jp/docs/serial/aistream/1612897.html

      追加学習しづらい

      サイズが大きいということで、追加学習やファインチューニングが難しいという想像はできます。現在のリリースラインナップでは、コンシューマーレベルのGPUで扱えるサイズは[schnell]ということになるかと思います。こちらについて、評価する機会があればいずれ見てみたいと思います。

      何故かアニメに強い

      特にアニメや漫画に寄せたプロンプトの指定をしていなくてもいい感じのアニメ風の画像が出てきます。

      AICUのコラボクリエイター犬沢某さん @InsBow の作品。

      過学習の過学習をしている可能性

      過学習とは、特定の学習元に最適化されたため汎化性能が下がってしまう例です。例えば「cyberpunk」というプロンプトに対してゲーム「Cyberpunk 2077」のアートが生成されてしまうような例です。これはMidJourney v6でも言われていることですが、それをベンチマークにすることで「過学習の過学習」をしてしまう可能性が感じられます。

      具体的にはモデルの性質として、何も指定していないのにアニメ顔が出る点です。Danbooruタグと呼ばれる「1girl」という表現や、Animagine XL 3.1のプロンプトである「latest」などに反応している点からも、他のモデルの蒸留をして、さらに過学習をしている可能性があります。

      過学習は特性として慣れれば扱いやすいかもしれませんが、一方では特定の画風や作者に対してのあらぬ嫌疑をかけられる可能性があります。

      倫理的なキュレーションはされていない可能性

      過学習と並んで、倫理的なキュレーションがされていない可能性を感じます。OpenAIや Stability AIといったAI基盤モデルの先駆者たちはデータセットの素性や倫理的な精査選別を行っています。このような作業を「curation」(キュレーション)、それを行う人を「キュレーター」といいます。
      例えばOpenAIは「アライメント」や「キュレーション」に多大なコストを払っており、人間によって倫理的な調教を行っています。

      https://note.com/o_ob/n/n68bd7db03162

      画像生成モデルにおけるキュレーションの状態をテストすることは非常に簡単です。「NSFW」や裸体、子供や人種差別、大統領などを生成させればすぐに分かりますが、AICU mediaの紙面ではふさわしくないので、割愛します。

      念の為「miku」だけSeed=39で生成してみます。

      画像

      みっくみくです。念の為、Google画像検索をしてみましたが、一致する画像はありませんでした。

      画像

      学習元のデータセットやオプトアウトといった手続きがないと新たな炎上や訴訟になる可能性があることは否定できません。
      ※いずれにしても生成側に責任があることは変わりません。

      性能評価におけるベンチマーク対象が恣意的

      いまいちどBFL提供の性能評価を確認してみます。

      画像

      まず評価対象のトップにある「SD3 Ultra」ですが、ちょっと恣意的かもしれません。まず「SD3 Ultra」という名前のモデルは存在しません。Stability AIで「Ultra」と呼ばれているモデルは「Stable Image Ultra」であって「Stable Diffusion 3」でも「SD3 Ultra」でもありません。

      Made from the most advanced models, including Stable Diffusion 3, Ultra offers the best of the Stable Diffusion ecosystem.
      Stable Diffusion 3 を含む最も高度なモデルから作成された Ultraは、Stable Diffusionエコシステムの最高峰です。

      Ultraが最高峰であるとすると、Stable Diffusion 3 シリーズで公開されているモデルの最高モデルは「Stable Diffusion 3 Large」でパラメーター数は8B、つまり推定80億パラメータ。「Stable Diffusion 3 Medium」は2B、20億パラメータです。「Ultra」はこれらの Stable Diffusion 3を含んだAPIサービスとなります。

      https://stability.ai/news/stable-diffusion-3

      単に最大パラメータサイズを売りにすると、120億vs80億で、「FLUX.1のほうが強そう」ですが、「同じパラメータ数のサービスとして評価すると、FLUX.1が劣後する可能性」すらあります。LLMを使った言語系サービスに例えれば「必要な課題への必要な回答」を「高い精度」で「低い費用」で利用できるためのモデルを考えてリリースする必要があり、必ずしも「辞書の大きさ」つまりパラメータ数が多いだけではなく「その最適化」、それ以外の変数やそもそも課題設定なども、求める性能を得るためには同じくらい重要です。これらを最適化するための機械学習の手法、ハイパーパラメータの最適化なども多くの技術があります。

      このような課題や品質ををどう捉えているか、といった視点でもう一度リリースを見直してみると、Visual Quality, Prompt Following, Size/Aspect Variability, Typography, Output Diversity…といったレーダーチャートで表現をしています。Stable Diffusion 3 Ultraと比較して、「画質」はほぼ同等です。
      その他の要素では「出力の多様性」、「サイズ・アスペクト比変動性」、「タイポグラフィ(文字)」は差が大きいようです。
      多様性については評価手法が確立しているとはいい難いです。AICUではStability AI APIのCoreAPIが提供している17スタイルの評価を上位モデルと比較して1800枚程度の同一プロンプト、同一シードの画像で互換性評価を実施していますが、前述の通り『過学習の影響』は使い手が判断するしかないのが現状です。ファインチューニング手法が確立するのを待つしかないでしょうか。

      タイポグラフィ

      文字を打つ能力はStable Diffusion 3 Ultraよりは劣後するという表現になっており、[pro],[dev],[Schnell]で大きく差がつく要素になっていますが、実際には[dev]でもアルファベットはしっかりかけるようです。

      画像

      日本語や漢字は苦手なようですが、今後はこの手の文字、特に日本語・中国語・韓国語(CJK)などの東アジア言語が主戦場になるのかもしれませんね。…といったところで実験していたら✂が出てきました。先にUnicodeでの絵文字の実装を狙っているのかもしれません。

      画像

      以上、FLUX.1 [dev]の実力についてのハンズオンレビューでした。

      次は動画…[SOTA]が登場!?

      画像

      次はすべての人のための Text-to-Video「SOTA」へ

      本日「FLUX.1」 Text to Imageモデル・スイートをリリースしました。強力なクリエイティブ機能を備えたこれらのモデルは、競争力のあるジェネレーティブ Text-to-Videoシステムの強力な基盤となります。私たちのビデオモデルは、高精細でかつてないスピードでの正確な作成と編集を可能にします。私たちは、ジェネレーティブ・メディアの未来を開拓し続けることを約束します。

      今後の画像生成AIにおける新しい常識がアップデートされるのでしょうか。期待して見守りたいと思います。

      この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!

      https://note.com/aicu/ X(Twitter)@AICUai

      ✨️本記事は Yas@BizDev支援のエンジニア さんの寄稿をベースにAICU AIDX Labおよび編集部にて大幅に加筆・検証したものです。ご寄稿いただきありがとうございました。
      ✨️初稿から評価面を大幅に加筆しています(2024年8月6日)

      メンバーシップ向けボーナス・コンテンツ

      Google Colabで動くノートブックを公開しています。

      この記事の続きはこちらから https://note.com/aicu/n/n750140124c01

      Originally published at https://note.com on Aug 5, 2024.