月: 2024年10月

  • 「なんかいい展」開催レポート

    「AIの現物展示をしよう」
    「なんかいい」という、「曖昧で深い言葉」、なにか心に引っかかる。
    6人のAIイラストレーターが集まって、「なんかいい展」が2024年10月26日に開催されました。
    「つくる人をつくる」をビジョンにするAICUでは開催を応援する意味で、参加クリエイターにロングインタビューを実施しました。
    各クリエイターの作品や、次回の開催についての情報もあり!
    最後まで味わってお読みください。

    画像
    画像
    画像
    展示会場の様子 (左: Sentaku さんの作品 / 中: Naf / 右:高高度墜落 さんの作品)

    参加クリエイター3名に1時間半のロングインタビューを実施しました。

    「なんかいい展」

    AI illustration group exhibition “kind of like ******”
    東京の門前仲町で、2024年10月26日に1日だけ開催されました。

    いままで大きな企業や展示会でしか企画されていなかったAI画像祭といった企画を「最初はミニマムに」ということで深川ガレージさんをお借りして小規模に実施したかった、ということです。
    素敵なウェルカムボードをご紹介。

    画像

    ”なんかいい”って、曖昧なようでいて、実は深い言葉だと思いませんか?
    はっきり言えないけど、なぜか気になる、なにか心に引っかかる。
    でも、だからこそ価値がある。
    今回は6人のイラストレーターが、この”なんかいい”をテーマに、
    それぞれの視点で新しい感覚を探求しました。

    AIが作るアートに価値はあるのか?
    人間の創造性を奪うのでは?
    AIに魂はないのでは?

    そういう疑問の声もあります。
    けれど、私達はこう考えます。
    AIアートは、人間が想像しなかった視点を提示してくれる。
    偶然が生む美しさや、予測不可能な世界が広がっている。
    それが今の時代に生まれる新しい「なんかいい」かもしれません。

    この展示で、あなたの心にも”なんかいい”が見つかることを願っています。

    【メンバーの紹介】

    集まったメンバー6人は、Sentakuさんの呼びかけにより、SNSもしくはdiscordコミュニティで集まってくれたそうです。

    Sentaku(せんたく) さん

    画像

    Xアカウント:@sentakusound
    https://x.com/sentakusound

    廃材 さん

    画像

    Xアカウント:@haiz_ai
    https://x.com/haiz_ai

    marukichi(まるきち) さん

    画像

    Xアカウント:@marukichi667944
    https://x.com/marukichi667944

    ☆今回のインタビューに参加できなかったメンバーさんからは、メッセージ・プロフ、作品展示写真をご許諾とともに頂いております。

    Naf さん

    画像

    アカウント:@naf_aiart
    https://x.com/naf_aiart

    【Naf】
    初めまして、Nafです。
    AIを使ってイラストを生成しています。

    少女というキャラクターを通して
    その場の空気や温度を感じられるような
    作品を作りたいと思っています。

    人には色々な感情があって
    背景には必ずその理由があります。

    皆さんの目に触れた時に
    心に残る何かがあれば幸いです。

    高高度墜落/kkdfall さん

    画像

    アカウント:@kkdfall
    https://x.com/kkdfall

    【高高度墜落/kkdfall】
    aiをツール化したい墜落さんです。あの日見た景色から落下しています。
    日常の少し隣にある瞬間を捉えたいと考えて取り組んでいます。

    Takoyama さん

    画像

    アカウント:@takoyama9zo
    https://x.com/takoyama9zo

    読者のみなさま、はじめましてTakoyamaです。
    私は色彩とアルゴリズムの交差点に身を投じ、コードと創造が交わる場所で美しいなにかを見たいと願い、日々模索しています。
    AIが考える命の美しさが何かの拍子に現れたらいいなと考えています。

    【どうして「なんかいい展」を開催したの?】

    画像
    (看板)

    ――インタビュワーのAICU media編集長・しらいはかせ です。このたびは「なんかいい展」のご開催おめでとうございます。まずは普段どんな活動をして、何を考えているのか、また何故「なんかいい展」を開催したのかについてお聞かせください。

    Sentaku「みんなに会って話したい」

    ――今回のグループ展の発起人となったSentakuさんですが、どういうモチベーションだったのでしょうか。

    Sentaku:ふだんはテレビ業界のサウンドデザイナをしています。けっこうAIは、この仕事と近いところがあって、自分は「サウンドデザイナーをしているけど楽器はできない」という人材なんです。AIでイラストレーションを作っていくのもとても似ているところがあって。仕事はいつもクライアントワークなので「自分を表現するところが欲しい」とおもってAIアート活動をはじめました。最近は「みんなに会って話したい」、「コミュニティとしてみんなに会ってみたい」と思って企画しました。

    ――その芽生え……。なるほど興味深いです。楽器とかも結局そうなんですよね。演奏するっていういわゆる演奏家の人がいたとしても、楽器を上手に扱えるか 扱えないかみたいなところの軸も当然あるし、さらにそのお客さんに対しての「商品性がある演奏」とか「楽曲などがやれるかどうか」みたいなところの軸もあって……。運よくそのテレビ業界で生業になり糧なりを得ているんだけれども、やはり「表現したい」、「自分の考えたことを表現したい」と思った、と。道具を使いこなして演奏するみたいなところから、画像生成 AI の演奏家として、ひとりひとりのクリエイターとして成立していて、さらにそれが「他の人たちに会いたい」、「作品を通して人に会いたい」っていうモチベーションに育っていったってことなんですね 。

    画像
    Sentaku さんの作品

    marukichi「自分の好きなものに”手綱”をとってもらう」

    marukichiです。普段はIT系でカスタマーサクセスを担当しています。イラストレーションは我流ですが、画材を使って描いたり、立体造形、工芸などをやってきました。AI画像生成とは MidJourney を2022年夏頃から触っていて、デザイン関係でロゴとかを作ったりして「時短ツール」として使って来ました。いままで作ってきたもの、表現できるようになってきたこともあり、X(Twitter)で公開し始めたのは2023年の7月ぐらい。最初はジャンル問わず出していたのだけど、ここ半年ぐらいは「青とメガネ」にこだわっています。

    画像
    会場の様子 (左: marukichiさんの作品 / 右: Sentakuさんの作品)

    ――「最初はジャンル問わず出していたのだけど」ということなんですが、「AIアートならではのスランプ」みたいなのに入ることってありますよね。なんでも出せちゃうし、みんなとの差も生まれづらいですし。

    marukichi:そうなんです。「自分の好きなものに”手綱”をとってもらう」という感じです。

    ――たしかに、その「好きなものドリブン」って大事ですよね。AICUの所属クリエーター・犬澤某さん(@insbow)も「(個人作品では)オーバーオールを着た犬しか描かない」って言ってシバリを入れてますし、そういう「制約」って、クリエイターにとってはとてもいい挑戦になるんですよね。

    画像
    会場の様子(左: Nafさん / 中央左: 高高度墜落さん / 中央: Takoyamaさん / 右: 廃材さん)

    廃材「”AIイラストレーター”という表現にも、複雑な想い」

    ――廃材さんは、どんな活動をされてきたのですか?

    廃材:AIの流行が始まってすぐの頃は、叩かれがちだったり、著作権問題だったりが、重くありました。
    その中で自分としては「クリエイティブをネットに廃棄していく」というスタンスで活動してきたんです。いわゆる『AI絵師』と自分は違う、「廃材」として。でも『捨てている』というスタンスを取っている反面、魂を込めて作品を作っているので、『どこかの誰かの心に触れてほしい』という気持ちも長く持ち続けてきました。「なんかいい展」というグループ展を通して、それを感じてみたいと思いました。”AIイラストレーター”という表現にも、複雑な想いがあります。

    ――いいですね!とても複雑で、いいと思います!AICU mediaも生成AIでの発信活動を2年ぐらい続けて来ましたが、商品としてパブリッシングを行うメディアによって「AI画像生成を”描く”と表現しない」とか、セミリアル、フォトリアルのみを扱い「イラストレーションを扱わない」といった制約を行ったメディアもあります。でも、社会との対話を作品を通して行いたい、という気持ちが芽生えていく姿はとても尊いですね。

    画像
    高高度墜落さん作品
    画像
    Nafさん作品

    【やってみて、どうだった?】

    「なんかいい展」は「見に来る人もお金がかからないように」ということで、「来場無料、グッズ販売などもなしで」、というコンセプトで実施されたそうです。

    ――制作の過程での苦労などをお聞かせください。

    Marukichi:もともと手でアナログアートをやっていたんです。でも時間がかかるので、だんだん、できなくなってきている。それが「AIでイラストを生成できる」という時代がやってきて、「好きなものをトンマナにしよう」と決めて、最近は「青色と眼鏡」でこだわっています。

    ▼展示1枚目

    ▼展示2枚目

    ――ほんとうに!青色と眼鏡、なんですね。ネットでの反応も共感が多く見られますね。

    画像
    展示された marukichiさんの作品

    ――廃材さんは、”普通のプリントではない作品”なのですね!?

    廃材:アクリルの塗料を使って立体感を加えました。キャラクターの眼の部分など。これは、やってみて、お客さんからも反応が良かったです。

    画像
    立体的な質感を持つ廃材さんの作品(スタッフ撮影)

    ――廃材さん、いかがでした?社会に自分の物としての作品を発信してみた、ということなのですが。

    廃材:ホント、一人ではできなかったと思うので、Sentakuさんには感謝です。

    画像
    Takoyamaさん作品

    【お金、どれぐらいかかりました?】

    ―― 来場無料で開催されているのですが、クリエーター側はどのような費用感なのでしょうか?

    Sentaku:ひとりおよそ2万円ぐらいかかっていますね。ギャラリーの場所代が6万円、印刷費用はA2サイズが1枚5,000円、といったところです。

    ―― ギャラリーも大判印刷もけっこうかかりますからね……。ちなみに印刷所についてもお聞きしていいですか?

    Sentaku:今回は「ソクプリ」さんですね  https://www.ooban-senmon.com/

    廃材さん:私は実はたくさん失敗しているので、もっとかかっていますね。

    ―― ああ~!でもそれってたぶん「上手になっても何度もプリントして品質あげちゃうやつ」ですよね……僕も写真出身なのでわかります……!!!

    画像
    廃材さんの作品

    やってみる前は「不安」、やってみたら「みんなあたたか」。

    ―― 来場された方々の反応はいかがでしたか?

    Marukichi:一言でいうと、やって見る前は「不安」、やってみたら「みんなあたたか」、という感じです。来場された方々にも、画像生成でイラストレーションを作っている方々も多くいらっしゃって、「こうやってます」と、変に自分を隠す人もいないし、むしろ「アピールされた」という感想があります。作ってる中の人のことを聞きたい、みんな「やりたい人はたくさんいるんだな」、それを肌で感じました。

    ―― それはおもしろいですね(笑)

    Sentaku:AIアートに対する批判もあるかと思ったのだけど、「なんかいい」に共感する方、共通することが多くて。これこそがアートだと思いました。
    「なんで呼んでくれなかったんですが」とか、「次は声かけてください」とか言ってくださって。それがうれしかった。みんな表現したいんだ、とか「実物を通して伝わったんだ」と思いました。

    ―― 一番大変だった事って何ですか?

    Sentaku「この企画を、とにかく、成立させるんだ!」……これをメインに考えていましたね。全部が初めてだったので。(お客さんが)AIイラストを見た人がどう感じるのか。AIで、デジタルだったものを、物体化してみんなに見せるってことが一番大変だったことかもしれない。

    (僕は仕事柄、AI クリエイターの人たちをたくさん見てるところもあるのですが)ソロでやっている方は「心理的不安」みたいな「まだ同人誌レベルには一般化していないかも」といった不安がある中で、「やる前 、やった後」つまり、やる前は『すげえ 大変だ』と思ったけど、やってみたら『いい話』といったエピソードってありませんか?

    廃材:深川ガレージ(Fukagawa Garage)さんが、ギャラリーの道路沿いに大きな看板を出してくださって……これを見て来場された方々がいらっしゃいました。「開催した」ってことに、価値があると思っています。

    AIアートがギャラリーイベントを通して社会との接点を得る瞬間をみた

    ―― 白井:ネットで出会いようのない人たち、「深川ガレージでしかありえなかった出会い」とか、いただいた意外な感想とか 、あれば。

    Marukichi:サラリーマン、仕事帰り、という感じの方が写真を撮ってふむふむ、という感じで帰っていた。そういうのもいいとおもいました。

    Sentaku:オーナーさんの娘さん(未就学児か小学校低学年ぐらい)が見に来てくれたのが嬉しかったですね。で、「かわいい!」「かわいいけど女の子ばっかり!」って。

    ―― あるあるですね(笑)!女の子じゃないの モチーフにしたらどうなんだろう? みたいな発想はまさに「社会に作品を出してみて初めて気づく新たなチャレンジ」みたいな感じで尊いですね。
    AIアートがギャラリーイベントを通して社会との接点を得ていく瞬間』みたいな……。 

    画像
    会場となった 深川ガレージ(Fukagawa Garage)さん

    Sentaku:プロジェクターを使ってPCの映像を写して…ということもやっていました。その場でNijiJourneyをいじってみたりしてみました。その後、お客さんが「NijiJourneyはじめました」って言ってくれたりもして。

    ―― なるほどそういうワークショップとか需要ありそう。AICUとしてはぜひ 提供したいですね。

    廃材:スクリーンさえあれば、リアルタイムで飾れるわけですよね。AIアートならではの展示方法もありそう。

    ―― さいごに告知等ございましたらどうぞ!

    Sentaku:Sentaku 、廃材、marukichiの3人が「第3回 オオカミの森」展の東京開催にAIイラストを出品します。販売もあります。

    アートで紡ぐ『オオカミ』の新たな物語

    https://forest-of-wolf.crywolves.net

    画像

    🐺第3回「オオカミの森」東京開催🐺
    日時:11/5(tue)~11(mon)
    場所:西武渋谷展 B館5階
    時間:10:00~20:00

    『オオカミ』ってこんなにもカッコよくもあり、愛らしい存在だと知ってほしい!
    そして、日本から姿を消したオオカミが帰ってこれる森を創っていく。
    そんなきっかけになるイベントを目指しています。
    オオカミ好きのクリエーターたちが創る、オオカミ関連のアート、グッズ、雑貨などの作品が一堂に集結するPOPUP。

    おもしろそうな展示会ですね!しかももうすぐ開催ですね!これは楽しみです。

    Sentakuさん、廃材さん、marukichiさん。お忙しいところロングインタビューにご参加いただき本当にありがとうございました!

    AICU mediaは「つくる人をつくる」を応援しています。

    展示会やクリエイティブAIイベントの告知や開催レポートの掲載ご相談・ご出稿はこちらのフォームか、 X@AICUai までお問い合わせください。

    https://j.aicu.ai/pubreq

    ☆こちらの記事はAICU media編集部の方針で期間限定無料配信とさせていただきます

    印刷版「AICU Magazine Vol.6」に収録予定です。
    https://ja.aicu.ai/mag

    もちろん本記事をご購入いただく事は歓迎です!
    ☆シェアしていただいたほうが嬉しいです☆


    この記事の続きはこちらから https://note.com/aicu/n/nb669d5eca8f6

    Originally published at https://note.com on Oct 31, 2024.

  • Stable Diffusion 3.5 Medium 登場! 盛り上がる開発者コミュニティ、LoRAやSkip Layer Guidance (SLG)で指も改善?

    2024年10月29日(日本時間)、Stability AIから予告通り、最新の画像生成モデル「Stable Diffusion 3.5 Medium」がオープンリリースされました。

    Stable Diffusion 3.5 Medium が登場しました!

    このオープンモデルは、25億のパラメータを持ち、消費者向けハードウェア上で「箱から出してすぐに」動作するように設計されています。

    ブログにMediumの内容を追加しています。ぜひご覧ください。

    https://x.com/StabilityAI_JP/status/1851268389140119774

    https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

    「消費者向けハードウェア…!?」というドヨメキがAICU media編集部に響き渡ったのですが、Stability AI公式が具体的なモデル名とGPU製品名で推奨動作表を提供しています。

    画像
    https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

    Stable Diffusion 3.5 Medium (以下、SD3.5M) は 2.5B(25億パラメータ)のモデルであり、NVIDIA GeForce RTX 3080 (VRAM 10GB以上) が推奨になっています。NVIDIA GeForce RTX 4060 (VRAM 6GB)では、[!] という黄色いマークがつけられており、「[!] indicates the model requires performance – compromising optimizations, such as quantization or sequential offloading, to run on this device.」(モデルをこのデバイスで実行するには、量子化や順次オフロードなどのパフォーマンスを犠牲にした最適化が必要であることを示します)と書かれています。

    ダウンロードはこちらから、ファイルサイズは4.75GBです。

    https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/resolve/main/sd3.5_medium.safetensors?download=true

    なお、SD3.5 Large (80億パラメータ)も配布されています(ファイルサイズとしては16.5GB!です)。動作させるには32GB VRAMを搭載した NVIDIA H100クラスのGPUが必要とのことです。

    https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/sd3.5_large.safetensors

    https://github.com/Stability-AI/sd3.5

    Google Colab上でweightをダウンロードするテクニック!

    Google Colab上で、HuggingFaceに置かれたStable Diffusion 3.5 MediumやLargeを活用したい!でもHuggingFaceでの認証が通らないのでwgetすることができない…なんて諦めてしまったひとはいませんか?

    AICU AIDX Labではこんな方法で、自動でダウンロードできるスクリプトを組んでいます。
    まずはGoogle Colabの「シークレット機能」を使って、HuggingFaceのAPIキーを保存します。ここでは「HF_TOKEN」という名前にしてあります。

    画像

    Google Colabノートブック上でこちらのHF_TOKENにアクセスを許可して、以下のようなコードを書きます。

    #!wget -c https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/resolve/main/sd3.5_medium.safetensors  -P ./models/checkpoints
    # %cd /content/drive/MyDrive/ComfyUI/models/checkpoints
    !pip install huggingface_hub
    
    import os 
    from google.colab import userdata
    os.environ['HF_TOKEN'] = userdata.get('HF_TOKEN')
    !huggingface-cli login --token $token
    
    token = userdata.get('HF_TOKEN')
    from huggingface_hub import hf_hub_download
    hf_hub_download(repo_id="stabilityai/stable-diffusion-3.5-medium", filename="sd3.5_medium.safetensors", local_dir="/content/drive/MyDrive/ComfyUI/models/checkpoints")
    

    hf_hub_download(repo_id=”stabilityai/stable-diffusion-3.5-medium”, filename=”sd3.5_medium.safetensors”, local_dir=”/content/drive/MyDrive/ComfyUI/models/checkpoints”)

    と書くことで、HuggingFaceにログインした状態でファイルを指定ディレクトリに直接ダウンロードできます!これは便利。

    画像

    参考:その他のHuggingFaceの使いこなしはこの記事でも扱っています。

    盛り上がる開発者コミュニティ

    AICU media編集部でもSD3.5のリリース直後から評価に入っています。

    日本人などの人種や肌の多様性は確認できましたが、一方で「指の正確さ」については難があるという印象を得ましたが、実はその後、急速にコミュニティ内で改善が見られるので共有したいと思います。

    まずは、sampler をEuler Ancestral (Euler_a) にする!

    集合知的に様々なノウハウが集まってきていますが、SD3.5でMMDiT-Xにモデルが変わっていることもあり、サンプラーについても見直しが必要なようです。

    指に関しては、Euler Ancestral (Euler_a)がよいという説があります。

    世界のKohya氏、LoRA対応を追加。

    LoRA学習スクリプト「sd-scripts」を開発し、世界中のStable Diffusionコミュニティの英雄ともいえるKohya氏がSD3.5M対応をGitHubリポジトリにプッシュしました。

    https://github.com/kohya-ss/sd-scripts/pull/1719

    コメントでは世界中の開発者からの検証結果が寄せられ始めています。

    Civitaiによるマニュアル・ワークフローの提供

    SD3公開直後、荒れた瞬間があったCivitaiコミュニティですが、SD3.5については公式のエデュケーションブログやワークフローの公開が提供されています。

    せっかくなので翻訳を提供していきたいと思います。最新のモデルと専門用語を学ぶうえでも大変役に立ちます。

    Stable Diffusion 3.5 Mediumクイックスタートガイド

    Stable Diffusion 3.5 Mediumは、画質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の向上を実現する、マルチモーダル拡散トランスフォーマー(MMDiT-x)をベースにしたテキスト画像生成モデルです。

    注記: このモデルはStability Community Licenseの下でリリースされています。商用ライセンスについては、Stability AIのサイトをご覧いただくか、当社までお問い合わせください。

    モデルの説明

    • 開発元: Stability AI
    • モデルの種類: MMDiT-Xテキスト画像生成モデル
    • モデルの説明: このモデルは、テキストプロンプトに基づいて画像を生成します。3つの固定の事前学習済みテキストエンコーダー、トレーニングの安定性を向上させるためのQK正規化、および最初の12個のトランスフォーマーレイヤーにおけるデュアルアテンションブロックを使用する改良版マルチモーダル拡散トランスフォーマー(https://arxiv.org/abs/2403.03206)です。

    ライセンス

    • コミュニティライセンス: 年間総収益が100万ドル未満の組織または個人の研究、非商用、および商用利用は無料です。詳細はコミュニティライセンス契約をご覧ください。https://stability.ai/license で詳細をご覧ください。
    • 年間収益が100万ドルを超える個人および組織の場合:エンタープライズライセンスを取得するには、当社までお問い合わせください。

    実装の詳細

    • MMDiT-X: トランスフォーマーの最初の13レイヤーに自己注意モジュールを導入し、マルチ解像度生成と全体的な画像の整合性を強化します。
    • QK正規化: トレーニングの安定性を向上させるためにQK正規化技術を実装します。
    • 混合解像度トレーニング:
      • プログレッシブトレーニングステージ:256→512→768→1024→1440の解像度
      • 最終段階には、マルチ解像度生成パフォーマンスを向上させるための混合スケール画像トレーニングが含まれていました
      • 低解像度ステージでは、位置埋め込み空間を384×384(潜在)に拡張
      • 混合解像度とアスペクト比の全範囲にわたるトランスフォーマーレイヤーの堅牢性を強化するために、位置埋め込みにランダムクロップ拡張を採用しました。たとえば、64×64の潜在画像が与えられた場合、トレーニング中に192×192の埋め込み空間からランダムにクロップされた64×64の埋め込みをxストリームへの入力として追加します。

    これらの機能強化は、マルチ解像度画像生成、一貫性、および様々なテキスト画像タスクへの適応性におけるモデルのパフォーマンス向上に総合的に貢献しています。

    • テキストエンコーダー:
      • CLIP:OpenCLIP-ViT/G、CLIP-ViT/L、コンテキスト長77トークン
      • T5:T5-xxl、トレーニングのさまざまな段階でのコンテキスト長77/256トークン
    • トレーニングデータと戦略:
      • このモデルは、合成データやフィルタリングされた公開データなど、様々なデータでトレーニングされました。

    元のMMDiTアーキテクチャの技術的な詳細については、研究論文を参照してください。

    使用方法と制限事項

    • このモデルは長いプロンプトを処理できますが、T5トークンが256を超えると、生成された画像の端にアーティファクトが発生する場合があります。ワークフローでこのモデルを使用する場合はトークン制限に注意し、アーティファクトが目立ちすぎる場合はプロンプトを短くしてください。
    • MediumモデルはLargeモデルとはトレーニングデータの分布が異なるため、同じプロンプトに同じように反応しない場合があります。
    • より良い構造と解剖学的整合性を得るためには、Skip Layer Guidanceを使ったサンプリングを推奨します。

    実装の詳細

    • MMDiT-X: トランスフォーマーの最初の13層に自己関心モジュールを導入し、マルチ解像度生成と全体的なイメージの一貫性を強化。
    • QK正規化: トレーニングの安定性を向上させるために、QK正規化技術を導入。
    • 混合解像度トレーニング:
      • 段階的なトレーニングステージ:256 → 512 → 768 → 1024 → 1440解像度
      • 最終段階では、マルチ解像度生成性能を高めるために、混合スケール画像のトレーニングを実施
      • 低解像度段階では、位置埋め込み空間を384×384(潜在)に拡張
      • 混合解像度およびアスペクト比の全範囲にわたってトランスフォーマー層の頑健性を強化するために、位置埋め込みにランダムなクロップ拡張を採用しました。例えば、64×64の潜在画像が与えられた場合、192×192の埋め込み空間からランダムにクロップした64×64の埋め込みを、xストリームへの入力としてトレーニング中に追加します。

    これらの強化により、多様なテキストから画像へのタスクにおける、マルチ解像度の画像生成、一貫性、適応性の向上というモデルのパフォーマンス改善に総合的に貢献しています。

    • テキストエンコーダー:
      • CLIPs: OpenCLIP-ViT/GCLIP-ViT/L、文脈の長さ77トークン
      • T5: T5-xxl、トレーニングの異なる段階における文脈の長さ77/256トークン
    • トレーニングデータと戦略:
    • このモデルは、合成データやフィルタリングされた公開データなど、さまざまなデータでトレーニングされています。

    MMDiT-X

    Stable Diffusion 3.5 Medium は、画像品質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の向上を特徴とする、改良された Multimodal Diffusion Transformer with improvements (MMDiT-X; マルチモーダル拡散トランスフォーマー)によるテキストから画像へのモデルです。

    画像

    MMDiTのオリジナルアーキテクチャの技術的な詳細については、研究論文を参照してください。

    使用法と制限事項

    • このモデルは長いプロンプトを処理できますが、T5トークンが256を超えると、生成の端にアーティファクトが発生することがあります。このモデルをワークフローで使用する際はトークン制限に注意し、アーティファクトが顕著になる場合はプロンプトを短くしてください。
    • 中規模モデルは大規模モデルとは異なるトレーニングデータの分布であるため、同じプロンプトに対して同じように反応しない場合があります。
    • より良い構造と解剖学的整合性を得るために、Skip Layer Guidanceでサンプリングすることをお勧めします。

    Skip Layer Guidance (SLG)の推奨

    Stability AIが提案している方法としてはSkip Layer Guidance (SLG)です。Skip Connection(残差接続)についてはこちらの日本語解説が詳しいです。これによって指の改善がStability AIによって提案されており、ComfyUIやHuggingFaceでも試されています。

    https://github.com/comfyanonymous/ComfyUI/pull/5404

    https://github.com/huggingface/candle/issues/2588

    スキップ レイヤー ガイダンス (SLG) は、特定の範囲のサンプリング ステップで元の CFG に追加のガイダンスを追加するサンプリング手法です。追加のガイダンスは、元のモデルからの正の DiT モデル出力から、特定のレイヤー (たとえば、Stable Diffusion 3.5 Medium の場合はレイヤー 7、8、9) が削除されたバリアント モデルからの正のモデル出力を減算して比較することによって計算されます。

    SLG はオプションの選択肢のように見えますが、SAI は Stable Diffusion 3.5 Medium に対して SLG を有効にすることを公式に推奨しているようです。証拠には以下が含まれます:HuggingFace Hub の公式リポジトリでは、 SLG が有効になっているComfyUI ワークフローが提供されています。
    公式リファレンス デザイン GitHub リポジトリStability-AI/sd3.5には、SD3.5-medium の SLG をサポートする最近の変更が含まれています。
    Stable Diffusion 3.5 Medium での SLG の使用について取り上げたReddit (例:こちら) および Twitter/X (例:こちら) の投稿では、SLG の使用は「解剖学的失敗の可能性を減らし、全体的な一貫性を高める」ために重要であると思われると示唆されており、複数の独立した投稿がこの主張を相互検証しています。

    HuggingFaceにおいてワークフローが配布されています。

    https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/resolve/main/SD3.5M_SLG_example_workflow.json?download=true

    さいごに


    今後も、Stable Diffusionを中心としたオープンな画像生成モデルとそのコミュニティの熱狂は続きそうです。

    AICUとしては「つくる人をつくる」をビジョンにする専門AIメディアとして今後も、公平に、Stability AIやコミュニティの活動を応援していきたいと考えています。

    Originally published at https://note.com on Oct 30, 2024.

  • Google Colab 初手の初手 – GPUいらずでパワフルなAI開発環境を手に入れよう

    皆さん、こんにちは!生成AI時代に「つくる人をつくる」で活動しているAICU media編集部です。
    勉強がはかどる秋の夜長ですね!今回は手法を変えて、画像生成だけでなく、Pythonや機械学習の勉強に役立つGoogle Colabの基本操作について解説していきます。GPUいらず、Gmailアカウントさえあれば無料で利用できるパワフルなAI開発環境を手に入れましょう!

    Google Colabとは?

    Google Colabは、ブラウザ上で利用できるGoogleの無料のPython開発環境です。Googleドライブと連携しており、機械学習やデータ分析などの作業に最適な環境を提供しています。

    Google Colabへのアクセス

    ブラウザで「Google Colab」と検索し、検索結果から「Google Colaboratory」をクリックしてアクセスします。

    https://colab.google/

    画像
    画像
    Google Colabのトップページ

    サンプルノートブックの実行

    Google Colabにアクセスすると、最初に「Colaboratoryへようこそ」というサンプルノートブックが表示されます。このノートブックは、Google Colabの基本的な操作方法を学ぶためのものです。

    ノートブックは、コードセルとテキストセルで構成されています。コードセルにはPythonコードを記述し、実行することができます。テキストセルには説明文や注釈などを記述することができます。

    基本操作

    サンプルノートブックで基本的な操作を確認してみましょう。

    1. コードセルの実行

    コードセルを実行するには、セルの左側に表示されている再生ボタンをクリックするか、セル内で「Ctrl + Enter」キーを押します。

    画像
    スクリーンショット:コードセルの実行

    2. 結果の確認

    コードセルを実行すると、その結果がセルの下に表示されます。

    Googleへのログインが済んでいない場合は、Googleへのログインが必要です。

    画像

    3. ランタイムの設定

    Google Colabでは、コンピューターのスペック(CPU、GPU、TPUなど)を選択できます。

    画像
    スクリーンショット:ランタイムの設定

    ランタイムの設定は、ノートブックのメニューから「ランタイム」→「ランタイムのタイプを変更」を選択して行います。

    4. セッションの終了

    Google Colabのセッションを終了するには、ブラウザのタブを閉じます。

    次のステップは…?

    今回は、Google Colabの基本操作について解説しました。Google Colabは、機械学習や大規模言語モデルだけでなく、画像生成AIの学習にも非常に役立つツールです。今後、Google Colabを使って、様々な画像生成AIのモデルを学習していきましょう。

    ここまでの手順はこちらの動画でも解説しております。

    Google Colabも画像生成も学べちゃう 画像生成Lesson(無料動画)

    Google Colabにも公式サンプルやはあるのですが、公式は初心者向けではないかもしれません。特にPythonによる開発環境「Jupyter notebook」に慣れた方であればこちらの基本機能比較が役に立つと思います。https://colab.research.google.com/notebooks/basic_features_overview.ipynb

    「Curated Notebooks」には「ChatGPTとGoogle Geminiの比較」といった玄人ごのみのサンプルもあります。

    https://colab.google/notebooks

    やってみました。
    「日本語英語とフランス語の違い列挙して」

    画像

    上のサンプルの動作確認にはGoogle GeminiのAPIに加えてChatGPTのAPIも必要です(それぞれクレジットカード等の登録が必要になります)。
    ちょっと初心者向けとはいい難いので、やはり無料で試せるStability AIのAPIを使った学習が良いかなと思いました。

    超入門:Stable Diffusionではじめる画像生成AI

    https://j.aicu.ai/coloso1

    Google Colabさえあれば、GPUは不要です!!

    以上、初心者け動画 「#画像生成Lesson」の紹介でした。
    これをみて「これならやれそう…?」という方は、ぜひ上を目指してみましょう。

    「生成AIクリエイティブ AICU」シリーズ
    ■超入門:Stable Diffusionではじめる画像生成AI
    https://j.aicu.ai/AICUXColosoJP
    ■初級者:広告企画から動画制作までのプロセス
    https://j.aicu.ai/ColosoJPXAICU
    ■ComfyUIマスター:カスタムノードとアプリ開発
    https://j.aicu.ai/Coloso3

    Originally published at https://note.com on Oct 29, 2024.

  • Coloso講座第2弾「初級者:広告企画から動画制作までのプロセス」配信開始!!

    AICUxColosoコラボ企画第2弾「広告企画から動画制作までのプロセス」が2024年10月31日(木)18時に配信開始となります。この講座では、MidJourney, Runway, Sunoなどの生成AIツールを活用した広告の企画から動画と楽曲制作まで、初心者でも制作できるように解説しています。

    AICUのコラボクリエイター 藤吉香帆さんが中心になって製作しています。動画を中心としたデジタルクリエイティブや広告を制作しながら、生成AIの魅力と可能性を世の中に伝えています。

    生成AI時代の動画広告プロダクションを理解

    生成AI時代における動画制作工程のパラダイムシフトに対応するための知識を、各生成AIツールの設定や特徴と共に解説します。

    画像

    https://corp.aicu.ai/ja/runway-gen-3-alpha

    生成AIを活用したプロモーションビデオ制作方法を習得

    MidjourneyとRunway、Sunoを活用したキャッチーなCM動画制作の全プロセスを、基礎から学ぶことができます。

    画像

    プランニングにおける生成AIの活用方法

    動画広告制作の過程やプランニングをする上で、生成AIを活用してより効率的にする方法を、実演を通して分かりやすく解説します。

    画像

    こちらは ぽんずさんの作品です。Coloso番組内ではもっとすごい!

    本講座を通して、生成AIを用いた動画制作に挑戦することで、生成AIの活用法を学んでいただければ幸いです。

    画像
    画像

    生成AIツールを活用した広告企画から動画制作までのプロセスを習得

    講師陣はこちら

    画像

    藤吉香帆:動画クリエイター、セツナクリエイション合同会社 代表取締役。デジタルハリウッド大学 非常勤講師。

    ぽんず:生成AIクリエイター。各種イラスト・動画コンペで受賞歴多数。

    白井暁彦:生成AIクリエイティブAICU代表。デジタルハリウッド大学大学院 特任教授。著書に「AIとコラボして神絵師になる 論文から読み解くStable Diffusion」など。

    こんな方におすすめ

    ・動画広告制作に興味がある方
    ・生成AIを使ったクリエイティブ制作を学びたい方
    ・広告代理店や制作会社で働く方
    ・最先端の広告制作スキルを身につけたい方

    画像

    今ならお得な割引キャンペーン実施中!

    いよいよ、2024年10月31日リリース予定です。
    定価 25,350円
    →現在は 24%offの¥19,013円
    リリース後は割引価格が終了します!

    詳細はこちら: [https://j.aicu.ai/coloso2]

    https://note.com/iamkaho/n/n81b7691db92d

    AICU x Colosoコラボ企画3作はこちら
    【Coloso講座】ComfyUIマスター:カスタムノードとアプリ開発
    ComfyUIを活用したワークフローの構築と画像生成の実践講座

    https://bit.ly/3YsuzCP 👈 

    https://j.aicu.ai/coloso1

    https://note.com/o_ob/n/n4aa82191b566

    Originally published at https://note.com on Oct 28, 2024.

  • AICU Magazine Vol.5 紙版リリース!! 特集は「Stability AI Forever!」

    「つくる人をつくる」あなたをアップデートするクリエイティブAIエンターテイメントマガジン「AICU Magazine Vol.5」特集は「Stability AI Forever!」です。

    Kindle Unlimitedにて無料です!
    内容もアップデートされています
    (既に購入された方は自動でアップデートされます)

      特集「Stability AI Forever!」

      2022年8月に画像生成AI「Stable Diffusion」をStability AI が無償公開してから2年。API時代の Stability AI 入門から2024年10月22日に公開された「Stable Diffusion 3.5」まで。
      AICU創業前からの研究成果を凝縮し、GPU不要でも高画質・高品質で画像生成が学べる今後長年にわたって役に立つ情報と歴史を込めて「Forever!」とした総力特集です。

      【基礎編】公式サンプルで学ぶ Stability AI APIの基本!

      Stability AI API Guide の基本としてGenerate API と「TextToImage の最近の文法」を総ざらい!Google Colab を使って、基本的な操作に慣れていきましょう。

      【生成編】Stable Diffusion 3.x 時代に知っておきたい新常識

      この記事ではこの先の画像生成の時代に長く役に立つ「モデルとの対話テクニック」とStable Diffusion 3 時代に知っておきたいプロンプトの新常識についてお伝えします。

      画像

      【活用編】Stability AI API の革新的機能「Edit API」

      丁寧に書かれた解説から紹介します!(画面は印刷版になります)

      画像
      画像
      画像

      【告知】Coloso 講座「超入門: Stable Diffusion ではじめる画像生成AI」

      講座内容についての紹介です

      画像

      ▼講座ページはこちらhttps://j.aicu.ai/coloso1
      ▼ティザー動画はこちら 
       https://www.youtube.com/watch?v=J7VikMNfS50

      講座中で紹介している資料なども共有しています。

      画像
      画像

      【3D 編】Stable Fast 3D をGoogle Colab で動かす

      魅力的な機能をたくさん備えた「Stability AI API」を使いこなすシリーズで
      す。今回は、2024 年8 月に公開された「Stable Fast 3D」を使ってみます。このAPI は、単一の2D 入力画像から高品質な3D アセットを生成します。

      画像

      【ツール編】「Stable Assistant」だとこんなに簡単!

      これまでStability AI API について解説してきましたが、業務的な利用ではな
      く、よりカジュアルに使いたいユーザーには「Google Colab は大変そう」と思うかもしれません。そんな方にはこちら、Stability AI がリリースした「Stable Assistant」はいかがでしょうか。画像生成AI「Stable Diffusion」の最新版に加えて、動画生成、音楽生成、テキスト生成までできるオールインワンのAI クリエイティブツールです。

      画像
      画像

      【研究編】 SD3Mチュートリアルから読んだ Stability AIの「新モデル」

      Stability AIのYeo Wangさんによる公式ブログ記事を読みやすく解説。「新モデル」についての情報も。

      画像
      画像

      https://note.com/aicu/n/n4eda1d7ffcdf

      【未来予測】「Stable Diffusion 3.5」リリースと今後の Stability AI

      以上、120 ページ以上にわたって、Stability AI の最新のAPI やツール、研究について紹介しています。本特集を締めくくるに相応しいリリース、「Stable Diffusion 3.5」が、先日2024 年10月22 日23 時(日本時間)にアナウンスされました。AICU 編集部では「日本人の生成」を通してSD3.5 の最速レビューを実施しました。

      ▼【最速レビュー】Stability AI 最新ベースモデル「Stable Diffusion」

      サクッと先取り! クリエイティブAI ツール

      Suno でオリジナル曲を完成させよう!

      AICU コラボクリエイターのぽんず(@ponzponz15) さんによるSuno紹介です。

      オリジナル楽曲の作り方を丁寧に解説しています!

      画像
      画像

      【告知】Coloso 講座第2 弾「広告企画から動画制作」

      Colosoとのコラボラーニングメディア第2弾「初級者:広告企画から動画制作までのプロセス」がいよいよリリースです。今回の講座では、生成AIツールを活用した広告の企画から動画と楽曲制作まで、初心者でも制作できるように解説します。動画を中心としたデジタルクリエイティブや広告を制作しながら、生成AIの魅力と可能性を世の中に伝えています。

      生成AI時代の動画広告プロダクションを理解

      ・生成AI時代における動画制作工程のパラダイムシフトに対応するための知識を、各生成AIツールの設定や特徴と共に解説します。
      ・生成AIを活用したプロモーションビデオ制作方法を習得
      ・MidjourneyとRunway、Sunoを活用したキャッチーなCM動画制作の全プロセスを、基礎から学ぶことができます。

      プランニングにおける生成AIの活用方法

      ・動画広告制作の過程やプランニングをする上で、生成AIを活用してより効率的にする方法を、実演を通して分かりやすく解説します。
      ・本講座を通して、生成AIを用いた動画制作に挑戦することで、生成AIの活用法を学んでいただければ幸いです。

      講座内容
      ・マーケティング戦略に基づいた企画立案
      ・Midjourneyを使ったアイデア出しとビジュアル制作
      ・Runway Gen-3によるハイクオリティな動画生成
      ・Sunoを活用した、広告に最適な楽曲制作
      ・生成AI活用における著作権やリスクマネジメント
      受講特典
      AICUによる画像生成AI講座動画20講(期間無制限)
      ・香水と果物ジュースの2つのテーマで動画広告を制作
      ・講座内容に関するPDFデータなどの資料を提供
      講師紹介

      画像

      藤吉香帆:動画クリエイター、セツナクリエイション合同会社 代表取締役。デジタルハリウッド大学 非常勤講師。

      ぽんず:生成AIクリエイター。各種イラスト・動画コンペで受賞歴多数。

      白井暁彦:生成AIクリエイティブAICU代表。デジタルハリウッド大学大学院 特任教授。著書に「AIとコラボして神絵師になる 論文から読み解くStable Diffusion」など。

      こんな方におすすめ

      ・動画広告制作に興味がある方
      ・生成AIを使ったクリエイティブ制作を学びたい方
      ・広告代理店や制作会社で働く方
      ・最先端の広告制作スキルを身につけたい方

       今ならお得な割引キャンペーン実施中!
      いよいよ、2024年10月31日リリース予定です。発売後は割引価格が終了します!
      詳細はこちら: [https://j.aicu.ai/coloso2]

      https://j.aicu.ai/coloso2

      藤吉香帆さんによるナレーション!
      コロソでお待ちしております。

      ComfyUI とSAM2 でセグメンテーションをマスターしよう

      動画も高精度に!ComfyUIとSegment Anything Model 2(SAM 2)でセグメンテーションをマスターしようYas (@earlyfield8612)による寄稿です。

      イベントレポート

      • 結果発表!!「デルタもん4コマ漫画コンテスト」#デルタもん4コマ #AICU #BlendAI
      • Stability AI も登壇!「AIが変える 美容&ファッションのミライ」 #AIイベント情報

      BlendAI通信

      • BlendAI第1回ファンミーティング潜入レポート!デルタもん誕生秘話から新キャラ「ガンマミィ」、さらに壮大な計画まで明らかに!
      • ガンマミィ誕生記念! イラストコンテストを開催

      連載漫画「ウワサの大型新人」

      画像

      読者のひろば

      • 編集長とGemini たん: AI 開発案件に起きている地殻変動
      • カバーアート 「秋の妖精」 ないとっちさん
      • はるしね~しょん(編集部だより)

      表紙 by犬沢某さん @insbow

      今すぐKindleで手に入れよう!
      Kindle Unlimitedで無料 

      その他

      • Coloso「生成AIクリエイティブ AICU」シリーズ 5,000円割引クーポンコード付き!(有効期限あり)
      • AniFusion初月半額コード付き!

      AICU Magazine Vol.5 は、Stability AI の世界を深く探求したい、クリエイティブな挑戦をしたいあなたのための、まさに”バイブル”と言える一冊です!

      紙版のリリースは10月30日を予定しております

      ご購入は j.aicu.ai/MagV5 から

      https://j.aicu.ai/MagV5

      https://j.aicu.ai/MagV4

      https://j.aicu.ai/MagV3

      Originally published at https://note.com on Oct 27, 2024.

    1. 韓国の学生が作ったブラウザだけで動くAIモーションキャプチャ「Metive」

      ミクやMMDが大好きな韓国の学生3人が約6ヶ月情熱を注いで作ったAIモーションキャプチャサービス「Metive」がオープンベータとなりました。
      こちらのURLから無料で試用できます。
      https://metive.app

      まだ v.0.13.0ですが、動画付きで丁寧な日本語マニュアルが整備されています。
      https://metive.app/docs

      実際にやってみた様子がこちらです。

      「Metive」の使い方は簡単です。
      1. 動画をドロップ
      2. AIモーションキャプチャを処理→アニメーションデータがサーバー側で生成される
      3. MMD (PMX)を読み込む
      4. モデルを選択して、再生させたいアニメーションデータを選択
      5. 再生▶ボタンを押す
       今回は「Tda式初音ミクV4X」をお借りしました

      https://3d.nicovideo.jp/works/td30681

      ものすごい勢いでバージョンが上がっています。

      開発者の一人、nonameさんはDiscordでのインタビューに流暢な日本語で対応してくださいました。
      Metiveは「メーティブ」と読むそうです。
      どんな意味?と聞いてみたところ
      nomame「特に意味はなく、ただ発音しやすい言葉を考えました」とのこと。

      GitHubをみると、Web3Dのライブラリ「babylon.js」を使ったMMDなども開発されているようです。

      なかなか活発なGitHubです。今後の成長が期待されます。

      画像

      今後の成長が楽しみなAIツールの誕生の瞬間でした!

      ところで韓国のこの分野(3Dキャラクターモーションアニメーション)の研究開発ってすごいですよね。
      先日のSIGGRAPH2024でのKAIST「MOVIN TRACIN」とか

      AICUはSIGGRAPH ASIA 2024 学生ボランティアを応援します。

      Student Volunteers

      https://note.com/o_ob/n/nddab7d8298e9

      そういえば「つくる人をつくる」AICUも韓国とコラボしていました。
      https://note.com/aicu

      Colosoでフルバージョンが観れます!
      Coloso「生成AIクリエイティブ AICU」シリーズ

      ■「超入門:Stable Diffusionではじめる画像生成AI」動画公開開始

      https://j.aicu.ai/AICUXColosoJP

      ■「初級者:広告企画から動画制作までのプロセス」動画公開 10/31(木) 18時 予定

      https://j.aicu.ai/ColosoJPXAICU

      ■「ComfyUIマスター:カスタムノードとアプリ開発」動画公開 11/22(金) 18時

      https://j.aicu.ai/Coloso3

      これからもクリエイティブAI分野で世界の「つくる人をつくる」を探っていきます!

      Originally published at https://note.com on Oct 25, 2024.

    2. [ComfyMaster27] 写真もイラストも線画に!ComfyUIとControlNetによる線画抽出ワークフロー

      デジタルアート制作において、画像から線画を抽出する技術は、イラストのトレースや3Dモデル作成の下準備など、様々な用途で重要性を増しています。特に、AI技術を活用した自動線画抽出は、作業効率の大幅な向上に貢献します。今回は、線画抽出をComfyUIで実現します。

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第27回目になります。
      本記事では、ComfyUI、ControlNet、そしてLoRAを組み合わせることで、高品質かつ詳細な線画を効率的に生成するワークフローを紹介します。

      本連載の初回はこちら。前回はこちら目次はこちらです。

      [ComfyMaster26] ControlNetでイラストを精密に実写化! #ComfyUI

      1. 概要

      今回は、ComfyUIを用いて画像から高品質な線画を抽出するワークフローを紹介します。ControlNetとLineartを用いて画像から線画を生成し、LoRAを用いて漫画スタイルの線画に仕上げます。
      具体的には、「AnyLine LineArt」ノードで画像から粗い線画を抽出し、それを「controlnet-union-sdxl-1.0」と「LineAniRedmond」LoRAを用いて、より洗練された線画へと変換します。
      このワークフローを使用することで、元の画像の構図を維持しながら、アーティスティックで高精細な線画を生成することが可能です。 様々な画像(アニメ風、実写、建物)を用いた作例も提示し、ワークフローの有効性を示します。

      2. ワークフローの使用準備

      ControlNet

      ControlNetの使用準備については、以下の記事をご覧ください。

      今回は、ControlNetのLineartを使用します。Lineartで粗い線画を抽出し、その後にその線画を低ノイズでサンプリングし、補正をかけます。

      LoRA

      今回は、LoRAに「LineAniRedmond」を使用します。このLoRAは、漫画スタイルの画像を生成してくれるLoRAで、線画の質を上げるために使用します。以下のリンクよりダウンロードし、「ComfyUI/models/loras」フォルダに格納してください。

      https://civitai.com/models/127018/lineaniredmond-linear-manga-style-for-sd-xl-anime-style

      使用素材

      今回は、以下の画像を線画にします。

      画像

      以下のリンクから画像をダウンロードしてください。

      https://note.com/api/v2/attachments/download/54a45213199b43c2255a1c5713f59ba7

      3. ワークフローの解説

      以下がワークフローの全体構成になります。このワークフローは、入力画像から高品質な線画を抽出し、それを基に新しい、より詳細で洗練された線画を生成します。ControlNetとLoRAの使用により、元の画像の構造を維持しながら、高度にスタイライズされた線画が作成されます。結果として、元の画像の本質的な特徴を保持しつつ、より洗練された、アーティスティックな線画表現が得られることが期待されます。

      画像

      ワークフローは、文末のリンクよりダウンロードしてください。
      以下に、このワークフローの主要な部分とその機能を図示し、詳細に説明します。

      画像
      1. 入力画像の読み込みと線画抽出
        • Load Imageノード: 「girl_anime_02.jpeg」を読み込みます。
        • AnyLine LineArtノード: 入力画像から線画を抽出します。
          • モード: lineart_standard
          • 解像度: 1280
          • 詳細度: 0.1
        • Image Invertノード: 抽出された線画を反転させます。
      2. モデルとLoRAの読み込み
        • Load Checkpointノード: 「RealVisXl.safetensors」モデルを読み込みます。
        • Load LoRAノード: 「LineAniRedmondV2-Lineart-LineAniAF.safetensors」LoRAを適用します。
          • 強度: 1.0 (モデルとCLIP両方に適用)
      3. ControlNetの設定
        • Load ControlNet Modelノード: “controlnet-union-sdxl-1.0-pro.safetensors” を読み込みます。
        • Apply ControlNet (Advanced)ノード: 抽出された線画を使用してControlNetを適用します。
          • 強度: 0.5
      4. プロンプト処理 (CLIP Text Encode(Prompt)ノード x2)
        • ポジティブプロンプト: 「8k, best quality, masterpiece, ultra detailed, ultra high res, extremely detailed, finely detail, lineart,」
          • 線画が細かくなるように品質向上のタグを設定する
          • 「lineart」は、
        • ネガティブプロンプト: 「colorful, monochrome,」
          • 線画のみになるように、色が付くようなタグを設定しておく
      5. 画像生成 (KSamplerノード)
        • Seed: 474030329745381
        • Steps: 20
        • CFG Scale: 7
        • Sampler: dpmpp_2m
        • Scheduler: karras
        • Denoise: 0.8
      6. 画像のデコードと後処理
        • VAE Decodeノード: 生成された潜在表現を実際の画像にデコードします。
        • Color To Maskノード: デコードされた画像から白色部分をマスクとして抽出します。
        • Save Image With Alphaノード: 最終的に生成された画像をアルファチャンネル付きで保存します。

      AnyLine LineArtの詳細

      AnyLine LineArtノードは、複数の線画検出モデルを使用して入力画像を線画に変換します。このノードの各ウィジェットの意味は以下の通りです。

      • merge_with_lineart: 線画抽出を行う解像度を設定します。以下のモデルから選択可能です。
        • lineart_standard: 標準的な線画用の汎用モデル。
        • lineart_realistic: リアルな画像に特化し、細部を捉えるモデル。
        • lineart_anime: アニメスタイルの画像に最適化され、特徴的な要素を強調します。
        • manga_line: マンガスタイルのイラストに特化したモデル。
      画像
      • resolution: 線画抽出を行う解像度を設定します。デフォルトは512ですが、必要に応じて高解像度や低解像度に調整可能です。高解像度はより詳細な線画を提供しますが、計算資源を多く消費します。
      画像
      • lineart_lower_boundとlineart_upper_bound: 線検出プロセスの感度を制御するためのパラメータです。これらの値を調整することで、線画の細かさや強調具合を微調整できます。
      画像
      • object_min_size: 抽出時に考慮されるオブジェクトの最小サイズを指定し、小さなノイズやアーティファクトをフィルタリングします。デフォルト値は36です。
      画像
      • object_connectivity: 抽出中に接続されたコンポーネントの識別方法を定義します。デフォルト値は1で、オブジェクト間の接続性を決定します。例えば、複数のオブジェクトが接触している画像で、それらを一つの連続した形状として扱いたい場合、このパラメータを調整します。デフォルト値は1で、接続されたピクセルがどのようにグループ化されるかを制御します。(具体的に抽出される線画にどのような影響があるのか不明)

      4. 生成結果の確認

      以下が生成結果になります。背景は抽出できていないですが、前面の人物は線画に変換できています。

      画像

      出力される画像は、背景が透過画像となっているので、抽出元画像と重ねて表示してみました。元画像に比較的忠実に抽出されていることが分かります。

      画像

      他の画像でも試してみました。

      画像

      実写からの線画抽出例です。こちらも綺麗に抽出できています。

      画像

      建物から線画を抽出してみました。かなり細かいところまで線画として抽出できています。

      画像

      5. まとめ

      本記事で紹介したワークフローを用いることで、ComfyUI、ControlNet、LoRAの連携による高品質な線画抽出が可能になります。AnyLine LineArtノードによる柔軟な線画抽出、ControlNetによる精密な制御、そしてLineAniRedmond LoRAによる画風調整といった各要素が組み合わさり、様々な画像に対して精緻でアーティスティックな線画生成を実現します。アニメ風、実写、建物といった多様な画像例からも分かるように、このワークフローは幅広い用途に応用できる強力なツールとなります。今後のデジタルアート制作において、本記事で紹介したワークフローが、より効率的で創造的な作品制作の一助となることを期待します。

      次回は、ラフ画から画像生成の方法を紹介します。乞うご期待!
      X(Twitter)@AICUai もフォローよろしくお願いいたします!

      画像生成AI「ComfyUI」マスターPlan

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。
      ✨️オトクなメンバーシップについての詳細はこちら

      そして本講座の内容は各種有料メディアでも展開準備中です!
      ■「ComfyUIマスター:カスタムノードとアプリ開発」

      https://j.aicu.ai/Coloso3


      この記事の続きはこちらから https://note.com/aicu/n/n74e7edf56832

      Originally published at https://note.com on Oct 25, 2024.

    3. あんしんなクリエイティブAIで「陽のあたる場所」をつくる

      エキサイティングな生成AIの年になった2024年も、もう残り僅かになってきました。「つくる人をつくる」をビジョンにするAICU Inc. は、新たな挑戦をいくつか準備していきます。その一つが「『生成AI倫理』に「AIクリエイター視点でしっかりと意見を述べていこう」という取り組みです。

      シリーズ「AIクリエイターに訊く生成AI倫理」

      生成AI分野、特にクリエイティブなAI、クリエイティブとAI分野で活躍する第一線のクリエイターの方々に直接!インタビューや講演録、寄稿や公開質問といったオピニオンを通して、法律や技術と同時に「ほんとうの意味で生成AIに求められる倫理感とは?」について時間をかけて考えてみたいというシリーズ企画「AIクリエイターに訊く生成AI倫理」を開始します。

      第1回はAICU代表、AICU media編集長、デジタルハリウッド大学大学院 特任教授、「しらいはかせ」こと白井暁彦(@o_ob)からスタートします。いつもは編集長として、プリンシパルライターとしてAICU編集部で執筆する白井氏ですが、今回は先日開催された東京科学大学INDEST「あんしんAIセミナー」で語られた講演録『あんしんなクリエイティブAIで「陽のあたる場所」をつくる』から、聞き手は編集部です。第三者視点で、最新の考えに迫ります。

      画像
      カバーアートはもちろん画像生成によるものです。しかもプロテクトが入っているそうです。

      今回の講演概要

      白井さんはエンターテイメントシステムの研究者です。

      画像
      https://akihiko.shirai.as/

      AICUという会社をやっています。AICUでは、例えばチャットボットを作ったり、動画を作ったり、レクチャーをしたり、読み物メディアとして『AICUmedia』、『AICUマガジン』等々のメディアを運営したりしてきています。また、画像生成をしていく人たちの品質やテクニック、倫理観を検定試験にしていく取り組みも提案しているそうです。

      今回は、そんな検定試験の中身になるようなお話です。白井さんは「つくる人をつくる」、クリエイティブAIで「陽の当たる場所」を作っていこうと考えています。法整備も大事ですが、そもそもAIが理解されていない問題が生成AIの普及を阻んでいます。事例とともにその問題をどんどん明らかにしていき、科学コミュニケーターで培った経験を元に様々な世代に「子供でもわかるような言葉」を意識して伝えています。白井さんのお話を全て紹介することはできませんが、その言葉の一部を見ていきましょう。

      事例1:『超入門:Stable Diffusionではじめる画像生成AI』

      最近、韓国をベースにする国際ラーニングメディア「Coloso」への3件の動画コンテンツシリーズをリリースしました。「Coloso(コロソ)」という韓国をベースにする国際ラーニングメディアで公開されています。

      画像

      ・『超入門:Stable Diffusionではじめる画像生成AI
      ・『初級者:広告企画から動画制作までのプロセス
      ・『ComfyUIマスター:カスタムノードとアプリ開発』 

      白井氏:この3作は基本的に、(アニメや漫画、イラストではなく)「リアリスティックな生成AIじゃなきゃ作れない」という画質の画像生成を「責任を持って活用する」ための「持続的創作活動を行う基盤を築く」というコンセプトで作っています。氏は『韓国の生成AI分野は日本と異なる進化・進歩・倫理観があり、困難も多いが韓国企業とのコラボレーションから学ぶことは多い』と述べており、また『結構な勢いで売れていて、こういうのを学びたい人はちゃんとお金払って学ぶんだなということが体感できた』と述べています。

      白井氏:日本では文化庁をはじめ、法整備が進んでいる一方で、議論がいわゆる「炎上屋」のおかげで変なブレーキが踏まれてしまうケースがみられます。それからテクノロジー的には「SD黄色本」で解説した「AUTOMATIC1111」に並んで「ComfyUI(コンフィユーアイ)」のほうが主流になっていて、知っている人たちの技術はものすごく高い一方で、まとまった体系的な知識を教えられる人がいるのかというとなかなかアンダーグラウンドな世界に落ちている感じがしています。なので、教科書などを真面目に作って、専門学校の先生とか大学の先生がそれを利用できるようにするということやっています。

      事例2:『AICUマガジン』

      また、中高生がこういったAIの世界を楽しそうと思って入ってこれるように『AICUマガジン』を毎月発行しています。漫画の書き方や生成AI時代の社会と倫理なども特集しました。

      画像
      画像

      「AniFusion」(アニフュージョン)みたいな最新刊のテクノロジーツールといったものが袋とじになっていて、これを買ってくれた人がコードを入れると1ヶ月無料で遊べるというのもやっています。書いてあるプログラムや書いてあるプロンプトを打ち込んだら同じことができるみたいなことができる世界は、すごく大事だなと思っています。なので、儲からないですけど、根性でAICU Magazineは出し続けています。

      画像

      頑張って続けていると、Stability AIも準公式で協力してくれますし、「BlendAI」のキャラクター「ガンマミィ」の漫画連載が始まるなどしました。漫画の連載が始まるというのはすごい大事なことで、「AIで漫画を描く人」に「漫画の原稿料が払える」ということなんですよね。そういう世界がやってこないと、いくら無料でコンテンツを作り続けても、それはその趣味への範囲を超えていかないということなんです。紙の本を出すということも結構重要で、ちゃんと産業が成り立っていく、その重さを感じられます。

      画像

      事例3:博士や修士卒が書く知的探求メディア

      実はAICUの主要ライター陣は「しらいはかせ」、東京工業大学知能システム科学卒・博士(工学)をはじめとして国内外の大学の修士卒以上が活躍しています。これは白井氏の日本科学未来館での科学コミュニケーターという経験からきているらしく、『専門的な知識を有しているからこそ、責任持って面白く、わかりやすく伝えるプロでもある』という考え方があるそうです。

      最近では、東京ゲームショウ(TGS2024)での紹介記事がきっかけになって、テレビ取材になったケースも有るそうです。

      画像

      ▲感情分析で変わるゲーム【トレたまneo】2024.10.03

      たしかに、ゲームやアニメの世界と違って、クリエイティブAIの世界は専門的な知識、特にコンピューターサイエンスから工学、芸術学、メディア学や文学などにも精通している必要がありますよね。怪しげな情報が飛び交うディープ・フェイクの時代に「博士や修士でなければ責任持って書けない」という視点は特徴があります。

      事例4:障害者向けクリエイティブワークショップ

      画像

      白井氏:僕らの仕事の中には、神奈川県をクライアントにして、「ともいきメタバース講習会」という障害者に向けたクリエイティブワークショップも実施しています。障害者の施設を回って、知的障害、身体障害、精神障害、発達障害といったいろんな人たちに実際に接してクリエイティブなことをやることによって、付加価値を出していっています。その中にメタバースやAI生成というのがいかに役に立つか、どんな問題が払われているのかといったことを研究しています。障害者の人たちにとって「AIで文字から画像生成をできるということは本当に求められていた技術だ」ということを、長年養護学校で先生を勤められた先生が生々しく僕に語ってくれました。『生成AIは悪だ』と言い放っている人たちに訊きたいのですが、あなた方が『生成AIは悪である、と思っているだけ』であって、「その技術を否定されることによってどんな人が傷ついているか?」を想像していますか。

      たしかに、音声文字入力や視線入力、漢字の予測変換入力なども「AIのおかげ」ですし、これは障害者だけでなく障がいを持たない方々にも有益な技術ですよね。画像生成がそのような技術になる可能性は大いにありますね。

      事例5:『CG WORLD』2024年11月号 vol.315の表紙

      今月の『CGWORLD』に注目です。表紙は杉山学長というデジタルハリウッド大学の初代学長・改革者です。『CGWORLD』が30周年で特集を組みました。

      画像

      https://amzn.to/4hhas22

      白井氏:杉山先生には30年前、僕が21歳のときに出会いました。この人が「この後デジタルコンテンツやCGなどを学びたい人がたくさん増えるからそういう学校を作ったほうがいいと思うんだ」と言って、株式会社で大学を作るということをやってきました。当時はゲームやCGの専門学校はなかったんです。今であれば想像もつかないかもしれませんけど、CG業界にはデジタルハリウッド卒業生がたくさんいます。さらに専門学校の先生にもいます。そういったところにちゃんとした「先生たちの先生」を送り込んだ人です。

      この背景は生成AIで作っています。杉山先生のご意向をFacebookメッセンジャーで聞いて「こういう絵にしたい」、それに合わせて僕はキャラクターデザインまで起こして、レイアウトや配置を編集部や本人と一緒にやりました。杉山先生はALSという病気で人工呼吸器をつけて車椅子でしか移動できません。AIの力がなかったらここまでできないです。AIのおかげで今月成し遂げました。そして僕はもちろん個人のAIクリエイターとして、『CGWORLD編集部』から結構なお金を頂きました。CGクリエイターとしてCGWORLDの表紙を飾ることは並大抵のことでは実現しませんし、「クリエイターとして飯を食う、対価をもらう」というのはこういうことの積み重ねなんだと思います。

      事例6:AIキャラクター「ガンマミィ」

      最新の事例として、先日AICUから電撃公開された「ガンマミィ・ジェネレーター」が紹介されました。

      画像

      白井氏:僕らはメディア企業というだけでなく、最新の制御された高品質な画像生成AIというテクノロジーを使って「ガンマミィジェネレーター」という「ガンマミィ」を誰でも使えるチャットシステムを1日ぐらいで作りきるだけの技術力はあります。ですが、その想像をさらに上回るようなテクノロジーやテクニックですごい絵を作ってくる人が出てくるんです。これは感動です。やはり予想を上回るようなことを作ってきてこそ、我々はやっと報われるんです。それに対してお金を出したいという人が出てきてこそ、やっと経済が回るということなので。生成AIに対して「エアプをやっている人たち」(※やってもいないことをやったように言ったりする、いわゆる知ったかぶりを指す言葉「エアプレイ」や「エアプレーヤー」の省略語)には「変な邪魔しないでください」と言いたいです。

      白井氏:僕たちは無料で作れる「ガンマミィ」をリリースしているのに、使ったこともないという人たちが「生成AIは悪だから」と言うのは構いませんけど、そういう世界線と我々の世界線がどういう風に今後変わっていくのかというのは、皆さんがしっかりと認識していただきたい事実だし、未来だと思います。例えば、真面目に商業をやっている人たちは「学習こそが価値だ」と言って、GPUを買い集めてライセンスを買い、新しいモデルを探求し、広告や映像制作に使っています。AIは安く作る技術じゃなくて不可能を可能にする技術なんです。

      事例7:『画像生成AI Stable Diffusion スタートガイド』

      画像

      https://j.aicu.ai/SBXL

      画像

      この本の中で、200ページのところに書いているのが、「画像生成AIクリエイター仕草(v.1.0)」というコンセプトで、「すべきことと、すべきでないこと」を「子供でもわかるよう」に話しています。簡単に言うと、「すべきでないこと」は「他人の迷惑」になること。技術的な可否や法律の可否、マナーやモラル、過去の常識、リスク、感情を混ぜて「混乱させること」。マナーやモラルというのは皆さんの知識、理解、お気持ち、感情なので、法律的にできる、できないという話や、技術的にできる、できないという話と混ぜてはいけないのです。

      画像

      白井氏:つまり、「赤信号は渡ってはいけないけど、僕は急いでるので渡ります」というリスクを犯している個人の話であって、その人が車に轢かれたら自業自得なのに、そこを混ぜて「自分はこう思う」みたいな話をしても仕方ないんです。そこを混ぜて混乱させるみたいなことがそもそもテクニックとして喋る人もいますけれど、それに混乱させられては技術やテクノロジー、商売といったものを整理することはできないです。だから『混ぜて混乱させているやつは誰だ?』という視点に皆さんの目を光らせてください。
      「生成AIだから安い」、「自動だ」、「無料で何か作れるなんて楽して儲かる」みたいなのも嘘です。これは完全に世間を誤解させている行為です。生成AIだから安くて早いということはないです。生成AIはやっているクリエイターだったらわかると思います。1時間の中で絵を作らなきゃいけないとなったら、できるだけ頑張ってたくさん作って、その中から「最高の絵を作った」という、これがクリエイターです。だからこそ人の心を動かすので、楽な道でもなければ、自動でできるものでもないです。そこは誤認をしてほしくないところです。
      すべきことは、とにかく楽しむこと、作品を作る情熱を持ち続けることだと思います。僕は、陽の当たる場所を作るためには徹底抗戦するつもりです。

      画像

      ここで「画像生成AIの価値創出」要素として、

      ・技術の進化速度について発信し続けていくことが価値
      ・「写真と同じ」
      ・オープンなモデルでどんな価値を出せるか?
      ・「学習こそが価値」
      ・「安く作る技術」ではなく「不可能を可能にする技術」
      ・「つくる人をつくる」

      とまとめました。

      画像生成AIの近年

      さらに歴史を振り返ります。ラスコー洞窟など先史時代の絵画から、

      画像

      写真の歴史、

      画像
      https://www.statista.com/chart/18488/camera-timeline/

      CG/画像生成AIの誕生と変遷 文化的背景 (1940-2020)

      画像

      そして近年の画像生成AIの歴史です。

      画像

      白井氏:画像生成の世界でLvmin Zhangさんを知らない人はいないと思います。Style Transferのアニメスケッチをやったり、style2paints、ControlNet、Fooocus、Forgeなどを開発している彼ですね。彼は実は日本のシモセラ・エドガーさんに習っています。日本で勉強していた人で今もまだ学生をやっています。

      https://note.com/aicu/n/n8990c841e373

      こういう中国出身、もしくは中華系二世の研究者でアメリカの文化に馴染んで研究している人たちは、画像生成のコア的なテクノロジーをやってる人たちにかなりの確率でいます。この人たちは日本のアニメや漫画がめちゃくちゃ好きなんです。その人たちが我々のアニメや漫画を、外部のサイトを使ってAIに学習させています。僕は10年以上前に彼らの論文を読んだとき、「ちょっと待て。これは著作権違反だぞ。」と気づきました。学会に訴えたり、査読者としてコメント出したり。いくらテクノロジー的に楽しくても僕はこの論文はアクセプトできない、と言ったんだけれども、実はもうそのときすでにデータセットが存在していてもう止められなかったんです。
      ところが、日本の研究者や世界の研究者で、アニメを学習させることにこんなに価値があると分かっていた人がほとんどいなかったんです。その頃はまだ、欧米の研究者も日本の研究者も、それを問題だとは思っていなかったんです。イラストコミュニケーションサービスのSNSもたくさんありました。robot.txtも無視されていました。僕はそのときにもっと力を持っていたら、もっとこの問題に社会の目を向けるべきだと思いましたが、社会がそこに目を向けていたかというと疑問があります。CGの研究者そんなに多くないし。そして、今は中国の研究者はかなり野放し状態になっています。対中国人が云々という話をしているんじゃないです。中国のCG研究者やコンピュータービジョンの研究者は数千から数万いますが、我々日本の研究者は数百から数千です。彼らの興味と探究心と成果です。日本の研究がいかに不甲斐がないかということを身を持って感じています。もっと大きなところに出て、インパクトのある研究を世界のステージで対話して、英語で論文を書き、日本の研究者がちゃんとこの状況を認識している人が増えて、たくさんの才能が戦っていかないといけないということは認識してください。

      今後のAI利用に関する議論の可能性

      アメリカには法律があって、教育や引用などはフェアユースで公共物であるから使ってよいと認められています。そのフェアユースとしての引用は、日本の著作権法ではフェアユースの記述がないんです。最近議論はされていましたけど、生成AIの時代においてというのと、著作権法30条が適応してしまった瞬間にだいぶおかしくなりました。

      つまり、生成AIの議論のかなり過激な問題の原点は、著作権法30条の改正が原因だったし、多くの人たちはそこで声を上げるべきだったんですね。やらなきゃいけないのが著作権法30条の4の改正でしょう?ということは、僕は議論したいこととしてあります。日本は憲法改正には非常に保守的です。ところが、著作権法に関しては4〜5年に一度改正されてるんです。だったらこうするべきだって皆さんで言い続ければいいんですよ。議論のやり方は先ほど言った「混ぜるな禁止」をちゃんと考えてほしいなと思っています。

      やはり事業者レベルで言うと経産省だと思うんですね。つまり、文科省でもなく経産省が対応すべきだと思います。文化庁が著作権の定義で特に変える必要ないという結論に至ってる以上、これは経済の話です。誰が権利を持っていてどういう対価を払っているのかという話になるのであって、やはりちゃんと対話相手として権利団体はしっかりとそういう専門家を置いて、議論にちゃんと挟まっていてほしいと思っています。

      例題:NijiJourneyでみかけた他のユーザが生成した画像

      問題です。この画像に知的財産の侵害はあるでしょうか?この画像を自分のブログに自分の著作として利用することはできるでしょうか?この画像をブレンドして新たな画像を作ることはできるでしょうか?テクノロジーとしてできる、できないという問題と、法律としてできる、できないの問題を考えてみてください。

      画像

      答えです。これはとある弁護士さんによる2024年8月ごろの監修ですが、知的財産の損害はないとのことです。マクドナルドの商標は侵害していません。「マクドナルド」と書いちゃったら問題では?と思うかもしれませんが、それも大丈夫です。皆さんの考えている知的財産の侵害というものは、実はちょっと違うんじゃないの?ということがこの1枚でも語れます。

      自分のブログに利用できるかというと、これも「画像生成による生成物は著作物ではない」という判例が出ていまして、日本においても「著作とは、思想又は感情を創作的に表現したもの」なので、一般的なサービスによって生成されただけのテキストや画像には「著作権がない」ということになっています。なので、これは別に著作権侵害にならないです。つまり、「このNijiJourneyの画像可愛い。じゃあ“僕の画像として”ブログにおこう」と“僕の画像として”のところだけが問題であり、著作物ではなく、「NijiJourneyで拾った画像です」だったら別に問題がないです。

      ブレンドして新たな画像を作ることができるかという点は、「日本の法律においては問題がない」というのがこの問題を問われた弁護士さんのご意見ですが、他の人の画像をアップロードしたら、それは実は複製権を侵害している可能性があります。それから、依拠性や類似性を目的としてやってるんだったら、それは依拠性などを侵害する可能性があります。

      ほんとうの意味で生成AIに求められる倫理感とは?

      書籍「画像生成AI Stable Diffusionスタートガイド」から数十枚のスライドを引用しつつ、特にこの図を指しました。

      画像

      白井氏:欧州のリスクベースアプローチについても紹介をしておきます。「容認できないリスク」、「ハイリスク」、「限定的なリスク」、「最小限のリスク」等がある中、「画像生成AIはどのようなリスクレベルなのか?」をしっかり捉えてほしい。これが医療や法律、そして自動運転車に例えたら、どのようなリスクレベルなのかをはっきりと認識したうえで、反対するなら、反対としてきちんと責任を持って、どのような社会を考えているのか、すべてのひとにわかるように話をしてほしいと思います。

      まとめ

      しらいはかせ、白井暁彦氏は事例を交えながら、熱量たっぷりに、AIが理解されていない問題や著作権の問題がどうして起こっているのかをお話しくださいました。「画像生成AIクリエイター仕草(v.1.0)」の「子供でもわかるような、すべきこととすべきでないこと」を心に刻みながら、あんしんなクリエイティブAIで「陽のあたる場所」をつくる、そのための問題と向き合っていける世の中をつくっていきたいですね。

      みなさんの意見も訊きたい!

      ご感想はこの記事のコメント欄、もしくは
      Xでは引用いただいて、ハッシュタグは
      #AIクリエイターに訊く #生成AI倫理
      でよろしくお願い致します。みなさんの建設的な意見はネット上のみならず、AICU Magazineや動画メディアや論文等でも扱っていきたいと考えております。

      また「私はAIクリエイター、なので意見を述べたい!」という方はご寄稿いただく仕組みも準備しております。X@AICUai にてDMをいただけると幸いです。

      Originally published at https://note.com on Oct 24, 2024.

    4. 【最速レビュー】Stability AI 最新ベースモデル「Stable Diffusion 3.5」リリース!Stability AI APIで「日本人の生成」を試してみた!

      2024年10月22日23時(日本時間)、Stability AI による最新ベースモデル「Stable Diffusion 3.5」のオープンリリースがアナウンスされました。
      AICU編集部では「日本人の生成」を通してSD3.5の評価を実施しました。

      最もパワフルなStable Diffusion 3.5をご紹介します。 このオープンリリースには、そのサイズに対して高度にカスタマイズ可能で、民生用ハードウェアで動作し、寛容なStability AI Community Licenseの下、商用・非商用ともに無料で使用できる複数のバリエーションが含まれています。 Hugging FaceのStable Diffusion 3.5 LargeとStable Diffusion 3.5 Large Turbo、そしてGitHubの推論コードを今すぐダウンロードできます。 Stable Diffusion 3.5 Mediumは10月29日にリリースされる予定です。

      https://x.com/StabilityAI/status/1848729212250951911

      日本語版公式リリースより

      リリースされるもの

      • Stable Diffusion 3.5 Large: 80億のパラメータ、1メガピクセル解像度。
      • Stable Diffusion 3.5 Large Turbo: Stable Diffusion 3.5 Large の蒸留版、わずか4ステップで高品質な画像を生成。Stable Diffusion 3.5 Largeよりもはるかに高速。
      • Stable Diffusion 3.5 Medium (10月29日リリース予定): 26億のパラメータ、改良されたMMDiT-Xアーキテクチャとトレーニング方法により、カスタマイズのしやすさと画質を両立させ、コンシューマー向けハードウェアで「箱から出してすぐに使える」ように設計されています。0.25~2 メガピクセルの解像度の画像を生成できます。

      モデルの特徴(公式リリースより)

      モデルの開発にあたっては、柔軟な基盤を構築できるよう、カスタマイズ性を優先しました。これを実現するために、Query-Key Normalization をトランスフォーマーブロックに統合し、モデルのトレーニングプロセスを改善し、さらにファインチューニングや開発を簡素化しました。
      このレベルの下流での柔軟性をサポートするために、いくつかのトレードオフが必要でした。異なるシードを使用した同じプロンプトからの出力に、より大きなばらつきが生じる可能性があります。これは意図的なもので、ベースモデルにおける幅広い知識ベースと多様なスタイルの維持に役立ちます。しかし、その結果、特定性のないプロンプトでは出力の不確実性が増大し、見た目のレベルにばらつきが生じる可能性があります。
      特にMediumモデルでは、品質、一貫性、およびマルチ解像度生成能力を向上させるために、アーキテクチャとトレーニングプロトコルにいくつかの調整を加えました。

      モデルの優位性

      • カスタマイズ性: 特定のクリエイティブニーズを満たすために、モデルを簡単にファインチューニングしたりカスタマイズされたワークフローに基づくアプリケーションを構築したりすることができます。
      • 効率的なパフォーマンス:特にStable Diffusion 3.5 MediumおよびStable Diffusion 3.5 Large Turbo モデルでは標準的な一般消費者向けのハードウェアで高負荷をかけずに実行できるように最適化されています。
      • 多様な出力:広範な指示を必要とせずに、特定の人物だけでなく、さまざまな肌の色や特徴を持つ世界を代表するような画像を作成します。
      画像
      • 多彩なスタイル:3D、写真、絵画、線画など、幅広いスタイルと美しさを生成することが可能です。また、想像可能なほぼすべての視覚スタイルにも対応しています。
      画像

      Stable Diffusion 3.5 Medium は、他の中型モデルを上回る性能を持ち、プロンプトの再現性と画像品質のバランスに優れていますので、効率的で高品質なパフォーマンスを求める場合の最適な選択肢となりうるでしょう。

      画像

      Stability AI Community license の概要

      https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

      community license の概要は以下の通りです。

      • 非営利目的の場合は無料: 個人および組織は、科学研究を含む非営利目的の場合、無料でモデルを使用することができます。
      • 商用利用も無料(年間収益100万ドルまで):年間収益が100万ドル未満のスタートアップ企業、中小企業、クリエイターは、商用目的でも無料でこのモデルを使用できます。
      • 成果物の所有権:制限付きライセンスを伴うことなく生成されたメディアの所有権を保持します。

      年間収益が100万ドル以上の企業は、エンタープライズライセンスをこちらからお問い合わせください。

      ComfyUIが即日対応

      そしてまさかのComfyUIがリリース即日対応を発表しました。

      まさかこんなことが起こるなんて!Stable Diffusion 3.5がリリースされました!Stable Diffusion 3.5モデルシリーズの初日サポート開始をお知らせできることを嬉しく思います!SD3.5の使用を開始するには、当社のブログをフォローするか、ベータ版の「missing model」機能を使用してモデルをダウンロードしてください。スキルは必要ありません!

      https://x.com/ComfyUI/status/1848728525488197963

      昨日リリースされた内容はこちらです。
      missing model機能について、チェックしていかねばですね!

      いますぐ触りたいアナタに!

      HuggingFace Spacesにて試用環境が公開されています
       Stable Diffusion 3.5 Large (8B)

      https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large

      公開直後のため、流石に混雑しているようです。同時に公開されたTurboのほうが使えそうです。

      Stable Diffusion 3.5 Large Turbo (8B)

      https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large-turbo

      画像

      文字表現についても機能は維持されているようです。
      「gemini boys with a panel written “AICU”」

      画像

      公式APIでの「Stable Diffusion 3.5 Large」

      Stability AI 公式APIマニュアルによると、既にGenerate APIとして提供が始まっています。APIキーを取得し、Open Google Colabにアクセスしてください。

      [AICU版] Stability AI APIガイド
      https://note.com/aicu/n/n4eda1d7ffcdf

      公式Google Colab notebook へのリンク

      デフォルトの解像度は1Mピクセル、1024×1024です。
      modelパラメータのデフォルトが「sd3.5-large」になりました。
      {sd3-large, sd3-large-turbo, sd3-medium, sd3.5-large, sd3.5-large-turbo}
      クレジット消費は「生成成功につき」以下のとおりです。

      ・SD3.5 & 3.0 Largeは一律6.5クレジット
      ・SD3.5 & 3.0 Large Turbo:一律 4クレジット
      ・SD3 Medium:一律3.5クレジット。
      失敗した生成については請求されません。

      AICUによるSD3.5ギャラリー

      SD3.5にて生成
      「gemini girls with a panel which written “AICU”」

      画像
      画像

      SD3.5 Turboにて生成
      「textured palette knife oil painting of a cat riding a surfboard on the beach waves in summer. the cat has a mouse friend who is also riding the surfboard」

      画像

      良いものだけ紹介するのではなく、
      文字の描画を含めた連続生成の歩留まり率を表現してみます。
      「cinematic film still, action photo of a cat with “AICU loves SD3.5”, riding a skateboard through the leaves in autumn. the cat has a mouse friend resting on their head」
      SD3.5・同一プロンプト、Seed=0にて実験

      画像
      画像
      画像
      画像
      画像
      画像
      画像
      画像
      画像
      画像

      「Japanese girls with a panel which is written “AICU loves SD3.5″」

      画像
      画像

      実写系日本人の表現については、結構特徴掴んでいる感じがします。
      指の再現率については工夫が必要そうです。

      画像
      画像
      画像
      画像
      画像

      ネガティブプロンプトの効果を確認します。
      「bad finger, nsfw, ugly, normal quality, bad quality」を入れることで歩留まり率が上がりました。

      画像

      さいごに、ComfyUIのブログにあったプロンプトを紹介します。

      Prompt: A photorealistic 4K image of a woman with transparent, crystal-like skin, glowing from within with a soft golden light.
      NP:bad finger, nsfw, ugly, normal quality, bad quality

      画像
      画像

      AICU編集部のレビュー

      電撃リリースとなったStable Diffusion 3.5です。
      即日対応を実現したComfyUI、そして商用で試用する上で、APIとしての互換性は高く保たれているようなので安心しました。初期レビューとして少し触ってみた範囲ですが、人種の多様性、特に日本人の描写について多様性と表現力があることを確認しました。
      モデルの特性としての「カスタマイズ性」はどのようなところで発揮されるのか、ファインチューニング関係がComfyUIで登場することを期待します。また既存APIでのモデル間比較やEdit API、Style APIとの関係、そして10月29日に予定されているSD3.5Mリリース以降の動向も注目したいところです。

      【PR】商用でも利用できるStability AI APIを学びたいアナタへ
      超入門:Stable Diffusionではじめる画像生成AI

      https://j.aicu.ai/AICUXColosoJP

      Originally published at https://note.com on Oct 22, 2024.

    5. 「ComfyUI V1」デスクトップアプリのリリース告知!新UI、カスタムノードのマーケットプレイス機能[CNR]も。

      画像生成AIにおける世界で最も注目されているツール「ComfyUI」を開発する サンフランシスコの団体「Comfy Org」より、「ComfyUI V1」のリリース告知が発表されました!今回のアップデートでは、ワークフローの強化と生産性向上を目的とした、多くの改善と新機能が追加されました。主なアップデート内容は以下の通りです。

      デスクトップアプリ版が登場!

      この2ヶ月間、Comfy OrgはComfyUI のシームレスなデスクトップ体験を提供するために尽力してきました。目標は、技術に詳しくないユーザーでも可能な限りスムーズな体験を楽しめるようにすることです。スタンドアロンパッケージからの改善点は以下の通りです。

      • コード署名済み&セキュア: ComfyUI がセキュリティ警告を発動することなく開けるようになりました。アプリはコード署名されているため、そのバージョンが直接Comfy Orgから提供されたものであることを常に知ることができます。
      • クロスプラットフォーム: Windows / macOS / Linux で利用可能
      • 自動アップデート: 自動アップデートにより、ComfyUI の安定版リリースを常に使用できます。
      • 軽量パッケージ: バンドルはわずか 200MB です!
      • 推奨 Python 環境: 手動設定の手間はもうありません。インストールプロセスをスムーズにするために、推奨される Python 環境を含めました。
      • ComfyUI Manager をデフォルトで搭載: ComfyUI レジストリから直接ノードをインストールし、最新の意味的にバージョン管理されたノードにアクセスできます。ナイトリーバージョンは引き続き最新の Git コミットから入手できます。
      • タブ: 複数のワークフローをタブで開いて、それらを移動できるようになりました。
      • カスタムキーバインド: ブラウザレベルのコマンドの干渉なしに、真のカスタムキーバインドを定義できるようになりました。
      • リソースの自動インポート: インストール中にそのディレクトリを選択することで、既存の ComfyUI を再利用できます。入力、モデル、出力は自動的にインポートされます。
      • 統合ログビューア: デバッグが必要な場合にサーバーログを表示できます。

      現在、クローズドベータ版としてリリースしています。ダウンロードページからウェイティングリストにて、ご登録ください。今後数週間でより多くの方々に展開していく予定で、まもなくオープンベータ版をリリースし、その時点でソースコードはオープンソース化される予定とのことです。

      全く新しいユーザーインターフェース

      デスクトップアプリケーションの新しいインターフェースは、ComfyUI を更新するとすぐに利用できます。V1が一般公開される際には、現在のすべてのユーザーインターフェースは新しいUIに切り替わります。

      • トップメニューバー: 多くのアクションをトップメニューバーに統合し、拡張機能開発者はカスタムメニュー項目を簡単に追加できるようになりました。
      • モデルとログへのアクセスが容易に: トレイアイコンを右クリックするだけで、モデル、カスタムノード、出力ファイル、ログにすばやくアクセスできます。
      • モデルライブラリ: すべてのモデルを簡単に参照し、ライブラリからチェックポイントローダーとして直接ドラッグアンドドロップできます。
      • ワークフローブラウザ: ワークフローをワークフローブラウザに保存してすばやくアクセスできるようになりました。また、別のディレクトリにエクスポートすることもできます。
      • モデルの自動ダウンロード: ComfyUI では、ワークフローにモデルの URL/ID を埋め込み、自動ダウンロードできるようになりました。たとえば、テンプレートを開いていて、モデルがない場合、ComfyUI はワークフローで定義されている不足しているモデルをダウンロードするように促します。例
        この新しい UI は、最新の ComfyUI ですべての人が利用できます。パッケージを更新してください。

      https://github.com/Comfy-Org/ComfyUI_frontend/blob/main/public/templates/default.json?ref=blog.comfy.org#L351

      新しいUIの有効化

      V1 UI を使用するには、次の手順に従います。

      1. ComfyUI を更新します。
      2. 設定メニューで v1 UI を有効にします。

      動画解説はこちら

      Comfy Node Registry (CNR)

      ここ数か月間、Comfy Orgはカスタムノードのレジストリhttps://registry.comfy.org/)に取り組んできました。
      これは NPM に似ています(ノードがセマンティックなバージョンで公開されるという意味で)。目標は、より安全で安定した ComfyUI カスタムノードのユーザーエクスペリエンスを構築することです。すでに 600 を超えるノードと 2,000 を超えるノードバージョンが公開されています。CNR に公開してくださった皆様、ありがとうございます!

      Dr.Lt.Data は、この機能ブランチ(feat)で ComfyUI マネージャーと CNR を統合してきました。
      Electronのアプリとしてリリースされる、レジストリからのインストールをサポートする最初の場所となります。

      カスタムノードの今後の計画:

      • セキュリティスキャン: カスタムノードにおける悪意のある動作の自動スキャンをテストしてきました。将来的には、すべてのカスタムノードがスキャンされ、悪意のあるノードは禁止されます。それらのノードをインストールしたユーザーには通知されます。
      • 依存関係解決の改善: カスタムノードを確実にインストールし、既存のワークフローを実行するのに役立つツールに取り組んでいます。

      FAQ

      標準の Web ComfyUI は引き続き開発されますか?

      Electron アプリは、既存の ComfyUI Web アプリケーションのシンプルなラッパーです。これにより、インストールやファイルシステムに関連する機能を構築できます。場合によっては、デスクトップアプリ専用の機能(タブなど)を開発する場合があります。ただし、すべての主要な機能は、引き続き ComfyUI および ComfyUI_frontend で最初に開発されます。
      デスクトップ版としてリリースされる Electron アプリは、他のすべてのユーザーと同じタイミングでこれらの機能を利用できます。

      ポータブルスタンドアロンはまだ利用できますか?

      これは、Electron デスクトップアプリがより安定するまでしばらくの間サポートされます。

      デスクトップアプリはオープンソースになりますか?

      数週間後にオープンベータ期間が始まると、コードをオープンソース化します。

      元の UI は引き続き開発されますか?

      新しい V1 UI が今後デフォルトのユーザーエクスペリエンスになります。元の UI は現在メンテナンスモードであり、これ以上の機能は追加されません。カスタムノードおよび拡張機能の開発者には、新しい UI をサポートすることをお勧めします。

      お問い合わせ

      ご意見をお聞かせください!いつものように、Discord または hello@comfy.org でご連絡いただけます。

      https://blog.comfy.org/comfyui-v1-release

      AICU編集部より

      先日のComfyUIミートアップ東京でチラ見させていただいたElectronアプリが早くもリリースですね。AICU編集部も期待しています。
      そしてマーケットプレイスにあたる「CNR」のリリースも期待です。セキュリティに関する配慮が高く設定されているのが好印象です。
      そして、ウェブサイトの整備もありがとうございます!
      編集部としては動画作品ギャラリーがお気に入りです。

      https://www.comfy.org/videos

      AICU編集部はこれからも ComfyUI および Comfy Orgを応援していきます!

      https://note.com/aicu/m/md2f2e57c0f3c

      Originally published at https://note.com on Oct 21, 2024.