月: 2024年5月

  • [速報]AICU CEO白井が「ChatGPTとStable Diffusion丸わかりナイト」に登壇いたしました

    [速報]AICU CEO白井が「ChatGPTとStable Diffusion丸わかりナイト」に登壇いたしました

    2024年5月30日(木)に、デジタルハリウッド大学本校にて開催された「ChatGPTとStable Diffusion丸わかりナイト」に弊社CEO白井暁彦(@o_ob/しらいはかせ)が登壇いたしました!

    https://ai-maruwakari-night.peatix.com/

    デジタルハリウッド大学大学院教授の橋本大也先生、特任教授の弊社CEO白井暁彦が、近日それぞれ発売した書籍に関する講演、トークイベントを実施しました。

    『頭がいい人のChatGPT&Copilotの使い方』(橋本大也教授著)
    『画像生成AI Stable Diffusionスタートガイド』(AICU media (著), 白井 暁彦 (著))

    ChatGPTとStable Diffusionを中心に、文章、画像、音楽、動画の生成AIの面白さ、可能性について熱く語られ、本を読んだ人も読んでいない人も、学生も社会人も、生成AIの最新事情をアップデートできるイベントとなりました。

    書籍執筆に使われた蔵出し資料の数々!

    参加された方の感想
    「2時間びっしり濃い内容すぎて、消化しきれませんでした・・・」
    「楽しかった!」
    「頭のいい人…じゃなくて…頭のおかしい人の情報量…」

    本人曰く「40分強の講演に実に244枚のスライドがあるんだ」とのこと

    https://note.com/o_ob/n/n930c390b6dfa

    1分あたり6.1枚、だいたい10秒1枚という計算なんですね!(慣れた)

    終了後のサイン会でも沢山の方が購入されました。

    購入された方のご感想
    「実はKindle版も購入していたのですが、これはリアル本であったほうがいい!&先生のサイン付き✨ということでゲットできて良かったです😊」

    ご参加・ご購入ありがとうございました。

    詳細のレポートをお楽しみに!

    Originally published at https://note.com on May 30, 2024.

  • Stable Diffusionの仕組み(入門編)

    Stable Diffusionの仕組み(入門編)

    Stable Diffusionの仕組みについてご存知ですか?
    プロンプトを入れると画像が生成される…その内部を説明できるとかっこいいですよね。
    こちらの講演で使用したスライドを白井CEOから頂いたので一部公開いたします。

    https://note.com/aicu/n/n8d4575bcf026

    画像生成AIの誕生と変遷(2)画像生成技術の歴史年表

    https://note.com/o_ob/n/n971483495ef3

    画像生成AIの誕生と変遷(4) 画像生成AIの2014–2024におきたパラダイムシフト

    https://note.com/o_ob/n/n3c1d8523cf68

    Stable Diffusionの仕組み(入門編)

    CLIPとは画像とテキストの関係だけを学んでいます。
    CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

    https://github.com/openai/CLIP

    実はネガティブプロンプトはStable Diffusionが公開されてからAUTOMATIC111で生まれました。

    https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Negative-prompt

    ネガティブプロンプトは、正プロンプトと同じ仕組みでCLIPを持ち、サンプラーが条件付き逆拡散をする際にUNETの左側に入ります。
    画像のLatent Space化はちょうどZIP圧縮のような超圧縮で、フロート列が並んでいるweight&biasです。VAEを使うことで画像に展開できます。

    ImageToImageやControlNetも、基本的にはLatent SpaceでUNETの左側に入ります。

    UNetについて補足

    UNETは元々は医用画像のセグメンテーションタスクのために想定されたが、多くの画像2-画像タスクに再利用されている。畳み込みエンコーダ(ダウンサンプリング)とデコーダ(アップサンプリング)を持つ。

    マルチスケール、マルチ抽象レベルで変調を学習。

    ReLU(Rectified Linear Unit)のことで、max(0, x)のような実装をする。Convolution層ではこの活性化関数を使うことが多い。

    https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

    https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/

    画像生成AI Stable Diffusion スタートガイドより。

    https://j.aicu.ai/SBXL

    https://j.aicu.ai/SBXL

    Originally published at https://note.com on May 30, 2024.

  • AICU マガジン5月号アップデート!

    AICU マガジン5月号アップデート!

    AICU media 編集部の知山ことねです。
    わかるAIを届ける、AICU マガジン5月号はもうお読みいただけましたか?特集の「次世代まんが制作術」が魅力の一冊となっております!

    4月号に引き続き、今回も大幅アップデートを行いました。主にキャラ LoRA 制作が、現時点での保存版とも呼べる程の詳細な解説になっています。

    この記事ではマガジンの紹介と、更新箇所のお知らせをします。パワーアップした AICU マガジン5月号をぜひお読みください!
    購入はこちら https://j.aicu.ai/Mag2405

    https://note.com/aicu/n/n61476a3fc852

    https://j.aicu.ai/Mag2405

    AICUマガジン5月号 目次(最新版)

    2024年5月29日時点での最新の目次です。

    画像生成 AI で漫画を描こう!
    この記事で必要なもの
    漫画制作ステップ① アイビスペイントでコマを作ろう
    キャンバスを用意する
    コマを配置しよう
    漫画制作ステップ② ネーム(下書き)を描こう
    漫画制作ステップ③ 画像を生成しよう
    キャラクターを生成しよう
    背景を生成しよう
    漫画制作ステップ④ 生成した画像を漫画に編集しよう
    漫画制作ステップ⑤ フキダシを配置しよう
    漫画制作ステップ⑥ 手描き文字を追加する
    完成!

    [キャラLoRA学習ガイド]デルタもんLoRAで学ぶLoRA制作!←Updated!
    (1) データセットを用意しよう
    データセットとは?
    データセット作りのコツ
    (2) Google Colaboratory で学習しよう
    Colab notebook の用意
    データセットの展開
    学習の設定
    (3) 生成した LoRA を回収しよう
    生成してみよう!

    りんりん倫理
    Q1. 生成 AI は著作権違反なの?
    Q2.「無断学習禁止」って何?
    Q3. 生成 AI に関する法律はどこで調べればいいの?

    編集コラム:生成AIクリエイターに必要なのは「自在性」
    ようこそ!アイキュー部
    今月の12星座占い

    アップデート!「キャラLoRA制作ガイド」

    今回アップデートしたのは、特集2つ目の「キャラLoRA制作ガイド」です。
    第1版では、5月に行われたキャラLoRA制作ワークショップ( https://ja.aicu.ai/event20240516/ )の予習として、キャラLoRA用データセットの作り方をデルタもんの画像を用いて解説しました。
    第2版となる今回は、データセットの作り方のみならず、学習に必要な Colab notebook の配布、使い方解説、学習時のモデルやパラメータ調整など、キャラLoRA制作に必要な情報を全て盛り込みました!

    また、AICU 特製のデルタもんデータセットの配布も行っています。
    期間限定で、ワークショップ「デルタもんLoRAを作ろう!」の録画も公開しています。
    AICU のワークショップが気になる方や、実際の操作画面をチェックしたい方は要チェックです。

    また漫画の解説では、動画を追加するなど、さらにわかりやすくなる工夫を凝らしました。

    マガジンを読むと、こんなことができるようになります!

    他にもアップデートにより、全体的に様々な補足情報が追加され、より親切でわかりやすいマガジンになりました。
    もう第1版を読んでくださった方は、まためくってみて、新たな学びや発見を見つけてください。
    まだ読んでいらっしゃらない方は、この機会にぜひ読んでみてくださいね!Kindle Unlimited で無料で読むことができます。

    https://j.aicu.ai/Mag2405

    次回のアップデート・次号リリースをお楽しみに!
    AICU media をフォローして最新記事をお見逃しなく。記事のいいねとおすすめもお待ちしております!

    Originally published at https://note.com on May 29, 2024.

  • #SD黄色本 サイン本即売会も開催!生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

    #SD黄色本 サイン本即売会も開催!生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

    人気著者が語る生成AIの魅力

    デジタルハリウッド大学の橋本大也教授と、デジタルハリウッド大学特命教授でAICU media編集長でもある白井暁彦CEOが、それぞれのベストセラー書籍をもとに、ChatGPTやStable Diffusionなどの生成AIの最新動向を紹介します。また、イベントでは両著者の最新刊 #SD黄色本のサイン本即売会も実施されます。

    イベント詳細

    日時: 2024年5月30日(木)19:30~21:30(開場19:00)

    会場: デジタルハリウッド大学 駿河台ホール(東京都千代田区神田駿河台4-6 御茶ノ水ソラシティ アカデミア3階)

    参加費: 無料

    定員: 150名

    申込み: イベントページ

    https://ai-maruwakari-night.peatix.com

    登壇者プロフィール

    白井暁彦(Akihiko Shirai, PhD /しらいはかせ)

    エンタメ・メタバース技術の研究開発に関わる研究者、ホワイトハッカー作家、米国スタートアップ「AICU Inc.」「Hidden Pixel Technology Inc.」のCEO。東京工芸大学写真工学科卒、同画像工学専攻修了。キヤノン株式会社とグループの研究所より生まれた英国・Criterion Software にて世界初の産業用ゲームエンジン「RenderWare」の普及開発に参加、その後、東京工業大学知能システム科学専攻に復学。博士学位後、NHK エンジニアリングサービス・次世代コンテント研究室、フランスに渡りENSAM 客員研究員、国際公募展Laval Virtual ReVolution の立ち上げ、日本科学未来館科学コミュニケーター神奈川工科大学情報メディア学科准教授を経て、2018 年よりデジタルハリウッド大学 大学院客員教授 およびグリー株式会社GREE VR Studio Laboratory Director。

    スマートフォン向けメタバース「REALITY」を開発・運用するREALITY 株式会社の立ち上げを通して、Virtual YouTuber などXR ライブエンタメ技術のR&D、国際発信など、メタバースエンタテイメントの未来開発や知財創出を中心に、自らエンタテイメントのライブプレイヤーとして世界に向けた開発・発信活動方法論化しながら世界中のエンタテインメント技術業界に数百人の規模でクリエイターを育成している。2023年よりデジタルハリウッド大学発米国スタートアップ企業「AICU Inc.」CEO。生成AI時代に「つくる人をつくる」をビジョンに英語、日本語、フランス語、プログラミング言語などでオープンな作家活動を続けている。日本バーチャルリアリティ学会IVRC 実行委員会委員。芸術科学会副会長。

    著書に『WiiRemote プログラミング』(オーム社)、『白井博士の未来のゲームデザイン – エンターテインメントシステムの科学-』(ワークスコーポレーション)、『AIとコラボして神絵師になる 論文から読み解くStable Diffusion』(インプレスR&D)他。

    橋本大也(Daiya Hashimoto)

    デジタルハリウッド大学教授兼メディアライブラリー館長。多摩大学大学院客員教授。早稲田情報技術研究所取締役。ブンシン合同会社CEO。翻訳者。IT戦略コンサルタント。ビッグデータと人工知能の技術ベンチャー企業データセクション株式会社の創業者。同社を上場させた後、顧問に就任し、教育とITの領域でイノベーションを追求している。デジタルハリウッド大学大学院では「テクノロジー特論 Bデータ」、多摩大学経営大学院で「先端テクノロジー・マーケティングイノベーション」を教える。2024年1月デジタルハリウッドで生成AI教育プログラムを開発するブンシン合同会社CEOに就任し、生成AIの活用を教える「プロンプト・エンジニアリング・マスターコース」を創設し、自ら主任講師として教鞭をとっている。その他に、洋書を紹介するブログを運営しており、『WIRED』日本版などのメディアに書評を寄稿している。

    書籍の概要

    頭がいい人のChatGPT&Copilotの使い方』(橋本大也 著)

    • 人気のカテゴリー
      • 情報社会
      • メディアと社会
      • ナレッジマネジメント

    画像生成AI Stable Diffusionスタートガイド』(白井暁彦 著)

    • 人気のカテゴリー
      • デザイン
      • コンピュータサイエンス
      • 人工知能

    これらの書籍は大学のメディアライブラリ(図書館)にも配架されています。

    イベント参加のメリット

    このイベントに参加することで、生成AIの最新情報を直接学ぶことができます。また、デジタルハリウッド大学の専門家からの貴重なインサイトを得ることができ、ネットワーキングの機会も豊富です。さらに、#SD黄色本のサイン本を手に入れるチャンスもあります。

    まもなく定員の150名に到達します

    申込みは無料、イベントページへ。

    https://ai-maruwakari-night.peatix.com

    当日はAICU mediaのスタッフに会えるかも?

    書籍:画像生成AI Stable Diffusionスタートガイド

  • Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施

    Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施


    midJourneyや nijiJourneyスタイルのカンタン高画質なAI画像生成が行える「Fooocus」の最新版がリリースされました。AICU Inc.が原作そのままに Google Colab (無料版も可) を使って、旧来のv2.3.0も日本語UIで動くようにメンテナンスを実施したのでお知らせします。

    2024年3月24日にリリースされた v.2.3.0 からUI変更に加え、機能面が大きく追加されています。
    https://github.com/lllyasviel/Fooocus/releases/tag/v2.4.0

    https://github.com/lllyasviel/Fooocus/releases/

    v2.4.0動きました。Lightning速いですが、HyperSDはもっと高速です。
    Fooocus v2.4.0

    v2.4.0 最新版リリースノートより

    変更点
    feat: ミラーサイトからの huggingface ファイルのダウンロードをサポート。
    chore: インターポーザーを v3.1 から v4.0 に更新 by @mashb1t in #2717
    feat: ページをリロードせずに UI を再接続するボタンを追加 by @mashb1t in #2727
    feat: オプションのモデルVAE選択を追加 by @mashb1t in #2867
    feat: ランダムスタイルを選択 by @mashb1t in #2855
    feat: アニメを animaPencilXL_v100 から animaPencilXL_v310 に更新 by @mashb1t in #2454
    refactor: 再接続ボタンのラベル名を変更 by @mashb1t in #2893
    feat: 履歴ログに完全な生プロンプトを追加 by @docppp in #1920
    修正: 正しい border radius css プロパティを使用するようにしました by @khanvilkarvishvesh in #2845
    修正: HTMLヘッダでメタタグを閉じないようにした by @e52fa787 in #2740
    機能: uov 画像アップロード時に画像を自動的に記述 by @mashb1t in #1938
    nsfw 画像の検閲を設定とチェックボックスで追加 by @mashb1t in #958
    feat: 手順を揃えるスケジューラーを追加 by @mashb1t in #2905
    lora のインラインプロンプト参照をサポート by @cantor-set in #2323
    feat: sgm_uniform (lcmと同じ)に基づくtcdサンプラーと離散蒸留tcdスケジューラの追加 by @mashb1t in #2907
    feat: 4step LoRA に基づくパフォーマンス Hyper SD を追加 (@mashb1t 氏による) #2812
    修正: HyperSDテスト用に残っていたコードを削除しました。
    feature: nsfw 画像検閲のモデル管理を最適化 by @mashb1t in #2960
    feat: プログレスバーの改善 by @mashb1t in #2962
    feat: インラインローラの最適化 by @mashb1t in #2967
    feat: コードの所有者を @lllyasviel から @mashb1t に変更 by @mashb1t in #2948
    feat: 有効なインラインローラのみを使用し、サブフォルダをサポート by @mashb1t in #2968
    feature: イメージのサイズと比率を読み取り、推奨サイズを与える by @xhoxye in #2971
    feature: ghcr.io 用コンテナイメージのビルドとプッシュ、docker.md の更新、その他関連する修正 by @xynydev in #2805。
    利用可能なイメージを見る
    feat: 行末のデフォルト設定を調整 by @mashb1t in #2991
    feat: image size description の翻訳を追加しました。
    feat: ‘CFG Mimicking from TSNR’ の値をプリセットから読み込む by @Alexdnk in #2990
    feat: ブラシのカラーピッカーを追加 by @mashb1t in #2997
    feat: ほとんどの画像入力フィールドからラベルを削除 by @mashb1t in #2998
    feat: クリップスキップ処理を追加 by @mashb1t in #2999
    feat: UI設定をよりコンパクトに by @Alexdnk and @mashb1t in #2590

    HyperSDのサポート

    https://huggingface.co/ByteDance/Hyper-SD

    ByteDanceによる「Hyper-SD(効率的な画像合成のための軌跡分割整合モデル)」がサポートされました。

    論文 https://arxiv.org/abs/2404.13686

    サンプリングが4ステップという非常に短いステップで高品質な画像が生成されます。

    Google Colabでの起動

    #SD黄色本「画像生成AI Stable Diffusionスタートガイド」の p.13-18でも扱っているとおり、FooocusはGoogle Colabで動作可能です。具体的にはこのようなコードを書けば最新のFooocusを実行することができます。

    !pip install pygit2==1.12.2
    %cd /content
    !git clone https://github.com/lllyasviel/Fooocus.git
    %cd /content/Fooocus
    !python entry_with_update.py --share --always-high-vram
    

    Fooocus 日本語アニメ特化版 j.aicu.ai/FoooC の更新

    AICU Inc.が #SD黄色本 でリリースしたバージョン「Fooocus 日本語アニメ特化版 j.aicu.ai/FoooC」についてもメンテナンスを実施しました。

    原作そのままに Google Colab (無料版も可) を使って、日本語UIで動くようにしたものです。

    配布等は原作のライセンスに従います。

    https://github.com/lllyasviel/Fooocus/blob/main/fooocus_colab.ipynb

    超初心者向け使い方

    ランタイムを実行「▶」を押してしばらくお待ち下さい。 https://….gradio.com のURLが表示されたらそれをクリックして別タブで遊べます。最大72時間有効ですが、途中で切断されたり止まったり、エラーが出た場合は「■」(停止)をしてもう一度「▶」を押してください。

    起動オプション

    このスクリプトではGUIで操作できるスイッチにしてあります。

    このスクリプトでは Google Driveの マイドライブ直下「Fooocus-outputs」に保存されるようにしました。

    • target_drive_dir: /content/gdrive/MyDrive/Fooocus-outputs
    • use_japanese: UIに日本語が表示されます。
    • model_type: anime
    • fixed_version: バージョンを書籍「画像生成AI Stable Diffusion スタートガイド」で紹介した v2.3.1 (e2f9bcb) に固定して実行します

    無料版 Colab での動作について

    このColabはデフォルトでrefinerを無効にすることに注意してください。なぜならColab freeのリソースは比較的限られているからです(そして画像プロンプトのようないくつかの「大きな」機能はfree-tier Colabの切断を引き起こすかもしれません)。フリー版のColabでは、基本的なテキストから画像への変換が常に動作するようにしています。「Image Prompt/画像で指示」は 無料版 Google Colab T4 GPU では動作しない可能性があります。

    v2.3.1 (e2f9bcb) が動作しています。生成結果はGoogle Driveに生成されるので業務内システムへの活用も可能かもしれませんね。

    日本語化の部分もAICUが翻訳を行っています。カスタマイズや、より子供向けや企業内ワークショップの開発の案件はぜひAICU Inc.までご相談ください。

    https://corp.aicu.ai/ja/pricing

  • 技術書典16 現地取材レポート!生成AIクリエイティブ分野で才能と知見あふれる良書にたくさん出会いました

    技術書典16 現地取材レポート!生成AIクリエイティブ分野で才能と知見あふれる良書にたくさん出会いました

    つくる人をつくる AICU media 編集長のしらいはかせです
    5月25日~6月9日まで開催されている技術書典16のオフライン開催が2024年5月26日(日) 池袋サンシャインシティ 展示ホールD(文化会館ビル2F)にて開催されました!

    https://techbookfest.org

    AICU media 編集部の予習「これ欲しい!」紹介に引き続き、生成AI時代のクリエイティブ「つくる人をつくる」に響きそうな書籍を中心に現地取材を実施いたしましたのでご笑納ください。実際の電子書籍版の購入ページへのリンク入りです!

    https://note.com/aicu/n/n2a9db1c201cd

    Kareshi クリエイトChatGPTを使ったパーソナルアシスタント入門

    鐸羊舎さんは乙女たちが集まるChatGPTサークルです。

    https://techbookfest.org/product/bvtk62SRg6ZMLG4jrhsCbA?productVariantID=4w8dEgBMZJdJtvqk9sNae3

    「技術で乙女たちが暴れる本」というキャッチが良いですね~

    https://techbookfest.org/product/bvtk62SRg6ZMLG4jrhsCbA?productVariantID=4w8dEgBMZJdJtvqk9sNae3

    ボカロ曲の歌詞をあやつるリリックアプリを作ってみよう!

    リリックアプリってご存知ですか?
    歌詞を操って素敵な動画やインタラクティブアプリをつくリます。
    産業技術総合研究所が公開している「 TextAlive」を使って
    初音ミク「マジカルミライ2024」プログラミングコンテストに参加してみよう!いままさに作品募集中です。

    過去のコンテストで素敵な作品を作ってきた方々による執筆です!

    https://techbookfest.org/product/55JgGbUVTCFeqbJJBPzNrQ?productVariantID=1sufWYp3z75KZ3dJn1pidA

    自分で作るAIキャラ
    第1部 ローカルLLM編
    第2部 キャラを動かす編
    第3部 キャラを動かすアプリ編

    「生成AIなんでも展示会」で展示されていたローカルLLMによるAITuberの書籍が三部作で出展されていました。

    https://techbookfest.org/organization/9WZss3wdiPrtQnG3fzp1Mz

    https://note.com/aicu/n/n760a70ca107f

    厳選した学習データセットを用いて独自に学習したモデルを利用する高精度アニメ顔検出技術をオープンソースで公開されています。

    https://github.com/animede/anime_face_detection

    https://note.com/ai_meg/n/n3cbc258dfa3e

    https://techbookfest.org/product/wqVjqb94yu7kQFz6NzVuZS?productVariantID=q40JhNMd97StTffAakggE

    .AITuberといえばこちらの書籍も人気でした

    https://techbookfest.org/product/gq3Rq6rpmpx6TRSW3A4XbR?productVariantID=mEpLiF1Fbt3VeeWcjaY5Fm

    サブスタ備忘録 どシンプルに3Dを塗るだけの本

    Adobe Substance 3Dを3Dイラストに使う本です!

    佐久間蒼野さんはVRoid本でもめちゃ有名なクリエイターさんです

    https://hub.vroid.com/characters/8434922524123136421/models/1831594513660928826

    https://techbookfest.org/product/rsbUjHsBAysnikkATDwPZE?productVariantID=iBvAz4Wtqm4wzU9UWURspY

    Adobe Substance 3Dといえばリアル系の3Dツールだと思われていますが、アバター制作に便利な使い方があるんですね!しかもSteamでインストールするそうです。

    https://store.steampowered.com/app/2718190/Substance_3D_Painter_2024

    QRコードを編む

    サーバーサイドエンジニアの @megusunu さんによるQRコードを色々と編んでみた実験書です!

    編み物でもQRコードは認識されるんです!こちらの画像ではARが実現しています。

    御本人許可有り

    買って読んでみるとかなりガチな内容でした!

    目を1ラインにしても読めなくないけど…といった実験を繰り返されています。

    その他の書籍

    LLMのファインチューニング、ChatGPT使いこなし、データアナリスト、AITuberの分野はとても多かった印象です。
    印象が強くて人気だったサークルは、人造肉、データアナリストをテーマにしたカードゲーム、IoT関連などなど…。

    まとめ

    写真を見てお気づきかもしれないですが、従来の技術書典のガチなオジサマ層の参加者に加えて、カジュアルな方々、ファミリー、女声のみなさんがとても多かった印象です。これは同人イベントとしては大変重要なポイントで、今後も成長感じますね。

    技術書典16はオンラインで5月25日~6月9日まで開催されています。

    このようなイベントのレポートに興味がある方はこちらもオススメ

    https://ja.aicu.ai/category/events/

    この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!

    Originally published at https://note.com on May 26, 2024.

  • 東大のHCI研究:Stable Diffusionを用いた写真内の情報秘匿技術

    東大のHCI研究:Stable Diffusionを用いた写真内の情報秘匿技術

    東京大学より 2024年5月14日に発信されたプレスリリースが興味深い画像生成AIに関する研究でしたので紹介いたします。
    コンピュータ・ヒューマン・インタラクションのトップカンファレンス「CHI 2024」に「 Examining Human Perception of Generative Content Replacement in Image Privacy Protection 」というタイトルで採択されております。

    拡散モデルを用いた写真内の情報秘匿技術

    発表のポイント
    ◆ 生成AI を用いた画像の生成的コンテンツ置換(GCR)法を開発し、秘匿しつつ画像の見た目と内容の両方を維持する加工手法を開発しました。
    ◆ 新たに開発された手法では、画像の全体的な内容とプライバシーに関係しうる部分を特定した上で、拡散モデルを用いて代替画像を生成し、元の画像に適応させることで、プライバシーを守りつつ画像の視覚的魅力を保持する革新的なアプローチを提供します。
    ◆ 本手法は、SNS での画像共有、プレゼンテーション、ビジュアルデザインなど写真の視覚的美しさが重要な場面への応用が見込まれています。

    本研究が提案する画像秘匿手法GCRによる秘匿加工例

    概要

    東京大学大学院工学系研究科電気系工学専攻の矢谷浩司准教授らのグループは、生成AIを用いた画像の生成的コンテンツ置換(GCR)法を開発し、秘匿しつつ画像の見た目と内容の両方を維持する加工手法を開発しました。画像の秘匿化は、SNSの普及により重要性が増しています。従来の秘匿化手法にはモザイクやぼかしがありますが、これらの方法は手間がかかり、しばしば秘匿が不十分であるだけでなく、画像の見た目や統一感を損なう問題がありました。開発された手法は、画像全体とプライバシーに関連しうる部分の内容を表現するテキストを生成し、それらから拡散モデルにより代替画像を生成し、元の画像に配置することで、プライバシー保護と視覚的美しさのバランスを実現する画期的な方法となっています。SNSでの画像共有やプレゼンテーション、ビジュアルデザインへの応用が期待されます。また、将来的には動画への応用や、より使用しやすいインタフェースの開発も進められています。

    発表内容

    画像の秘匿化は、画像の中に含まれているプライバシーに関係する情報を保護するために、大変重要な編集方法です。近年では画像のごく一部の情報から、撮影者の場所や属性が漏洩することが度々発生していますが、SNSなどの急速な普及により、そのような危険性を十分に理解しないまま、画像が一般に公開されていることも数多くあります。秘匿化を実現する既存の編集方法としては、モザイクやぼかし、あるいは絵文字などを重ねる、などがありますが、多くの場合ではユーザが直接編集を施す必要があるため、多くの手間を要したり、秘匿が十分でなかったりすることがあります。またこのような秘匿加工を施すと、元の画像から比べて見た目の美しさや統一感を損なってしまうことがあり、SNSなどでの共有を目的とする場合には好ましくないこともあります。

    この研究では、生成AI技術を用いてプライバシーに関係する情報を現実的な類似の代替物でシームレスに置き換える生成的コンテンツ置換(Generative Content Replacement, GCR)法を構築しました(図1)。この方法では、ユーザが加工を行いたい画像をシステムにアップロードします。システムはアップロードされた画像に対してBLIP-2モデル(注1)を用い、画像全体の内容を表現するようなテキストを生成します。さらに、DIPA(注2)と呼ばれる矢谷研究室が構築したデータセットにより提供されているマスク情報を用いて、画像内のプライバシーに関連しうる部分を抽出し、その部分の内容を表現するようなテキストを生成します。この2つのテキストをもとに、Stable diffusion(現在はバージョン2.1を使用)(注3)して、画像内のプライバシーに関連しうる部分に類似した代替画像を生成し、元画像上に配置することで、コンテンツの置換を行います。これにより、もと画像にあったプライバシーに関連しうる情報は秘匿化されながらも、画像の見た目や内容を維持することが可能となります。

    図1:GCRの処理フロー

    ユーザがアップロードした画像に対して、画像全体とプライバシーに関連しうる部分のテキストを生成し、それを元に画像内のプライバシーに関連しうる部分に類似した代替画像を生成し、元画像上に配置することで、コンテンツの置換を行います。

    図2に示す通り、ぼかし、カートゥーニング(画像の一部を非現実的な程度に強調する方法)、色塗り、除去(画像内の物体等を消し去り、背景で置き換える)、GCRの5つを比較したユーザ実験の結果、GCRによる秘匿加工では、画像内で加工が行われた場所を見つけ出すことが最も難しかったことが確認されました。また、他の秘匿加工手法と比較して、加工後の視覚的な調和が最も保たれていることも確認されました。元画像が持つストーリー性の維持に関しては、GCRはカートゥーニングよりも劣ったものの、プライバシー保護の強さにおいてはGCRが秀でており、GCRによる秘匿加工が、プライバシー保護と画像の視覚的美しさを両立しうる手法であることが確認されました。そのほか、GCRによる秘匿加工の一例を図3に示します。

    図2:秘匿加工方法の比較

    左から、元画像、ぼかし、カートゥーニング、色塗り、除去、GCR。

    図3:GCRによる秘匿加工の一例

    (上)後ろにいる男性を置換している。左が元画像、右が加工後の画像。(下)前面にある車は維持しつつ、背景にある車やナンバープレートを置換している。左が元画像、右が加工後の画像。

    この研究成果は、画像のプライバシー保護と有用性の両方が求められる応用において、実用的な生成AIの応用例を示すものです。SNSでの画像共有のほか、プレゼンテーションやビジュアルデザインへの応用も期待されます。将来への展望として、研究室では、一般的なユーザがより簡単にGCRを使用できるインタフェースを構築しているほか、動画への応用を検討しています。

    本研究はMicrosoft Research Asia D-CORE Program、および株式会社メルカリ R4Dとインクルーシブ工学連携研究機構との共同研究である価値交換工学の成果の一部です。

    発表者・研究者等情報

    東京大学大学院工学系研究科電気系工学専攻

    矢谷 浩司 准教授

    論文情報

    雑誌名: Proccedings of the ACM Conference on Human Factors in Computing Systems(CHI 2024)

    題 名: Examining Human Perception of Generative Content Replacement in Image Privacy Protection

    著者名: Anran Xu*, Shitao Fang, Huan Yang, Simo Hosio, and Koji Yatani*

    用語解説

    (注1)BLIP-2

    与えられた画像から情報を抽出し、画像を説明するテキストを生成するマルチモーダル学習技術をベースに構築された人工知能技術。

    (注2)DIPA

    矢谷研究室で構築した画像内においてプライバシーに関連しうる物体にアノテーションを施したデータセット。

    (注3)Stable Diffusion

    拡散モデルと呼ばれる確率的プロセスを用い、テキストの記述に基づいて画像を生成する人工知能技術。

    プレスリリース本文: PDFファイル

    Examining Human Perception of Generative Content Replacement in Image Privacy Protection | Proceedings of the CHI Conference on Human Factors in Computing Systems https://dl.acm.org/doi/10.1145/3613904.3642103

    https://dl.acm.org/doi/10.1145/3613904.3642103

    [MIT Technology Review] 生成AIを用いて画像内の情報を秘匿するシステム、東大が開発

    https://www.technologyreview.jp/n/2024/05/17/336549/

    東京大学によるプレスリリース
    https://www.t.u-tokyo.ac.jp/press/pr2024-05-14-002

    Originally published at https://note.com on May 24, 2024.

  • 技術書典16 AICU media 編集部の「これ欲しい!」紹介

    技術書典16 AICU media 編集部の「これ欲しい!」紹介

    つくる人をつくる、AICU media の知山ことねです。

    皆さん、#SD黄色本 「画像生成AI Stable Diffusionスタートガイド」はもう読まれましたか?
    ご存じの通り、AICU が3月に発売開始したStable Diffusion の体系的な教科書を目指して書かれています。

    実は、この書籍は技術書典15(2023年11月11日~2023年11月26日)で、9食委員さん、CEOしらいはかせ・852話さんで出版された「自分のLoRAを愛でる本」が底本になっています。

    ▶「自分のLoRAを愛でる本」 作:9食委員・しらいはかせ・852話

    インターネットで新鮮なAIの情報を得るのも大切ですが、たまには出版された書籍「技術書」で体系的に技術を学ぶことも勉強には必要ですよね。

    そこでこの記事では「最新の技術書が生まれる場所」、2024年5月25日 (土) 〜2024年6月9日(日)までオンラインで開催中 、5月26日(日) 池袋サンシャインシティにてオフライン開催される技術書典16 に先行して、味わい深い技術書の世界を知山ことね視点で紹介します。

    技術書典とは?

    技術書典は、テックベース合同会社が主催する、技術書のオンリーイベントです。オンラインマーケットとオフライン会場の双方で、新しい技術に出会えるお祭りを開催しています。2016年から年に2回ほど開催されており、Webサイトに登録しているユーザーは約37,000人、同人誌を制作・販売している出展者は1,000サークルにのぼります。(出典: エンジニア版コミケ「 #技術書典 」が来場者1万人超えのイベントに成長した軌跡 | アンドエンジニア (and-engineer.com))

    おすすめの書籍紹介!

    技術書典16は、オンライン、オフライン双方で展開しており、現在出品予定の書籍はオンラインマーケットで確認することができます。

    技術書典16 :技術書のオンラインマーケット開催中
    ここからAICU media 編集部が「これ欲しい!」「読んでみたい!」と思った書籍をピックアップしてご紹介します。皆様もぜひ確認して、一緒にわくわくしましょう!

    AI編

    情報処理 特集別刷「AI はクリエータになれるか」(2023 年 7 月号)(情報処理学会)

    情報処理 特集別刷「AI はクリエータになれるか」(2023 年 7 月号):情報処理学会

    生成AIとは、機械学習により大量のデータを学習し、学習結果から類似性を保ったまったく新しい人工物を生成するAI技術を指す。これまでのAIで難しいとされてきた、デザイン、広告、映画、音楽、文学、作曲といったクリエイティブな領域での活用が期待されている。本特集ではホットな生成AIを各分野の専門家の方々に「AIはクリエータになれるか」という観点から解説いただいた。
    0.編集にあたって(袖美樹子・吉村 剛)
    1.生成AIは我々の創造力をどのように変えていくのか?(栗原 聡)
    2.AI俳句─AI一茶くん─(山下倫央)
    3.生成言語モデルは創作者になれるか(船越孝太郎・奥村 学)
    4.AI絵師─イラスト自動生成AIの功罪─(金森由博)
    5.ファウンデーションモデルのさまざまな分野・モダリティでのビジネス応用─IBMでの取り組みの例─(倉田岳人・吉田一星・武田征士)
    6.音楽AIは創造性を高める(浜中雅俊) 編集室

    様々な専門家の方が、「AIにこれはできるのか?」という視点で意見や事例をまとめています。クリエイターを目指すAICU mediaの読者にとっては気になる内容なのではないでしょうか。

    生成AIで絵本を作ろう ChatGPT Plus/Midjourneyで始めるクリエーター生活(橄欖石庵)

    生成AIで絵本を作ろう ChatGPT Plus/Midjourneyで始めるクリエーター生活:橄欖石庵

    本書は生成AIを活用して絵本を作成する方法について説明しています。 本書で学べること 本書を読むことで、次のことについて学習できます。
    * 生成AIの活用方法
    * 生成AIによる絵本のストーリー検討方法
    * 生成AIによる絵本のイラスト作成方法 本書の想定読者 本書は次の方を対象として執筆しております。
    * 生成AIを使って絵本のストーリーを考えたい方
    * 生成AIを使って絵本のイラストを描きたい方
    * 生成AIを使って絵本を作りたい方

    midjourneyで絵本を作る本とのこと。水彩画のような可愛い表紙、思わずジャケ買いしたくなりますね…!

    動画編集、画像認識で自動化してみる。(味噌とんトロ定食)

    動画編集、画像認識で自動化してみる。:味噌とんトロ定食
    そこの社会人YouTuber! 動画編集大変じゃないですか? 画像認識で自動化しちゃいませんか? 本書ではポケモンソード・シールドのバトルにおけるコマンド選択画面をカットしたもの、通称バトルビデオを作成することを目標とします。

    そこの社会人YouTuber!
    動画編集大変じゃないですか?
    画像認識で自動化しちゃいませんか?

    本書ではポケモンソード・シールドのバトルにおけるコマンド選択画面をカットしたもの、通称バトルビデオを作成することを目標とします。
    画像認識で可能な限り自動化を行います。

    本書は YouTuber に憧れて動画編集にチャレンジしてみたものの、あまりにも編集作業に時間が掛かってしまいこのままでは YouTuber を続けられないといった経緯から、編集作業の内のカット編集を自動化した方法や知見が記載されています。本書ではプログラミングや画像処理といった内容が出てきますが、未経験の方でも問題無いよう記載することを心掛けています。

    プログラミング初心者・未経験者にもやさしい動画処理でYoutuberとして動画を編集する本。
    読んだらきっとYoutuberを始めたくなりますね!

    Diffusion Models 入門(ジンギスカン同盟)

    Diffusion Models 入門:ジンギスカン同盟
    本書は、Diffusion Modelsについて解説した本です。Denoising Diffusion Probabilistic Modelsをもとに理論の説明と実装を行います。

    本書は、Diffusion Modelsについて解説した本です。Denoising Diffusion Probabilistic Modelsをもとに理論の説明と実装を行います。Diffusion Modelsに興味がある人、実装を通して理解したい人向けの本です。流行技術を触ってみたものの、その詳細まではキャッチアップの時間が取れないという方も多いと思い、日本語による理論解説と最低限の実装を提供しようと本書を執筆しました。本書内のソースコードはGithubから取得できます。本書を読むにはPythonの基礎知識、PyTorchの基礎知識、統計学の知識が必要となります。

    第2版では誤記の修正および2023年5月のGoogle Colaboratory環境でのソースコードの動作検証を行いました。

    Stable Diffusion の Diffusion Models について解説された書籍。画像生成AIのテクニカルな面に興味のある方は楽しめそう。

    ライトニングトークがうまくなる本(RPACommunity)

    ライトニングトークがうまくなる本:RPACommunity
    自動化大好きなコミュニティ主催メンバーが語るライトニングトークのコツ!イベント回数は300回以上、ライトニングトーク登壇者は数百人、見てきたライトニングトーク登壇は1,000回以上!そこで得たライトニングトーク知見を語る本です!

    自動化大好きなコミュニティ主催メンバーが語るライトニングトークのコツ!イベント回数は300回以上、ライトニングトーク登壇者は数百人、見てきたライトニングトーク登壇は1,000回以上!そこで得たライトニングトーク知見を語る本です!

    AIに直接関係は薄いかもしれませんが、AIのイベントで頻繁に目にするライトニングトーク、経験のある方や「応募してみたい…」と思った方は多いのではないでしょうか?
    ライトニングトークに特化したプレゼン技法書は技術書典ならではのものなので注目です!

    その他編

    筆者知山が個人的に「買いたいっ!」と思った本です。

    宇宙世紀の統計学マニュアル Mk-Ⅱ(ひのまる呉服店)

    宇宙世紀の統計学マニュアル Mk-Ⅱ:ひのまる呉服店
    統計学の基礎を、「機動戦士ガンダム」等のアニメ作品を題材に解説しました。…

    統計学の基礎を、「機動戦士ガンダム」等のアニメ作品を題材に解説しました。 平均値と標準偏差から始まって、管理図/変動係数/一様分布と正規分布/分散の加法性/2変数の相関/記述統計と推測統計/母集団と標本/点推定と区間推定/推定と検定/平均値の差の検定/二項分布/ポアソン分布/抜き取り検査/サンプリング方法等について解説しており、これ一冊で統計学の基礎を全て理解することが可能です。
    今、統計学を学習している高校生、大学生、ビジネスマン、あるいはかつて学習したけど挫折した方に、強くお勧めいたします。

    統計学をとことんガンダムに絡めて解説しています。
    文章にガンダムへの熱意が込められていて、読んでいて面白い!
    ガンダム好きな人はすらすら内容が入ってきそうです。

    軌道上補給・軌道上修理概覧2018(帝都高速度衛星通信団)

    軌道上補給・軌道上修理概覧2018:帝都高速度衛星通信団

    宇宙にいる人工衛星への補給や修理を行なう時代になりました。メカです!ロボです!合体です!

    宇宙にいる人工衛星への補給や修理を行なう時代になりました。メカです!ロボです!合体です!
    世界の人工衛星技術はいよいよ宇宙にいる衛星への補給や修理を行うところまで来ました。アメリカの先進的なプロジェクトの他に中国やイスラエルのプロジェクトなどを総括的に紹介しています。宇宙好きの方、メカ好きの方、合体好きの方にお勧めです。
    <項目の紹介>
    ・ はじめに
    ・目次
    ・ 軌道上補給
    ・軌道上修理について
    ・ 各国動向
    ・ スペースシステムズロラール
    ・ Restore-L
    ・ RSGS
    ・ ノースロップグラマン
    ・ MEV
    ・ MEP
    ・ MRV
    ・ 中国 OMEV
    ・ 英国 エフェクティブスペース

    紹介文の「メカです!ロボです!合体です!」の力強さが最高です。
    軌道上補給、着眼点が面白い…!

    あんまりAIに関係あるラインナップじゃなくてすみません、しかも旧刊が多かった…!

    AICU マガジンもよろしくお願いします!

    技術書典での学びと一緒に、Kindle で販売中の AICU マガジンもぜひご覧ください!

    5月号では AIを使用した漫画制作、4月号では Stable Diffusion のWeb UI、 AUTOMATIC1111 を大特集しています!

    AICU マガジン Vol.2 2024年5月号 次世代まんが制作術!
    AICU magazine Vol.1 2024年4月号

    この記事に「いいね!」と思ったら、ぜひいいねとnoteのフォローよろしくお願いします!

  • メンバーシップに新たなプランが誕生!報酬ありレポーター募集開始

    メンバーシップに新たなプランが誕生!報酬ありレポーター募集開始

    「つくる人をつくる」 AICU media の noteメンバーシップに、新たなプランが誕生しました。また、既存のプランもアップデートし、さらにAI時代のクリエイターを応援する取り組みとして改善を続けています。

    この記事では、新規追加・アップデート内容をお知らせします。

    <アップデート>AI用語集ライターに「レポーター報酬」追加

    現在の「 AI用語集ライター」プランでは、メンバーシップに加入している皆さんでAI用語集を作るプロジェクトを実施しています。AIに関する単語(現在投稿されている例: Stable Video Diffusion、 Stability Matrix など)を解説や論文とともに投稿していただくと、それが用語集に組み込まれていくというシステムです。
    ご投稿いただいた方には明確な基準に基づき報酬も支払われます。

    今回のアップデートでは、それに加え、オンラインイベントを中心にレポート活動を行える「 レポーター報酬制度 」を導入しました。

    以下は 「みんなでつくるAI用語集」プラン加入者の note の掲示板「AI用語集ライター」に掲示された概要 です。

    noteでのイベントレポート記事の取材をお願いできるオンラインレポーターさんを募集します。 例えば以下のようなオンラインイベントの記事起こしをお願いします。

    ■出来上がった記事の例 「生成AIなんでも展示会」運営レポート
    https://note.com/aicu/n/n44ad7b02f175

    【イベントアーカイブ記事の寄稿ガイドライン】
    ・謝礼:イベント終了から1日以内の納品で3000円相当の謝礼(Amazonギフト券を予定しています)以後、終了後24時間を超えるごとに500円の減少(翌日2500円、2日後2000円、3日後1500円、4日後1000円、5日後500円、以後は報酬をお支払いできません)

    ・メリット:オンライン・オフラインのイベント参加をレポートすると、謝礼がもらえます。ご自身のセルフブランディングにも有効です。

    ・「このイベントのレポ書きたいでます!」を宣言して、お使いのGoogle DocsのURLを、本掲示板([[AI用語集ライターONLY]イベントレポーター募集]( https://note.com/aicu/membership/boards )へお伝え下さい。

    ・主催者側へ確認や依頼が必要な場合は公開前に編集部から連絡を取ります。連絡先メールアドレス、氏名、依頼や確認したいことを伝える文も添えてください。

    ・イベント主催者のガイドラインとして『撮影・録音・SNS禁止』などが明記されている場合は取材対象にはなりません。

    ・寄稿として、基本的にはAICU編集部に著作権をお譲りいただく形になります。レビューやリライト、修正などは編集部で対応することになりますが、上記の例にあるようにライターとしての草稿をご提供いただいた方のお名前や記名記事を原稿にご記載いただいても構いません。

    ✨️「AICUのライターです」を名乗る条件については別途定めがあります(ライター契約にご同意いただく形になります)。本プランへの参加+レポーターとしてのクラスが上がった方々に個別に打診させていただきます。

    🚫「このイベントをレポートしたいのですが」というご相談も歓迎です。ですが、編集部としての判断と予算があってのご依頼になります。参加費の支出なども編集部としての判断に準じます。
    ご質問も歓迎です。

    https://note.com/aicu/membership/boards/61ab0aa9374e/posts/e7597507f835?from=self

    AICU media のイベントレポーターとして、オンラインイベントを中心にイベントを取材し、レポート記事を書いていただくという内容です。例えば、即日レポートを提出していただけると、謝礼として3000円分のアマゾンギフトカードをお支払いします。

    ご自身の実績づくりやブランディングにも有効です。レポーターとして活動してくださる方は、掲示板のコメント欄にご応募お願いいたします。質問も受け付けていますので、ぜひ、 こちらのスレッドでご相談ください。

    <新メンバーシップ>漫画制作のための画像生成AI

    新メンバーシップは、漫画クリエイターの方、また漫画クリエイターを目指す方に向けた、漫画制作をAIで応援するメンバーシップとなっています。

    プロフェッショナルな漫画製作のための画像生成AI技術や関連ツール活用技術に加えて、サンプルデータなどを[漫画製作メンバー特典マガジン]で提供します。

    また、 TwitterDMやDiscordでのAICUクリエイティブチームへの個別相談も可能 です。以下、プランに加入するとできることの詳細です。

    ・Discordでのご相談(申請)
    ・TwitterDMでのご相談
    ・メンバー限定の会員証が発行されます
    ・活動期間に応じたバッジを表示
    ・メンバー限定掲示板を閲覧できます
    ・メンバー特典記事を閲覧できます
    ・メンバー特典マガジンを閲覧できます

    AICU: AI Creators Union|AICU media

    生成AIクリエイターユニオン『AICU: AI Creators …

    note.com

    こちらのプランで購読することのできる記事の例としては、「 漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較! 」のように漫画制作の際に使用すべきツールを解説した記事や、

    漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!|AICU media

    4月に入り、X や kindle インディーズで AI で漫画を見かける機会が増えてきました。最近のイラスト系画像生成 AI では、漫画が流行の兆しを見せてきているようです。 参考:SD黄色本 書籍[画像生成AI Stable…

    note.com

    「 アイビスペイントで作る!Animagineでの漫画製作テクニック 」シリーズのように、既存の漫画の作り方を解説しつつ、そこにどう画像生成AIを組み込んでいくかの解説記事などを予定しています。

    アイビスペイントで作る!Animagineでの漫画製作テクニック(2)レイヤー編|AICU media

    前回の記事「アイビスペイントで作る!Animagineでの漫画製作テクニック(1)トーン調整」では、「AI…

    note.com

    ぜひこちらのリンクからご確認、ご加入ください。
    皆様のクリエイターとしてのキャリアを応援できることをお待ちしております。

    AICU: AI Creators Union|AICU media

    生成AIクリエイターユニオン『AICU: AI Creators …

    note.com

    すでにメンバーシップに加入してくださっている方はこの機会を生かし、AIクリエイターとしての腕をさらに磨いていただきたいと思います。まだメンバーシップに加入していない方も、この機会を逃さずに加入し、一緒にクリエイターとして高め合っていく仲間を見つけていただけると幸いです。

    また、わかるAIを届ける電子マガジン「AICU マガジン」でもクリエイターに向けたAIの最新情報や画像生成テクニック、イベント情報などを発信中です。Kindle Unlimited に加入されている方は無料ですので、ぜひご確認ください。

    Amazon.co.jp: AICU Media 編集部: Kindleストア

    Kindleストア の優れたセレクションでオンラインショッピング。

    j.aicu.ai

    読者さんのフィードバックも楽しみにしております!

    以上、AICU mediaからのお知らせでした。

    Originally published at https://note.com on May 23, 2024.

  • Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

    Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

    「生成AI時代に つくる人をつくる」AICUの しらいはかせ です。
    ご高評いただいております「画像生成AI Stable Diffusion スタートガイド」
    (通称 #SD黄色本 )掲載の主要なプログラム(SBXL1SBXL2)につきまして、編集部が本日、Google ColabでのAUTOMATIC1111において不具合を発見いたしましたので、本日、解説とともに修正を実施いたしました。

    【現象1】SD1.5系でGradioURLが表示されない

    p47 【Start Stable-Diffusion】のセルを実行時 WARNING[XFORMERS]: xFormers can’t load C++/CUDA extensions. xFormers was built for: PyTorch 2.2.1+cu121 with CUDA 1201 (you have 2.3.0+cu121) Python 3.10.13 (you have 3.10.12) Please reinstall xformers というエラーが出てURLも表示されず完了しません。

    読者の方からも同様のご報告を頂いております(SBクリエイティブさんありがとうございます)。

    【現象2】起動には成功するが画像生成に失敗する

    「Generate」ボタンを押すと以下のようなエラー表示されます。

    AUTOMATIC1111側にはこちらのエラーが表示されています

    NotImplementedError: No operator found for `memory_efficient_attention_forward` with inputs:
    query : shape=(1, 4096, 1, 512) (torch.float32)
    key : shape=(1, 4096, 1, 512) (torch.float32)
    value : shape=(1, 4096, 1, 512) (torch.float32)
    attn_bias : <class 'NoneType'>
    p : 0.0
    `decoderF` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 128
    xFormers wasn't build with CUDA support
    attn_bias type is <class 'NoneType'>
    operator wasn't built - see `python -m xformers.info` for more info
    `flshattF@0.0.0` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 256
    xFormers wasn't build with CUDA support
    requires device with capability > (8, 0) but your GPU has capability (7, 5) (too old)
    dtype=torch.float32 (supported: {torch.bfloat16, torch.float16})
    operator wasn't built - see `python -m xformers.info` for more info
    `cutlassF` is not supported because:
    xFormers wasn't build with CUDA support
    operator wasn't built - see `python -m xformers.info` for more info
    `smallkF` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 32
    xFormers wasn't build with CUDA support
    operator wasn't built - see `python -m xformers.info` for more info
    unsupported embed per head: 512

    ChatGPTによるログと日本語解説はこちら

    https://chatgpt.com/share/41ae4cbb-74ce-4e72-8851-42d1698f8bf0

    なお、xFormersとは、Facebook Research (Meta)がオープンソースソフトウェアとして公開しているPyTorchベースのライブラリで、Transformersの研究を加速するために開発されたものです。xFormersは、NVIDIAのGPUでのみ動作します。NVIDIAのGPUを演算基盤として動作させるためのCUDAやそのビルド時のバージョンをしっかり管理する必要があります。
    https://github.com/facebookresearch/xformers

    【関連】PyTorchとCUDAバージョンエラーの警告について

    実はPyTorchとCUDAバージョンエラーの警告も出ています。

    PyTorch 2.2.1+cu121 with CUDA 1201 (you have 2.3.0+cu121)
    Python 3.10.13 (you have 3.10.12)

    AUTOMATIC1111のインストールマニュアルによると
    https://github.com/AUTOMATIC1111/stable-diffusion-webui

    Install Python 3.10.6 (Newer version of Python does not support torch), checking “Add Python to PATH”.
    Python 3.10.6をインストールし、”Add Python to PATH “をチェックする。

    とありますが、実際にGoogle Colab上でデフォルトで動作しているPythonは現在、Python 3.10.12です(!python — version で確認できます)。
    Python3.10.6が推奨なので、だいぶ後続のバージョンを使っていることになります。この問題はGoogle Colab上でのPythonのメジャーバージョンに関する問題で、関係はありますが、文末で解説します。

    AICU版の原作となったTheLastBenさんのリポジトリでも同様の問題がレポートされています。

    Xformers Google Colab ERROR · Issue #2836 · TheLastBen/fast-stable-diffusion

    Getting Error in the last cell during the launch: WARNING[XFORMERS]: xFormers can’t load C++/CUDA extensions. xFormers…

    github.com

    Google Colabが xformers や JAX といった関連ライブラリを更新してしまうことが問題の根幹でもありますので不具合報告を Google Colab 側にも入れておきます。

    Python and xformers version conflict · Issue #4590 · googlecolab/colabtools

    Describe the current behavior I’m Google Colab Pro+ user and using TheLastBen’s Automatic1111 (A1111) frequently…

    github.com

    【解決】とりいそぎの回避方法

    Start Stable-Diffusionの手前にセルを追加して、以下のコードを入れて実行してください。これで問題の xformersをアンインストールし、解決したバージョンの xformers を再インストールできます。

    #@markdown ### xformers の再インストール(v20240522)
    !python --version
    !yes | pip uninstall xformers
    !pip install xformers

    この「xformers 0.0.26.post1」がインストールされていれば、問題なく動作するはずです。

    【補足】Google ColabのPythonはいつまで現行のバージョン3.10.xなのか

    ところで、いい機会なので Google Colab上でのPythonはいつまで現行のバージョンなのか、調べてみました。実は2024年4月にPython自体のメジャーバージョンアップが予定されているようです。
    https://colab.google/articles/py3.10

    colab.google

    Colab Updated to Python 3.10 With the upgrade to Python 3.10, it brings Colab into alignment with the cadence of final…

    colab.google

    Python 3.10 へのアップグレードにより、Colab はPython バージョン最終的な定期的なバグ修正リリースペースに合わせられます。 Python の次のバージョン (3.11) は、2024 年 4 月に最終的な定期バグ修正リリースが予定されています。

    最終リリースとなる Python3.11.9 は2024年4月2日にリリースされているので、実はもういつ移行してもおかしくない時期なんですね…これはAUTOMATIC1111ユーザーにとってはたいへん重要なアップデートとなります。いきなり使えなくなるのは困るのでGoogle Colab上での切り替えも用意されると良いですね…。
    Google Colab上での賢い方法を期待しつつ、さいごにPythonのメジャーバージョンのロードマップをチェックしておきましょう。

    https://devguide.python.org/versions

    Status of Python versions

    The main branch is currently the future Python 3.13, and is the only branch that accepts new features. The latest…

    devguide.python.org

    Python3.10は2026年中、Python3.11は2027年に終了(end-of-life ; EOL)が宣言されています。

    AICU Inc.は生成AI時代のつくる人をつくるとともに、オープンソースソフトウェアや日本語コミュニティへの貢献を常に行っています。

    書籍なのに最新のオープンソースソフトウェアがアップデートされる、
    新感覚の画像生成AIの教科書「画像生成AI Stable Diffusion スタートガイド」の購入はこちらから! https://j.aicu.ai/SBXL

    書籍[画像生成AI Stable Diffusionスタートガイド] – つくる人をつくる AICU Inc.
    著者:AICU media、白井 暁彦 発売日:2024年3月29日(金) ISBN:978-4-8156-2456-9サイズ:B5判 ページ数:224定価:2,640円(本体2,400円+10%税) 画像生成AIの1つであるStable…

    ja.aicu.ai

    Originally published at https://note.com on May 22, 2024.