タグ: SD

  • [速報]AICU CEO白井が「ChatGPTとStable Diffusion丸わかりナイト」に登壇いたしました

    [速報]AICU CEO白井が「ChatGPTとStable Diffusion丸わかりナイト」に登壇いたしました

    2024年5月30日(木)に、デジタルハリウッド大学本校にて開催された「ChatGPTとStable Diffusion丸わかりナイト」に弊社CEO白井暁彦(@o_ob/しらいはかせ)が登壇いたしました!

    https://ai-maruwakari-night.peatix.com/

    デジタルハリウッド大学大学院教授の橋本大也先生、特任教授の弊社CEO白井暁彦が、近日それぞれ発売した書籍に関する講演、トークイベントを実施しました。

    『頭がいい人のChatGPT&Copilotの使い方』(橋本大也教授著)
    『画像生成AI Stable Diffusionスタートガイド』(AICU media (著), 白井 暁彦 (著))

    ChatGPTとStable Diffusionを中心に、文章、画像、音楽、動画の生成AIの面白さ、可能性について熱く語られ、本を読んだ人も読んでいない人も、学生も社会人も、生成AIの最新事情をアップデートできるイベントとなりました。

    書籍執筆に使われた蔵出し資料の数々!

    参加された方の感想
    「2時間びっしり濃い内容すぎて、消化しきれませんでした・・・」
    「楽しかった!」
    「頭のいい人…じゃなくて…頭のおかしい人の情報量…」

    本人曰く「40分強の講演に実に244枚のスライドがあるんだ」とのこと

    https://note.com/o_ob/n/n930c390b6dfa

    1分あたり6.1枚、だいたい10秒1枚という計算なんですね!(慣れた)

    終了後のサイン会でも沢山の方が購入されました。

    購入された方のご感想
    「実はKindle版も購入していたのですが、これはリアル本であったほうがいい!&先生のサイン付き✨ということでゲットできて良かったです😊」

    ご参加・ご購入ありがとうございました。

    詳細のレポートをお楽しみに!

    Originally published at https://note.com on May 30, 2024.

  • Stable Diffusionの仕組み(入門編)

    Stable Diffusionの仕組み(入門編)

    Stable Diffusionの仕組みについてご存知ですか?
    プロンプトを入れると画像が生成される…その内部を説明できるとかっこいいですよね。
    こちらの講演で使用したスライドを白井CEOから頂いたので一部公開いたします。

    https://note.com/aicu/n/n8d4575bcf026

    画像生成AIの誕生と変遷(2)画像生成技術の歴史年表

    https://note.com/o_ob/n/n971483495ef3

    画像生成AIの誕生と変遷(4) 画像生成AIの2014–2024におきたパラダイムシフト

    https://note.com/o_ob/n/n3c1d8523cf68

    Stable Diffusionの仕組み(入門編)

    CLIPとは画像とテキストの関係だけを学んでいます。
    CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

    https://github.com/openai/CLIP

    実はネガティブプロンプトはStable Diffusionが公開されてからAUTOMATIC111で生まれました。

    https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Negative-prompt

    ネガティブプロンプトは、正プロンプトと同じ仕組みでCLIPを持ち、サンプラーが条件付き逆拡散をする際にUNETの左側に入ります。
    画像のLatent Space化はちょうどZIP圧縮のような超圧縮で、フロート列が並んでいるweight&biasです。VAEを使うことで画像に展開できます。

    ImageToImageやControlNetも、基本的にはLatent SpaceでUNETの左側に入ります。

    UNetについて補足

    UNETは元々は医用画像のセグメンテーションタスクのために想定されたが、多くの画像2-画像タスクに再利用されている。畳み込みエンコーダ(ダウンサンプリング)とデコーダ(アップサンプリング)を持つ。

    マルチスケール、マルチ抽象レベルで変調を学習。

    ReLU(Rectified Linear Unit)のことで、max(0, x)のような実装をする。Convolution層ではこの活性化関数を使うことが多い。

    https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

    https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/

    画像生成AI Stable Diffusion スタートガイドより。

    https://j.aicu.ai/SBXL

    https://j.aicu.ai/SBXL

    Originally published at https://note.com on May 30, 2024.

  • #SD黄色本 サイン本即売会も開催!生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

    #SD黄色本 サイン本即売会も開催!生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

    人気著者が語る生成AIの魅力

    デジタルハリウッド大学の橋本大也教授と、デジタルハリウッド大学特命教授でAICU media編集長でもある白井暁彦CEOが、それぞれのベストセラー書籍をもとに、ChatGPTやStable Diffusionなどの生成AIの最新動向を紹介します。また、イベントでは両著者の最新刊 #SD黄色本のサイン本即売会も実施されます。

    イベント詳細

    日時: 2024年5月30日(木)19:30~21:30(開場19:00)

    会場: デジタルハリウッド大学 駿河台ホール(東京都千代田区神田駿河台4-6 御茶ノ水ソラシティ アカデミア3階)

    参加費: 無料

    定員: 150名

    申込み: イベントページ

    https://ai-maruwakari-night.peatix.com

    登壇者プロフィール

    白井暁彦(Akihiko Shirai, PhD /しらいはかせ)

    エンタメ・メタバース技術の研究開発に関わる研究者、ホワイトハッカー作家、米国スタートアップ「AICU Inc.」「Hidden Pixel Technology Inc.」のCEO。東京工芸大学写真工学科卒、同画像工学専攻修了。キヤノン株式会社とグループの研究所より生まれた英国・Criterion Software にて世界初の産業用ゲームエンジン「RenderWare」の普及開発に参加、その後、東京工業大学知能システム科学専攻に復学。博士学位後、NHK エンジニアリングサービス・次世代コンテント研究室、フランスに渡りENSAM 客員研究員、国際公募展Laval Virtual ReVolution の立ち上げ、日本科学未来館科学コミュニケーター神奈川工科大学情報メディア学科准教授を経て、2018 年よりデジタルハリウッド大学 大学院客員教授 およびグリー株式会社GREE VR Studio Laboratory Director。

    スマートフォン向けメタバース「REALITY」を開発・運用するREALITY 株式会社の立ち上げを通して、Virtual YouTuber などXR ライブエンタメ技術のR&D、国際発信など、メタバースエンタテイメントの未来開発や知財創出を中心に、自らエンタテイメントのライブプレイヤーとして世界に向けた開発・発信活動方法論化しながら世界中のエンタテインメント技術業界に数百人の規模でクリエイターを育成している。2023年よりデジタルハリウッド大学発米国スタートアップ企業「AICU Inc.」CEO。生成AI時代に「つくる人をつくる」をビジョンに英語、日本語、フランス語、プログラミング言語などでオープンな作家活動を続けている。日本バーチャルリアリティ学会IVRC 実行委員会委員。芸術科学会副会長。

    著書に『WiiRemote プログラミング』(オーム社)、『白井博士の未来のゲームデザイン – エンターテインメントシステムの科学-』(ワークスコーポレーション)、『AIとコラボして神絵師になる 論文から読み解くStable Diffusion』(インプレスR&D)他。

    橋本大也(Daiya Hashimoto)

    デジタルハリウッド大学教授兼メディアライブラリー館長。多摩大学大学院客員教授。早稲田情報技術研究所取締役。ブンシン合同会社CEO。翻訳者。IT戦略コンサルタント。ビッグデータと人工知能の技術ベンチャー企業データセクション株式会社の創業者。同社を上場させた後、顧問に就任し、教育とITの領域でイノベーションを追求している。デジタルハリウッド大学大学院では「テクノロジー特論 Bデータ」、多摩大学経営大学院で「先端テクノロジー・マーケティングイノベーション」を教える。2024年1月デジタルハリウッドで生成AI教育プログラムを開発するブンシン合同会社CEOに就任し、生成AIの活用を教える「プロンプト・エンジニアリング・マスターコース」を創設し、自ら主任講師として教鞭をとっている。その他に、洋書を紹介するブログを運営しており、『WIRED』日本版などのメディアに書評を寄稿している。

    書籍の概要

    頭がいい人のChatGPT&Copilotの使い方』(橋本大也 著)

    • 人気のカテゴリー
      • 情報社会
      • メディアと社会
      • ナレッジマネジメント

    画像生成AI Stable Diffusionスタートガイド』(白井暁彦 著)

    • 人気のカテゴリー
      • デザイン
      • コンピュータサイエンス
      • 人工知能

    これらの書籍は大学のメディアライブラリ(図書館)にも配架されています。

    イベント参加のメリット

    このイベントに参加することで、生成AIの最新情報を直接学ぶことができます。また、デジタルハリウッド大学の専門家からの貴重なインサイトを得ることができ、ネットワーキングの機会も豊富です。さらに、#SD黄色本のサイン本を手に入れるチャンスもあります。

    まもなく定員の150名に到達します

    申込みは無料、イベントページへ。

    https://ai-maruwakari-night.peatix.com

    当日はAICU mediaのスタッフに会えるかも?

    書籍:画像生成AI Stable Diffusionスタートガイド

  • Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施

    Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施


    midJourneyや nijiJourneyスタイルのカンタン高画質なAI画像生成が行える「Fooocus」の最新版がリリースされました。AICU Inc.が原作そのままに Google Colab (無料版も可) を使って、旧来のv2.3.0も日本語UIで動くようにメンテナンスを実施したのでお知らせします。

    2024年3月24日にリリースされた v.2.3.0 からUI変更に加え、機能面が大きく追加されています。
    https://github.com/lllyasviel/Fooocus/releases/tag/v2.4.0

    https://github.com/lllyasviel/Fooocus/releases/

    v2.4.0動きました。Lightning速いですが、HyperSDはもっと高速です。
    Fooocus v2.4.0

    v2.4.0 最新版リリースノートより

    変更点
    feat: ミラーサイトからの huggingface ファイルのダウンロードをサポート。
    chore: インターポーザーを v3.1 から v4.0 に更新 by @mashb1t in #2717
    feat: ページをリロードせずに UI を再接続するボタンを追加 by @mashb1t in #2727
    feat: オプションのモデルVAE選択を追加 by @mashb1t in #2867
    feat: ランダムスタイルを選択 by @mashb1t in #2855
    feat: アニメを animaPencilXL_v100 から animaPencilXL_v310 に更新 by @mashb1t in #2454
    refactor: 再接続ボタンのラベル名を変更 by @mashb1t in #2893
    feat: 履歴ログに完全な生プロンプトを追加 by @docppp in #1920
    修正: 正しい border radius css プロパティを使用するようにしました by @khanvilkarvishvesh in #2845
    修正: HTMLヘッダでメタタグを閉じないようにした by @e52fa787 in #2740
    機能: uov 画像アップロード時に画像を自動的に記述 by @mashb1t in #1938
    nsfw 画像の検閲を設定とチェックボックスで追加 by @mashb1t in #958
    feat: 手順を揃えるスケジューラーを追加 by @mashb1t in #2905
    lora のインラインプロンプト参照をサポート by @cantor-set in #2323
    feat: sgm_uniform (lcmと同じ)に基づくtcdサンプラーと離散蒸留tcdスケジューラの追加 by @mashb1t in #2907
    feat: 4step LoRA に基づくパフォーマンス Hyper SD を追加 (@mashb1t 氏による) #2812
    修正: HyperSDテスト用に残っていたコードを削除しました。
    feature: nsfw 画像検閲のモデル管理を最適化 by @mashb1t in #2960
    feat: プログレスバーの改善 by @mashb1t in #2962
    feat: インラインローラの最適化 by @mashb1t in #2967
    feat: コードの所有者を @lllyasviel から @mashb1t に変更 by @mashb1t in #2948
    feat: 有効なインラインローラのみを使用し、サブフォルダをサポート by @mashb1t in #2968
    feature: イメージのサイズと比率を読み取り、推奨サイズを与える by @xhoxye in #2971
    feature: ghcr.io 用コンテナイメージのビルドとプッシュ、docker.md の更新、その他関連する修正 by @xynydev in #2805。
    利用可能なイメージを見る
    feat: 行末のデフォルト設定を調整 by @mashb1t in #2991
    feat: image size description の翻訳を追加しました。
    feat: ‘CFG Mimicking from TSNR’ の値をプリセットから読み込む by @Alexdnk in #2990
    feat: ブラシのカラーピッカーを追加 by @mashb1t in #2997
    feat: ほとんどの画像入力フィールドからラベルを削除 by @mashb1t in #2998
    feat: クリップスキップ処理を追加 by @mashb1t in #2999
    feat: UI設定をよりコンパクトに by @Alexdnk and @mashb1t in #2590

    HyperSDのサポート

    https://huggingface.co/ByteDance/Hyper-SD

    ByteDanceによる「Hyper-SD(効率的な画像合成のための軌跡分割整合モデル)」がサポートされました。

    論文 https://arxiv.org/abs/2404.13686

    サンプリングが4ステップという非常に短いステップで高品質な画像が生成されます。

    Google Colabでの起動

    #SD黄色本「画像生成AI Stable Diffusionスタートガイド」の p.13-18でも扱っているとおり、FooocusはGoogle Colabで動作可能です。具体的にはこのようなコードを書けば最新のFooocusを実行することができます。

    !pip install pygit2==1.12.2
    %cd /content
    !git clone https://github.com/lllyasviel/Fooocus.git
    %cd /content/Fooocus
    !python entry_with_update.py --share --always-high-vram
    

    Fooocus 日本語アニメ特化版 j.aicu.ai/FoooC の更新

    AICU Inc.が #SD黄色本 でリリースしたバージョン「Fooocus 日本語アニメ特化版 j.aicu.ai/FoooC」についてもメンテナンスを実施しました。

    原作そのままに Google Colab (無料版も可) を使って、日本語UIで動くようにしたものです。

    配布等は原作のライセンスに従います。

    https://github.com/lllyasviel/Fooocus/blob/main/fooocus_colab.ipynb

    超初心者向け使い方

    ランタイムを実行「▶」を押してしばらくお待ち下さい。 https://….gradio.com のURLが表示されたらそれをクリックして別タブで遊べます。最大72時間有効ですが、途中で切断されたり止まったり、エラーが出た場合は「■」(停止)をしてもう一度「▶」を押してください。

    起動オプション

    このスクリプトではGUIで操作できるスイッチにしてあります。

    このスクリプトでは Google Driveの マイドライブ直下「Fooocus-outputs」に保存されるようにしました。

    • target_drive_dir: /content/gdrive/MyDrive/Fooocus-outputs
    • use_japanese: UIに日本語が表示されます。
    • model_type: anime
    • fixed_version: バージョンを書籍「画像生成AI Stable Diffusion スタートガイド」で紹介した v2.3.1 (e2f9bcb) に固定して実行します

    無料版 Colab での動作について

    このColabはデフォルトでrefinerを無効にすることに注意してください。なぜならColab freeのリソースは比較的限られているからです(そして画像プロンプトのようないくつかの「大きな」機能はfree-tier Colabの切断を引き起こすかもしれません)。フリー版のColabでは、基本的なテキストから画像への変換が常に動作するようにしています。「Image Prompt/画像で指示」は 無料版 Google Colab T4 GPU では動作しない可能性があります。

    v2.3.1 (e2f9bcb) が動作しています。生成結果はGoogle Driveに生成されるので業務内システムへの活用も可能かもしれませんね。

    日本語化の部分もAICUが翻訳を行っています。カスタマイズや、より子供向けや企業内ワークショップの開発の案件はぜひAICU Inc.までご相談ください。

    https://corp.aicu.ai/ja/pricing

  • 東大のHCI研究:Stable Diffusionを用いた写真内の情報秘匿技術

    東大のHCI研究:Stable Diffusionを用いた写真内の情報秘匿技術

    東京大学より 2024年5月14日に発信されたプレスリリースが興味深い画像生成AIに関する研究でしたので紹介いたします。
    コンピュータ・ヒューマン・インタラクションのトップカンファレンス「CHI 2024」に「 Examining Human Perception of Generative Content Replacement in Image Privacy Protection 」というタイトルで採択されております。

    拡散モデルを用いた写真内の情報秘匿技術

    発表のポイント
    ◆ 生成AI を用いた画像の生成的コンテンツ置換(GCR)法を開発し、秘匿しつつ画像の見た目と内容の両方を維持する加工手法を開発しました。
    ◆ 新たに開発された手法では、画像の全体的な内容とプライバシーに関係しうる部分を特定した上で、拡散モデルを用いて代替画像を生成し、元の画像に適応させることで、プライバシーを守りつつ画像の視覚的魅力を保持する革新的なアプローチを提供します。
    ◆ 本手法は、SNS での画像共有、プレゼンテーション、ビジュアルデザインなど写真の視覚的美しさが重要な場面への応用が見込まれています。

    本研究が提案する画像秘匿手法GCRによる秘匿加工例

    概要

    東京大学大学院工学系研究科電気系工学専攻の矢谷浩司准教授らのグループは、生成AIを用いた画像の生成的コンテンツ置換(GCR)法を開発し、秘匿しつつ画像の見た目と内容の両方を維持する加工手法を開発しました。画像の秘匿化は、SNSの普及により重要性が増しています。従来の秘匿化手法にはモザイクやぼかしがありますが、これらの方法は手間がかかり、しばしば秘匿が不十分であるだけでなく、画像の見た目や統一感を損なう問題がありました。開発された手法は、画像全体とプライバシーに関連しうる部分の内容を表現するテキストを生成し、それらから拡散モデルにより代替画像を生成し、元の画像に配置することで、プライバシー保護と視覚的美しさのバランスを実現する画期的な方法となっています。SNSでの画像共有やプレゼンテーション、ビジュアルデザインへの応用が期待されます。また、将来的には動画への応用や、より使用しやすいインタフェースの開発も進められています。

    発表内容

    画像の秘匿化は、画像の中に含まれているプライバシーに関係する情報を保護するために、大変重要な編集方法です。近年では画像のごく一部の情報から、撮影者の場所や属性が漏洩することが度々発生していますが、SNSなどの急速な普及により、そのような危険性を十分に理解しないまま、画像が一般に公開されていることも数多くあります。秘匿化を実現する既存の編集方法としては、モザイクやぼかし、あるいは絵文字などを重ねる、などがありますが、多くの場合ではユーザが直接編集を施す必要があるため、多くの手間を要したり、秘匿が十分でなかったりすることがあります。またこのような秘匿加工を施すと、元の画像から比べて見た目の美しさや統一感を損なってしまうことがあり、SNSなどでの共有を目的とする場合には好ましくないこともあります。

    この研究では、生成AI技術を用いてプライバシーに関係する情報を現実的な類似の代替物でシームレスに置き換える生成的コンテンツ置換(Generative Content Replacement, GCR)法を構築しました(図1)。この方法では、ユーザが加工を行いたい画像をシステムにアップロードします。システムはアップロードされた画像に対してBLIP-2モデル(注1)を用い、画像全体の内容を表現するようなテキストを生成します。さらに、DIPA(注2)と呼ばれる矢谷研究室が構築したデータセットにより提供されているマスク情報を用いて、画像内のプライバシーに関連しうる部分を抽出し、その部分の内容を表現するようなテキストを生成します。この2つのテキストをもとに、Stable diffusion(現在はバージョン2.1を使用)(注3)して、画像内のプライバシーに関連しうる部分に類似した代替画像を生成し、元画像上に配置することで、コンテンツの置換を行います。これにより、もと画像にあったプライバシーに関連しうる情報は秘匿化されながらも、画像の見た目や内容を維持することが可能となります。

    図1:GCRの処理フロー

    ユーザがアップロードした画像に対して、画像全体とプライバシーに関連しうる部分のテキストを生成し、それを元に画像内のプライバシーに関連しうる部分に類似した代替画像を生成し、元画像上に配置することで、コンテンツの置換を行います。

    図2に示す通り、ぼかし、カートゥーニング(画像の一部を非現実的な程度に強調する方法)、色塗り、除去(画像内の物体等を消し去り、背景で置き換える)、GCRの5つを比較したユーザ実験の結果、GCRによる秘匿加工では、画像内で加工が行われた場所を見つけ出すことが最も難しかったことが確認されました。また、他の秘匿加工手法と比較して、加工後の視覚的な調和が最も保たれていることも確認されました。元画像が持つストーリー性の維持に関しては、GCRはカートゥーニングよりも劣ったものの、プライバシー保護の強さにおいてはGCRが秀でており、GCRによる秘匿加工が、プライバシー保護と画像の視覚的美しさを両立しうる手法であることが確認されました。そのほか、GCRによる秘匿加工の一例を図3に示します。

    図2:秘匿加工方法の比較

    左から、元画像、ぼかし、カートゥーニング、色塗り、除去、GCR。

    図3:GCRによる秘匿加工の一例

    (上)後ろにいる男性を置換している。左が元画像、右が加工後の画像。(下)前面にある車は維持しつつ、背景にある車やナンバープレートを置換している。左が元画像、右が加工後の画像。

    この研究成果は、画像のプライバシー保護と有用性の両方が求められる応用において、実用的な生成AIの応用例を示すものです。SNSでの画像共有のほか、プレゼンテーションやビジュアルデザインへの応用も期待されます。将来への展望として、研究室では、一般的なユーザがより簡単にGCRを使用できるインタフェースを構築しているほか、動画への応用を検討しています。

    本研究はMicrosoft Research Asia D-CORE Program、および株式会社メルカリ R4Dとインクルーシブ工学連携研究機構との共同研究である価値交換工学の成果の一部です。

    発表者・研究者等情報

    東京大学大学院工学系研究科電気系工学専攻

    矢谷 浩司 准教授

    論文情報

    雑誌名: Proccedings of the ACM Conference on Human Factors in Computing Systems(CHI 2024)

    題 名: Examining Human Perception of Generative Content Replacement in Image Privacy Protection

    著者名: Anran Xu*, Shitao Fang, Huan Yang, Simo Hosio, and Koji Yatani*

    用語解説

    (注1)BLIP-2

    与えられた画像から情報を抽出し、画像を説明するテキストを生成するマルチモーダル学習技術をベースに構築された人工知能技術。

    (注2)DIPA

    矢谷研究室で構築した画像内においてプライバシーに関連しうる物体にアノテーションを施したデータセット。

    (注3)Stable Diffusion

    拡散モデルと呼ばれる確率的プロセスを用い、テキストの記述に基づいて画像を生成する人工知能技術。

    プレスリリース本文: PDFファイル

    Examining Human Perception of Generative Content Replacement in Image Privacy Protection | Proceedings of the CHI Conference on Human Factors in Computing Systems https://dl.acm.org/doi/10.1145/3613904.3642103

    https://dl.acm.org/doi/10.1145/3613904.3642103

    [MIT Technology Review] 生成AIを用いて画像内の情報を秘匿するシステム、東大が開発

    https://www.technologyreview.jp/n/2024/05/17/336549/

    東京大学によるプレスリリース
    https://www.t.u-tokyo.ac.jp/press/pr2024-05-14-002

    Originally published at https://note.com on May 24, 2024.

  • 技術書典16 AICU media 編集部の「これ欲しい!」紹介

    技術書典16 AICU media 編集部の「これ欲しい!」紹介

    つくる人をつくる、AICU media の知山ことねです。

    皆さん、#SD黄色本 「画像生成AI Stable Diffusionスタートガイド」はもう読まれましたか?
    ご存じの通り、AICU が3月に発売開始したStable Diffusion の体系的な教科書を目指して書かれています。

    実は、この書籍は技術書典15(2023年11月11日~2023年11月26日)で、9食委員さん、CEOしらいはかせ・852話さんで出版された「自分のLoRAを愛でる本」が底本になっています。

    ▶「自分のLoRAを愛でる本」 作:9食委員・しらいはかせ・852話

    インターネットで新鮮なAIの情報を得るのも大切ですが、たまには出版された書籍「技術書」で体系的に技術を学ぶことも勉強には必要ですよね。

    そこでこの記事では「最新の技術書が生まれる場所」、2024年5月25日 (土) 〜2024年6月9日(日)までオンラインで開催中 、5月26日(日) 池袋サンシャインシティにてオフライン開催される技術書典16 に先行して、味わい深い技術書の世界を知山ことね視点で紹介します。

    技術書典とは?

    技術書典は、テックベース合同会社が主催する、技術書のオンリーイベントです。オンラインマーケットとオフライン会場の双方で、新しい技術に出会えるお祭りを開催しています。2016年から年に2回ほど開催されており、Webサイトに登録しているユーザーは約37,000人、同人誌を制作・販売している出展者は1,000サークルにのぼります。(出典: エンジニア版コミケ「 #技術書典 」が来場者1万人超えのイベントに成長した軌跡 | アンドエンジニア (and-engineer.com))

    おすすめの書籍紹介!

    技術書典16は、オンライン、オフライン双方で展開しており、現在出品予定の書籍はオンラインマーケットで確認することができます。

    技術書典16 :技術書のオンラインマーケット開催中
    ここからAICU media 編集部が「これ欲しい!」「読んでみたい!」と思った書籍をピックアップしてご紹介します。皆様もぜひ確認して、一緒にわくわくしましょう!

    AI編

    情報処理 特集別刷「AI はクリエータになれるか」(2023 年 7 月号)(情報処理学会)

    情報処理 特集別刷「AI はクリエータになれるか」(2023 年 7 月号):情報処理学会

    生成AIとは、機械学習により大量のデータを学習し、学習結果から類似性を保ったまったく新しい人工物を生成するAI技術を指す。これまでのAIで難しいとされてきた、デザイン、広告、映画、音楽、文学、作曲といったクリエイティブな領域での活用が期待されている。本特集ではホットな生成AIを各分野の専門家の方々に「AIはクリエータになれるか」という観点から解説いただいた。
    0.編集にあたって(袖美樹子・吉村 剛)
    1.生成AIは我々の創造力をどのように変えていくのか?(栗原 聡)
    2.AI俳句─AI一茶くん─(山下倫央)
    3.生成言語モデルは創作者になれるか(船越孝太郎・奥村 学)
    4.AI絵師─イラスト自動生成AIの功罪─(金森由博)
    5.ファウンデーションモデルのさまざまな分野・モダリティでのビジネス応用─IBMでの取り組みの例─(倉田岳人・吉田一星・武田征士)
    6.音楽AIは創造性を高める(浜中雅俊) 編集室

    様々な専門家の方が、「AIにこれはできるのか?」という視点で意見や事例をまとめています。クリエイターを目指すAICU mediaの読者にとっては気になる内容なのではないでしょうか。

    生成AIで絵本を作ろう ChatGPT Plus/Midjourneyで始めるクリエーター生活(橄欖石庵)

    生成AIで絵本を作ろう ChatGPT Plus/Midjourneyで始めるクリエーター生活:橄欖石庵

    本書は生成AIを活用して絵本を作成する方法について説明しています。 本書で学べること 本書を読むことで、次のことについて学習できます。
    * 生成AIの活用方法
    * 生成AIによる絵本のストーリー検討方法
    * 生成AIによる絵本のイラスト作成方法 本書の想定読者 本書は次の方を対象として執筆しております。
    * 生成AIを使って絵本のストーリーを考えたい方
    * 生成AIを使って絵本のイラストを描きたい方
    * 生成AIを使って絵本を作りたい方

    midjourneyで絵本を作る本とのこと。水彩画のような可愛い表紙、思わずジャケ買いしたくなりますね…!

    動画編集、画像認識で自動化してみる。(味噌とんトロ定食)

    動画編集、画像認識で自動化してみる。:味噌とんトロ定食
    そこの社会人YouTuber! 動画編集大変じゃないですか? 画像認識で自動化しちゃいませんか? 本書ではポケモンソード・シールドのバトルにおけるコマンド選択画面をカットしたもの、通称バトルビデオを作成することを目標とします。

    そこの社会人YouTuber!
    動画編集大変じゃないですか?
    画像認識で自動化しちゃいませんか?

    本書ではポケモンソード・シールドのバトルにおけるコマンド選択画面をカットしたもの、通称バトルビデオを作成することを目標とします。
    画像認識で可能な限り自動化を行います。

    本書は YouTuber に憧れて動画編集にチャレンジしてみたものの、あまりにも編集作業に時間が掛かってしまいこのままでは YouTuber を続けられないといった経緯から、編集作業の内のカット編集を自動化した方法や知見が記載されています。本書ではプログラミングや画像処理といった内容が出てきますが、未経験の方でも問題無いよう記載することを心掛けています。

    プログラミング初心者・未経験者にもやさしい動画処理でYoutuberとして動画を編集する本。
    読んだらきっとYoutuberを始めたくなりますね!

    Diffusion Models 入門(ジンギスカン同盟)

    Diffusion Models 入門:ジンギスカン同盟
    本書は、Diffusion Modelsについて解説した本です。Denoising Diffusion Probabilistic Modelsをもとに理論の説明と実装を行います。

    本書は、Diffusion Modelsについて解説した本です。Denoising Diffusion Probabilistic Modelsをもとに理論の説明と実装を行います。Diffusion Modelsに興味がある人、実装を通して理解したい人向けの本です。流行技術を触ってみたものの、その詳細まではキャッチアップの時間が取れないという方も多いと思い、日本語による理論解説と最低限の実装を提供しようと本書を執筆しました。本書内のソースコードはGithubから取得できます。本書を読むにはPythonの基礎知識、PyTorchの基礎知識、統計学の知識が必要となります。

    第2版では誤記の修正および2023年5月のGoogle Colaboratory環境でのソースコードの動作検証を行いました。

    Stable Diffusion の Diffusion Models について解説された書籍。画像生成AIのテクニカルな面に興味のある方は楽しめそう。

    ライトニングトークがうまくなる本(RPACommunity)

    ライトニングトークがうまくなる本:RPACommunity
    自動化大好きなコミュニティ主催メンバーが語るライトニングトークのコツ!イベント回数は300回以上、ライトニングトーク登壇者は数百人、見てきたライトニングトーク登壇は1,000回以上!そこで得たライトニングトーク知見を語る本です!

    自動化大好きなコミュニティ主催メンバーが語るライトニングトークのコツ!イベント回数は300回以上、ライトニングトーク登壇者は数百人、見てきたライトニングトーク登壇は1,000回以上!そこで得たライトニングトーク知見を語る本です!

    AIに直接関係は薄いかもしれませんが、AIのイベントで頻繁に目にするライトニングトーク、経験のある方や「応募してみたい…」と思った方は多いのではないでしょうか?
    ライトニングトークに特化したプレゼン技法書は技術書典ならではのものなので注目です!

    その他編

    筆者知山が個人的に「買いたいっ!」と思った本です。

    宇宙世紀の統計学マニュアル Mk-Ⅱ(ひのまる呉服店)

    宇宙世紀の統計学マニュアル Mk-Ⅱ:ひのまる呉服店
    統計学の基礎を、「機動戦士ガンダム」等のアニメ作品を題材に解説しました。…

    統計学の基礎を、「機動戦士ガンダム」等のアニメ作品を題材に解説しました。 平均値と標準偏差から始まって、管理図/変動係数/一様分布と正規分布/分散の加法性/2変数の相関/記述統計と推測統計/母集団と標本/点推定と区間推定/推定と検定/平均値の差の検定/二項分布/ポアソン分布/抜き取り検査/サンプリング方法等について解説しており、これ一冊で統計学の基礎を全て理解することが可能です。
    今、統計学を学習している高校生、大学生、ビジネスマン、あるいはかつて学習したけど挫折した方に、強くお勧めいたします。

    統計学をとことんガンダムに絡めて解説しています。
    文章にガンダムへの熱意が込められていて、読んでいて面白い!
    ガンダム好きな人はすらすら内容が入ってきそうです。

    軌道上補給・軌道上修理概覧2018(帝都高速度衛星通信団)

    軌道上補給・軌道上修理概覧2018:帝都高速度衛星通信団

    宇宙にいる人工衛星への補給や修理を行なう時代になりました。メカです!ロボです!合体です!

    宇宙にいる人工衛星への補給や修理を行なう時代になりました。メカです!ロボです!合体です!
    世界の人工衛星技術はいよいよ宇宙にいる衛星への補給や修理を行うところまで来ました。アメリカの先進的なプロジェクトの他に中国やイスラエルのプロジェクトなどを総括的に紹介しています。宇宙好きの方、メカ好きの方、合体好きの方にお勧めです。
    <項目の紹介>
    ・ はじめに
    ・目次
    ・ 軌道上補給
    ・軌道上修理について
    ・ 各国動向
    ・ スペースシステムズロラール
    ・ Restore-L
    ・ RSGS
    ・ ノースロップグラマン
    ・ MEV
    ・ MEP
    ・ MRV
    ・ 中国 OMEV
    ・ 英国 エフェクティブスペース

    紹介文の「メカです!ロボです!合体です!」の力強さが最高です。
    軌道上補給、着眼点が面白い…!

    あんまりAIに関係あるラインナップじゃなくてすみません、しかも旧刊が多かった…!

    AICU マガジンもよろしくお願いします!

    技術書典での学びと一緒に、Kindle で販売中の AICU マガジンもぜひご覧ください!

    5月号では AIを使用した漫画制作、4月号では Stable Diffusion のWeb UI、 AUTOMATIC1111 を大特集しています!

    AICU マガジン Vol.2 2024年5月号 次世代まんが制作術!
    AICU magazine Vol.1 2024年4月号

    この記事に「いいね!」と思ったら、ぜひいいねとnoteのフォローよろしくお願いします!

  • Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

    Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

    「生成AI時代に つくる人をつくる」AICUの しらいはかせ です。
    ご高評いただいております「画像生成AI Stable Diffusion スタートガイド」
    (通称 #SD黄色本 )掲載の主要なプログラム(SBXL1SBXL2)につきまして、編集部が本日、Google ColabでのAUTOMATIC1111において不具合を発見いたしましたので、本日、解説とともに修正を実施いたしました。

    【現象1】SD1.5系でGradioURLが表示されない

    p47 【Start Stable-Diffusion】のセルを実行時 WARNING[XFORMERS]: xFormers can’t load C++/CUDA extensions. xFormers was built for: PyTorch 2.2.1+cu121 with CUDA 1201 (you have 2.3.0+cu121) Python 3.10.13 (you have 3.10.12) Please reinstall xformers というエラーが出てURLも表示されず完了しません。

    読者の方からも同様のご報告を頂いております(SBクリエイティブさんありがとうございます)。

    【現象2】起動には成功するが画像生成に失敗する

    「Generate」ボタンを押すと以下のようなエラー表示されます。

    AUTOMATIC1111側にはこちらのエラーが表示されています

    NotImplementedError: No operator found for `memory_efficient_attention_forward` with inputs:
    query : shape=(1, 4096, 1, 512) (torch.float32)
    key : shape=(1, 4096, 1, 512) (torch.float32)
    value : shape=(1, 4096, 1, 512) (torch.float32)
    attn_bias : <class 'NoneType'>
    p : 0.0
    `decoderF` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 128
    xFormers wasn't build with CUDA support
    attn_bias type is <class 'NoneType'>
    operator wasn't built - see `python -m xformers.info` for more info
    `flshattF@0.0.0` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 256
    xFormers wasn't build with CUDA support
    requires device with capability > (8, 0) but your GPU has capability (7, 5) (too old)
    dtype=torch.float32 (supported: {torch.bfloat16, torch.float16})
    operator wasn't built - see `python -m xformers.info` for more info
    `cutlassF` is not supported because:
    xFormers wasn't build with CUDA support
    operator wasn't built - see `python -m xformers.info` for more info
    `smallkF` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 32
    xFormers wasn't build with CUDA support
    operator wasn't built - see `python -m xformers.info` for more info
    unsupported embed per head: 512

    ChatGPTによるログと日本語解説はこちら

    https://chatgpt.com/share/41ae4cbb-74ce-4e72-8851-42d1698f8bf0

    なお、xFormersとは、Facebook Research (Meta)がオープンソースソフトウェアとして公開しているPyTorchベースのライブラリで、Transformersの研究を加速するために開発されたものです。xFormersは、NVIDIAのGPUでのみ動作します。NVIDIAのGPUを演算基盤として動作させるためのCUDAやそのビルド時のバージョンをしっかり管理する必要があります。
    https://github.com/facebookresearch/xformers

    【関連】PyTorchとCUDAバージョンエラーの警告について

    実はPyTorchとCUDAバージョンエラーの警告も出ています。

    PyTorch 2.2.1+cu121 with CUDA 1201 (you have 2.3.0+cu121)
    Python 3.10.13 (you have 3.10.12)

    AUTOMATIC1111のインストールマニュアルによると
    https://github.com/AUTOMATIC1111/stable-diffusion-webui

    Install Python 3.10.6 (Newer version of Python does not support torch), checking “Add Python to PATH”.
    Python 3.10.6をインストールし、”Add Python to PATH “をチェックする。

    とありますが、実際にGoogle Colab上でデフォルトで動作しているPythonは現在、Python 3.10.12です(!python — version で確認できます)。
    Python3.10.6が推奨なので、だいぶ後続のバージョンを使っていることになります。この問題はGoogle Colab上でのPythonのメジャーバージョンに関する問題で、関係はありますが、文末で解説します。

    AICU版の原作となったTheLastBenさんのリポジトリでも同様の問題がレポートされています。

    Xformers Google Colab ERROR · Issue #2836 · TheLastBen/fast-stable-diffusion

    Getting Error in the last cell during the launch: WARNING[XFORMERS]: xFormers can’t load C++/CUDA extensions. xFormers…

    github.com

    Google Colabが xformers や JAX といった関連ライブラリを更新してしまうことが問題の根幹でもありますので不具合報告を Google Colab 側にも入れておきます。

    Python and xformers version conflict · Issue #4590 · googlecolab/colabtools

    Describe the current behavior I’m Google Colab Pro+ user and using TheLastBen’s Automatic1111 (A1111) frequently…

    github.com

    【解決】とりいそぎの回避方法

    Start Stable-Diffusionの手前にセルを追加して、以下のコードを入れて実行してください。これで問題の xformersをアンインストールし、解決したバージョンの xformers を再インストールできます。

    #@markdown ### xformers の再インストール(v20240522)
    !python --version
    !yes | pip uninstall xformers
    !pip install xformers

    この「xformers 0.0.26.post1」がインストールされていれば、問題なく動作するはずです。

    【補足】Google ColabのPythonはいつまで現行のバージョン3.10.xなのか

    ところで、いい機会なので Google Colab上でのPythonはいつまで現行のバージョンなのか、調べてみました。実は2024年4月にPython自体のメジャーバージョンアップが予定されているようです。
    https://colab.google/articles/py3.10

    colab.google

    Colab Updated to Python 3.10 With the upgrade to Python 3.10, it brings Colab into alignment with the cadence of final…

    colab.google

    Python 3.10 へのアップグレードにより、Colab はPython バージョン最終的な定期的なバグ修正リリースペースに合わせられます。 Python の次のバージョン (3.11) は、2024 年 4 月に最終的な定期バグ修正リリースが予定されています。

    最終リリースとなる Python3.11.9 は2024年4月2日にリリースされているので、実はもういつ移行してもおかしくない時期なんですね…これはAUTOMATIC1111ユーザーにとってはたいへん重要なアップデートとなります。いきなり使えなくなるのは困るのでGoogle Colab上での切り替えも用意されると良いですね…。
    Google Colab上での賢い方法を期待しつつ、さいごにPythonのメジャーバージョンのロードマップをチェックしておきましょう。

    https://devguide.python.org/versions

    Status of Python versions

    The main branch is currently the future Python 3.13, and is the only branch that accepts new features. The latest…

    devguide.python.org

    Python3.10は2026年中、Python3.11は2027年に終了(end-of-life ; EOL)が宣言されています。

    AICU Inc.は生成AI時代のつくる人をつくるとともに、オープンソースソフトウェアや日本語コミュニティへの貢献を常に行っています。

    書籍なのに最新のオープンソースソフトウェアがアップデートされる、
    新感覚の画像生成AIの教科書「画像生成AI Stable Diffusion スタートガイド」の購入はこちらから! https://j.aicu.ai/SBXL

    書籍[画像生成AI Stable Diffusionスタートガイド] – つくる人をつくる AICU Inc.
    著者:AICU media、白井 暁彦 発売日:2024年3月29日(金) ISBN:978-4-8156-2456-9サイズ:B5判 ページ数:224定価:2,640円(本体2,400円+10%税) 画像生成AIの1つであるStable…

    ja.aicu.ai

    Originally published at https://note.com on May 22, 2024.

  • 日報を画像生成でバエさせる #10分で学べるAI

    日報を画像生成でバエさせる #10分で学べるAI

    新企画「#10分で学べるAI」

    「つくる人をつくる」AICU新人ライターのNaruです。初の原稿となる今回は、Stability AIが提供しているStable Diffusion 3 APIを用いた画像生成ついて、忙しいビジネスパーソンがめっちゃ使えそうなテクニックを #10分で学べるAI というシリーズで紹介していきたいと思います。

    今すぐ終業、でもバエる絵が見つからない…。

    「提案書や日報にバエる、インパクトがある画像がほしいな…」と思ったこと、ありませんか?でもライセンスフリーの画像検索では画像的にも著作権的に微妙…有料のストックフォトを日報に使うなんて予算がない…そんなあなたに送る、画像生成テクニックです。

    <設定>新入社員のSくん
    新人研修ももうすぐ終わり…毎日の日報もネタがつきてきました。今すぐスライドのトップページに16:9の画像を付け足して、BOSSに送りつけて帰宅したい…!でも検索しても検索してもバエる絵が見つからない…!

    ふと某ChatGPT 4oさんにお願いしてみました。
    「今日の日報に使える16:9のバエる画像がほしい」

    うーん、ちょっと、微妙すぎやしませんか。ここは日本ですし。

    ちなみに今日は飛び込み営業で、 日焼けした27歳の元気なスタートアップ企業の社長さんにお会いしました。というレポートしたいので、そんな感じの絵を作りたかったのです。

    そしてBOSSから注文が入りました。

    「今日の日付を入れて」

    いま16時30分ですよ?

    出来上がった画像がこれです。

    念の為、ソースコードへのリンクがあったので確認してみました。

    from PIL import Image, ImageDraw, ImageFont
    import matplotlib.font_manager as fm
    
    # Load the image
    image_path = "/mnt/data/A_vibrant,_eye-catching_image_for_a_daily_report,_.png"
    image = Image.open(image_path)
    
    # Define the date text
    date_text = "2024年5月20日"
    
    # Get a font
    # Using a default font as an example
    font_path = fm.findSystemFonts(fontpaths=None, fontext='ttf')[0]
    font = ImageFont.truetype(font_path, 40)
    
    # Initialize ImageDraw
    draw = ImageDraw.Draw(image)
    
    # Define the text position and color
    text_position = (image.width - 300, image.height - 70)
    text_color = (255, 255, 255)  # White color
    
    # Add the date text to the image
    draw.text(text_position, date_text, font=font, fill=text_color)
    
    # Save the edited image
    output_path = "/mnt/data/A_vibrant_image_with_date.png"
    image.save(output_path)
    
    output_path

    ちがう!僕がやりたいのはこういうことじゃない…!

    僕が作りたいのは、こういうインパクトがある絵です。

    ギラッギラです

    ギラッギラなカバーアートでぜひともBOSSに読んでもらいたい!
    ですが、
    必要な知識は AICU media の過去記事だけで十分でした。
    非エンジニアでも大丈夫、コーディングはゼロ、絵心もゼロです。
    さて作っていきましょう。

    必要なもの

    • Google Colab(無料アカウントでOK)
    • Stability AI のアカウント

    Stability AIのアカウントを持っていない人は https://platform.stability.ai/ にアクセスすると作成できます。

    右上からアカウントを作成できます

    セットアップしよう

    APIキーを取得する

    まずはGoogle Colabで呼び出すためのAPIキーを用意しましょう。

    https://platform.stability.ai/account/keys

    https://platform.stability.ai/account/keys にアクセスするとAPIの管理画面に行くことができます。

    ここでAPIキーを発行できます

    右上にあるCreate API Key というボタンを押すと新しくAPIキーが発行されます。
    なおAPIの呼び出しにはクレジットを使うので不足した人は適宜追加をしてください。

    クレジットはDreamStudioと共通です。10ドルは僕の時給よりも安いです。

    Colabでプログラムを実行する

    今回は実行に必要なPythonコードをアナタのために限定で用意しました。
    日本語解説付きです。

    https://colab.research.google.com/drive/1mc1iQyIDT7FTO74SWcGqqHItUr9nkIC8?usp=sharing

    GitHubは こちら ✨️現在はGitHubに バグ があるのでひと手間あります。

    このColabを開いたら、まずは「ドライブにコピー」のボタンを押してからはじめのコードを▶を押して実行しましょう。

    ドライブにコピーをお忘れなく
    これで必要なライブラリをインポートできます

    次のコードを実行して、取得したAPIキーを入力します。

    実行すると入力画面が現れます

    最後のコードで画像生成の機能を準備します。

    モデルをColab上に用意しないので非常に速いです

    これで画像を生成する準備ができました!


    実際に生成してみよう

    いよいよ画像の生成に取り掛かります。
    下にスクロールするとプロンプトの入力画面があるので[prompt]に生成したい画像を入力し、実行します。

    ここまで正しくできていれば ▶ を押すたびに画像が生成されます。

    文字までしっかりと生成されました!
    ※日本語はまだ書けないっぽいです。

    さて日報のカバーイラスト作っていきます

    ここまでの部分は何度でも再利用できます。
    今日の日報も明日の日報も今週末の日報も、これでイケるって寸法です。

    今日の飛び込み営業で体験した日焼けした27歳の元気なスタートアップ企業の社長さんというレポートにふさわしいカバーイラストを作りましょう。

    [Prompt]にプロンプトを入力しますが、英語で入力する必要があります。
    ここは大人しくDeepLを使いましょう、早く退勤しないとなので。

    https://www.deepl.com/ja/translator/l/ja/en-US

    日報の表紙イラスト、日焼けした27歳の元気な日本人社長のマンガ。右下に「5/20th」の文字。

    Cover illustration of the daily bulletin, a manga of a Japanese president tanned, energetic 27-year-old man, With the words “May/20th” in the lower right corner.

    prompt: Cover illustration of the daily bulletin, a manga of a Japanese president tanned, energetic 27-year-old man, With the words “May/20th” in the lower right corner.

    negative_prompt: NSFW

    aspect_ratio: 16:9

    output_format: png

    こんな感じに入力して▶を押します。

    気に入る画像になるまで、何度でも押しましょう。数秒で生成されます。
    SD3は実写も綺麗ですが、イラストレーションとか漫画も得意です。
    美少女っぽいのもめちゃ良いですが、オジサンが好きそうな絵も作れます。

    どやっ!

    どやっ!

    ちょうどイメージぴったりです!
    このカバーアートに続くレポートの本文にはもちろん、この若くて何か大きなことをしでかしそうな社長さんへの提案が記載されています。
    きっとBOSSも興味を持って読んでくれることでしょう!

    明日からはこの[Prompt]を書き換えるだけです!やったぜ

    10分でできましたか?

    今回はここで終わります。また次回もぜひ読んでください!

    なおStable Diffusion 3 APIの技術詳細についてはこちらで紹介しているのでぜひ読んでくださいね~。

    https://note.com/aicu/n/n838bf71a361f

    https://note.com/aicu/n/ne2fe8a0073b0


    ✨️以上のように業務で仕事でパッと使える画像生成を社内やサービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

    本記事が面白かったら、ぜひシェアをよろしくお願いいたします!
    社内Slack等のシェアでも歓迎です。
    また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

    AICU Inc.は Stability AI 公式パートナーです。
    様々なアプリ開発のご相談も承っております!

    https://corp.aicu.ai/ja/stability-ai

    https://corp.aicu.ai/ja/stability-ai-membership

    Originally published at https://note.com on May 20, 2024.

  • Stability AI が Discordで利用できる多機能メディア生成サービス「Stable Artisan」をリリース!早速試してみた

    Stability AI が Discordで利用できる多機能メディア生成サービス「Stable Artisan」をリリース!早速試してみた


    Stability AI が Discordで利用できる多機能メディア生成サービス「Stable Artisan」をリリース!早速試してみた

    Stable Artisanとは? Discord内で高品質の画像や動画を生成・編集できるDiscordボットです。Stable Diffusion 3、Stable Video Diffusion、Stable Image Coreのパワーを活用しています。

    登録・利用はこちら https://stability.ai/stable-artisan

    メディア生成に加え、Stable Artisanには、検索と置換、背景の削除、クリエイティブ・アップスケール、アウトペインティングなど、作品を編集するためのツールが用意されています。

    使い方は簡単、/dreamコマンドで。

    まず、 https://stability.ai/stable-artisan でアカウントを作成し、artisan-1、artisan-2、artisan-3、artisan-4、artisan-5 のいずれかのチャンネルにアクセスして、/dream を使って制作を始めてください

    チャンネルの中で、入力できるチャンネルを探してください。
    (たとえば artisan-2 が利用できました)

    スラッシュコマンド「/dream」と入力すると、こんな感じにオプションが表示されます。
    ・プロンプト
    ・ネガティブプロンプト
    ・縦横比
    ・モデル(コアモデルとSD3が選べます)
    ・シード指定
    ・画像生成枚数
    不要な要素は省略して構いません!

    気になる料金は

    スラッシュコマンド「/credits」で確認できます。

    今月は 1/200 のクレジットが残っています。 Stability Artisan 機能のクレジットレート: 
    Image Core 3 SD3 6.5 Creative Upscale 25 Search & Replace 4 Outpaint 4 Remove Background 2 Sketch Control 3 Structure Control 3 Video 20
     Info クレジットは、成功した個々の生成ごとに計算されます。 たとえば、/image を使用して 2 つの画像を取得した場合、2x 3、つまり合計 6 クレジットを使用します。 これはまた、生成に失敗した場合(エラーや自動フィルタリングなどによる)、失敗した生成分のクレジットが返金されることを意味します。

    Platform APIサービスの詳細については、こちらをご覧ください: https://platform.stability.ai/docs/getting-started/stable-image

    もし行き詰まったら、Artisanチャンネルで/helpを使えば、Stable Artisanの使い方についてより詳しいヘルプが得られます

    関連:Stable Assistantと間違えないように…

    4月にリリースされたStable Assistantと間違えないようにしましょう。

    間違って登録したプランをキャンセルするには?

    ウェブサイト(https://assistant.stability.ai/login)からアカウントにログインし、メールアドレスの頭文字が表示されている右上のボタンをクリックします。 次に、”Manage Subscription “をクリックし、右上の “Cancel plan “をクリックします。 “プランのキャンセル “をクリックしてキャンセルを確定します。

    利用規定

    利用規約はこちら https://stability.ai/terms-of-use

    それでは、良い作品作りを!
    https://youtu.be/MWfb30kWqTM


    Originally published at https://note.com on May 9, 2024.

  • 漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!

    漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!

    4月に入り、X や kindle インディーズで AI で漫画を見かける機会が増えてきました。最近のイラスト系画像生成 AI では、漫画が流行の兆しを見せてきているようです。

    参考:SD黄色本

    書籍[画像生成AI Stable Diffusionスタートガイド] – つくる人をつくる AICU Inc.ja.aicu.ai

    参考:人気AI漫画家・けいすけ氏の「マンガの作り方」

    Amazon.co.jp: AIとCanvaでできる!マンガの作り方 みんなのマンガ物語 eBook : けいすけ: Kindleストア

    そこで AICU media では、「AI で漫画を作ってみたいけど、どのモデルを使えばいいんだろう…」という方向けに、白黒漫画制作に適した Stable Diffusion のモデルを調査しました!

    Animagine 3.1

    まずはアニメ系 SDXL の主流モデルとなっている「Animagine」の最新バージョンである Animagine 3.1 でモノクロイラストを生成してみましょう。

    プロンプト「best quality , monochrome , lineart,1girl, bob cut, flat chest , short hair , school uniform, round_eyewear, hand on hip,looking at viewer,open mouth,white background」

    ネガティブプロンプト「worst quality, low quality,blush, lowres, bad anatomy, bad hands」

    画像
    画像
    カワイイ女子高生は腰に手を当てているだけでカワイイ

    プロンプト通りの要素が生成されていて、質も良いですね!
    インク溜まりのような表現と、影部分の塗りつぶしがかわいいです。

    Animagine 3.0

    試しにひとつ前のバージョンである Animagine 3.0 でも生成してみましょう。
    プロンプトは前回と同様です。

    画像
    画像

    皆さん、気が付きましたか?
    Animagine 3.0 で生成した方が、線がとても綺麗に生成されています!

    画像
    3.0(左)と3.1(右)

    線の解像度が全く違うことがわかります。
    Animagine を使用する場合は、最新バージョンの 3.1 よりもひとつ前の世代の 3.0 を使用するのが良さそうですね。

    Animagine の年代タグを試す

    ここまで Animagine のバージョンを変えて試してみましたが、Animagine というと特徴的なのは年代タグです。年代タグというのは、絵柄の古さを調節できるタグのことです。

    詳しい比較、解説はこちらで行っています。

    https://note.com/embed/notes/n70122ef250d9

    Animagine の年代タグは、Animagine 3.1 の方が効果が反映されやすい感覚がありましたが、漫画を制作するとなるとどの程度絵柄に影響が出るのでしょうか。

    まず、Animagine 3.1 の「oldest(最も古い)」と「newest(最も新しい)」を試してみます。

    プロンプト「best quality , monochrome, lineart, 1girl, school uniform, smile, looking at viewer,open mouth,white background, (年代タグ)」

    oldest (Animagine3.1)

    画像

    Animagine3.1の「oldest」は 「2005 to 2010」とあります。たしかにそういう雰囲気があります。
    シンプルな目や影の濃い鼻、等幅の髪の毛がモノクロにも落とし込まれていますね。

    newest (Animagine3.1)

    画像


    「newest」も、流行りの華やかですっきりとした雰囲気が出ています(2022 to 2023)。

    また年代タグを指定していない時よりも、線が綺麗に生成されているような印象を受けます。そういう特性があるのでしょうか。

    次に、Animagine 3.0 の「oldest」と「masterpiece」を試してみましょう。プロンプトは同じです。

    oldest (Animagine3.0)

    画像

    masterpiece (Animagine3.0)

    画像

    Animagine 3.1 と比較すると、やはり線はこちらの方が若干綺麗であるものの、絵柄の差があまり出ていませんね。Animagine 3.1 の方が「oldest」のインパクトがあります。

    結果発表!

    生成して比較した結果、

    単純に漫画のようなモノクロ画像を生成したい場合:Animagine 3.0
    絵柄を古くしたりなど、年代タグを使いたい場合:Animagine 3.1

    という結果になりました!

    場合によって使い分けるのが最も有効だという結果は予想していなかったので、とても面白い実験になりました。

    公式のモデルカードを調べてみると年代タグについては以下のように微妙に異なりました。

    Animagine 3.0 Year Modifier
    Year Tag Year Range
    newest 2022 to 2023
    late 2019 to 2021
    mid 2015 to 2018
    early 2011 to 2014
    oldest 2005 to 2010

    年号修飾子 また、特定の現代アニメやヴィンテージアニメのアートスタイルにより正確に結果を導くために、年号の範囲を再定義しました。このアップデートでは、現在と過去の時代との関連性に焦点を当て、範囲を簡素化しました。

    Year Tag Year Range
    newest 2021 to 2024
    recent 2018 to 2020
    mid 2015 to 2017
    early 2011 to 2014
    oldest 2005 to 2010

    おまけ

    プロンプトに「comic」を入れて生成すると、漫画っぽい画像が生成できます!画像生成AIあるあるの「文字風の線」も生成されます。興味のある方は試してみてください。

    画像
    上目遣いかわいい!
    画像
    ちょっとこわいけどかわいい

    生成した画像を加工すれば、漫画にも使えますね。

    アイビスペイントを使った漫画の描き方については、
    デジタルハリウッド大学大学院「クリエイティブAIラボ」が技術書典に同人誌としてまとめいらっしゃいますのでこちらもご参考まで。


    メタバースで(ともいき)漫画を描く:DHGS_CAIL デジハリ大学院「クリエイティブAIラボ」
    「メタバースで(ともいき)漫画を描く」 著者: しらいはかせ・Kotone・Itsuki・Lucas・傷だらけのキューティtechbookfest.org

    漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較! | AICU media @AICUai #note https://note.com/aicu/n/n393f2cebfc75


    #AI漫画 #AICU #つくる人をつくる #SD黄色本

    画像
    カワイイけど何言ってるかわからない!