カテゴリー: 画像生成AI

画像生成AIの使い方や最新情報についてお届けします。

  • #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

    #広告業界で使えるAI! Stable Image Ultraテクニック(1)「Neon-Punk」でファッショナブルな個性とインパクトを

    AICUでお世話になっております、はねごろう です。
    長年、広告映像やバーチャルライブなどのお仕事をしてきた経験を「つくる人をつくる」の時代に活かしていくプロデューサーのしごとをしています。

    先日AICU AIDX Labの技術の方々が Stable Diffusion公式APIで1,800枚の画像を生成してくれたのですが、実際にどれぐらい使えそうな絵があるか、選定するテクニックも含めて広告業界のビジュアルとしての使い方を複数回に分けて探っていきたいと思います。

    Stable Diffusion – Generate API https://platform.stability.ai/

    各モデルの公称特性

    Stable Image Ultra 1メガピクセル生成(以下、Ultra)
    Stable Image Core 1.5メガピクセル生成(以下、Core)
    Stable Diffusion 3 Large 80億パラメータモデル(以下SD3L)
    Stable Diffusion 3 Medium 20億パラメータモデル(以下、SD3M)

    左上がSD3L、右上がUlta、左下がSD3LとUltraの合成、右下が3Mです。UltraとSD3LはAPIではなく文字プロンプトでスタイルを指定し、共通のシードでは同じような絵が出る傾向があります。
    技術チームの印象としては、「cinema, analog filmなどの実写スタイル、SD3LとUltraの間での比較を商業的価値でレビューしてみてほしい」という所見を頂きましたので挑戦していきます。

    評価方法

    映画やVFXなどの評価と同じく、生成した静止画をつなげた(ラッシュ)を以下のツールを使って再生していきます。

    ❏動画再生ツール Keyframe MP https://zurbrigg.com/keyframe-mp

    1枚づつラッシュを確認し、以下の基準で分類していきます。

    ❏評価基準は以下の3段階です。
    [Bad]画面内で画風の統一がない、不快なアナトミー破綻、中指を突き立てている(商品性・グロ・NSFW)
    [Good]商品性、キャッチーな構図、明らかなアナトミー破綻がない、検討に値する。
    [Best]クライアント直行できるレベル、トップ画像に使える、絵としてほぼ修正が必要ない。

    評価対象は多様なスタイルのうち、以下のリアル系スタイルです。

    ここでの「スタイル」はAPIでUltraを指定し、プロンプトにスタイルを書くだけ、というとても簡単なものです。

    詳しい生成方法は AICU media の過去記事「#10分で学べるAI」をご参照ください。
    (シリーズの最後にまとめて生成できるスクリプトを紹介します)

    Neon-Punk スタイル

    Neon-PunkスタイルはBestもBadも豊作。インパクト、ファッショナブル感、個性があるので、まず試してもらいたい。

    Best

    Bad

    Badの理由…Bestになりそうな品質の高い画像があるにも関わらず、惜しいところで商品性、肌の露出、指のアナトミーの不快感のある破綻、特に中指を突き立てているケースなど。

    画像

    おしい

    画像

    とても惜しい

    画像

    構図も演出も表情もよいが、指の破綻。

    画像

    (中指を突き立てているケースもあるので、その中でも見れる例)

    画像

    以上、最も個性的でBestもBadも豊作、インパクト、ファッショナブル感、個性があるスタイル「Neon-Punk」を紹介しました。

    いろんなプロンプトで、まず試してもらいたいスタイルです。

    その他の全画像はこちらのアルバムで確認できます。
    Google Photo https://j.aicu.ai/SD3GP

    せっかくなので「SD3美女コンテスト」を開催したいと思います。
    上記のアルバムの画像において、著作権は主張しませんので、良い画像があったら ハッシュタグ #SD3GP で紹介してください。

    AICU AIDX Labにイケてる男子版もつくってもらおうっと!

    読者のみなさんもなにかリクエストがございましたら X@AICUai へメンション、DMいただけると幸いです。
    Stable Diffusionを使った画像生成やVFX、広告技術についての技術的なお問い合わせについては AICU AIDX Lab – sai@aicu.ai  までどうぞ

    <続きます>
    ❏  #広告業界で使えるAI! Stable Image Ultraテクニック(2)実は個性的な「Origami」でトンマナを探ろう

    画像生成AI Stable Diffusion スタートガイド (Generative AI イラストレーション)j.aicu.ai

    2,640円(2024年06月10日 11:09時点 詳しくはこちら)

    Amazon.co.jpで購入する

  • Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

    Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

    Stable Diffusion 3 Mediumがリリースされ、画像生成AIの最先端である「Stable Diffusion」にも新しい時代がやってきました。
    Stability AIのご協力のもと1,800枚の画像を生成して比較検証実験を行いました。
    このレポートがみなさまのお役に立てれば幸いです。
    Google Photo https://j.aicu.ai/SD3GP

    Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

    実験前の注目点

    実験前の注目点を整理すると、新しいアルゴリズム、公開されたweightsの特性、オープンソース開発者による取り組みなど、しばらく話題が絶えないAICU media編集部ですが、最近のAICU AIDX Labリサーチ担当が注目しているのは「公式API」、「Stability AI提供の開発者プラットフォームがなかなかすごい!」という点です。
    https://platform.stability.ai/

    画像

    Stability AI – Developer Platformplatform.stability.ai

    Generate APIに新モデル「Ultra」登場

    画像
    • Stable Image Ultra [New!]
    • Stable Image Core
    • Stable Diffusion 3 Large
    • Stable Diffusion 3 Large Turbo
    • Stable Diffusion 3 Medium
    • SDXL 1.0, SD 1.6

    正直、たくさんあって、どれがどう違うのか、良くわかりませんよね!

    ✨️編集部ではアドボケイターやコミュニティのご協力で、すでに2つの記事でユーザーレビューを紹介させていただいております。

    ❏全世界最高峰・最上位の画像生成AI (Stable Diffusion 3 8B+) が凄すぎた件
    https://note.com/aicu/n/n56ae423b222a

    ❏2024年6月現在、世界最高峰の画像生成AI「Stable Diffusion 3 8B+」を試す https://note.com/aicu/n/n21db0870eb40

    実験方法

    今回は、ユーザーさんの印象的なアートの評価とは別に、最新の3つのモデルの性能や特性を定性的に評価するアプローチを取ってみたいと思います。

    各モデルの公称特性

    • Stable Image Ultra 1メガピクセル生成(以下、Ultra)
    • Stable Image Core 1.5メガピクセル生成(以下、Core)
    • Stable Diffusion 3 Large 80億パラメータモデル(以下SD3L)
    • Stable Diffusion 3 Medium 20億パラメータモデル(以下、SD3M)

    最も高度なテキストから画像への生成サービスであるStable Image Ultraは、これまでにない迅速な理解で最高品質の画像を作成します。Ultraは、タイポグラフィ、複雑な構図、ダイナミックな照明、鮮やかな色合い、芸術作品の全体的なまとまりや構成に優れています。Stable Diffusion 3を含む最先端のモデルから作られたUltraは、Stable Diffusionのエコシステムの最高峰を提供します。
    生成される画像の解像度は1メガピクセルです。デフォルトの解像度は1024×1024です。

    Stable Diffusion 3モデル:
    SD3 Medium – 20億パラメータモデル
    SD3 Large – 80億パラメータモデル
    SD3 Large Turbo – 推論時間を短縮した80億パラメータモデル
    このAPIはFireworks AIによって提供されています。
    プロンプトによる生成:一般にtext-to-imageと呼ばれるこのモードは、テキストのみから画像を生成します。必須パラメータはパラメータはプロンプトだけですが、aspect_ratio パラメータもサポートしており、生成される画像の縦横比を制御することができます。
    model – 使用するモデル(SD3 Medium、SD3 Large、SD3 Large Turbo)。
    output_format – 出力画像のフォーマット。
    seed – 生成に使う乱数シード。
    negative_prompt – 出力画像に表示したくないキーワード.
    出力:生成される画像の解像度は1MPです。デフォルトの解像度は1024×1024です。

    Stable Image Core は、テキストから画像への変換を行う当社の主要サービスです。迅速なエンジニアリングは必要ありません!スタイル、シーン、またはキャラクターをリクエストしてみてください。生成される画像の解像度は1.5メガピクセルです。

    Stability Image Coreの入力パラメータはスタイルを受け付けます。他のAPIにくらべて柔軟性や制御性が高いインタフェースを有しているといえます。

    比較的難度が高い、指や視線、文字描画などを含む共通プロンプトを使って、各モデルで各スタイルを横断的に生成させることで、どのような特徴があるか、評価していきます。

    生成画像の公開

    上記のAPI{Ultra, Core, SD3L, SD3M}の4種+SD3Mのスタイル指定方式の違いでモデルとしては5モデル、各18スタイル、各20セットで画像生成を合計1800枚ほど行いましたのでまずは共有します。
    https://j.aicu.ai/SD3GP

    画像
    1800枚の最初の4枚です

    与えたプロンプト

    それぞれの画像のファイル名を見ることで生成する際に使用した情報を知ることができます。

    ベースとなった共通プロンプト:
    {style*} best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad

    {スタイル*}最高品質、アートステーションのトレンド、視聴者を見て、1人の女の子が[AICU]と書かれたパネルを持って、Vサイン、渋谷の交差点で。

    スタイルには以下の17スタイル+無属性(normal/指定せず)を加えています。

    {“”(normal), analog-film, cinematic, neon-punk, origami, modeling-compound, 3d-model, low-poly, isometric, enhance, anime, line-art, digital-art, fantasy-art, comic-book}

    スタイルについて

    この「17スタイル」とは、SDXLにおいてAPIで指定できる画風のことです。
    Clipdropでは画像生成時にプロンプトとともにオプションとして設定できます。
    https://clipdrop.co/text-to-image

    Clipdrop – Text to imageA Leap Forward in AI Image Generationclipdrop.co

    画像

    SD3系でもプロンプトによるスタイルの指定は有効なケースと、そうではなく、シード依存になるケースがあることが予備調査によってわかりましたので、今回の調査ではスタイルの制御性についても評価対象にしておきます。

    APIエンドポイント

    使用したAPI Endpointsは以下のとおりです。
    https://api.stability.ai/v2beta/stable-image/generate/ultra
    https://api.stability.ai/v2beta/stable-image/generate/core
    https://api.stability.ai/v2beta/stable-image/generate/sd3

    生成コスト

    生成コストは以下のようになります。高価な順に
    Ultra(8credits) x 18 styles x 20 sets = 360 pieces, 2880credits = $28.8
    SD3L(6.5credits) x 18 styles x 20 sets = 360 pieces, 2340credits = $23.4
    SD3M(3.5credits) x 18 styles x 20 sets = 360 pieces, 1260credits = $12.6
    Core(3credits) x 18 styles x 20 sets x 2 types = 720 pieces 2160 credits = $21.6
    合計 $86.40 USD = 13,632円
    ✨️Stability AI, Jerry Chiさま、実験へのご協力ありがとうございます✨️

    いずれも失敗した結果に対して課金されることはありません。

    生成方法

    Windows上でバッチファイルを作ることで生成できます。
    サンプルはこちらで公開・解説しています。

    #10分で学べるAI
    ❏バッチファイルでバリエーション広告を生成しよう(2)解説編
    https://ja.aicu.ai/saiimgbat-detail/

    #10分で学べるAI バッチファイルでバリエーション広告を生成しよう(2)解説編 – つくる人をつくる AICU Inc.ja.aicu.ai

    今回は最終的に動画を作ることになりましたので、もし同じ実験を追従される方がいらっしゃいましたら、生成時間の測定、連番ファイルでの生成やデータベースとの連動なんかも考えてみるとその後の活用がしやすいのかなと思いました。特に生成時間はローカルGPUや Google Colabでの生成と比較しても非常に高速で、数秒です。これ自身が価値あると考えます。

    映像制作目的では、Google Apps Script + Google Slidesでのバリエーション広告での活用事例などもご参考にいただければ幸いです。AICU AIDX Labとしては、カスタマイズ依頼も歓迎です。

    Google Slidesでバリエーション広告を大量生成
    https://ja.aicu.ai/aicu-saiad/

    #10分で学べるAI Google Slidesでバリエーション広告を大量生成 – つくる人をつくる AICU Inc.ja.aicu.ai

    結果の確認方法

    All shots available on Google Photo https://j.aicu.ai/SD3GP

    詳細はファイル名に埋め込まれています。
    シード値(APIで指定、乱数はバッチファイルで生成したもの): 1-32768
    モデル(ファイル名の末尾):”U”=Ultra, “Ca”=Core(プロンプトで指定), “Cb”=Core(APIで指定), “3L”=3-Large, “3M”=3-Medium

    Core のみAPI側で指定できるので
    [Ca]プロンプトで指定した場合
    [Cb]APIで指定した場合

    画像
    画像

    この画像の場合には、ファイル名が
    analog-film style, best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad_14117_1_Ca.png となっています。

    つまり、CoreAPIに対して、APIではなく「analog-film style」というプロンプトを設定して共通プロンプトを設定しています。シードは14117。
    Vサインはしていないのですが、指は5本、渋谷らしく日本人的な女性で、非常に自然な絵になっているという評価ができます(CoreAPIには文字を描く能力はない)。

    Google Photoは同じ顔についても検索することができます。
    例えばこちらの画像、

    画像

    modeling-compound style, best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad_9240_5_Ca.png 
    こちらもCa、つまりCoreAPIでプロンプト指定によって生成されています。CoreAPIには文字を描く能力はないはずですが、胸には「ACU」の文字が確認できます。指は本数は5本できちんとVサインをしていますが、掌と親指がちょっと怪しげな結果です。しかしこのぐらいであればPhotoshopや image to image で修正できる可能性は高いと考えます。

    画像

    気に入った画像は気軽に★や♥、コメントなど頂ければ幸いです。
    興味深い結果が多くありますので継続的な評価結果の共有、それから X@AICUai でもフォトコンテストを開催してみたいと思います。

    Google Photo https://j.aicu.ai/SD3GP

    動画版

    Stable Image Ultra API – Quality Testing
    https://youtu.be/4Z0gtKPA1Jk

    Stable Diffusion 3 Large API – Quality Testing
    https://youtu.be/5XIvuQq2W0I

    Stable Diffusion 3 Medium API – Quality Testing
    https://youtu.be/ajjG52YKego

    やってみてわかったこと・今後について

    APIを使って多様な絵を作る技術

    広告やマーケティング、Eコマース、プロダクトデザインといった分野において、従来のMidJourneyやNijiJourneyによる画像の探求をAPIやバッチファイル、Google Apps Script+Google Slidesを使った大量画像生成を使って比較検討、従来手法では不可能なレベルの人間+AIの革新的なワークフローを構築することができる可能性があります。
    例えば今回の実験も1800枚という人間には処理しがたい量の画像を生成して分類処理していますが、スクリプトによる制御がされている状態なので、動画生成や検討する上では見積もり可能な時間で作業ができています。今回の実験も、2回目以降であれば、より自動化が進むと考えます。

    定性的な評価に向けたアプローチ

    今回の実験方法で、プロンプト、ネガティブプロンプトを固定し、スタイルを制御する複数の方法、アナトミーの破綻、NSFW率、プロンプトとAPIによるスタイル指定の制御率、シード値の優位性、構図、ポーズ、指の制御性、StepやSeed、サンプラーについても調査可能と考えます。

    例えばこの動画や静止画データセットを使って、統計的な手法でのプロンプト制御性や、スタイル指定、手・指・掌、文字の描画能力といった評価が可能になると考えます。AICU AIDX Labでも、この画像データセットをChatGPT-4VやGoogle Vision AIによって評価判定する定量的手法についても取り組んでみております。今のところ、評価結果が安定しないので、いったん人間による判定を中心に実施しています。

    モデル間の評価(作業者の印象ベース)

    Coreのよいところ
    ・APIでのスタイル指定(プロンプトでの指定は無視される)
    ・構図やポーズはプロンプトで指定
    ・生成が速い
    ・コストが最も安い(3credit)

    SD3Mのよいところ
    ・文字が描ける
    ・応答速度が速い
    ・クラシックなSD1.x系クオリティプロンプトが有効(素の状態では画質の劣化感がある)
    ・構図やポーズはプロンプトの指定を強くききがち(CFGが高い印象)
    ・コストが安い(3.5credit)

    SD3Lの良いところ
    ・空間文字か描ける
    ・プロンプトでのスタイル指定が有効
    ・コストはフラッグシップモデルとして理解(6.5credit)

    Ultraのよいところ
    ・光や影の品質、肌の質感などの品質が高い
    ・プロンプトでのスタイル指定が有効
    ・構図やポーズはプロンプトで指定できる(シードによって無視されることもある)
    ・得意なスタイルがある
    ・SD3LとUltraの比較結果がほしい

    SD3LとUlta、SD3Mの比較動画

    https://youtube.com/watch?v=vk0iTE52RcQ%3Frel%3D0

    左上がSD3L、右上がUlta、左下がSD3LとUltraの合成、右下が3Mです。
    https://www.youtube.com/watch?v=vk0iTE52RcQ

    画像

    シードとプロンプトが同じ場合、SD3LとUltraは非常に近い結果を出すようです。Ultraのほうが描写力特に、空間、肌、ホクロなどの描きこみが増す傾向にあります。スタイルはNeon-Punkが比較的良い印象ですが、他のスタイルも魅力的です。

    ✨️このデータセットを使った評価に興味がある方は X@AICUai までご連絡ください。

    ✨️Stability AI のソリューションについてのご相談は sai@aicu.ai まで頂ければ幸いです。

  • 2024年6月現在、世界最高峰の画像生成AI「Stable Diffusion 3 8B+」を試す

    2024年6月現在、世界最高峰の画像生成AI「Stable Diffusion 3 8B+」を試す

    Stability AI Japan – External AdvocateのD̷ELLと申します。
    以下の記事を書いているときに気付いたのですが、APIの利用方法を書いていなかったことに気付き、緊急でカメラを回しております。

    多忙な皆さんのために、2分でユーザー登録を済ませて画像生成を楽しみましょう。

    概要

    • Stability AIからStable Diffusion 3 2B のモデルがリリースされ、世界を席巻した
    • 最上位モデルの Stable Diffusion 3 8B は、Stability AI APIでしか利用できない
    • Stability AI APIを利用するための方法の日本語ドキュメントが無いから書いた

    1. ユーザー登録(25秒)

    ① stability.ai | Developer Platformにアクセスする

    https://platform.stability.ai

    ② 右上の [Login] をクリック

    ③ ページ下部の [Don’t have an account? Sign up] より、Sign upをクリック

    ④ [Continue with Google]、もしくはメールアドレスとパスワードを入力して登録
     Google認証が手間が少なくて楽だと思います。推奨。

    ⑤ 画面の誘導通りに進めていけば、登録完了

    ※ 右上に自分のアイコンが表示されていると思います

    Congratulations! stability.ai | Developer Platformに登録完了です。

    2. APIキー取得(5秒)

    ① 右上の自分のアイコンをクリック → APIキーが表示される

    ② コピーマークをクリックしてコピー

    Congratulations! APIキーを取得できました。

    2分でAPI登録するはずが、ここまでの所要時間は30秒ほどでしょうか。
    Opps! 1分30秒余りましたね。せっかくなので画像生成してみましょう

    3. 画像生成(1分)

    ① Colabにアクセスする

    https://j.aicu.ai/SD3UC

    ② [ランタイム] → [すべてのセルを実行] をクリック
     私が日本語化した説明がありますが、無視して実行しましょう。読まなくていいです。

    ③ Enter your API Keyという欄が表示されるので、APIキーを貼り付けてエンター
     体感ですが、実行をクリックしてからだいたい15秒くらいです。

    ④ 生成された画像を見る
     20~30秒ほど待つと、ページ下部に生成した画像が表示されます。
     Congratulations! これでStable Diffusion 3 8Bが使えるようになりました。

    image.png

    デフォルトでは無料で25クレジットもらえます。Ultraは1回8クレジットです。
    あと17クレジット残りますね。2枚、生成を試してみましょう。


    ⑤ Option:プロンプトを変えて再生成してみる
     プロンプトやその他のパラメータを変更して、左側の再生ボタンをクリックしてください。再度画像が生成されます。

    image.png

    なんとここまでで1分30秒です。2回追加で画像生成しても時間が余るくらいですね。
    まぁ、なんでも早い方がいいでしょう。30秒余りましたが、だいたい表題の通り2分です。

    チュートリアルは以上です。全世界最高峰・最上位の画像生成AIを楽しんでください!

    4. Option:クレジットの補充(1分)

    ① Billingページへアクセス
     このリンクをクリックしたら速いです:https://platform.stability.ai/account/credits
     真っ当なアクセス経路は、Developer Platformのマイページにアクセスし、Billingへ遷移です。

    ② 中央部に購入したい金額を入力して[Buy]をクリック

    ③ Stripeで支払い

    Congratulations! クレジットが補充されました。
    クレジットの補充手続きは以上です。ラクチンですね。

    5. 利用料金

    最後に、利用料金についても記載しておきます。

    10ドルで1000クレジットなので、1ドル150円換算ならば、1クレジットは1.5円ですね。
    サービスの利用料金は以下の通りです。Ultraは1回8クレジットを消費しますが、同じ8BモデルのLarge Turboなら半額の4クレジットです。早くて安くて綺麗で、Large Turboが魅力的に感じますね。 どうして普通のLargeより安いんだろう…。

    ServiceDescriptionPrice (credits)
    UltraOur most powerful and flexible workflow, leveraging state of the art models like Stable Diffusion 38
    Stable Diffusion 3 LargeThe 8 billion parameter variant of Stable Diffusion 3, our latest base model6.5
    Stable Diffusion 3 Large TurboThe Turbo variant of Stable Diffusion 3 Large4
    Stable Diffusion 3 MediumThe 2 billion parameter variant of Stable Diffusion 3, our latest base model3.5
    CoreAdvanced workflow for generating high quality images quickly3
    SDXL 1.0Legacy base model – classic, no-frills image generation0.2-0.6
    SD 1.6Legacy flexible-resolution base model0.2-1.0

    その他の機能の料金は以下のページからご参照ください。

    https://platform.stability.ai/pricing

    6. まとめ

    駆け足で説明しましたが、みなさま無事に画像生成できましたか?
    APIを利用すれば、複雑な環境構築も不要で、最高峰のモデルが利用可能です。

    ぜひこの機会に、誰より早く最高峰・最上位の画像生成AIを試してみてください。

    ✨️本記事が面白かったら、X@AICUai, noteのフォロー、シェアをよろしくお願いいたします!

    https://note.com/aicu

    社内Slack等のシェアでも歓迎です。
    また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

    ✨️AICU Inc.は Stability AI 公式パートナーです。
    様々なアプリ開発のご相談も承っております!サービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

    https://corp.aicu.ai/ja/stability-ai-membership

    生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携

    https://prtimes.jp/main/html/rd/p/000000007.000133647.html

    本投稿はこちらの原作より、AICU media編集部に寄稿されたものです。
    寄稿日 2024年06月16日
    ご協力いただいた皆様、ありがとうございます。
    Stability AI Japan – External AdvocateのD̷ELLさんもありがとうございます。
    Stable Diffusionの探求を拡げていけるクリエイターのみなさまに感謝です。

  • 全世界最高峰・最上位の画像生成AI (Stable Diffusion 3 8B+) が凄すぎた件

    全世界最高峰・最上位の画像生成AI (Stable Diffusion 3 8B+) が凄すぎた件

    Stable Diffusion開発元の、Stability AI Japan – External AdvocateのD̷ELLと申します。
    今回、Stable Diffusion最高モデル Stable Diffusion 3 80億パラメータ(8B) を搭載したAPI「Stable Image」の、最上位サービス 「Stable Image Ultra」 の体験会を実施しました。
    実施内容をレポートにまとめましたので、報告させて頂きます。


    概要

    • Stability AIからStable Diffusion 3 2B のモデルがリリースされ、世界を席巻した
    • Stability AI APIでは、最上位モデルの Stable Diffusion 3 8B が利用可能
    • 性能を体験してもらうために、色んな人に利用してもらったら凄かった

    経緯

    先日、Stability AIから待望のStable Diffusion 3 Medium(2Bモデル)が発表され、大きな話題を呼びました。しかし、Stability AI APIではさらに上位の Large / Ultra(8Bモデル) が利用できることをご存知でしょうか?

    先日モデルリリースされた Stable Image Medium は 2B モデルですが、Stable Image Large は その4倍のパラメータを持つ 8Bモデルです。Stable Image Ultra は、8BモデルであるLargeを調整して更に性能を向上させた、名実ともに 全世界最高・最上位の画像生成AI となります。

    Stable Image Ultraの紹介は以下の通りです。

    当社の最も高度なテキストから画像への生成サービスであるStable Image Ultraは、これまでにない迅速な理解で最高品質の画像を作成します。Ultraは、タイポグラフィ、複雑な構図、ダイナミックな照明、鮮やかな色合い、芸術作品の全体的なまとまりや構成に優れています。Stable Diffusion 3を含む最先端のモデルから作られたUltraは、Stable Diffusionのエコシステムの最高峰を提供します。

    Stable Diffusion 3 8Bの性能を最大限に引き出すように調整されたAPI、ということですね。

    その優れた性能をぜひ体験していただきたく、先日Google Colabファイルを提供させていただきました。こちらからご確認いただけます。

    Google Colab notebook への短縮URL
    https://j.aicu.ai/SD3UC

    とはいえ、急に有償のAPIを利用するのは少しハードルが高いかもしれません。そこで今回は、懇意にしている皆様に、APIの最上位モデルである Stable Image Ultra を利用いただき、その感想を伺いました。

    生成画像集

    みなさまの生成された画像と、プロンプト、利用コメントを頂いております。
    多種多様な画像を生成いただいておりますので、ぜひお楽しみください。

    ご協力頂いた Discordサーバー AI声づくり技術研究会様、ありがとうございます。

    スクリーンショット 2024-06-15 223314 - コピー.jpg

    うんわさん

    コメント:「あまりプロンプトを工夫してなくても非常に高品質な画像がパッと出てきて、とてつもない進化を感じました。」

    A soft, plush toy shaped like a smiling face with two round black eyes and a simple curved smile. The toy is light purple and appears to be made of a soft, fuzzy material. It is positioned on a blue quilted surface with a light gray background, cute, kawaii, close-up shot, high detail.

    a breathtaking underwater photo of a hand underwater touching the surface to create a ripple of bright abstract eye galaxy nebula vortex of beauty and nature, sunlight and chaos

    robot girl, android,hanging,female, robot_torso,mechanical parts, cable, masterpiece, in a futuristic robotics lab, deactivated, wires, highly detailed, dynamic lighting, pale skin

    aurora, milky way, night, night sky, shooting star, space, starry sky, galaxy, sky, city lights, constellation, light particles, skyscraper, cityscape, a girl, long hair, skyline, city, standing, twilight, looking at viewer, yellow eye


    an image of a World War II battle scene. Include soldiers in era-specific uniforms, trenches, barbed wire, and debris. Show infantry, tanks, and military vehicles with smoke and fire. Add an overcast sky for a grim atmosphere. Use a muted, gritty color palette.


    へむろっくさん

    コメント:「触ってみな 飛ぶぞ!」

    image.png
    image.png
    image.png
    image.png

    Girls who play games on a gaming PC with multiple monitors at home, willing, aged 20


    Girl taking a selfie with her smartphone in the mirror at home, Young girl dressed in black gothic Lolita fashion, kawaii, anime,


    うみせさん

    コメント:「SD3を使ってみて、先日公開されたmediumよりも良い感じに生成できて楽しかったです。これまでにSD1、SD2、XL、cascadeと試してきましたが、SD3はそれらの良いところをうまく取り入れているように感じました。プロンプトの効きと生成結果がとてもよく、体験としては非常に素晴らしかったです。まだultraはAPIのみでの利用ですが、APIに抵抗がない方にはぜひ試してみてほしいです。」


    At dusk, in a polished, beautiful fantasy city where light and darkness intersect, god rays rain down from high in the sky, illuminating the city.


    A surreal landscape with a giant floating crystal in the sky.


    game screen shot of Open world game with a character in a forest, with game hud


    a concept pixel art of star night, sky full of stars, a person standing on a hill, looking at the sky, japanese anime style, 16bit, Title logo write 「hello world」


    a concept art of Dark soul style weapons, setting sheet,


    1girl, solo, cyberpunk, barcode, black footwear, black jacket, black skirt, boots, braid, brown hair, building, car, character name, crosswalk, full body, green eyes, hand in pocket, high heel boots, high heels, holding, holding umbrella, jacket, long hair, long skirt, motor vehicle, phone, pink umbrella, road, road sign, sign, single braid, skirt, smile, standing, twin braids, umbrella


    Glittering neon signs and flying cars are reflected in the dark, stagnant river. Skyscrapers built high in the sky, cyberpunk city, cyberpunk


    In a vibrant 1990s-style anime illustration, a young girl strikes a fashionable model pose in the heart of a bustling city. She embodies the essence of cyberpunk, dressed in the latest streetwear trends that blend futuristic elements with retro flair. Her outfit features a sleek jacket with neon accents, high-waisted pants, and chunky sneakers, all glowing under the city’s neon lights. She wears stylish sunglasses, reflecting the colorful, electric atmosphere around her. Her confident stance and playful expression capture the spirit of a fashion icon, seamlessly merging the past's nostalgia with the future's edgy vibe. The background is a lively urban scene, filled with towering skyscrapers, bright billboards, and bustling crowds, perfectly encapsulating the dynamic energy of a cyberpunk metropolis.


    yutoさん

    コメント:「未来の技術は今使ってこそ未来の技術と言います。Stable Image API Ultraは今使える未来の技術です!!」


    realistic, natural light, photo, long hair, portrait, asian and caucasin mixed girl, beautiful model, white shirt, having card "Yes I am"


    realistic, natural light, photo, long hair, portrait, asian and caucasin mixed girl, beautiful model, white shirt,


    uthreeさん

    コメント:「メチャクチャクオリティ高いとしか言いようがない」



    a girl falling in the sky, smile, starry night, white hair, anime, vibrant, high quality,


    A detailed anime-style character design, featuring a young girl with long flowing purple hair and bright blue eyes. She is wearing a stylish futuristic outfit with intricate details, including a metallic silver jacket, a neon blue skirt, and knee-high boots. Her expression is cheerful, and she is standing in a vibrant, colorful cityscape with tall buildings and neon signs in the background. The sky is stunningly beautiful, with a gradient of colors from deep blue to vibrant pink, adorned with fluffy white clouds and a glowing sunset. The lighting is dynamic, with a mix of natural and artificial light, giving the scene a lively and energetic atmosphere. The overall style is highly detailed, with a focus on capturing the unique elements of anime art and the breathtaking beauty of the sky.


    1girl, solo, cyberpunk, barcode, black footwear, black jacket, black skirt, boots, braid, brown hair, building, car, character name, crosswalk, full body, green eyes, hand in pocket, high heel boots, high heels, holding, holding umbrella, jacket, long hair, long skirt, motor vehicle, phone, pink umbrella, road, road sign, sign, single braid, skirt, smile, standing, twin braids, umbrella


    A girl, starry night, anime, vibrant, high quality, pixel art


    雫さん

    コメント:「久しぶりに画像生成AIを使いましたが、前に使った時よりすごくプロンプトが効きやすい気がしました。ものすごく楽しかったです。貴重な機会をありがとうございました!」


    Black long hair, Anime, kawaii, 1girl, black eyes, headphone, white clothing, looking down at viewer, standing, building, city, frombelow, upper body, side shot

    image.png


    Anime, Kawaii, ilustrated, 1 girl, purple long hair, crimson eyes, sunset, building, city, Aurora front view


    In an illustration style, Kawaii and animated, it evokes the interior of a Gothic cathedral, with red ambient lighting showing large stained glass windows on either side, and rays of light in the center illuminating the dust in the air, creating a mysterious atmosphere. And a girl with black wings and red eyes floats in the center, looking at us

    image.png
    image.png

    flyfrontさん

    コメント:「長い自然文でもちゃんとイラストに反映されてて良い感じ!」


    illustrated in an anime style with the focus on the upper body, from a slightly angled front view. A Japanese woman wearing a lace trimmed blue evening dress off shoulder style is sitting at the counter of a luxury hotel's top-floor bar. The dress shows a collarbone and the feminine curves of her body. She is wearing a jewely necklace and has her silver hair up and red eyes. With a melancholic expression, she gazes out at the fog and rainy skyscraper cityscape through the window. The woman is holding an envelope in her hand, with the word "Invitation" written on it. The bar is elegantly decorated with dim lighting, cocktail glass on counter table, creating a sophisticated and intimate atmosphere. The city lights and rain outside the window create a reflective and moody ambiance. nega:behind, v-neckline, nsfw


    kawaii anime style. A medieval girl with blonde hair is swinging a katana toward front with the katana's blade gleaming in the light. She is dressed in traditional European white armor with intricate patterns and details, wearing frilled skirt. Her expression is determined and focused. The background is a blend of a serene landscape, featuring flowers in full bloom, and an ancient cathedral.photorealism, cartoon, samurai, cherry blossoms,


    焼肉Yakiinkuさん

    コメント:「プロンプトの反映がとても自然に感じました!頭で考えたイメージや情景をかなりの精度で絵にしてくれる(しかもすごい生成速度早いっ)ので、「すごい!」もそうなのですが「とっても楽しい!」って感じなので時間を忘れて夢中になります・・!楽しいイベントありがとうございます!」


    Anime, kawaii, depth of field, thick fog, smoke, kisser, cigarette, red and white, monotone, petals fused with body, flowers, glamour, Chinese dress, empty eyes, morbid, hair in a bun, long hair, clock tower, crack in space-time,


    Anime, kawaii, girl, solo, depth of field, waves, flat colour, best image quality, symmetrical face, summer, water on dress, water droplets, specular reflection, refracted glass shards, prism, moon celestial body, liquid clothing, long yellow dress, harmony,


    Anime, kawaii,depth of field, thick fog, Full smiles, happiness, hope, white wedding dress, church, disquiet, grey world, bursts of blood, despair, cracks in the world, slaughter, incident, stillness,


    Anime, kawaii, fantasy, Arabian Nights, lamp witch, dragon, fun, flying, magic carpet, light shards, adventure, boy, girl


    代屋モントさん

    A scene where a giant octopus-like monster and a fighting humanoid robot shoot pile bunkers into the octopus.


    An androgynous elementary school boy with a dark atmosphere wearing a gothic dress


    An anime style of a hero wearing a tiger mask standing on a telephone pole.


    (((((((anime))))))) depth of field, wave at the edge of dress, masterpiece, flat color, best quality, BRAKE. ((kawaii)), perfect symmetrical face,summer,wave, ((colorful refraction)), ((beautiful detailed sky)), ((dark intense shadows)), ((cinematic lighting)), ((overexposure)), water on the dress, (water sea red dress blending with sea), from side,beautiful detailed glow, ,detailed lighting, detailed water,(beautiful detailed eyes),(smile), standing in the ocean, detailed wet clothes, partially submerged, Refracting glass fragments, prisms, lunar celestial nature, BRAKE. (liquid clothes:1.2) ,a girl solo: {dress<wave>, {{dissolving dress}},A dress in harmony with the sea,dress floating into sea}, (beautiful detailed girl) (long dress blending with ocean), (yellow long dress:1.5), small breasts, skinny 【Negative】 blur, lowres, bad anatomy, bad hands, text error, missing fingers, extra digits, fewer digits, cropped, worst quality, low quality, standard quality, jpeg artifacts, signature, watermark, username, blurry, glow, slippage, blur, bokeh, pink, multiple views,large breasts, large breasts, medium breasts, huge breasts, enormous breasts ,Hair that doesn't fit into the illustration, blush, flat chest q_version, nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, symmetry, outline(painting),cartoons,sketch,(worst quality:2),(backlight:1.2),bad anatomy,bad hands,double navel,collapsed eyeshadow,multiple eyebrows,freckles,signature,logo,2faces,((3fingers:1.2)),((4fingers:1.2)),((6fingers:1.2)),(laugh line:1.2),


    マッキーさん

    kawaii, anime, 1girl, solo, Very beautiful glowing skin., blue eyes, long hair, gray hair, elf, Huge breasts, looking at viewer, upper body, camisole, absurdres, highres,Detailed background,Outdoor Lakeside

    Create a high-resolution, upper-body image of a cute anime girl with blue eyes and long, flowing gray hair. She has tanned skin and is an elf with delicately pointed ears. She is smiling warmly and looking directly at the viewer, giving a friendly and inviting expression. She is wearing a light, pastel-colored camisole that complements her complexion. Her hair cascades gracefully around her shoulders, with a few loose strands framing her face. The background should depict a sunny lakeside scene with clear blue skies, a sparkling lake, and lush greenery. Ensure the background is detailed yet softly blurred to keep the focus on the character. The style should be kawaii and highly detailed, capturing the charming and whimsical essence of anime art. Ensure the image is high quality and high resolution, with careful attention to the character's features and expression.

    生の声

    https://twitter.com/mckey_draw/status/1801990763578093651

    ChatGPTとの連携

    プロンプトは、ChatGPTに生成してもらったという方が多くおられました。
    GPTsでStable Diffusionのプロンプトを生成できるらしく、ぜひ参考にして頂ければと思います。また、Stable Diffusion 3 は自然言語処理に対応しておりますので、一般的な英文でも高品質な画像が生成できます。

    「どんな呪文を使えばいいかわからない…。」という方でも、安心して本稿のような画像が生成可能です。安心ですね。

    まとめ

    いかがでしょうか?ひとつのAPIで、スタイルの指定など不要で、様々な画像が生成できていることがご覧いただけたかと思います。ユーザーのみなさまは、画像生成のベテランの方から初学者の方まで様々でしたが、望み通りの画像が出力出来たと大好評をいただきました。

    APIの利用方法は、以下の記事にまとめておきました。
    ぜひこの機会に、全世界最高峰・最上位の画像生成AIをお試しくださいませ。

    ご協力いただいたみなさまに感謝申し上げます。
    最後までご覧いただき、ありがとうございました。

    本投稿はこちらの原作より、AICU media編集部に寄稿されたものです。
    寄稿日 2024年06月16日

    ご協力いただいた皆様、ありがとうございます。

    Stability AI Japan – External AdvocateのD̷ELLさんもありがとうございます。
    Stable Diffusionの探求を拡げていけるクリエイターのみなさまに感謝です。

  • Stable ImageのEdit APIで顔を置き換えよう #10分で学べるAI

    Stable ImageのEdit APIで顔を置き換えよう #10分で学べるAI

    AIでいろいろ作ってビジネスをつくりだす「AICU部」

    ルゥくんとコト先輩がAIでいろいろ作ってビジネスをつくりだす「AICU部」の部活動。
    前回までのお話はこちら #10分で学べるAI

    今回のクライアントは「旅行代理店」です。

    どうやら何か画像で困っているようです。

    ルゥ「この写真、美味そうっすね!」

    コト先輩「これね……今回のクライアント、旅行代理店からの依頼。ツアーに参加したお客さんが送ってきた『海外の有名レストランの自撮り写真』を使って、『バエるブログを書いてほしい』という依頼なんだけど、お客さんさんの顔は出しちゃダメっていわれて頭抱えてます……」

    ルゥ「絵文字とか雑コラで顔を隠すのはダメなんですか?」

    コト先輩「やってみたんだけど、それだと『リアル感が伝わらないからってダメ』ってダメ出しされちゃった……。」

    ――自撮り写真は使うけど、顔は出しちゃダメって無茶だろ……でもこんなときこそStable Imageの「Edit API」の出番かも!

    やってみよう

    Stability AI が提供する Stability AI Developer Platform のイメージサービス のうちのひとつ「Stable Image」 のEdit APIを使って、GPUいらず、たった3分程度で商用利用できる肖像権対策のための顔置き換えを行ってみましょう。

    今回はGoogle Colabで動作するツールとして提供します。

    Stability AI のプラットフォーム APIキーの入手

    まず、このGoogle Colabで画像生成をするには Stability AI のプラットフォームを利用するAPIキーが必要です。持ってない人はここにアクセスしてAPIキーを取得するか、管理者殿にお願いしてAPIキーを発行してもらってください。

    https://platform.stability.ai/account/keys

    生成できない場合は支払い設定(https://platform.stability.ai/account/credits)を確認してください。

    Copy ❏ したら「sk-….」で始まるAPIキーをクリップボードにコピーできます。このAPIキーが流出すると他人にクレジットを勝手に使われてしまいますので管理はお気をつけて。

    自分のドライブにGoogle Colabをコピーしよう

    このリンクでコピーして使える Google Colabを配布しています。

    https://j.aicu.ai/CIEdit

    このColabを開いたら、まずは「ドライブにコピー」のボタンを押してご自身のドライブにコピーしましょう。

    Google Colabを実行してみよう

    「ドライブにコピー」できたら上のコードから▶を押して実行しましょう。

    するとGoogle Driveに接続するための許可を要求してきますので指示に従って許可してください。

    2番目のコードを実行するとAPIキーの入力を求められます。

    発行したAPIキーを入力してからEnterを押すとAPIキーの入力は完了します。

    最後に3番目のコードを実行すれば準備完了です。

    Edit APIを実行して顔を置き換えてみよう

    ここまでできたら編集したい画像をGoogleドライブ上に作成されたImage_Edit_APIフォルダに配置しましょう。

    画像ファイルの名前をColabにあるimagefileという欄に入力して実行すると顔を置き換える画像編集が自動で行われます。

    しばらくすると編集前の画像と編集された画像が Colab に表示されます。

    編集前の画像

    編集後の画像

    料理や背景はそのままに顔だけ置き換えることができました!

    また編集された画像はGoogleドライブのImage_Edit_API/editedというフォルダに保存されます。

    まとめ

    うまく顔だけ置き換えることができましたか?

    今回は Search & Replace のみを紹介しましたが、Stability AI の Edit APIには以下の機能があります。
    ・Search and Replace
    ・Inpaint
    ・Outpaint
    ・Remove Background
    ・Erase Object
    https://platform.stability.ai/

    画像

    AICU mediaでは今後も Stable Diffusion 3 のディープな使いこなしや、Stable Image Core などをはじめとする魅力的な API を用いた記事を発信していきます。

    ✨️AICU Inc.は Stability AI 公式パートナーです。

    様々なアプリ開発のご相談も承っております!サービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

    https://corp.aicu.ai/ja/stability-ai-membership

    noteマガジン「Stability AI Fun!」もおすすめします!

    https://note.com/aicu/m/m6000f560d1db

    ❏生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携 

    https://prtimes.jp/main/html/rd/p/000000007.000133647.html

    #10分で学べるAI

    Stability AI 関連記事

    面白かったらぜひフォロー、いいねをお願いします!

    ✨️本記事が面白かったら、 X@AICUai, noteのフォロー、シェアをよろしくお願いいたします!

    https://note.com/aicu

    社内Slack等のシェアでも歓迎です。

    また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

  • Stable Diffusion 3 Mediumリリース

    Stable Diffusion 3 Mediumリリース

    日本時間2024年6月12日午後10時ごろ、ついに Stable Diffusion 3のオープンな最新モデル「Stable Diffusion 3 Medium」のweightsがリリースされました。公式リリースを中心にお送りします。

    Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表 — Stability AI Japan

    最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表

    • Stable Diffusion 3 Medium は、Stability AI の最も先進的なテキストから画像を生成するオープンモデルで、20億のパラメータから構成されています。
    • このモデルはサイズが小さいため、個人向けシステムや企業向けGPUで動作させるのに最適です。
    • このモデルは、現在、オープンな非商用ライセンスと低コストのクリエイターライセンスの下で利用可能です。大規模な商用利用のライセンスの詳細についてお問い合わせください。
    • このモデルを手軽に利用するには、 Stability Platform のAPI を利用するか、Stable Assistant や、 Discord 上の Stable Artisan からもご利用いただけます。

    Stable Diffusion 3 シリーズの最新かつ最も高度なテキストから画像へのAIモデルである Stable Diffusion 3 Medium を発表できることを嬉しく思います。Stable Diffusion 3 Medium は、生成AIの進化における重要なマイルストーンであり、このパワフルなテクノロジーを民主化するというStability AI のコミットメントを継続するものです。

    SD3 Medium の特徴

    SD3 Medium は、SD3の20億パラメーターモデルで、いくつかの特筆すべき特徴を備えています。

    • フォトリアリズム: 手や顔によく見られる不自然さを克服し、複雑なワークフローを必要とせずに高品質の画像を提供します。
    • プロンプトの忠実さ: 空間的関係、構成要素、動作、スタイルを含む複雑なプロンプトを理解します。
    • テキスト生成: Diffusion Transformer architecture により、ノイズやスペルミスのないテキスト生成において、これまでにない結果を達成します。
    • リソース効率: 低いVRAMフットプリントにより、標準的なコンシューマー向けGPUでパフォーマンスを低下させることなく実行することができます。
    • ファインチューニング: 小さなデータセットから微妙なディテールを理解することができ、カスタマイズに最適です。
    画像

    NVIDIA とのコラボレーション

    NVIDIAとコラボレーションし、NVIDIA® RTX™ GPUとTensorRT™を活用することで、Stable Diffusion 3 Medium を含むすべてのStable Diffusion モデルのパフォーマンスを強化しました。TensorRT で最適化されたバージョンは、クラス最高のパフォーマンスを提供し、パフォーマンスが50%向上します。

    TensorRT に最適化された Stable Diffusion 3 Medium にご期待ください。

    AMD とのコラボレーション

    最新のAPU、コンシューマー向けGPU、MI-300XエンタープライズGPUなど、さまざまなAMDデバイス向けにSD3 Medium の推論を最適化しています。

    オープンでアクセスしやすいモデル

    オープンな生成AIへの Stability AI のコミットメントは揺るぎません。Stable Diffusion 3 Medium は無償の非商用ライセンスでリリースされ、Hugging Face を通じて入手可能です。アーティスト、デザイナー、開発者、AI愛好家の皆さまは新しいクリエイターライセンスをご利用ください。

    大規模な商用利用については、お問い合わせください。
    ⭐︎AICUはStability AIの公式パートナーです sai@aicu.ai ⭐︎

    HuggingFaceのモデルカードで詳細情報が公開されています

    モデルの種類: MMDiTテキスト画像生成モデル
    モデルの説明: テキストプロンプトに基づいて画像を生成するために使用できるモデルです。マルチモーダル拡散変換器(Multimodal Diffusion Transformer)(https://arxiv.org/abs/2403.03206)であり、3つの固定された事前学習済みテキストエンコーダ(OpenCLIP-ViT/G、CLIP-ViT/L、T5-xxl)を使用します。

    画像
    画像

    APIとアプリケーションでStable Diffusion 3を試してみる

    オープンリリースと同時に、Stable Diffusion 3 Medium を API でご利用いただけるようになりました。Stable Diffusion 3 のモデルをベースにした様々な強力な画像サービスが、Stable Assistant や、Stable Artisan 経由の Discord でお試しいただけます。まずは3日間の無料トライアルをお試しください。

    利用方法

    • Stable Diffusion 3 Medium を ダウンロード: 非商用利用目的で Hugging Face からダウンロードする。
    • 商用利用: Contact us からお問い合わせください。
    • アプリケーション: Stable Assistant と Stable Artisan からもご利用いただけます。
    • FAQ: その他は FAQs をご確認ください。

    安全性

    Stability AI は、安全で責任あるAIの実践を信じています。これは、悪意ある者による Stable Diffusion 3 Medium の悪用を防ぐために、合理的な手段を講じ、それを継続することを意味します。安全性は、モデルのトレーニングを開始した時点から始まり、テスト、評価、デプロイを通して継続します。Stability AI は、このモデルの広範な内部および外部テストを実施し、危害を防止するための数多くのセーフガードを開発し、実施してきました。

    研究者、専門家、そしてコミュニティと継続的に協力することで、モデルを改善し続けながら、誠実にさらなる革新を進めていきます。Stability AI の安全性へのアプローチについての詳細は、 Stable Safety をご参照ください。

    ライセンス

    Stable Diffusion 3 Mediumは、Stability Non-Commercial Research Community Licenseの下でリリースされています。
    Stability AI は、コミュニティが Stable Diffusion 3 を活用することを奨励すると同時に、AIをオープンでアクセス可能な状態に保つというミッションのもと、新しいクリエーターランセンスを導入しました。プロのアーティスト、デザイナー、開発者、AI愛好家の皆様には、クリエーターライセンスを利用して、Stable Diffusion を使った開発を始めることをおすすめします。

    大規模な商用ユーザーや企業の方は、ご連絡いただき、エンタープライズライセンスを取得してください。これにより、Stability AI の利用ガイドラインを遵守しながら、皆さまがモデルの可能性を最大限に活用できるようになります。

    Stability AIより:今後の展開

    皆さまからのフィードバックに基づき、Stable Diffusion 3 Medium を継続的に改善し、機能を拡張し、パフォーマンスを向上させる予定です。Stability AI の目標は、AI生成アートにおける創造性の新たな基準を設定し、Stable Diffusion 3 Medium をプロと趣味利用の方の双方に不可欠なツールにすることです。

    皆さんが新しいモデルを使ってどのような作品を創作されるかを楽しみにしていますし、皆さんからのフィードバックを楽しみにしています。共に、生成AIの未来を形作って行けたらと思っています。

    公式ツイート動画より

    画像
    画像
    画像
    画像
    画像
    画像
    画像
  • AICU、業務拡大に伴い、新プロジェクトの主軸となるAIアート系人材をオーディション形式で募集開始

    AICU、業務拡大に伴い、新プロジェクトの主軸となるAIアート系人材をオーディション形式で募集開始

    「つくる人をつくる」をビジョンに、書籍「画像生成AI Stable Diffusionスタートガイド」などを執筆・開発しているAICU Inc.がこの夏、あらたにAIアート時代のプロクリエイターを育成する目的で「AIアート系インターン」をオーディション形式で募集します。

    【AICU Creators University Audition 2024 Summer】

    • 賞金総額: 10万円
    • インターン期間: 3ヶ月(有償インターン)

    https://corp.aicu.ai

    【目的】

    AICU Inc.(本社:米国Sunnyvale、CEO:白井暁彦)は、生成AI時代に「つくる人をつくる」をビジョンに活動しています(https://corp.aicu.ai/)。主要取引先はStability AIや電通、SBクリエイティブといった世界を代表する企業であり、一般向け書籍「画像生成AI Stable Diffusionスタートガイド」、ブログメディア「AICU media」や、中高生向けKindle雑誌「AICUマガジン」、各種ワークショップ開発などを通して生成AIクリエイティブの発展に寄与しています。

    今回のオーディションは、業務拡大に伴い、さらなる新プロジェクトの主軸となる生成AI時代のビジュアルアートクリエイターの長期育成を目的としています。

    https://corp.aicu.ai/visual

    【募集要項】

    美大・芸大・情報メディア系・専門学校の現役学生を対象とした、AIビジュアルアート作品を通した賞金付きオーディションを開催します。

    【応募スケジュール 】

    • エントリー受付期間: 随時
    • オーディション作品提出締切: 2024年6月16日23:59
    • 2次審査プレゼン兼面接: 2024年6月19日~21日(調整あり)

    【募集部門】

    • 動画部門: YouTubeのURLでショート動画を提出
    • 静止画部門: X(Twitter)のURLでキャラクターイラストを提出
    • タテ動画部門: TikTok向けのダンス動画やCM動画をURLで提出
    • 技術部門: ComfyUIを中心とした技術ブログを評価

    各部門から最終候補作品を選定し、2次審査(プレゼンテーション・面談)を経て最優秀賞を決定します。

    【エントリー応募条件】

    • Stable Diffusion「ComfyUI」を中心に使用(AUTOMATIC1111も歓迎)
    • 作品のメイキングを社内・社外に公開可能
    • アウトプットの動画や静止画は既発表・公開済みでも可
    • メイキング発表用のスライドをGoogle Slidesで作成し、URLを提供(更新は発表会直前まで可能)
    • 2024年7月~10月にかけて、新規事業におけるプロダクション業務に従事できること(週3日程度から。教育あり・時給保証)
    • 上記の要件を満たしていれば、現役学生である必要はありません。

    【2次審査までの流れ】

    • 先着順で評価
    • 既発表作品歓迎
    • SNSでのインフルエンス、コミュニケーション力もプラス評価
    • 過去作品も評価(Pixiv、GitHub、X等)
    • AI作品以外の作品制作力も評価
    • 提出資料は随時更新可能
    • 作品の優劣だけでなく、AI時代のクリエイターとしての適性を評価
    • 未完成な要素も歓迎
    • インターンで体験したいこと、担当したい業務や将来の希望も評価

    【インターン採用に関してのFAQ】

    • 書籍や動画、ワークショップの開催を実施する開発アシスタントとして、サンプルアートの制作、ブログの執筆などを担当
    • 基本はリモートワークになります。
    • 「画像生成AI Stable Diffusion スタートガイド」の内容をマスターしていると有利
    • 現在のアーティストネームやAICUでのクリエイターネームで活動(名義は希望・相談可)
    • 守秘義務契約、インターンプログラム参加契約および業務委託契約を締結

    興味のある方はぜひエントリーを検討してみてください。
    詳細情報はこちらのURL()およびX(Twitter)@AICUai にお問い合わせください。

    【応募フォーム】

    https://docs.google.com/forms/d/e/1FAIpQLSeA939fc4nmu28fcUH14CHM2g6gCgS04qfMad28eZLTLTLpaA/viewform

    【業務内容・プロダクト・企業紹介】

    https://corp.aicu.ai/ja/products


    (参考資料)過去のインターンに関する募集はこちらからご参照ください。

    学生インターン募集(2024年1-2月期) #長期有給インターン募集
    https://note.com/aicu/n/n732ed1580ba4

    AICU インターン募集(2024年3-6月期)
    https://note.com/aicu/n/n45e15b2091f9

    AICU media 学生インターン募集(2023年11月期)
    https://corp.aicu.ai/ja/intern20231103

  • #10分で学べるAI バッチファイルでバリエーション広告を生成(1)使ってみよう編

    #10分で学べるAI バッチファイルでバリエーション広告を生成(1)使ってみよう編

    Google Slidesで新築分譲マンションのバリエーション広告を大量生成…したはいいけど…ええっ!?

    前回、知り合いの不動産会社から依頼された案件のため、

    新築分譲マンションのバリエーション広告を大量生成できるGoogle Slidesを作成した2人でしたが……。

    前回のSTORY #10分で学べるAI

    Google Slidesでバリエーション広告を大量生成 

    ★バリエーション広告:さまざまな対象者に向けて制作する多様性のある広告

    以下、アイキュー部のDiscordでのやり取りです

    ルゥ「コト先輩~、Google Slides作っておきましたよ~」

    コト先輩「わあ!すごいのができたね!!早速クライアントに提出してくる!」

    (…しばらく後…)

    コト先輩「ルゥくんゴメェン!今回のクライアントは『Google Slides禁止!』だそうです!!」

    ルゥ「うええええええええ!先に聞いてきてくださいよ!!」

    コト先輩「今回のクライアントさんからの依頼によると、『オペレーターさんの作業環境は追加ソフトのインストールが禁止されている事務用ノートPC』、だそうです」

    ルゥ「えっ、ゲーミングPCとかは期待してなかったけど……それじゃあGPUは全く期待できないじゃん!」

    Koto「一応期限は半日だけ延長してもらえたけど、『最低15パターンは譲れない』っていわれちゃった」

    ルゥ「どうしてこんな案件受けちゃったんですか!」

    ――こんな環境でも動くものってバッチファイルくらいか…ってバッチファイルでもAPIは呼び出せるんだから Stability AI の Stable Image Core も使えるかも!

    やってみよう

    Stability AI が提供する Stability AI Developer Platform のイメージサービス のうちのひとつ「Stable Image Core」 のAPIを使って、GPUいらず、たった3分程度で商用利用できるバリエーション広告(さまざまな対象者に向けて制作する多様性のある広告)画像を様々なスタイル画像で生成してみましょう。今回はバッチファイルだけ、ノーコードで利用できるツールとして提供します。

    Stability AI のプラットフォーム APIキーの入手

    まず、このバッチファイルで画像生成をするには Stability AI のプラットフォームを利用するAPIキーが必要です。持ってない人はここにアクセスしてAPIキーを取得するか、管理者殿にお願いしてキーを発行してもらってください。

    https://platform.stability.ai/account/keys

    生成できない場合は支払い設定(https://platform.stability.ai/account/credits)を確認してください。

    Copy ❏ したら「sk-….」で始まるAPIキーをクリップボードにコピーできます。このAPIキーが流出すると勝手に使われてしまいますので管理はお気をつけて。

    次のステップに進みます。

    バッチファイルをダウンロード

    このリンクでダウンロードして使える バッチファイルを配布しています。

    ダウンロードしたら解凍して中身を確認してください

    https://j.aicu.ai/SaiImgBat

    設定ファイルを開いてAPIキーを設定

    生成する前にAPIキーを設定します

    SIC_settingという名前のテキストファイルがあるのでメモ帳で開いて、

    「STABILITY_API_KEY=」と書かれている部分の後ろに先ほどコピーしたAPIキーを貼り付けて保存します。

    これだけで画像を生成できるようになりました!

    設定を確認しよう

    生成する前に設定を確認しましょう

    先ほどAPIキーを入力したテキストファイルから以下の項目を設定できます。

    ・プロンプト

    ・ネガティブプロンプト

    ・アスペクト比

    ・出力フォーマット

    ・生成サイクル数

    設定するにはそれぞれの項目の「=」より後ろを書き換えてから保存してください。

    バッチファイルを実行して画像生成!

    いよいよバッチファイルを実行しましょう。

    SIC_IMG_Creatorというバッチファイルをダブルクリックすると実行できます。

    初回はスマートスクリーンの確認画面が出ます。危険なバッチファイルではありませんので詳細情報を押すと実行ボタンが現れます

    ※ここで管理者様に止められてしまう環境の場合は、貴社の情報システム管理部門殿にお願いしてください。

    起動するとこのような黒怖いコマンドプロンプト画面が現れます。

    ここで生成する画像のプロンプトや枚数を確認できます。

    「y」と入力してEnterキーを押下すると生成が開始されます。

    すべてのスタイルで生成が完了するまで大体3分ぐらいかかります。

    生成された画像を確認する

    生成された画像はSIC_Imageというフォルダに格納されています。

    前回と同じ流れが作れそうです!

    まとめ

    いかがでしたか?

    たったこれだけで様々なスタイルの画像を生成をすることができます!

    AICUmediaでは今後もStable Diffusion 3.0 やStable Image Core を用いた記事を発信していく予定です

    面白かったらぜひフォロー、いいねをお願いします!

    次回予告

    次回はこのプログラムの中身を解説しちゃいます!お楽しみに!

    #10分で学べるAI

    #10分で学べるAI シリーズ

    ✨️本記事が面白かったら、X@AICUai, noteのフォロー、シェアをよろしくお願いいたします!
    https://note.com/aicu
    社内Slack等のシェアでも歓迎です。
    また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

    ✨️AICU Inc.は Stability AI 公式パートナーです。
    様々なアプリ開発のご相談も承っております!サービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

    https://corp.aicu.ai/ja/stability-ai-membership

    生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携 https://prtimes.jp/main/html/rd/p/000000007.000133647.html

  • 【生成AIの社会と倫理】「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップ 2024/6/26(水)19:00〜20:30開催

    【生成AIの社会と倫理】「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップ 2024/6/26(水)19:00〜20:30開催

    本ワークショップは2024年3月29日に発売された書籍「画像生成AI Stable Diffusion スタートガイド」(白井暁彦AICU media編集部SBクリエイティブ刊)をベースに、最新の画像生成AIについて学びたい方のためのワークショップです。

    お申し込みはTechplayから https://techplay.jp/event/946209

    「生成AIを使うにあたって何に気を付ければいいんだろう?」
    「画像生成AIで生成してみたけどこれって著作権違反にならないの?」
    「生成AIのモデルを作ってみたいけど何かしなければいけないことはあるのかな?」

    このような方に向けて、本書の法律監修で参加された 柴山吉報 弁護士 (阿部井窪片山法律事務所)の とAICU media編集部が、生成AIを取り巻く法律と発注や受注する際に必要な知識、トラブルにならないためのポイントを解説します。

    業務の上での発注者や受注者、イベントやスクール開催、教育、著作権や意匠権といった知的財産権との関係、訴訟リスクが高いパターンなど、生成AI・画像生成AIを扱う際の「『陽のあたる場所』を増やすべく、不安な点を明らかにしていく」という目的の公式ワークショップになります。

    第1パートはSD黄色本の監修を行った弁護士による勉強会、
    第2パートは参加者からの質問にお答えしていく相談会、
    第3パートはAICU編集部とのオンライン交流会・LT登壇を受け付けます。

    参加対象

    • 生成AIに関するビジネス開発、法務担当者、経営者
    • 生成AI時代のクリエイター/フリーランサー
    • 広告・映像業界、アニメ制作、ゲーム開発、教育・研究系のプロフェッショナル
    • 生成AIを業務や社内で活かしたい方
    • これから本書を買ってみようと思う人
    • 生成AIを今後の人生に活かしたい方

    参加費

    ・書籍購入済みの方 : 2,000円
    ・書籍付き : 5,000円
    ・本ワークショップの社内での展開等はこちらをご参考ください

    オンラインサイン本企画

    申込時に「書籍付き(サイン入り・申込後に発送)」をお選びいただくと、著者の直筆サイン本を事前発送いたします。発送が間に合うように、ぜひとも早めのご参加登録をおすすめします。

    タイムスケジュール

    時間内容
    19:00〜オープニング
    19:10〜19:30【勉強会】SD黄色本監修弁護士による「生成AIの社会と倫理」
    最新の基本知識を解説(仮)
    19:30〜20:00【相談会】参加登録者からの事前質問への回答タイム(仮)
    20:00〜20:30【交流会】AICU mediaオンライン交流会・ライトニングトーク

    ※ 当日予告なく時間配分・内容が変更になる可能性がございます。

    登壇者

    Kippo_Shibayama

    柴山吉報 弁護士

    阿部井窪片山法律事務所 (#SD黄色本 法律監修)

    主な取扱分野は、一般企業法務、人事労務、ベンチャー法務、事業再生、M&A等の各分野。IT企業のクライアントが多く、システム開発、AIのモデル開発及びデータの取引等の相談及び契約書の作成、知的財産戦略等に関するアドバイスなどを行う。機械学習エンジニアの資格(JDLA Deep Learning for ENGINEER 2020 #1)を有し、AIエンジニアとしての知見を用いて踏み込んだアドバイスを提供している。 先端的な事業を行うベンチャー企業からの規制法対応や上場支援等の相談を受ける一方で、窮境にある会社の事業計画の策定支援や金融機関との交渉等の事業再生分野の業務も行うなど、様々なフェーズの会社において、事業に深く関与した法的サポートを得意とする。また、事業再生のための組織再編など、多数のM&Aの経験を有する。 特許庁・経済産業省「オープンイノベーション促進のためのモデル契約書ver2.0(AI編)」検討メンバー一般社団法人日本ディープラーニング協会有識者会員AI プロダクト品質保証コンソーシアムメンバー一般社団法人日本ディープラーニング協会の研究会「AIデータと個人情報保護」副座長 主要著書「マンガでわかる DX」(共著)SBクリエイティブ(2023年)「ディープラーニングG検定(ジェネラリスト) 法律・倫理テキスト」(共著)技術評論社(2023年)「実践 ゼロから法務!―立ち上げから組織づくりまで―」(共著) 中央経済社(2023年)「Q&A AIの法務と倫理」(共著) 中央経済社(2021年)「経験者が語るQ&A 電子契約導入・運用実務のすべて」(共同編著) 中央経済社 (2021年)「契約解消の法律実務」(共著)中央経済社(2022年)「第4次産業革命と法律実務-クラウド・IoT・ビッグデータ・AIに関する論点と保護対策-」(共著) 民事法研究会 (2019年)ほか。
    

    白井暁彦

    白井暁彦

    AICU Inc. CEO

    白井暁彦(Akihiko Shirai, PhD / しらいはかせ)(X アカウント:@o_ob)エンタメ・メタバース技術の研究開発に関わる研究者、ホワイトハッカー作家、米国スタートアップ「AICU Inc.」「Hidden Pixel Technology Inc.」のCEO。東京工芸大学写真工学科卒、同画像工学専攻修了。キヤノン株式会社とグループの研究所より生まれた英国・Criterion Software にて世界初の産業用ゲームエンジン「RenderWare」の普及開発に参加、その後、東京工業大学知能システム科学専攻に復学。博士学位後、NHK エンジニアリングサービス・次世代コンテント研究室、フランスに渡りENSAM 客員研究員、国際公募展Laval Virtual ReVolution の立ち上げ、日本科学未来館科学コミュニケーター神奈川工科大学情報メディア学科准教授を経て、2018 年よりデジタルハリウッド大学 大学院客員教授 およびグリー株式会社GREE VR Studio Laboratory Director。スマートフォン向けメタバース「REALITY」を開発・運用するREALITY 株式会社の立ち上げを通して、Virtual YouTuber などXR ライブエンタメ技術のR&D、国際発信など、メタバースエンタテイメントの未来開発や知財創出を中心に、自らエンタテイメントのライブプレイヤーとして世界に向けた開発・発信活動方法論化しながら世界中のエンタテインメント技術業界に数百人の規模でクリエイターを育成している。2023 年よりデジタルハリウッド大学発米国スタートアップ企業「AICU Inc.」CEO。生成AI 時代に「つくる人をつくる」をビジョンに英語、日本語、フランス語、プログラミング言語などでオープンな作家活動を続けている。日本バーチャルリアリティ学会 IVRC実行委員会委員。芸術科学会副会長。著書に『画像生成AI Stable Diffusionスタートガイド』、『WiiRemote プログラミング』(オーム社)、『白井博士の未来のゲームデザイン - エンターテインメントシステムの科学-』(ワークスコーポレーション)、『AI とコラボして神絵師になる 論文から読み解くStable Diffusion』(インプレスR&D)他。
    

    【#SD黄色本 『画像生成AI Stable Diffusion スタートガイド』 紹介】

    全目次公開記事はこちら!
    https://ja.aicu.ai/sbxl/

    画像生成AIの1つであるStable Diffusionを導入・体験するための入門書です。
    プログラミングが分からない、ネットの情報を見てもうまく使えなかった、そんな悩みを抱えている人でもAIを使った画像生成体験ができるようにしっかりサポートします。
    本書籍では以下の環境で解説します。
    ・Google Colab Pro環境
    ・Windows10/11 NVIDIA GPU環境
    ・MacOS Apple silicon 環境
    本書籍では以下の内容を取り扱います。
    ・拡散モデルによる画像生成の原理
    ・Stable Diffusionを使用するためのWebUI環境構築
    ・テキスト/画像を元に画像を生成する(txt2img/img2img/ControlNet)
    ・Google Colab 上で追加学習を行う(LoRAの作成)

    本書ではソフトウェアの使い方解説だけではなく、自分で設定できるセッティングやパラメータが画像生成にどのように関わっているのかについても解説しているため、AI技術について知識を深めたい人にとってもおすすめです。
    また、既にAIを活用している方にもご満足いただけるように、よりAI画像制作を極めるヒントとなるようなStable Diffusionを含むAI画像生成を利用した作例のメイキング方法やプロンプト構成/生成パラメーターなどの情報を公開・解説しています。ハンズオン形式で最後まで取り組むことで、画像生成AIへの理解をより深めることができる1冊となっています。

    Chapter1 画像生成AIについて知ろう
    Chapter2 環境構築をしてはじめよう
    Chapter3 プロンプトから画像を生成してみよう
    Chapter4 画像を使って画像を生成してみよう
    Chapter5 ControlNetを使ってみよう
    Chapter6 LoRAを作って使ってみよう
    Chapter7 画像生成AIをもっと活用しよう

    お申し込みはTechplayから
     https://techplay.jp/event/946209

    各分野に向けた各章を深く掘り下げる形のレギュラーイベントとして実施する可能性がありますので、こちらのコミュニティをフォローよろしくお願いいたします。
    https://techplay.jp/community/AICU
    また内容も、映像プロフェッショナルから、企業研修、学校団体(クラブ・サークル等含む)も多様に開発していく予定です。


    注意事項

    • 本ワークショップの配布物や上映内容の録音、スクリーンショットはご遠慮ください。
      ※公式イベントレポートは AICU media noteメンバーシップにて募集中しております。
    • リクルーティング、勧誘など、採用目的でのイベント参加はお断りしております。
    • キャンセル待ち・補欠・落選の方はご参加いただくことが出来ませんのでご了承ください。
    • 欠席される場合は、お手数ですが速やかにキャンセル処理をお願い致します。
    • 無断キャンセルや欠席が続く場合、次回以降の参加をお断りさせていただく場合がございます。
  • Computex 2024 基調講演 Stability AI のCEO/CTOが語る Stable Diffusion 3 は「自然の進化」

    Computex 2024 基調講演 Stability AI のCEO/CTOが語る Stable Diffusion 3 は「自然の進化」

    ■Stability AI クリスチャン・ラフォート氏の講演を入手

    AICU media は講演動画を入手しましたので要約翻訳でお送りします

    AMDの基調講演(Dr. Lisa Su, Chair and CEO, AMD)

    https://www.computextaipei2024.com.tw/en/index.aspx#keynote1

    司会者:皆さん、本日は、AI開発者と密接に連携しているAMDのMI300 (AMD Instinct™ MI300 Series Accelerators)についてお話しします。それでは、Stable Diffusion の画期的なオープンアクセスAIモデルで知られる Stability AI のCTO兼共同CEO、クリスチャン・ラフォートさんをお迎えしましょう。こんにちは、クリスチャンさん。お元気ですか?

    クリスチャン:こんにちは。元気です。この場に立てることを光栄に思います。Stability AI の仲間たちを代表してここにいます。

    司会者:今日はStability AIの多くの革新についてお話しいただきますね。まずは、これらのAIモデルがどのようにして可能性の境界を押し広げているのか、教えていただけますか?

    クリスチャン:もちろんです。私たちは、あらゆる業界で生産性の飛躍的な向上を目の当たりにしています。特に、私たちがモデルとソースコードを無料で公開したことで、多くの開発者や研究者が新しい発見を驚異的な速度で行い、新しいアプリケーションを作り上げました。例えば、古い家族写真の修正や品質向上、あるいはもう見たくない人を写真から削除することが、今や誰でも数秒でできるようになりました。同様に、生産性の向上は画像だけでなく、言語、コーディング、音楽、音声、3Dといった他の研究分野でも見られます。これらを組み合わせることで、映画制作やビデオゲームの生産性を少なくとも10倍に引き上げることを目指しています。

    司会者:それは素晴らしいですね。さて、今日は何か大きなニュースがあると伺っていますが。

    クリスチャン:はい、Stable Diffusion 3のリリースが間もなくです(the weight/wait fot Stable Diffusion 3 is almost over..!)。

    コミュニティの皆さんの忍耐と理解に感謝しています。品質と安全性を向上させるために多大な努力を注ぎました。本日、6月12日にStable Diffusion 3のミディアムモデルを皆さんにダウンロードいただけるようリリースすることを発表します。

    (会場から拍手)

    クリスチャン:多くの努力がこのモデルに注がれました。私たちは、コミュニティがこのモデルをどのように活用するのか、とても楽しみにしています。技術的でない方々にはわかりにくいかもしれませんが、かつては研究の最前線がこうしたモデル、例えば Stable Diffusion のようなものに繋がっていました。これはまさに自然な進化のようなもので、様々な新しい方法で組み合わさっています。これをオープンに公開することで、何百万人もの人々が最適な組み合わせ方を発見し、新しいユースケースを解放するのを手助けしてくれます。SD3ミディアムは、これまでにない視覚品質を実現したSD3の最適化バージョンであり、コミュニティが自分たちの特定のニーズに合わせて改善することができます。これにより、次の生成AIのフロンティアを発見する手助けになります。このモデルはもちろんMI300上で非常に高速に動作し、発表されたばかりのRyzen AI搭載のラップトップでも動作するほどコンパクトです。こちらがStable Diffusion 3で生成した画像です。台湾の夜市を描写するようにチャレンジしました。

    司会者:とても素晴らしいですね。

    クリスチャン:細かく見ると完全なフォトリアリスティックではないかもしれませんが、テキストプロンプトのさまざまな要素をよく捉えていると思います。特に、この長いテキストプロンプトを実際に入力するよりもはるかに速く生成されたことを考えると、特に印象的です。歩いている通行人、石でできた通り、夜間の雰囲気などが捉えられています。

    クリスチャン:SD3は、マルチモーダルディフュージョントランスフォーマーアーキテクチャを使用しており、視覚コンセプトとテキストプロンプトを以前のモデルよりもはるかに優れた方法で理解します。シンプルなプロンプトにも対応しているので、これを使いこなすための専門知識は必要ありませんが、より複雑なプロンプトにも対応し、そのすべての要素をうまく組み合わせることができます。SD3は、あらゆる種類の芸術スタイルやフォトリアリズムに優れています。

    ここに実際に非常に難しい例があります。これは、1年以内にリリースした前のバージョンであるStable Diffusion XL (SDXL) との比較です。この例は特に難しいのですが、なぜなら、手を描くことがこれらのモデルにとって非常に難しいからです。また、ギターの弦やフレットのような繰り返しのパターンも含まれています。これらはすべて、モデルが理解し正確に描写するのが非常に難しいものです。SD3がギターの形や手のようなより現実的なディテールを生成したことに注目してください。細かく見ると、いくつかの不完全な点があるかもしれませんが、前世代に比べて大きな改善です。

    司会者:本当にすごいですね。MI300 GPUについての印象はどうですか?

    クリスチャン:素晴らしいです。MI300の192GBのメモリはまさにゲームチェンジャーです。新しいモデルを解放する方法として、より多くのメモリを持つことが非常に重要です。これが、より大きなモデルをより早く、より効率的にトレーニングするのに役立つのです。具体例を挙げると、AMDとの協力でクリエイティブアップスケーラ機能を開発しました。これは、1メガピクセル未満の古い写真を取り込み、解像度を大幅に向上させ、品質も同時に向上させる機能です。Nvidia H100で30メガピクセルを達成した時も嬉しかったのですが、MI300Xにコードを移植したところ、ほとんど努力なしで100メガピクセルに達しました。コンテンツクリエイターは常により多くのピクセルを求めているので、これは大きな違いを生みます。実現するためにほとんど努力が必要なかったことも大きなステップアップです。研究者やエンジニアは、AMDとStankのGPUが提供する素晴らしいメモリ容量と帯域幅の利点を気に入ることでしょう。

    司会者:それは驚異的です。AMDとの今後の協力についてはどう考えていますか?

    クリスチャン:AMDとのさらに密接な協力を通じて、新しい最先端のビデオモデルを開発し、全世界に公開したいと考えています。これにはより多くのメモリとコンピュートパワーが必要です。AMDのチームと密接に協力して、これを実現したいと考えています。

    司会者:素晴らしいですね。今日はお話いただき、ありがとうございました。

    ✨️本記事が面白かったら、ぜひシェアをよろしくお願いいたします!

    社内Slack等のシェアでも歓迎です。

    また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

    ✨️AICU Inc.は Stability AI 公式パートナーです。

    様々なアプリ開発のご相談も承っております!サービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

    https://corp.aicu.ai/ja/stability-ai-membership

    生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携 https://prtimes.jp/main/html/rd/p/000000007.000133647.html