タグ: AI

  • 世界を舞台にAICUが開発「超入門: Stable Diffusionではじめる画像生成AI」Colosoで予約販売開始!!

    生成AIの常識を覆した「Stable Diffusion」の革命から2年…「つくる人をつくる」AICUが世界を舞台に大型新作をリリース!

    クリエイティブAI時代に「つくる人をつくる」をビジョンに活動する生成AIの最先端を走り続けるクリエイターユニオン「AICU」が、Stable Diffusionによる最新・最先端・最高品質の画像生成の基礎から応用までを丁寧に解説するオンライン講座を国際的なラーニングプラットフォーム「コルソ」で開講します!

    ▼ Coloso講座ページはこちら ▼
    https://j.aicu.ai/AICUXColosoJP

    「画像生成AIって難しそう…」

    そんな風に思っていませんか?

    この講座は、AI初心者の方でも安心して学べるよう、AICUが開発した特別なカリキュラムに基づいて構成されています。

    ゼロからスタートし、AI初心者から次の一歩を踏み出すことができるカリキュラムを、Colosoで体験してください!

    画像

    【本講座で得られる3つのメリット】

    1. AI時代の必須スキル「プロンプトエンジニアリング」を基礎から習得
      • 生成AIを使いこなすための「呪文」、プロンプト。高品質、高画質な画像生成が可能になった今、隠されたテクニックは従来とは大きく変わっています。
      • 最新の商用利用可能なStability AI API公式サンプルを使って学ぶことで、 Stable Diffusion 3 時代のポテンシャルを最大限に引き出し、思い通りの画像を生成できるようになります。
      • 単語の選び方や順番といった基本文法から、シードやスタイルといったAPIならではの制御手法、未知のモデルとの対話テクニックなど、2年分のノウハウを体系的に詰め込んだ、先駆者ならではの『勝ち筋』を、入門者からプロフェッショナルに向けて優しく解説します。
    2. Google Colab & Slidesで、コードを書かずに実践的なスキルを習得
      • Google Colab & Slidesで開発された専用ツールを提供。
      • 専門知識不要! 環境構築でつまずくことなく、すぐに実践できます。
      • オープンソースなので改造もカンタン。商用も今すぐできます。
      • APIとツールを使って制御しながらプロフェッショナルな画像を大量に生成する実用的な解説、サンプル、プロンプト集。
      • バーチャルファッションモデル制作や広告バリエーション展開など、 すぐに使える実践的なスキルが身につきます。
    3. 生成AI時代に必要な著作権や倫理に関する知識も網羅
      • AI作品と著作権、倫理的な問題など、知っておくべき重要な知識を丁寧に解説します。
      • 責任あるクリエイターとして、自信を持って活動するための社会基盤としての常識を築きます。
      • 生成AIに関するクリエイティブの倫理課題を人に教えられるレベル、サービスやプロダクトを開発し、契約できるレベルまで高めましょう

    ▼ Coloso講座ページはこちら ▼ 
    https://j.aicu.ai/AICUXColosoJP

    【講座内容】

    • 生成AIの基礎知識
    • Stable Diffusion 3の仕組みと特徴
    • プロンプトエンジニアリング入門
    • Stability AI APIを活用した高度な画像生成
    • バーチャルファッションモデルの開発
    • AI技術を駆使した広告制作
    • AIの活用における倫理と未来予測

    使用プログラム
    [メインツール]
    – Stability AI API
    – Google Colab
    – Google Workspace

    【こんな方におすすめ】

    • 画像生成AIに興味があるけど、何から始めればいいか分からない方
    • Stable Diffusionをもっと使いこなしたい方
    • これからの時代を見据え、AIスキルを身につけておきたい方
    • デザイン、アート、広告など、クリエイティブな仕事に携わっている方
    • 業務的な画像生成AIを体系的に学ぶ必要が出てきた企業クリエイター
    • 新しい技術を学び、自分の可能性を広げたい方

    【AICU開発! 本講座だけの特典】

    • AICUによる画像生成AIに必要な知識が詰まった講座動画25講を期間制限なしで受講可能
    • 講座を通してセミリアルや実写など12点の例題を完成
    • 講座内容に関するPDFデータや資料、Google Slidesで使えるツールを提供
    • 画像生成プロンプト集を提供
    • AICUのノウハウが詰まった講座PDF使用を提供

    AICU Inc. は Stability AIと戦略提携を

    AICU Inc.(本社Delaware州Dover City, カリフォルニア州サニーベール)は、Stability AI Ltd.(本社London、United Kingdom)とのパートナーシップを発表しました。このパートナーシップは、エンゲージメント・レターを通じて正式に締結されており、持続革新的でオープンなAIDX(AI Driven user eXperience)開発、技術広報を提供するもので、生成AI技術の社会的認知と価値向上と市場開拓を推進するコミュニケーションに重点を置いています。
    AICU Inc.は、この提携により、Stability AI Ltd. の生成AI技術の社会的認知と円滑なコミュニケーションのために、advocacy communication service としてコンサルティングサービスと開発者・クリエイター支援・技術広報・PoC開発・クリエイターユニオン構築に協力します。

    2024/1/22 AICU Inc. プレスリリースより
    https://prtimes.jp/main/html/rd/p/000000007.000133647.html

    画像

    https://corp.aicu.ai/ja/stability-ai

    【講師紹介】

    • 白井 暁彦:生成AIクリエイティブ「AICU」代表、デジタルハリウッド大学大学院特任教授
    • RUNO.:生成AIクリエイター

    AIの波に乗り遅れるな!
    今すぐ予約して、未来を創造する力を手に入れよう!

    画像

    ▼ Coloso講座ページはこちら ▼ 

    https://bit.ly/AICUXColosoJP

    カリキュラム

    カリキュラム内容から一部を紹介します!

    SECTION 01:画像生成AIの歴史と現在、今後の価値

    画像
    画像
    画像
    画像

    SECTION 02:環境構築

    Google Slidesだけで使えるオリジナルツールが提供されます!

    画像

    その他、Google Colabを使った最新のデモやサンプルもあります。

    SECTION 03:基礎編[SD3時代のモデル評価とプロンプト探求]

    画像

    最新・最先端・高画質のモデル評価手法をしっかりマスター!

    https://j.aicu.ai/SD3GP

    SECTION 04:Stability AI API の革新的機能

    知らないと損、Stability AIのAPIだけで利用できる革新的な機能。

    画像

    Edit機能を活用した画像加工

    Structureを使ったポージング、構造の制御

    画像

    便利なツールと、初心者向けの対話、デモなどを使ってスキマ時間にギュンギュン学べちゃう構成になっています!

    SECTION 05:応用編 [バーチャルファッションモデルの開発]

    バーチャルなファッションブランドのルックブックを作ってみましょう!

    画像

    卒業制作や研究、企業のプロトタイプとして実践的なワークフローを学ぶ最高のチャンスです。

    SECTION 06:活用編 [広告バリエーションの展開と評価手法]

    広告バリエーションの制作にお悩みではありませんか?

    画像

    旅行代理店の広告制作を通して、画像生成AIを使った具体的な広告バリエーションの制作フローを体得できます。もちろんChatGPTを使いこなすプロンプトも含まれています!

    SECTION 07:法律・倫理・未来

    「画像生成AIって違法なの?」法律だけではありません、生成AIクリエイティブ分野の社会実装でトップランナーを続けてきたAICUならではのノウハウ、国家試験である知的財産管理技能検定に基づいた理解と解説、弁護士とのヒアリングで開発した倫理クイズ、子供でもわかる画像生成AIの「陽の当たる未来」のための重要なポイントを他人に説明できるレベルで体系的に学ぶことができます…!

    画像

    受講生全員に提供:AICUの講座だけの特典

    • AICUによる画像生成AIに必要な知識が詰まった、講座動画25講を期間制限なしで受講可能
    • 講座を通してセミリアルや実写など12点の例題を完成
    • 講座内容に関するPDFデータや資料、Google Slidesで使えるツールを提供
    • 画像生成プロンプト
      1. 講座で生成するイメージのプロンプト集提供
    • 講座資料提供
      1. AICUのノウハウが詰まった講座PDF使用を提供

    豊富な例題を通して学ぶ画像生成AIの基礎!

    1. ゴールの設定
    2. Google Slidesで使える自動スライド生成
    3. Google ColabによるStability AI公式サンプルの動作確認
    4. プロンプトの要素の並びによる生成結果の違い
    5. ネガティブプロンプトの有無による生成結果の違い
    6. APIから学ぶSD3時代のText to Imageモデル
    7. ワードリストを使った多様な表現
    8. Conservativeを用いた作品の高解像度化
    9. Edit機能を活用した画像加工
    10. Structureを使った構造の制御
    11. オリジナルLookbookの作成
    12. 広告バリエーションの制作

    講師紹介

    生成AIクリエイティブ:AICU

    [白井暁彦]

    こんにちは。生成AIクリエイティブAICU代表の白井暁彦です。 エンタメ業界とメタバース技術の研究開発や、ホワイトハッカー作家として活動しており、デジタルハリウッド大学大学院で特任教授を務めております。デジハリ発国際スタートアップ企業AICU Inc.は、生成AI 時代に「つくる人をつくる」をビジョンに英語や日本語、フランス語、プログラミング言語など、オープンなクリエイティブ活動を行っている会社です。生成AIの最先端で研究や作家活動を通して、生成AIの魅力と楽しさをたくさんの人々に届かせるために活動しています。

    [RUNO.]

    こんにちは。生成AIクリエイティブ AICUのRUNO.です。昼間は、ITベンチャーでマーケティング・事業開発・データアナリストとして活動しており、夜は、白井主宰のクリエイティブAIラボ「CAIL」で、クリエイティブAI分野の社会実装を研究する「クリエイティブAI系VTuber」として活動しています。得意分野は、プロンプトエンジニアリングやAIサービス開発、執筆、アート制作、事業企画などです。

    https://note.com/runos_log/n/ncf1843b2a30c

    ▼ Coloso講座ページはこちら ▼ https://j.aicu.ai/AICUXColosoJP

    この講座のポイント

    AI時代の必須スキル「プロンプトエンジニアリング」の基礎を網羅的に学習

    具体的な例題と実践を通して、安定した高品質画像生成のために必要なプロンプトの構造から、最新のテクニックまで、プロンプトエンジニアリングのスキルを体系的に学ぶことができます。また、今後登場するであろう、新しい画像生成AIにも応用可能な、普遍的なプロンプト構築の考え方を身に付けます。

    Google ColabとGoogle Slidesを用いたコーディング不要の実践スキル

    プログラミングの知識がなくても、Google ColabとGoogle Slidesを使用して、画像生成AIをビジネスに応用する方法を学びます。特に、バーチャルファッションモデルの制作や広告バリエーションの制作といった、具体的な例題を通して、実践的なスキルを磨いていきます。

    生成AI時代に必要な著作権や倫理における知識

    生成AIを取り巻く法律や倫理的な問題は法律だけではありません。新たな著作権の理解、クリエイティブの扱い、広告ビジュアルや消費者など受け手の理解、そして今後の展望について理解を深めます。それらを通して、AI技術を正しく、責任を持って活用するための知識と、実践的なガイドラインについて学び、持続的な創作活動を行うための基盤を築きます。

    講座内容: 下記のような内容を学べます。

    • 生成AIにおける基礎知識
      1. 画像生成AIの歴史やStable Diffusionの仕組み、AIにおける今後の展望など、AI技術についての理解を深めるために必要な基礎知識を学ぶことができます。
    • プロンプトによる画像生成の文法
      1. 高品質な画像生成を可能にするためのプロンプトの構造と要素、そして最新のテクニックを体系的に学びながら、プロンプトエンジニアリングのスキルを身に付けていきます。
    • Stability AI APIを活用した高度な画像生成
      1. 公式APIを活用した画像編集や構造制御などを実践的に学びながら、高度な画像生成技術を習得します。その上で、AIの可能性を最大限に引き出し、より複雑で創造的な画像生成に挑戦します。
    • バーチャルファッションモデルの開発
      1. バーチャルファッションモデルを制作する例題を通して学んだ知識を応用し、ファッションブランドのLookbookを制作することで、ポートフォリオとして活用できるレベルの作品制作を目指します。
    • AI技術を駆使した広告制作
      1. AIを活用した広告バリエーションの制作を通して、ビジネスにおけるAI活用の可能性を広げ、実践的なマーケティングスキルを習得します。AI技術をビジネスに活用することで、新たな価値創造とイノベーションに挑戦します。
    • AIの活用における倫理と未来予測
      1. 生成AIを取り巻く法的、倫理的な問題を理解し、責任のあるAI活用を実践するための知識を身に付けます。AI技術の倫理的な側面を理解し、持続可能な社会におけるAIのあり方を深く考察することで、AIの未来を創造する力を養います。
    • 無期限視聴:一回の購入で、期限の制限なく視聴することができます。
    • 最安値:08/31 (土) 販売価格が上がります。

    もうすぐ販売価格が上がる予定です。
    今すぐご購入ください!今が最安値!

    ▼ Coloso講座ページはこちら ▼ 

    https://j.aicu.ai/AICUXColosoJP

    インタビューを受けました

    生成AIクリエイティブ
    AICUがお話ししたいこと

    Question.01:該当の分野を勉強している方は、どういう部分を一番難しいと思っているでしょうか?また、本講座を通じて、そのような部分をどのように解決できるでしょうか?

    画像生成AIは、日々進化しており、新しい技術や情報が次々と出てきます。そのため、最新情報をキャッチアップし続けること、そして専門用語や技術的な内容を理解することが難しいと感じている方が多いと思います。この講座では、クリエイティブAIニュースメディアとして、クリエイターのための情報を発信する「AICU」が、基礎知識から先端技術、未来予測までを丁寧に解説していきます。また、実習を通して、実践的なスキルを身に付けることができるので、AI技術への理解を深め、自信を持って活用できるようになると思います。

    Question.02:講師さまご自身は、勉強してきた中で難しかった部分、それを解決するためにどのような努力をされてきましたか?

    日々進化し続ける生成AIの世界で、その技術についていきながら、毎日勉強し続けることが一番大切で、難しいことだと思います。私は、毎日ブログを書くことを続けています。日々の仮説検証や、新技術の検証といった積み重ねが、「自分自身の成長」としてしっかりと可視化できます。これは、ChatGPT時代のクリエイターにとってとても重要なことで、単に道具の使い方を学ぶのではなく、新しい技術に対して適応する速度が大きく変わってきます。

    Question.03:アウトプットを形にすることにおいて、大切なポイントは何になりますか?

    アウトプットを形にする上で大切なポイントは、「明確なビジョンと目的意識を持つこと」、そして「それを達成するための仮説と実験する方法論を持つこと」だと考えています。AI技術は常に進化しており、新しい技術や情報が次々と出てきます。何を作りたいのか、なぜ作りたいのか、誰のために作るのか、といった根本的なメッセージにフォーカスを合わせ、それを明確にすることで、ビジュアル制作の方向性を定めることができ、迷いが少なくなると思います。

    Question.04:講師さまがお考えになる、クリエイティブAI分野においての市場性と展望についてお話しください。

    クリエイティブAI分野は、まだ市場が構築されていません。世間には、謎のAIクリエイターがたくさんいらっしゃいますが、この技術を専門的に学べる場があるわけでもなく、多くの方々は、独学で学んでいる状況です。誰でも簡単に、画像を生成できるサービスが普及する一方で、業務的には、超スピードでインパクトのある画像や映像をつくる人々が求められる、専門性の高いプロフェッショナルな分野になっていくと予測します。単に「安く」ではなく、倫理観がしっかりした「学び続ける人」が、体系的な知識と技術を背景に、速度感をもって大きな市場を作っていくと思います。

    ▼ Coloso講座ページはこちら ▼ 

    https://bit.ly/AICUXColosoJP

    今後の更新情報や、オトクな情報はメンバーシップ向けに発信していきます。

    【8/24追記!】

    8月30日23時59分まで or 先着100名様限定で、AICUの講座限定で5,000円割引が受けられるシークレットクーポンをいただきました!
    リポストで見れるようにしておきましたのでぜひチェックしてください!

    最安値でゲットしてください!


    この記事の続きはこちらから https://note.com/aicu/n/nd680d8290d11

    Originally published at https://note.com on Aug 23, 2024.

  • あなたの才能が、デルタもんの世界を動かす!「デルタもん4コマ漫画コンテスト」開催決定

    「デルタもん」の世界に、あなただけの作品を刻み込め!
    BlendAI特別協賛「デルタもん4コマ漫画コンテスト」を開催します!

    クリエイティブAI時代に「つくる人をつくる」をビジョンに活動するAICUは、このたび「デルタもん」などのAIキャラクターを開発するBlendAIさんに特別協賛いただき、第5回デルタもんイラストコンテストを4コマ漫画形式で開催する運びとなりました!

    https://note.com/aicu/n/ncd46ab0f3286

    画像

    【コンテスト概要】

    個性的なキャラクターとユニークな世界観を持つ「デルタもん」の4コマ漫画をあなたの想像力とユーモアで、新たな魅力を引き出し、多くの人の心を掴む作品を生み出してください!
    AICU media公式SNS、note、AICUマガジンで作品公開!
    さらに有力作品のクリエイターにはAICU編集部やパートナー企業からの連載のチャンスも!

    才能あふれるクリエイターの皆様、このコンテストで、あなたの才能を世にアピールしましょう!

    【募集テーマ】「デルタもんの日常」4コマ漫画

    デルタもんの世界観をモチーフにしたカジュアルな4コマ漫画作品を募集します。

    【デルタもんとは?】

    AI技術の進展を象徴する新たなキャラクターであり、科学の発展を支援するために生まれました。なんらかの形でAIを利用している場合、このキャラクターを商業利用することが出来ます。ただし、AIとは無関係な利用、たとえば、手描きなどの二次創作や商業利用は禁止とさせて頂きます。「デルタもん」という名称は、COVID-19変異株の「デルタ」に付けられたネガティブな印象を払拭し、よりポジティブなイメージを持っていただけるようこの名前が選ばれました。
    このキャラクターは「アルファパラダイスプロジェクト」と称する、ギリシャ文字の24文字をモチーフにしたキャラクターシリーズの第一弾です。将来的には、追加のイラスト、詳細設定、3Dモデル、LoRAモデルなど、幅広い商用版権フリー素材を提供する予定です。

    デルタもん公式ページ より

    【どうやってつくるの?】

    素材やコンテンツはBlendAI公式で提供しています

    https://blendai.jp/contents

    ・LoRAを自分で作る場合
    AICUの過去記事や「SD黄色本」を参考に、オリジナルのLoRAをつくるもよし…
    ▼キャラLoRA学習ガイド2024年5月版 #SD黄色本・公式LoRA

    https://note.com/aicu/n/n02de834e3d5c

    ・公式LoRA
    最近はデルタもん公式LoRAも配布されています

    https://blendai.booth.pm/items/5801621

    AICU編集部による作例「ようこそ!アイキュー部」※ちびデルタとして出演

    https://note.com/aicu/n/ne878b6d68004

    ・編集長による作例:AniFusionで作成したようです

    LoRAをURLで伝えるだけでデルタもん漫画が生成できます!

    画像

    AniFusionでデルタもんのLoRAを使う方法についてはこちらの記事をご参照ください。最近のアップデートがすごいです。

    そして、編集部の特別情報によると、次号の「AICUマガジン Vol.4」は「AniFusion特集」が予定されているとのこと!これは保存版になるかも!?

    【応募方法】

    1. 「デルタもん」をテーマにしたオリジナル漫画を作成する
    Anifusionを中心に、色々なAIツールを使用してあなたのイメージを自由に表現しましょう。

    2. 作品をX(Twitter)に投稿し、応募フォームへ記入します
    エントリーフォームのURL → https://j.aicu.ai/Delta4manga

    https://docs.google.com/forms/u/7/d/e/1FAIpQLSdjGGZ6Ze2Gr8Bl2183UAb2_26htkD3Y9vDfB7IR0imXTO1dw/viewform

    必須ハッシュタグ #デルタもん4コマ #AICU #BlendAI
    過去作参照タグ: #デルタもんイラストコンテスト

    コンテストへの応募であることを明記し、AICU公式Xアカウント X@AICUai をフォローしてください(コンテストの受賞者へのご連絡はXのDMを使用いたします)。

    【過去のコンテスト参加者さんの作例から…】

    「デルタもん4コマ漫画コンテスト」開催期間

    告知開始:2024年8月22日(木)
    エントリー期間:2024年8月23日(金)~2024年9月10日(火)23:59
    審査期間:2024年9月11日(水)~2024年9月13日(金)
    結果発表:2024年9月14日(土) AICU media公式noteにて発表(予定)!

    期間中、審査員、デルタもん公式 X@BlendAIjp と X@AICUai が各ハッシュタグを巡回してコミュニケーションを取ることがあります。
    早めの投稿、多数の投稿をお待ちしております!

    画像

    【審査基準】

    ・品質
    ・発想力
    ・物語性

    作品の応募においては日本の法令を遵守し、 画像生成AIクリエイター仕草(v.1.0) をご参照いただき、モラルに沿った生成AIのご使用をお願いいたします。また、BlendAIが設定する利用規約も遵守してください。
    AICU編集部では「全年齢向け」(映倫・G、CERO-A)およびKindle Direct Publishingコンテンツガイドラインを考慮して採択します。
    ■デルタもんを利用する際のルールの簡単なまとめ https://blendai.jp/guideline
    ■Kindle Direct Publishingコンテンツガイドライン https://kdp.amazon.co.jp/ja_JP/help/topic/G200672390

    【賞】

    ・優秀賞:AICU編集部よりAmazonギフト券4444円分+デルタもん4コマ漫画連載オファー獲得!
    ・BlendAI賞:BlendAI代表 小宮自由氏より特別賞を設定します
    ・入賞:AICUマガジン誌上および AICU media媒体上での紹介

    【コンテスト審査員より】

    BlendAI代表 小宮自由:コンテストにご興味を持っていただきありがとうございます。『デルタもん』は、AIと創作者の架け橋になることを目的に創られたキャラクターです。皆さん楽しんで創作していただければと思います。

    主催:AICU media編集部
    特別協賛:BlendAI

    【受賞作品の発表】

    AICU media公式note(https://note.com/aicu/)及び、AICUマガジン誌上にて発表いたします。

    さらに、優秀賞・入選作品でメイキング記事などをご寄稿いただける方には、AICUパートナークリエイターとして所定の原稿料を謝礼としてお贈りします。

    【応募に関するQ&A】

    ・Photoshopなどで加工・加筆したものを投稿できますか
    できます。AI生成のみで生成した画像も、加筆したものも、どちらも可能です。

    ・不正や不適切な行為があった場合はどうなりますか
    各種ツールの不正利用や利用規約に反する行為があった場合、その他、運営が不適切と判断した場合、予告なくエントリーの対象から外させて頂く場合がございます。

    ・応募作品のレギュレーションについて
    作品の公開はX(Twitter)および作者の管理によるものになりますが、「全年齢向け」(映倫・G、CERO-A相当)に反する作品はコンテストの評価対象外とさせていただきます。ご容赦ください。

    ・応募作品の著作権はどうなりますか
    X(Twitter)を経由したイベントのため、X利用規約および著作権に関するポリシーに従い「ユーザーは、ポストまたは共有する自身のコンテンツに対する所有権と権利を留保するとともに、自分のコンテンツを世界中で利用できるようにしたり、他のユーザーがポストまたは共有できるようにしたりするための非独占的ライセンスを当社に提供するものとします。」となります。
    他人の著作権を侵害しないこと、エントリーフォームからのエントリーによってエントリーの意思を表明していただき、AICU独自メディアでの掲載する際は、非独占ライセンスを提供頂く形となります。

    【本コンテストに関するお問い合わせ】

    本件に関するお問い合わせは X(Twitter)@AICUai まで

    AICU Inc. について https://corp.aicu.ai/
    BlendAI について https://blendai.jp/

    デルタもんと一緒に、あなたの才能を世界に広げませんか?

    たくさんのご応募お待ちしております!

    画像
    シェア歓迎です!

    #デルタもん4コマ
    #AICU
    #BlendAI

    Originally published at https://note.com on Aug 21, 2024.

  • 【超入門】Stability AI API の革新的機能(1)Edit機能からInpaintとOutpaintを便利に使おう!

    こんにちは、AICU media編集部です。ライターのRUNO.がお送りします!

    今回は、Stability AI API Guideの「革新的機能紹介」!
    全4回に分けてお送りします!

      おさらい:プロンプトの文法

      まずはプロンプトの基礎から始めたい!という場合は、
      合わせてこちらの記事をご覧ください!

      「プロンプトの文法」編で、こんなことがわかる!

      • Stability AI APIとは?
      • Stability AI APIの種類と特徴・構成
      • プロンプトの文法基礎
      • [機能紹介] Generate APIとは?
      • [機能紹介] Generate APIよりUpscale機能のデモ

      Stability AI APIの種類と特徴・構成

      「プロンプトの文法」編でもご紹介したように、Stability AI APIの画像生成系の機能は2024年8月現在、4つの機能に大別されています。

      • 「Generate」:いわゆる「TextToImage」です
        • プロンプト(テキスト)によって画像生成を行う
        • 現在6つのモデルが提供されている
      • 「Upscale」:高解像度化
        • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像生成を行う
        • 現在{Creative, Conservative}という2つのモデルが提供されている(加えて、Standardがcoming soonとして予告されている)
      • 「Edit」いわゆるImageToImageです
        • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像再生成を行う
        • 現在{Search and Replace, Inpaint, Outpaint, Remove Background, Erase Object}5つのモデルが提供されている
      • 「Control」こちらも いわゆる ImageToImage です
        • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像再生成を行う
        • 現在{Sketch, Structure, Style}3つのモデルが提供されている(加えて、 Recolorがcoming soonとして予告されている)

      https://platform.stability.ai

      今回扱うInpaintとOutpaintは、このうちの「Edit API」に当たります。

      Edit APIとは?

      Edit APIのAPIリファレンスはこちらから確認できます。

      https://platform.stability.ai/docs/api-reference#tag/Edit

      公式のAPIリファレンスによると、
      Edit機能は「既存の画像を編集するためのツール」です。

      2024年8月現在、全部で5つのEdit機能が公開されています。

      • Erase
        • 画像マスクを必要とする機能です
        • 画像マスクを使用して、元画像の汚れや、机の上のアイテム等の不要なオブジェクトを削除します
      • Inpaint
        • 画像マスクを必要とする機能です
        • 画像マスクを使用して、指定された領域を新しいコンテンツで埋めたり置き換えたりすることで、画像をインテリジェントに変更します
      • Outpaint
        • 画像に追加のコンテンツを挿入して、任意の方向のスペースを埋めます
        • 画像内のコンテンツを拡大する他の手段と比較して、
          Outpaint機能は、元の画像が編集された違和感を最小限に抑えます
      • Search and Replace
        • 画像マスクを必要としない、特殊なバージョンの修復機能です
        • 画像マスクの代わりに、search_promptに置換対象をテキストで指定します
        • この機能は、search_promptに指定されたオブジェクトを自動的にセグメント化し、promptで要求されたオブジェクトに置き換えます
      • Remove Background
        • 画像から前景(背景に対して、手前に位置する要素)を正確に分割し、背景を削除します
        • 結果として、前景を残し、背景が透過された状態の画像が得られます

      今回はこのうちの「Inpaint」と「Outpaint」について詳しく取り扱います。

      Inpaint機能とは?

      入力画像の一部の範囲(マスク)を簡易的に指定し、その部分のみを生成して変化させるImageToImage(img2img)の機能です。

      入力画像の背景や細かいパーツなどを後から追加したり、逆に削除することができます。

      公式が提供しているGoogle Colabでは次のように例が紹介されています。

      prompt: artificer of time and space(時間と空間の錬金術師)

      画像
      inpaint前の元画像
      画像
      inpaint後の画像

      このように、マスキングした画像を入力として与え、そこにどのような描画を施すか?をprompt、つまり文字列で与えることによって、新たな画像を生成してくれる、というのがInpaint機能です。

      実際にInpaintを使ってみよう!

      ここからは、公式が提供しているGoogle Colabを使ってデモを行なっていきます。

      このColabへのアクセス、初期設定の方法は「超入門」編の記事を参考にしてください。

      準備:画像のパスの入手方法

      Inpaintでも、このあと紹介するOutpaintでも、この準備が必要になります。

      まずは、画面左側の「ファイルマーク」をクリックします。
      下に示す画像に従って、順番にクリックしていきましょう。

      画像

      次に、Edit対象の画像を選んで、アップロードします。

      少し待つと、この三角マークを押して表示される「content」フォルダの中にアップロードした画像の名前が表示されます。

      画像

      ここから先、「画像のパスをペーストします」という工程が何度も出てくるのですが、ここで得られるパスを入力してくださいね
      (つまり、画像を入力として入れる際には、「Google Colab内のこのファイル部分にアップロード後に得られるパス」を入力してくださいね)。

      これで、Edit機能を利用する準備ができました!

      ステップ1:マスキング前の画像のパスを取得する

      Inpaintの入力項目に、「image」と「mask」があります。

      • image:マスキング前の画像のパスを入力しましょう
      • mask:マスク画像のパスを入力しましょう
      画像

      まずは、元画像のパスを取得しましょう。

      マスクを必要とする機能を使う場合、マスク画像とピクセルがずれた画像を入力したり、本来の画像とは関係のない部分(画像をGoogle Slideなどに貼り付けた場合の余った余白の部分など)を含む画像を入力すると、マスク画像とうまくリンクせずに画像が揺れてしまうことがあります。

      そのため今回は、Google Slideを使って丁寧にマスクをしていきます。

      まず、今回使うinpaint対象の元画像がこちらです。

      画像
      こちらをinpaint機能を使って加工していきます!

      これをGoogle Slideに貼り付け、「背景」を選択し、黒を選択します。

      画像
      画像
      背景色を黒に選択します

      この状態で、ファイル>ダウンロード>png画像 と選択し、画像をダウンロードしましょう。

      画像
      スクリーンショットだとピクセルを確実に合わせるのが困難なので、
      スライドごと画像ダウンロードしましょう

      これで、元画像の画像パスが得られました。
      プロンプトの「image」部分に、今得られた画像パスを入力しましょう。

      ステップ2:マスク画像のパスを取得する

      元画像に、Google Slideの機能を使って白い丸を乗せて、マスクしました。

      これはまだ「マスク画像」ではないので、注意してください。

      画像
      マスキングを施した画像。ただし、「mask」に入れるパスはこの画像のパスではありません

      次に、先ほどと同じように、背景を黒に設定します。
      重要な工程なので、スキップしないようにお願いします。

      背景が黒に設定できたら、元画像を削除し、黒背景とマスクのみが残る状態にしてください。

      画像
      これが「mask」に入れるマスク画像になります!

      ここまで完了したら、ファイル>ダウンロード>png画像 と選択し、画像をダウンロードしましょう。

      画像
      (※再掲)
      スクリーンショットだとピクセルを確実に合わせるのが困難なので、
      スライドごと画像ダウンロードしましょう

      これを先ほど同様に、Colab上にアップロードします。画像のパスを取得できたら、プロンプトの「mask」部分に得られたパスを入力します。

      これで、「image」と「mask」に適切な画像パスが入力できました。

      ステップ3:prompt, negative prompt, seedを指定する

      今回は、元画像のドレスを着た女性がもともと「何も持っていない」ところを、マスクした箇所において「一輪の白い薔薇を持っている」ようにEditを施したいと思います。

      そこで、それぞれ次のように設定します。

      • prompt:holding a red white rose
      • negative prompt:ugly, normal quality
      • seed:39(お好みで)

      ここまでで、必要な設定が完了しました!

      ステップ4:いざ、実行!

      さあ、画像を生成してみましょう。

      得られた画像が、こちら!

      画像
      inpaint後の画像がこちら

      ちゃんと、指定した位置に白薔薇を持ってくれています!うれしい!

      このように、inpaint機能を使えば、
      「あとちょっと、この部分だけ変えたい!」というときに、
      その位置にマスキングを施すことで
      「欲しい位置」に「欲しい修正」を施してくれます。

      他の画像生成APIと組み合わせて使うことで、さらに創作の幅が広がりますね!

      お手軽テクニック:Google Slide上でマスク画像を編集する

      Google Slideは画像編集ソフトではありませんが、このような簡易な塗りつぶしはラインツールやオブジェクトツールで何度でもやり直しできます。マスクに求められる解像度は高くはないので特に影響はありません。

      もちろんWindowsのペイントなどのアプリでも構いませんが、狙った場所に塗りを入れるツールとして非常にお手軽です。

      少し手間が多いですが、丁寧にやることで手戻りも少なく済むので、
      確実な手順を踏むことをおすすめします。

      Outpaint機能とは?

      入力画像を「指定された方向に」「指定された分だけ」新たな絵を生成してくれる、ImageToImage(img2img)の機能です。

      例えば、「入力画像のサイズを変えたいけれど、今の背景に対するメインモチーフの大きさは変えたくない…」というときに大活躍します!

      公式が提供しているGoogle Colabでは次のように例が紹介されています。

      元画像の左(left)に100、右(right)に512新たに生成する、という指定がされています。

      画像
      公式Colabを開いたら最初から入っている例
      画像
      Outpaint前の元画像
      画像
      Outpaint後の生成結果

      このように、元画像と背景のバランスを保ったまま、ある方向に画像を広げてみたいときに非常に便利な機能です。

      実際にOutpaintを使ってみよう!

      ステップ1:元画像のパスを取得する

      今回Outpaint対象とする画像はこちらになります。

      画像
      先ほどInpaintでEditを施した画像を使用します

      こちらをColabのファイルにアップロードし、パスを取得します。
      完了したら、「image」にパスを入力します。

      ステップ2:画像をどのように広げるか指定する

      今回は、上と左右を広げて広く見せることで、より臨場感のある画像に仕上げたいと思います。

      そこで、次のように指定します。

      • left:200
      • right:200
      • up:500
      • down:0

      場所としては「中世のお姫様が住む高級感のあるお屋敷」とします。

      • prompt:a luxurious mansion, medieval, a princess
      • creativity:0.5
      • seed:39

      これで、Outpaintを実行する準備が完了しました。

      ステップ3:いざ、実行!

      得られた画像がこちら!

      画像
      Outpaint後の生成結果がこちら!

      元の画像には存在しなかった「お屋敷の天井」が、元画像に合った雰囲気で生成されました!

      元画像では切れて写っていた、左端に飾ってある花が、白薔薇として生成されているのが面白いですね。これはInpaint機能と掛け合わせてさらに自然に見えるよう修正してもいいポイントですね。

      このように、Outpaint機能を使えば、用途に合わせて画像サイズを変更する、というのが簡単にできます。

      元の画像に写っていない部分を新たに自分で描き足さなくても、

      「こんなふうにしたい」をプロンプトで指定することで実現できてしまうのが、Stability AI APIのパワーですね!

      さいごに

      公式Colabには今回紹介した以外にも多くのAPIが公開されており自由に触ることができます。
      様々なモデルを試し、ぜひ色々なタイプの画像生成にチャレンジしてみてくださいね!

      Stable Diffusionを開発・公開している Stability AI は、HuggingFaceで無償でダウンロード可能な Stable Diffusion をはじめとするオープンモデル以外に「Stability AI API」という有償のAPIも提供しています。高品質で高速、高機能なAPIであり、新しく魅力的な機能もどんどんリリースされているので 開発者向けのAPIガイド として紹介していきたいと思います。

      上記「Stability AI API Guide」noteより

      それぞれのAPIについて解説した「Stability AI API Guide」は
      こちらに随時更新していきますので、ぜひ合わせてご覧ください。

      https://note.com/aicu/n/n4eda1d7ffcdf

      【AICUからビッグなプロダクトのお知らせ!】

      以上の通り、高速・高画質・高機能で、とても便利な「Stability AI API」ですが、こちらに関連してオンライン講座プラットフォーム「Coloso」と一緒に企画した講座「超入門: Stable Diffusionではじめる画像生成AI」が8月23日に公開されます!
      約10時間超えの豊富なカリキュラムで構成されています。

      画像

      今、Colosoで講座の事前通知申請を申請すると6,000円の割引クーポンがもらえるので、お得な特典をお見逃しなく!

      講座内容は主にStable Diffusionと、Stability AI APIを使ってファッションや広告デザインに活用する方法になる予定です。

      画像
      画像

      リアルテイストのかわいいビジュアル満載のやさしい入門ラーニング動画になる予定なので今から楽しみ!

      画像

      講座のカリキュラムが確認できる詳細ページは、
      8月23日に公開される予定ですので、もう少しお待ちください。

      事前通知はこちら>> https://bit.ly/3YGSNda

      最後までお読みいただき、ありがとうございました!


      この記事の続きはこちらから https://note.com/aicu/n/n605c1963f13b

      Originally published at https://note.com on Aug 20, 2024.

    1. 【超入門 Stability AI API】「モデルとの対話」実習編。Stable Diffusion 3 時代に知っておきたいプロンプトの新常識

      こんにちは、AICU代表の しらいはかせ です。
      本日は重大ニュースがありますので、最後までしっかりお読みください。

      前回、Stability AI API Guideの「超入門」としてライターのRUNO.さんに基本となるGenerate APIと「TextToImageの最近の文法」を総ざらいしていただきました。

      Google Colabを使って、基本的な操作に慣れたところだと思います。

      この記事ではこの先の画像生成の時代に長く役に立つ「モデルとの対話テクニック」とStable Diffusion 3時代に知っておきたいプロンプトの新常識についてお伝えします。

        「Stable Diffusion 3」の時代に知っておきたいプロンプトの新常識

        モデル、TextToImage、プロンプト、CLIP…

        画像生成AI「Stable Diffusion」の最大の特徴は、テキストを入力することで単語をもとに画像を生成できる機能です。これを「TextToImage(t2i)」、AIに対する指示を行うテキストを「プロンプト」と呼びます。その後も多様な画像生成AIが登場していますが、多くはCLIPという画像と言語の対を学習したモデルが内部に使われており、現在も様々な言語理解を特徴として有したモデルが提案・開発されています。新しい画像生成AIサービスやモデルに出会った時に、まずはモデルと対話して、効率的なプロンプトの構造を理解することが重要です。またモデルや、それを利用したネットワーク、学習方法が多様にあり、多くはそのモデルを調教した側のノウハウにもなるため公開はされていません。想像や噂がネット上にたくさんあるのですが「これが完璧」という方法を一様に宣言することは難しいです。最近のモデルはプロンプトを短くすることに努力が割かれていますし、一方では簡単なキーワードで美麗な結果が出すぎるモデルは「過学習」と言えるかもしれません。

        重要なのは「制御性」と仮説検証テクニック

        画像生成の使い手にとって重要なのは品質や速度、簡単さに加えて「意のままに操れること」つまり「制御性」が重要になります。いくつかのポイントをおさえて仮説検証を行いながらモデルと対話すると、短時間でその特徴を理解して制御することが可能になってきます。

        「モデルとの対話」と実用的で再現可能な実験手法

        また公式情報として提供されているStability AI 公式のAPIガイド、そしてサンプルに散りばめられたプロンプトテクニックを読むことも重要なヒントになります。さらにコミュニティの開発者や探求者による情報も重要なヒントがあります。大事なポイントは、噂や推測でなく、自分で手を動かして、それを検証しなが「モデルと対話」していくことです。実用的で再現可能な実験手法です。ここでは、いくつかの実践的な例や実験手法を通して、最新のStable Diffusion 3時代の文法や表現力を引き出すコツをお伝えします。

        例:ネガティブプロンプトの位置づけの変化

        たとえばこちらに、海外で書かれたStable Diffusion 3 Medium (SD3M)に関する検証記事があります。
        How to get the best results from Stable Diffusion 3
        Posted June 18, 2024 by @fofr
        https://replicate.com/blog/get-the-best-from-stable-diffusion-3

        コミュニティのDELLさんが日本翻訳を公開してくれています。
        ■あなたはStable diffusion 3 の真の性能を発揮できていない

        https://qiita.com/nqdior/items/bd980e2664966871272e

        従来のStable Diffusionと SD3Mが異なる要素として、

        1. プロンプトの長さの制限が大幅に緩和され、より詳細な指示が可能になったこと
        2. 3つのテキストエンコーダーが採用され、表現力とメモリ効率のバランスを取れるようになったこと
        3. ネガティブプロンプトが効果を持たなくなり、詳細なポジティブプロンプトと適切な設定が重要になったこと

        などが挙げられています。SD3Mはオープンモデルなので実際にComfyUI等を使ってより詳細に対話することができます。ネガティブプロンプトはノイズを与える程度の意味しかなくなっています。さらにポジティブプロンプトはより具体性が求められ、従来あったCLIP テキストエンコーダーの77トークンの制限を気にする必要はなく、プロンプトは10,000文字、または1,500語以上といった、従来のプロンプトの常識とは異なるモデルになっています。

        前回の復習「プロンプトの文法:モデルとの対話ポイント」

        Stability AI API で提供されている各種モデル(Ultra, Core, SD3Large等)は、上記のSD3Mと同じではなく、上位のSD3を使ってより使いやすくトレーニングされたモデルになっています。
        前回のポイントを復習しながら、実際に手を動かしながら理解を深めてみたいと思います。同じプロンプト、同じシードを設定すると同様の結果画像が出力されますので、是非お手元で試してみてください。

        画像

        それでは実際に、公式で提供されているGoogle Colabサンプルを用いて、
        画像生成してみましょう!

        Stability AI 提供の公式サンプルへのショートカット
        https://j.aicu.ai/SAIci

        APIリファレンスから参照する場合はこちらから
        https://platform.stability.ai/docs/api-reference

        気になるAPI費用も最高画質のUltraでも1枚10円前後ですから文房具代感覚で使っていくと良いと思います。
        加えて、今回の復習でSD3時代の新常識を身につけると、効率よく画像生成ができるので「GPUやそれを運用する電気代より安い…」という感覚がでてくると思います。

        ポイント①:「生成したい画像のイメージを的確にする」

        画像のイメージ、とはなかなか難しいのですが、「主題・背景・その他」と整理しました。わかりやすく表現すれば単に「女の子」ではなく「女の子、どこで?何着ている?どんな画風で?どんなポーズで?どんな表情をしているの?」といった、主題に続く場面、画風、演出を具体的に意識しましょう。
        逆にモデルと対話したい場合は1語「girl」とだけ打ってみて、Seedや画面の縦横比を変えてみると良いです。具体的な指示がなかったときに何が起きるかを把握できるからです。

        ▼「girl」(seed:39, aspect ratio 1:1)Ultraにて生成

        画像

        ▼「girl」(seed:40, aspect ratio 1:1)Ultraにて生成

        画像

        ▼「girl」(seed:39, aspect ratio 16:9)Ultraにて生成

        画像

        どれも美麗な出力結果ですが、具体的に「どこで、どんな画風で、何を着ているの…?」といった対話するための「画像のイメージ」を持つことが大切です。

        ポイント②:「知っておくべきルール」

        • 英語で書く
        • 単語もしくは 文の区切りにカンマ(,)を入れる

        このあたりは基本として変わらないようです。こういうときも「日本語で書いてみると反応するかも?」という視点で試しておくと良いでしょう。

        ▼「日本人」(seed:39, aspect ratio 16:9)Ultraにて生成

        画像

        ▼「日本人」(seed:40, aspect ratio 16:9)Ultraにて生成

        画像

        日本語をある程度解釈していることがわかります。
        フランス語で「フランス人(les Français)」も試してみましょう。

        ▼「les Français」(seed:38, aspect ratio 16:9)Ultraにて生成

        画像

        ▼「les Français」(seed:39, aspect ratio 16:9)Ultraにて生成

        画像

        想像したような画像が出力されておりますでしょうか?
        フランスの法律によれば、「フランス人」は『すべて個人的にフランス国籍を享受する人々であり、また集団として主権領土として、自由な国民または国家としてフランスを享受する人々』ですが、なかなか「人々」を描いてくれません。日本語の学習と他の言語の学習を比較すると一様ではないということでもあります。

        具体的に英語で「人々(people)」を表現してみましょう。

        ▼「French people」(seed:39, aspect ratio 16:9)Ultraにて生成

        画像

        ▼「Japanese people」(seed:39, aspect ratio 16:9)Ultraにて生成

        画像

        ステレオタイプを強化する意図はないですが、「具体的に、英語で指示する」ことが重要なポイントであることが検証できました。

        カンマや順番についても実験しておきます。

        ▼「Japanese, people」(seed:39, aspect ratio 16:9)Ultraにて生成

        画像

        ▼「people, Japanese」(seed:39, aspect ratio 16:9)Ultraにて生成

        画像

        カンマで区切ったり、順番を入れ替えたりすることで、同シード・同じアスペクト比でも全く異なる画像が出る可能性があることがわかりました。

        ロケ地が近いことはなんとなく想像できるのですが、やはり「プロンプトの具体性がないと、画像として美しい絵はしっかり出るけれども、制御が難しい」という「ルール」が体感できたようであればまずは十分です。

        ポイント③:「クオリティプロンプトを使用する」

        過去、Stable Diffusion 1.x時代、Stable Diffusion XL (SDXL)時代に画像生成界隈で言及されてきたプロンプトの常識として「クオリティプロンプト」がありました。例えば、傑作(masterpiece)、高クオリティ(high quality, best quality)、非常に詳細(ultra detailed)、高解像度(8k)といった「定型句」を入れるとグッと画質が上がるというものです。これは内部で使われているCLIPやモデル全体の学習に使われた学習元による「集合知(collective knowledge/wisdom of crowds/collective knowledge)」なのですが、「それがなぜ画質を向上させるのか?」を説明することは難しい要素でもあります。
        Stability AI APIでも上記のクオリティプロンプトは効果があり、意識して使ったほうが良いことは確かですが、過去と同じ使い方ではありません。
        実験的に解説してみます。

        ultra detailed, hires,8k, girl, witch, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, fantasy, vivid color, noon, sunny

        #SD黄色本」からの引用です

        上記のプロンプトをクオリティプロンプトとしての「ultra detailed, hires, 8k,」を変更して、同じシード(seed:39)を使って Stability AI Generate Ultraによる比較をしてみました。

        ▼(seed:39), Stability AI Generate Ultraによる比較

        「girl, witch, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, fantasy, vivid color, noon, sunny」

        実は合成魔法なの…!? 過去と異なるクオリティプロンプト

        最近のモデルの言語理解力は「単語単位ではない」ようです。例えば今回の実験で与えた{hires, 8k, ultra detailed}をそれぞれバラバラに与えた場合、ほんの少し画像への影響はありますが、どれも同程度の変化です。

        しかし、「ultra detailed, hires, 8k」という形で3ワード同時に与えた場合は大きく画風が変わります。

        またベースになっているプロンプトにおいても、どこにも『アニメ絵で描いて』という指定は入っていません。{fantasy, witch} といったワードを外しても、プロンプト全体の雰囲気でファンタジーイラストを生成します。

        ▼「girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, vivid color, noon, sunny」(seed:39) Stability AI Generate Ultraによる生成

        画像

        ▼「girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, vivid color, noon, sunny」(seed:40) Stability AI Generate Ultraによる生成

        画像

        ここで公式のAPIガイドを確認しておきましょう。

        What you wish to see in the output image. A strong, descriptive prompt that clearly defines elements, colors, and subjects will lead to better results.
        To control the weight of a given word use the format (word:weight), where word is the word you’d like to control the weight of and weight is a value between 0 and 1. For example: The sky was a crisp (blue:0.3) and (green:0.8) would convey a sky that was blue and green, but more green than blue.

        出力画像で表示させたいもの。 要素、色、主題を明確に定義するわかりやすい説明的なプロンプトを使用すると、より良い結果が得られます。
        特定の単語の重みを制御するには、(単語:重み)という形式を使用します。単語は重みを制御したい単語、重みは0から1の間の値です。例えば、「空は晴れやかだった(青:0.3), (緑:0.8)」は、青と緑の空を表現しますが、青よりも緑が強調されます。

        という1文があります。
        要素、色、主題、そしてカッコを使った重み構文についての実験と検証もしてみましょう。

        vivid color,を外して、代わりに「(photoreal:1.0)」を入れてみます。

        ▼(photoreal:0.5), girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:40)

        画像

        この構文の数値は「0-1の間をとる」とのことですので、増減させることで、フォトリアル度を制御できます。この数字を減らすことで、アニメ絵に寄せることができるなら便利です。

        (photoreal:0.5), girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:40)

        画像

        (photoreal:0.1), girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:40)

        画像

        上手くフォトリアル-アニメ度を制御できました。

        逆に、1を超えて大きな値をいれるとどうなるでしょうか。

        (photoreal:2), girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:40)

        画像

        うまくリアル度が上がっていきます。
        「さらに大きな値を…」と欲張ってみましたが、ここから先は絵が破綻します。あまりにお見苦しいので興味があるひとはご自身で試してみてください。
        仕様から読み取ることができる使い方としては、複数のワード間の重み付けに使えるので、バランスを取ったり、色指定や表情の指定に使うと良さそうです。

        ▼(photoreal:1) a 10 years old child looks (girl:0.5) (boy:0.5), black robe, hat, long silver hair, sitting, smile, looking at viewer, flower garden, blue sky, castle, noon, sunny (seed:40)

        画像

        男児か女児か微妙な「10歳の子供」が見事に表現できました。

        ポイント④:「ポーズを指定しよう」

        人物画などを生成したいときは、ポーズを指定してみましょう。

        • sitting (座る)
        • raise hands (手を上げる)
        • looking back (振り返る)
        • jumping (ジャンプ)

        こちらも、より深い言語理解を想定して、きちんと人物に係る場所に入れるのが大事です。さらに複数語に渡るワードの強調構文も有効で(AICUの独自実験によると)スペースでもハイフンも認識されるようです。

        (photoreal:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands-on-own-cheeks:1), black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:39)

        画像

        (photoreal:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:39)

        画像

        男児か女児かわからない10歳ぐらいの子供が、「頬に手を当てこっちをみている」が表現できました。

        ポイント⑤:「構図を指定しよう」

        ポーズを指定しても、思ったような絵が出ない場合は、構図を指定すると効果的です。構図を後から変えると絵全体が変わることがあるので、初めからある程度決めておくのがおすすめです。

        • from above (上から)
        • from below (下から)
        • face focus (顔のアップ)
        • from side (横顔)

        さきほどのプロンプトから「looking at viewer, full body」を外して「(from side:1)」を入れてみます。

        ▼(photoreal:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (from side:1) ,flower garden, blue sky, castle, noon, sunny (seed:39)

        画像

        ▼(photoreal:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (from side:1), (face focus:1) ,flower garden, blue sky, castle, noon, sunny (seed:39)

        画像

        いい感じに顔に注目が当たりました。さらに目線をがんばってみたい。

        ▼(photoreal:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (from side:1), (eyes focus:1) ,flower garden, blue sky, castle, noon, sunny (seed:39)

        画像

        顔や目だけでなく、指にも気遣いたいのでバランスを取っていきます。

        ▼(photoreal:1) (from side:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (finger focus:0.5), (eyes focus:0.5) ,flower garden, blue sky, castle, noon, sunny (seed:39)

        画像

        良いプロンプトができました。
        念のため、シードも複数で試しておきますね。

        ▼(photoreal:1) (from side:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (finger focus:0.5), (eyes focus:0.5) ,flower garden, blue sky, castle, noon, sunny Seed:40

        画像
        指もいいかんじですね

        ▼(photoreal:1) (from side:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (finger focus:0.5), (eyes focus:0.5) ,flower garden, blue sky, castle, noon, sunny Seed:41

        画像
        画像
        Seed 42
        画像
        Seed 43

        「中性的な魅力を持った子供っぽい魔法使い」を制御性高く表現できるようになりました。

        まとめ

        Stable Diffusion 3時代に知っておきたいプロンプトの新常識と、その検証方法を整理しました。ファンタジーイラストからフォトリアルまで、完璧に制御できるプロンプトの文法、さらに画風や性別なども数字で表現できるテクニック、シードを使った制御方法やその確認など、今までのTextToImageよりもさらに深い世界が広がっていることを感じていただけたようであれば幸いです。
        これらのテクニックやモデルとの対話方法により、従来のホビー向けイラスト表現や「一発出し」のフリー画像素材的な使い道を超えて、商業広告やグラフィックデザイン、動画制作のようなプロフェッショナル用途に使用できる可能性が大きく拡がっています。しかもライセンス的にもすべて商用利用可能です。

        AICUもさまざまなAI時代のクリエイターとともに、AI時代の商業映像開発、パイプライン開発、教育マテリアル開発などを行っています。

        Stability AI APIは手軽に使えて高機能で、こんなに美麗なグラフィックスが作れるのに、使いこなしのための情報が少ない!
        AICU media編集部ではこれからも Stability AIさんやクリエイティブAIコミュニティのみなさんと協力して、各種読み物メディアで日々APIガイドの日本語情報を発信していきます。

        記事はこちらに集約されています
        マガジン「Stability AI Fan!」
        ▶Stability AI APIガイド(インデックスページはこちら

        https://note.com/aicu/n/n4eda1d7ffcdf

        そして品質の高い技術を開発していただいている、Stability AIさんありがとうございます!

        https://corp.aicu.ai/ja/stability-ai

        そして「ワタシはこんな風に使いこなしてる!」という方、ぜひAICUでクリエイターとして活躍しませんか?ライターや案件など X@AICUai のDMやメンバーシップ、コミュニティDiscordにて随時お話お聞きしております。

        重大ニュース!「Coloso」とのコラボ講座
        超入門: Stable Diffusionではじめる画像生成AI」開講!!

        さて、誰もが簡単に出せるt2iから、プロフェッショナル向け、商業向けレベルの生成AIクリエイティブの新時代もやってきています。
        これはCGの歴史を振り返ってみても確実な流れです。
        ここで重大ニュースの発表です。

        画像
        https://coloso.global/

        世界中のトップクラスのコンテンツばかりを集めたオンライン講座の国際企業「Coloso」(コロッソ)とAICUが一緒に企画した、初めてのクリエイティブAIに関する専門講座「超入門: Stable Diffusionではじめる画像生成AI」が7日後(2024年8月23日)に公開されます!

        画像
        このシリーズ「超入門 Stability AI API」と同じなのでは…?いえいえ違います!

        講座内容はAICU mediaで人気の日々お送りしている生成AIクリエイティブの情報、画像生成AIの歴史や文化、GPU不要・Macでも安心な環境構築、Google Slidesを使ったオリジナルツール、そして「超入門 Stability AI API」でもお送りしている「Stability AI API」を使って基礎の基礎から丁寧に学ぶ「基礎編」、さらに美麗なファッションデザインを自分で制作する「応用編」、広告業界やクリエイティブ業界にとって気になる「広告バリエーション」を生成AIだけで制作する「活用編」、そして画像生成AIにおける倫理など広範になる予定です。

        画像
        受講者はオリジナルファッションブランドのルックブックを作りあげることができます

        全20講座超え、総プログラム時間10時間を超える豊富なカリキュラムで構成されています。
        (AICUクリエイターの夏休みのすべてが凝縮されています!!)

        【代表からのメッセージ】
        世界の動画ラーニングプラットフォームのトップブランド「Coloso」で、AICUから今回の講座を発表できることを嬉しく思います。
        今回、準備しながら感じたこととして。日々の読み物メディアで発信をしつつ、企業向けコンサルティング大企業向けワークショップで数多くのトップクリエーターさん向けにレクチャーを提供させていただいているAICUですが、今回はさらに広い方々向けに動画メディアで短期集中で実用的なテクニックを確実に学べる講座を企画いたしました。このような企画が短時間で実現できたのは、画像生成AI分野を長年研究し「つくる人をつくる」をビジョンに活動するデジタルハリウッド大学発の国際スタートアップ企業「AICU Inc.」と、国際ラーニングメディア「Coloso」とのコラボならでは!と感じています。
        世界を舞台に日々進化する画像生成AIの分野。長期に活用できるようなテクニックを、従来の画像生成の常識を揺さぶりながら、最新のテクニックを短い時間で丁寧に、楽しく集中して学べる良質コンテンツになっておりますので、「これからはじめてみたい」という方々も、画像生成に詳しい方々も、「最先端の使いこなしを知りたい」「社内教育に使いたい」といった方々にもご活用いただければ幸いです。

        講座のカリキュラムが確認できる詳細ページは、7日後
        8月23日に公開される予定ですのでもう少しお待ちください!

        実は今、Colosoで講座の事前通知申請を申請すると
        6,000円の割引クーポンがもらえるので、お得な特典をお見逃しなく!
        ▶事前通知を申請する>> https://bit.ly/3YGSNda

        以上、AICU media編集部・および代表のしらいはかせがお送りしました。
        🙇今後とも皆さんの応援をよろしくお願いいたします🙇

        最後まで読んでいただきありがとうございました!

        Originally published at https://note.com on Aug 16, 2024.

      1. [5]ComfyUI カスタムノード徹底解説!機能とメリットを理解しよう

        こんにちわ、AICU media編集部です。
        「ComfyUI マスターガイド」第5回目になります。今回は、「カスタムノード」について、実際にインストールをした後の使い方と合わせて掘り下げていきたいと思います。

        前回はこちら シリーズ初回はこちら

          1. カスタムノードとは?

          カスタムノードとは、使う人が独自に機能を拡張することができる、ComfyUIの「拡張パーツ」のようなものです。まるでレゴブロックのように、様々なカスタムノードを組み合わせることができるので、自分だけのオリジナル作品を創造していくことできます。とても楽しそうですね!

          さて、カスタムノードがなぜあるのか。それは、使う人一人ひとりのニーズや創造性に合わせた柔軟な画像生成環境を提供するためです。標準機能だけでは実現できない、細かな調整や特殊効果、また最新のAI技術の導入などをカスタムノードでは行うことができます!

          初心者にとって、カスタムノードを理解することは、ComfyUIの可能性を最大限に引き出すための非常に重要な一歩となります。最初は難しく感じるかもしれませんが、この記事を通して、ぜひカスタムノードの基本的な知識を理解いただき、さらにComfyUIの世界をより深く探求するきっかけにしてみてください。

          2. カスタムノードの基礎知識

          カスタムノードとは何か

          カスタムノードは、ComfyUIの機能を拡張するためのユーザー定義のモジュールになります。料理で例えると、標準ノードが「基本的なレシピ」だとすれば、カスタムノードは「その人それぞれの独自のレシピ」と言えるでしょう。

          例えば、「野菜炒め」という料理を作る際に、野菜を切る、炒める、味付けをするといった基本的な手順は標準ノードでカバーできます。しかし、「特製ソースを使う」「隠し味を加える」といった独自の工夫は、カスタムノードで実現できます。

          画像

          カスタムノードの基本的な構造は、標準ノードと同様に、入力 → 処理 → 出力の流れで成り立っています。入力として画像やテキストなどのデータを受け取り、内部でPythonコードによって処理を行い、結果を出力します。

          例えば、「色調整ノード」であれば、入力として画像データを受け取り、明るさやコントラストなどを調整し、調整後の画像データを出力します。また、「プロンプト拡張ノード」であれば、入力として短いプロンプトを受け取り、それを詳細なプロンプトに拡張して出力します。

          カスタムノードとPythonの関係

          カスタムノードの内部処理は、Pythonというプログラミング言語で記述されています。Pythonは、その読みやすさと豊富なライブラリ、活発なコミュニティサポートによって、世界中で広く使われているプログラミング言語です。

          Pythonがカスタムノードに使用されている理由は、その柔軟性と拡張性の高さにあります。様々なライブラリを活用することで、画像処理、自然言語処理、機械学習など、多岐にわたる機能を簡単に実装できます。

          Pythonコードの基本構造は、入力の受け取り → 処理 → 出力の生成という流れです。カスタムノードでも、このPythonコードによって入力データを処理し、 望ましい出力を生成します。例えば、以下のようなコードでカスタムノードは作成されています。

          # カスタムノードの基本構造を示すサンプルコード
          
          # 1. 必要なライブラリをインポート
          import numpy as np
          from PIL import Image
          
          # 2. カスタムノードのクラスを定義
          class SimpleImageProcessor:
              # 3. 初期化メソッド
              def __init__(self):
                  self.brightness_factor = 1.5
          
              # 4. 入力を受け取り、処理を行い、出力を生成するメソッド
              def process_image(self, input_image):
                  # 入力画像をNumPy配列に変換
                  img_array = np.array(input_image)
          
                  # 画像の明るさを調整
                  brightened_array = np.clip(img_array * self.brightness_factor, 0, 255).astype(np.uint8)
          
                  # 処理結果を新しい画像として生成
                  output_image = Image.fromarray(brightened_array)
          
                  return output_image
          
          # 5. カスタムノードの使用例
          if __name__ == "__main__":
              # 入力画像を読み込む(実際のComfyUIでは自動的に提供されます)
              input_img = Image.open("input_image.jpg")
          
              # カスタムノードのインスタンスを作成
              processor = SimpleImageProcessor()
          
              # 画像を処理
              result_img = processor.process_image(input_img)
          
              # 結果を保存(実際のComfyUIでは自動的に次のノードに渡されます)
              result_img.save("output_image.jpg")
          
              print("画像処理が完了しました!")

          何が書いてあるかわからない?安心してください!Pythonコードを理解していなくても、カスタムノードを利用できます!ComfyUIは、ユーザーフレンドリーなインターフェースを提供しており、コードを直接操作することなく、カスタムノードの機能を活用できるのです。

          標準ノードとカスタムノードの違い

          標準ノードは、ComfyUIにデフォルトで搭載されている基本的な機能を提供するノードです。例えば、画像を読み込む「Load Image」や、プロンプトを入力する「CLIP Text Encode (Prompt)」などが挙げられます。これらのノードは、ComfyUIの基本的な操作を行うために必要不可欠です。

          しかし、標準ノードだけでは実現できない機能や、より高度な処理が必要になる場合もあります。そこで登場するのがカスタムノードです。カスタムノードでは、標準ノードではカバーできない機能を補完し、ComfyUIの機能を拡張することができます。

          例えば、複数の標準ノードを組み合わせて行っていた複雑な処理を、1つのカスタムノードにまとめることで、ワークフローを大幅に簡略化することもできます。また、最新のAIモデルを統合したカスタムノードを使用することで、より高品質な画像生成が可能となります。

          3. カスタムノードの重要性

          ComfyUIの柔軟性向上

          カスタムノードは、ComfyUIの柔軟性を飛躍的に向上させます。使う人は自分のニーズや好みに合わせて、様々な機能を追加し、ComfyUIを自分だけのツールへとカスタマイズすることができます。例えば、特定の画風や効果を簡単に適用できるカスタムノードを作成することで、自分だけのオリジナル作品を効率的に制作することも可能です。

          画像

          ユーザー体験の改善

          カスタムノードは、複雑な操作を簡略化しより直感的にComfyUIを使用できるようになります。また、視覚的にわかりやすいアイコンや名称を使用することで、ノードの機能を容易に理解し、スムーズなワークフローを実現できます。

          例えば、「efficiency-nodes-comfyui」というカスタムノードでは、モデルのロード(Load Checkpoint)、プロンプトの入力(CLIP Text Encode (Prompt))、空の潜在空間の作成(Empty Latent Image)などを1つのノードにまとめ、簡略化を実現しています。
          実際にインストールをしてみてみましょう。

          画像

          ワークエリア上でカチカチッとダブルクリックをして『efficient』と入力したら…出てきました!早速クリックをしてみます。

          画像

          補足です。空の潜在空間の作成(Empty Latent Image)とはいつもの text to imageな空の潜在空間では、画像のサイズや生成回数を記入しているノードのことです。

          画像

          通常の「Empty Latent Image」ノード
          ここではempty_latent_width, empty_latent_height, は 512, 512(SD1.5系)もしくは、1024, 1024 (SDXL系)、batch_size(生成回数) 1→15 など、用途に合わせて記入しましょう。

          画像生成プロセスの最適化

          カスタムノードは、画像生成プロセスの最適化にも貢献します。最適化されたアルゴリズムを使用することで、処理速度を向上させ、より短時間で高品質な画像を生成できます。また、高度なノイズ除去や詳細強化機能を追加することで、画像の品質をさらに向上させることができます。
          例えば、「ComfyUI_IPAdapter_plus」というカスタムノードでは、IP-Adapterという参照画像を基に画像生成を行える技術を簡単に使用することができるノードです。標準ノードでは実現が難しい技術をカスタムノードでサポートしています。

          画像

          コミュニティ駆動の革新

          カスタムノードは、ComfyUIコミュニティの活発な活動を促進し、革新的なアイデアを生み出す原動力となっています。使う人々が自由にアイデアを共有し、カスタムノードとして実装することで、多様なニーズに対応した機能が次々と誕生しています。特定の業界や用途に特化したカスタムノードも開発されており、ComfyUIの可能性は無限に広がっています。

          画像

          プログラミングの知識がなくても活用できる利点

          カスタムノードは、プログラミングの知識がなくても活用できるという大きな利点があります。ユーザーフレンドリーなインターフェース、コミュニティによるサポート、豊富な情報源など、初心者でも安心してカスタムノードを利用できる環境が整っています。最初は既存のカスタムノードを使用し、徐々に使い方を学び、最終的には自分でカスタムノードを開発する、といった段階的な学習も可能になってきます。

          画像

          4. まとめ

          カスタムノードは、ComfyUIの機能を拡張することで、ユーザー体験は格段と向上します。Pythonで記述されたこれらのモジュールは、ワークフローの効率化、高度な機能の追加、コミュニティ駆動の革新など、様々なメリットをもたらすことができます。

          Pythonとカスタムノードの関係を理解することで、ComfyUIの無限の可能性を最大限に引き出すことができます。初心者の方は、まずは既存のカスタムノードを試してみて、その機能や使い方を学んでみましょう!コミュニティのサポートや豊富な情報源を活用することで、徐々にカスタムノードに慣れていくことができます。

          今回は以上になります。
          どんどんComfyUIについて学ぶことが出来ているのではないでしょうか?この後のボーナストラックではお得なTipsを公開しております。次回も楽しくComfyUIを学べるような内容をご用意しておりますので是非楽しみにしていてください!

          画像生成AI「ComfyUI」マスターPlan

          画像

          画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

          • メンバー限定の会員証が発行されます
          • 活動期間に応じたバッジを表示
          • メンバー限定掲示板を閲覧できます
          • メンバー特典記事を閲覧できます
          • メンバー特典マガジンを閲覧できます
          • 動画資料やworkflowといった資料への優先アクセスも予定

          ゼロから学ぶ「ComfyUI」マガジン

          https://note.com/aicu/m/md2f2e57c0f3c

          マガジン単体の販売は1件あたり500円を予定しております。
          2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

          https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487

          もちろん、初月は無料でお試しいただけます!
          毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
          退会率はとても低く、みなさまにご満足いただいております。

          ✨️オトクなメンバーシップについての詳細はこちら


          この記事の続きはこちらから https://note.com/aicu/n/n5d5e6b0199b3

          Originally published at https://note.com on Aug 12, 2024.

        1. 【音楽知識ゼロでもOK!】Sunoでオリジナル曲を完成させよう!初心者向け【無料】

          こんにちは。AICUコラボクリエイターのぽんず(@ponzponz15)です。
          AI動画クリエイターとして活動しております。先日は大きな国際賞をいただきました。

          Runwayを使ってこんな動画も作れます。

          こんな作品を作る上で、音楽はとても重要です。

          「音楽作るのなんて素人には無理…」

          そう思っている方も多いかもしれません。
          今話題の「Suno AI」という最新のAIを使えば、難しい知識や音楽経験、課金も一切不要。誰でも簡単に思い描いた通りの高クオリティな音楽を作ることができます。
          この記事では、未経験の方でもわかるように画像を使いながらSunoの使い方を解説していきます。初めての方でも迷わないよう丁寧に説明していきますので、ぜひ最後まで読んでみて下さいね。

          Step 1. Sunoの世界へ飛び込もう!

          まずは、Sunoの公式サイトにアクセスしましょう。

          画像

          初めてアクセスすると、画面中央に「Make a song about anything」と書かれた入力欄と、左下にSign inボタンが表示されますのでそちらをクリックしましょう。

          Step 2. アカウント登録

          楽曲制作を楽しむためには、アカウント登録が必要です。
          メールアドレスやGoogleアカウントなどを登録するだけで、簡単にアカウントを作成できます。

          画像

          表示されたポップアップで、Apple、Google、Microsoftのアカウントで登録するか、電話番号を入力して登録するか選択します。

          Step 3. 楽曲制作画面へ

          アカウント登録が完了したら、いよいよ楽曲制作!
          画面左側のメニューから「Create」を選択します。

          画像

          すると、楽曲制作画面が表示されます。まずは赤線部分に自分が作りたい音楽を入力してCreateボタンを押して生成してみましょう。これだけで音楽が完成します。

          画像


          完成したのがこちらの歌です⬇️

          この部分の入力は日本語、英語どちらでも生成可能です。慣れたら他の曲を参考にいろんなスタイルに挑戦してみましょう。では次はオリジナルの歌詞を設定した作曲にチャレンジしましょう。

          Step 4. オリジナルソングをつくろう

          次に「Custom」と「Instrumental」という2つの選択肢があります。

          画像
          • Custom:🟥
            このモードでは、任意の歌詞を設定して音楽を生成することができます。
            さらにStyleを設定することで思い通りの楽曲が完成します(jpop,jazz,classicなど)
          • Instrumental:🟦
            このモードを選択すると、歌のない、楽器のみの楽曲を制作できます。
            壮大なオーケストラ曲や、オシャレなカフェミュージックなど、あなたのイメージを膨らませてみましょう。ちなみにInstrumentalで作成したのが以下の曲です。

          Step 5. オリジナル歌詞で作曲しよう!

          いよいよ本番です。次はオリジナルの歌詞を使って楽曲を制作しましょう。
          今回はChatGPTの力を借りて『Sunoのうた』という歌詞を先に作っておきました。では作曲していきましょう。

          [Intro] 
          [Verse 1] sunoで歌を作ろう、AI音楽で みんな自由に音楽作ろう 経験も知識もコードもメロディも 知らなくてもできる(ほらかんたん!) 
          [Pre-Chorus] 心の中にあるメロディ sunoが形にしてくれる 想像力を解き放てば 世界が変わる(suno!!) 
          [Chorus] みんな天才音楽家! sunoと奏でるハーモニー 音符が踊り出す、魔法みたい 新しい時代が来た!(suno!!) 
          [Verse 2] スマホ一つでスタジオに どこでも作曲、時間も自由 プロ?アマチュア?関係ない みんなで音楽楽しもう!
           [Pre-Chorus] 心の中にあるメロディ sunoが形にしてくれる 想像力を解き放てば 世界が変わる
           [Chorus] みんな天才音楽家! sunoと奏でるハーモニー 音符が踊り出す、魔法みたい 新しい時代が来た!(suno!!)
           [Bridge] 言葉を超えて、国境を超えて 音楽が繋ぐ、みんなの心 sunoと共に、未来へ響かせよう 最高の音楽を! 
          [Chorus] みんな天才音楽家! sunoと奏でるハーモニー 音符が踊り出す、魔法みたい 新しい時代が来た! 
          [Outro]

          [Intro]とかカッコで括られた単語は、作曲用語です。Suno公式の歌構造タグとして定義されていますので、翻訳・解説しておきます。


          AI は独自の判断力を持ち、独自のパターンに従う傾向がありますが、メタタグを使用して曲の構造に影響を与えることができます。

          イントロ [Intro]

          これは信頼性が低いことで有名です。インストゥルメンタル ブレイク(instrumental break)のように表現した方が良いかもしれません。

          • [Short Instrumental Intro]

          フック[Hook]

          フックとは、繰り返されるフレーズまたはインストゥルメンタルのことです。ラベルの有無にかかわらず、短い行を 2 ~ 4 回繰り返してみましょう。

          • [Catchy Hook]

          ブレイク [Break]

          ブレイクとは、リード楽器や歌手が沈黙し、伴奏楽器が演奏される曲のいくつかの小節を指します。[Break] は、現在のパターンを中断するために戦略的に使用されることがあります。

          • [Break]
          • [Percussion Break]

          間奏 [Interlude]

          Interlude は、歌詞の中にインストゥルメンタル セクションを作成するのに便利なタグです。

          • [melodic interlude]

          アウトロ [Outro]

          アウトロは曲の終わりを演出するのに役立ち、編集後にフェードアウトするループを作成することもできます。

          Refrain は曲の最後を締めくくるときに、より「創造的」になるようですが、Big Finish はクライマックスを作り出すためにメロディーやテンポを変えることがあります。

          • [Outro]
          • [Refrain]
          • [Big Finish]

          終曲 [End]

          歌詞の終了タグは、単独のクリップとして最も効果的に機能する場合があります。スタイル プロンプトをクリアするか、スタイルの説明に「End」を追加してください。

          • [End]
          • [Fade Out]
          • [Fade to End]

          Step 6.いざ生成

          歌詞が固まったら、いよいよ音楽を生成します。画面上部の「Custom」ボタンをクリックすると以下の画面が表示されますので、Lyricsに歌詞を、Style of musicに楽曲のスタイルを入力しましょう。

          画像

          Styleは候補を表示してくれていますのでそちらからも選択可

          画像

          あとは曲のTitleを入力してCreateこれだけで作業は終わりです。あとはSunoが、あなたのイメージを元に、オリジナル曲を作り上げてくれます。生成には少し時間がかかりますが、ワクワクしながら待ちましょう!完成した曲がこちらです。

          いかがでしょうか。たった数分でこのクオリティの楽曲が完成しました。

          Step 7. 世界に一つだけの音楽を堪能!

          音楽が生成されると、再生画面が表示されます。

          画像

          [赤] 再生ボタン
          [黄色] オプションボタン (スリードットボタン)

          再生ボタンをクリックして、実際に音楽を聴いてみましょう!
          あなたのイメージ通りの曲が完成しているはずです。

          Step 8. 楽曲をダウンロードして、自由に楽しもう!

          気に入った曲が完成したら、ダウンロードして、様々なシーンで活用しましょう!
          ダウンロード方法は簡単です。
          再生画面の右下にある縦に並んだ三つの点をクリックすると、メニューが表示されます。

          画像

          メニューの中から「Download」を選択すると、MP3形式またはWAV形式でダウンロードできます。ダウンロードした音楽は、以下のように、様々な場面で自由に使うことができます。

          • 自作の動画やゲームのBGMに
          • SNSの投稿を盛り上げるオリジナルBGMに
          • プレゼンテーション資料に個性と彩りを加えるBGMに
          • 毎日の生活を豊かにする、リラックスできる音楽として

          世界に一つだけのあなたの音楽を、色々な場所で奏でてみましょう!

          Step 9.無料?気になる料金プランは?

          無料プランと有料プランの違いを簡単に解説します。
          無料版(ベーシックプラン)

          • 毎日5曲分のクレジットがもらえる
          • 商用利用はNG
          • 生成スピードはのんびりめ

          👉ちょっと試したい人、商用利用しない人にピッタリ!
          有料版

          • プロプラン(月額$10):毎月500曲分!商用利用もOK!
          • プレミアプラン(月額$30):毎月2,000曲分!最速スピードで生成!

          Sunoで音楽制作の新時代を体験しよう

          この記事では、音楽生成AI「Suno」の使い方を、スクリーンショットを使って具体的に解説しました。
          「自分には作曲なんて無理…」

          そう思っていた方も、Sunoを使えば、誰でも簡単に、高品質なオリジナル音楽を作ることができます。
          あなたもSunoを使って自分だけの音楽を制作してみませんか?

          この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!
          https://note.com/aicu/   X(Twitter)@AICUai

          【ぽんずさんの寄稿記事】

          Originally published at https://note.com on Aug 10, 2024.

        2. [4]ComfyUIカスタムノード導入ガイド! 初心者でも安心のステップバイステップ解説

          こんにちわ、AICU media編集部です。
          「ComfyUI マスターガイド」第4回目になります。今回は、ComfyUI Managerの基本的な使い方についてお届けしたいと思います。
          この先のComfyUIの使いこなしを学ぶ上で、必須となる「カスタムノード」と「モデル」の導入にあたり必須の知識を解説します!

          前回はこちら シリーズ初回はこちら

          ComfyUIを最大限に活用するための第一歩!

          ComfyUIの拡張機能は、画像生成の幅を広げるために必須なツールです!様々な効果や機能を追加することで、あなたのアイデアを形が更に広がっていきます。この記事では、基本となるカスタムノードモデルのインストール方法をステップバイステップで解説していきます。

          ComfyUI Managerへのアクセス

          • メニューバー下部の「Manager」ボタンをクリックします。
          画像
          • ComfyUI Managerのインターフェースが新しいウィンドウで開きます。
          画像

          カスタムノードのインストール

          • Manager画面の「Custom Nodes Manager」ボタンをクリックします。
          画像
          • 利用可能なカスタムノードのリストが表示されます。
          画像
          • インストールしたいノードの横にある「Install」ボタンをクリックします。

            ★このあとアンインストールまで試しますので何を選んでも構いません。
          画像
          • インストールが完了すると、ComfyUIの再起動を求められるので、下部の「Restart」ボタンを押下します。
          画像
          • 再起動が完了するまで待機します。再起動中は、”Reconnecting…”というメッセージが中央に表示され、完了すると、このメッセージが消えます。
          画像
          • 再度「Custom Nodes Manager」を開き、以下の画像のように表示が変わっていると、インストールが完了しています。
          画像

          このとき、『Restart Required』の表示から変わらないようでしたら、
          ブラウザから更新をしてみると解決するかもしれません。

          「使いたいけど、まだ入れてないノードがある!」そんな時は

          例えば、他の人が作成したワークフローを自身のComfyUI環境に読み込ませて使用する際に、自身の環境にインストールされていないカスタムノードが使用されている場合、以下の画像のようにノードにエラーが発生することがあります。これを解消するために、インストールされていないノードのみを表示し、インストールしてくれる機能がComfyUI Managerにはあります。

          画像
          • エラーのあるワークフローを表示している状態で、Manager画面の「Install Missing Custom Nodes」ボタンをクリックします。
          画像
          • インストールされていないカスタムノードの一覧が表示されます。ここから前項で解説したカスタムノードのインストールを実行することで、現在のワークフローに必要なカスタムノードのみをインストールできます。
          画像

          モデルのインストール

          カスタムノードのインストールについては以上となります。
          次は、モデルのインストールについて説明をしてまいります。
          モデルとは、Stable Diffusionでオリジナルの画像を生成するために必要な学習済みファイルのことを指しております。公開されている様々なモデルを利用することで、イラスト風や実写風など様々なテイストで画像を生成することができます。

          ここでは練習として「TAESD」をインストールしてみます。
          ★このあとアンインストールまで試しますので何を選んでも構いません。

          早速試してみましょう!

          • 「Models Manager」ボタンをクリックします。
          画像
          • 利用可能なモデルのリストが表示されます。
          画像
          • インストールしたいモデルの横にある「Install」ボタンをクリックします。
          画像
          • インストールが完了すると、Refreshを求められます。
          画像
          • メインメニューで「Refresh」ボタンをクリックします。
          画像
          • 再度「Models Manager」を開くと、「Install」にチェックが入っており、インストールができていることが確認できます。
          画像
          • インストールされたモデルは、「Save Path」で指定されているフォルダに格納されます。今回の例だと、”ComfyUI/models/vae_approx“フォルダに格納されます。
          画像

          不要なモデルはディスク節約のために削除しておきましょう。

          アップデートの実行

          • Manager画面には、3種類のアップデート方法が用意されています。それぞれのボタンを押下することで、アップデートが実行されます。
            • Update All: ComfyUI本体およびカスタムノードを最新の状態に更新します。
            • Update ComfyUI: ComfyUI本体のみを更新します。
            • Fetch Updates: カスタムノードのみを最新の状態に更新します。
          画像

          注意点

          • カスタムノードやモデルをインストールする前に、それらの機能や使用方法をよく理解することが重要です。
          • 大量のカスタムノードをインストールすると、ComfyUIの起動時間が長くなる可能性があります。
          • モデルのダウンロードには時間がかかる場合があります。特に大きなモデルの場合は注意が必要です。

          ComfyUI Managerを効果的に使用することで、ComfyUIの機能を大幅に拡張し、より創造的な画像生成が可能になります。初心者の方でも、このツールを使いこなすことで、高度な機能を簡単に利用できるようになるでしょう。

          【最新】
          こちらの記事もどうぞ。最先端のFLUX.1[dev]のComfyUIでの利用例です。

          ✨️オトクなメンバーシップについての詳細はこちら

          ゼロから学ぶ「ComfyUI」マガジン(単品販売)

          https://note.com/aicu/m/md2f2e57c0f3c

          今回の有料特典は、インストールをしたモデルを使用して、AICUで公開しているキャラクター『全力肯定彼氏君 LuC4』くんを生成したいと思います。是非皆さんも、こちらを参考に様々なモデル・カスタムノードを試してみて、是非Xなどで公開をしてみていただけると編集部一同喜びます!(その際は、  #AICU_LuC4  のハッシュタグを是非ご利用ください!)


          この記事の続きはこちらから https://note.com/aicu/n/n4295d336677e

          Originally published at https://note.com on Aug 9, 2024.

        3. [3]ゼロからつくるとよく分かる!ComfyUIワークフロー作成で学ぶStable Diffusionの内部動作

          おかげさまで第3回となりました!
          今回の「ComfyUIマスターガイド」では、連載第3回はComfyUIに初期設定されている標準のワークフローを自分の手で一から作成し、ノード、Stable Diffusionの内部動作の理解を深めていきます!

          前回はこちら

          1. ワークフローの作成手順

          今回作成するワークフローは、ComfyUIの初回起動時に表示される標準のワークグラフになります。Stable Diffusion 1.5を使った標準的なグラフで画像生成を実現するシンプルなグラフになります。

          画像

          上図のように、左側からノードを順に追加していき、最後に各ノードの入力/出力ポートを接続します。

          2. ワークフローのクリア

          ComfyUIを起動すると、以下の画像のように標準のグラフが表示されます。今回は、一からこのグラフを作成するため、全てのノードを削除します。ここで、右下のコントローラから「Clear」を選択します。

          画像

          上部に以下のようなダイアログが表示され、「Clear workflow?」と尋ねられるので、「OK」ボタンを押下します。

          画像

          そうすると、画面上の全てのコンポーネントが削除され、真っさらな状態になります。

          画像

          3. モデルのロード (Load Checkpoint)

          まずは、モデルをロードするノード「Load Checkpoint」を追加します。
          グラフ上の何もない箇所で左ダブルクリックします。そうすると、ノードの検索ダイアログが表示されます。

          画像

          検索ダイアログの検索バーに「load checkpoint」と入力します。検索バーの下部のノード一覧に検索にヒットしたノードが表示されます。ここから「Load Checkpoint」を選択します。

          画像

          Load Checkpointがワークグラフ上に追加されます。

          画像

          Load Checkpointでは、使用するモデルを選択します。Load Checkpointのパラメータ「ckpt_name」をクリックすると、インストール済みのモデル一覧が表示されます。今回は、「v1-5-pruned-emaonly.ckpt」を選択します。
          このファイルは Stable Diffusion 1.5のベースとなるモデルチェックポイントファイルとなります。

          画像

          これでLoad Checkpointの作成が完了になります。ワークグラフ上には、Load Checkpointのみが組み込まれている状態になります。

          画像

          4. プロンプトの設定 (CLIP Text Encode (Prompt))

          次は、プロンプトを設定するノード「CLIP Text Encode (Prompt)」を追加します。前項と同様に、グラフ上の何もないところでダブルクリックして検索ダイアログを開き、検索バーに「clip text encode」と入力し、表示されたノードから「CLIP Text Encode (Prompt)」を選択します。

          画像

          ワークグラフ上にCLIP Text Encode (Prompt)が追加されます。

          画像

          プロンプトは、ポジティブプロンプトネガティブプロンプトが必要になるため、CLIP Text Encode (Prompt)は2つ必要になります。先ほど追加したCLIP Text Encode (Prompt)を複製し、プロンプト用のノードを2つ用意します。

          先ほど追加したCLIP Text Encode (Prompt)上で右クリックすると、ノード用のコンテキストメニューが表示されます。この中から「Clone」を選択します。

          画像

          「Clone」が実行され、CLIP Text Encode (Prompt)が複製されます。複製された直後は、複製元のノードと重なって表示されるため、1つのノードに見えますが、しっかり複製されています。重なっていると見づらいため、ノードをドラッグし、下の方に移動しましょう。

          画像

          今回は、作成した2つのノードのうち、上のノードをポジティブプロンプト、下のノードをネガティブプロンプトとして利用します。

          ※もし見分けがつきにくいときは、「Colors」からノードの色を変えてみると良いかもしれません。

          画像

          入力するプロンプトは、お好みのプロンプトを入力して問題ありませんが、
          今回は標準のワークフローに記載されていた内容を入力してみましょう。

          ポジティブプロンプトには、
          beautiful scenery nature glass bottle landscape, purple galaxy bottle
          を入力します。

          画像

          ネガティブプロンプトには、
          worst quality, low quality, normal quality
          を入力します。
          ここでは、低いクオリティの画像が生成されないように「見たくものを入れる指示」を与えています。部品としては画像を生成するためのプロンプト(ポジティブプロンプト)と同じCLIPというテキストと画像の対比を学習した条件付けのためのモデルを利用しています。

          画像

          これでプロンプトの設定が完了です。現状のワークグラフ上には、Load CheckpointCLIP Text Encode (Prompt)が2つ表示されている状態になります。

          画像

          5. 空の潜在空間の画像の作成 (Empty Latent Image)

          次に空の潜在空間の画像を作成するノード「Empty Latent Image」を追加します。前項と同様に検索ダイアログを開き、検索バーに「empty latent image」と入力し、表示されたノードから「Empty Latent Image」を選択します。

          画像

          ワークグラフ上にEmpty Latent Imageが追加されます。

          画像

          Empty Latent Imageの各パラメータの設定は、初期値をそのまま利用します。
          Stabled Diffusion 1.5の場合はデフォルトのまま「512×512」、「batch_size = 1」で構いません。Stable Diffusion XL (SDXL) の場合は「1024×1024」です。

          画像

          これで空の潜在空間の画像を作成するノードの追加が完了です。ワークグラフ上には、Load CheckpointCLIP Text Encode (Prompt)が2つ、Empty Latent Imageが表示されている状態になります。

          画像

          ※Stable Diffusion XL (SDXL) を使用する場合はEmpty Latent Imageの width, heightは 1024 にすべきであることをお忘れなく。

          画像

          6. サンプリングの実行 (KSampler)

          次は、サンプリングを実行するノード「KSampler」を追加します。前項と同様に検索ダイアログを開き、検索バーに「ksampler」と入力し、表示されたノードから「KSampler」を選択します。

          画像

          ワークグラフにKSamplerが追加されました。

          画像

          KSamplerの各パラメータの設定は、初期値をそのまま利用します。

          画像

          これでサンプリングの実行ノードの追加が完了です。ワークグラフ上には、Load CheckpointCLIP Text Encode (Prompt)が2つ、Empty Latent ImageKSamplerが表示されている状態になります。

          画像

          7. 潜在空間のデコード (VAE Decode)

          次は、潜在空間のでコードを行うノード「VAE Decode」を追加します。前項と同様に検索ダイアログを開き、検索バーに「vae decode」と入力し、表示されたノードから「VAE Decode」を選択します。

          画像

          ワークグラフ上にVAE Decodeが追加されます。

          画像

          VAE Decodeはパラメータを持たないので、これでVAE Decodeの追加が完了になります。現状のワークグラフには、Load CheckpointCLIP Text Encode (Prompt)が2つ、Empty Latent ImageKSamplerVAE Decodeが表示されている状態になります。

          画像

          8. 画像の保存 (Save Image)

          次は、生成した画像の保存を行うノード「Save Image」を追加します。前項と同様に検索ダイアログを開き、検索バーに「save image」と入力し、表示されたノードから「Save Image」を選択します。

          画像

          ワークグラフ上にSave Imageが追加されます。

          画像

          Save Imageのパラメータでファイル名のプレフィックスを設定できます。お好みのプレフィックスを設定してください。今回は、初期値の「ComfyUI」を使用します。

          画像

          これで画像の保存ノードの追加が完了です。現状のワークグラフは、Load CheckpointCLIP Text Encode (Prompt)が2つ、Empty Latent ImageKSamplerSave Imageが表示されている状態になります。

          画像

          9. 各ノードの接続

          ここまでに追加した各ノードを接続していきます。

          Load CheckpointとCLIP Text Encode (Prompt)の接続

          最初にLoad Checkpointの出力ポート「CLIP」と、2つのCLIP Text Encode (Prompt)の入力ポート「clip」を接続します。まずは、ポジティブプロンプト用のCLIP Text Encode (Prompt)と接続するために、Load Checkpointの出力ポート「CLIP」の黄色のドットをドラッグします。

          画像

          ドラッグした状態でマウスを動かすと、以下の画像のようにポートから線が伸びます。

          画像

          この状態でCLIP Text Encode (Prompt)の入力ポート「clip」の黄色のドットまでマウスを移動させます。

          画像

          CLIP Text Encode (Prompt)の入力ポート「clip」の黄色のドットの上にドロップすることで、ノードを接続することができます。

          画像

          同様にネガティブプロンプト用のCLIP Text Encode (Prompt)と接続させます。

          画像

          CLIP Text Encode (Prompt)とKSamplerの接続

          CLIP Text Encode (Prompt)の出力ポート「CONDITIONING」と、KSamplerの入力ポート「positive」および「negative」を接続します。

          まずは、ポジティブプロンプト用のCLIP Text Encode (Prompt)(上部のノード)の出力ポート「CONDITIONING」と、KSamplerの入力ポート「positive」を接続します。前述した方法でポートを接続してください。

          画像

          次に、ネガティブプロンプト用のCLIP Text Encode (Prompt)(下部のノード)の出力ポート「CONDITIONING」と、KSamplerの入力ポート「negative」を接続します。

          画像

          Load CheckpointとKSamplerの接続

          Load Checkpointの出力ポート「MODEL」と、KSamplerの入力ポート「model」を接続します。前述した方法でポートを接続してください。
          CLIP Text Encode (Prompt)を跨いで接続するため見づらいですが、紫色の線で繋がっています。

          画像

          Empty Latent ImageとKSamplerの接続

          Empty Latent Imageの出力ポート「LATENT」と、KSamplerの入力ポート「latent_image」を接続します。前述した方法でポートを接続してください。

          画像

          Load CheckpointとVAE Decodeの接続

          Load Checkpointの出力ポート「VAE」と、VAE Decodeの入力ポート「vae」を接続します。前述した方法でポートを接続してください。
          複数のノードを跨いで接続するため見づらいですが、赤色の線で繋がっています。

          画像

          KSamplerとVAE Decodeの接続

          KSamplerの出力ポート「LATENT」と、VAE Decodeの入力ポート「samples」を接続します。前述した方法でポートを接続してください。

          画像

          VAE DecodeとSave Imageの接続

          VAE Decodeの出力ポート「IMAGE」と、Save Imageの入力ポート「images」を接続します。前述した方法でポートを接続してください。

          画像

          10. ワークフローの完成!

          これでワークフローが完成しました。最終的なグラフは、以下の画像のようになっています。

          画像

          それでは、作成したワークフローで画像生成ができるか試してみましょう。「Queue Prompt」をクリックして、画像生成を実行します。

          画像

          無事に画像生成が成功しました。皆様の環境でも画像生成が成功したでしょうか。失敗した場合は、どこかに誤りがある可能性があるので、ここまでの内容を再度見直してみると解決できると思います。

          今回、ワークフローを一から組んでいくことで個々のノードについてと、ノードとノードを繋げていくことでのワークフロー全体への理解や、Stable Diffusionの内部動作への理解を深めることができました!

          次回はカスタムノードとモデルのダウンロードについてお送りしたいと思います!

          ✨️オトクなメンバーシップについての詳細はこちら

          この記事の続きはこちらから https://note.com/aicu/n/n843e3cdbb190

          Originally published at https://note.com on Aug 7, 2024.

        4. 「AICUマガジンVol.3」Kindle Unlimitedにて無料配信開始!!

          こんにちわ。AICU media編集部です。
          「つくる人をつくる・わかるAIをとどける」高校生でも楽しめる未来のクリエイターのためのクリエイティブAI情報誌「AICUマガジン Vol.3」は2024年6-7月合併号!「いまこそしりたい画像生成AIの社会と倫理」と題して、気になる画像生成AIの法律と倫理についてまとめてお届けします。

          生成AIを使ってみたいけど法律的に大丈夫なの? こんな使い方をしてみたいんだけど炎上しないかな…? そんなお悩みにAICUが具体的な練習問題とともにわかりやすくお届けします! 

          「AICUマガジンVol.3」の見どころ🤩

          ⚖️ 特集「いまこそ知りたい画像生成AIの社会と倫理」⚖️

          AIイラストの著作権問題から、炎上しないための使い方まで徹底解説!🔥 具体的な練習問題で楽しく学べちゃう!💯

          画像

          🚀 特集「AICU media 上半期人気記事一挙紹介」🚀

          2024年上半期にバズったAIツール、サービスを見逃し厳禁!👀

          画像

          🎨 サクッと先取り!クリエイティブAIツール 🎨

          プロンプトからサイトが作れる!?話題の「CREATE.xyz」を使ってみた!未来のWebデザインを体験!✨

          画像

          「Stability AI Fan!」

          Stable Diffusionユーザー必見!ディープな情報満載!😎

          画像
          画像
          画像

          📰 イベントレポート 📰

          「技術書典16」「JETRO AiSalon Tokyo June 2024」「Google for Japan」…注目のイベントをレポート!

          画像
          画像
          画像
          画像

          💡「ようこそ!アイキュー部」💡

          大人気連載漫画!10分でAIの基礎知識をGET!🧠
          なんと豪華51ページ相当の学習コンテンツを一挙掲載!!

          画像

          今回は「ようこそアイキュー部」の漫画版が始まる前の前日譚から…

          • Google Slidesでバリエーション広告を大量生成
          • バッチファイルでバリエーション広告を生成(1)使ってみよう編
          • バッチファイルでバリエーション広告を生成(2)解説編
          • 漫画版 第1話(再掲)
          画像
          画像

          ✍️ 編集コラム ✍️

          「画像生成AIは飽きる、飽きられる、だからこそプロの仕事はこうなる。」プロの視点から見た、画像生成AIとの向き合い方とは…?🤔

          画像

          🌸 はるしね~しょん(編集部だより) 🌸

          編集部の裏側をチラ見せ!AICUマガジンの制作秘話も…?🤫

          🎁 特別コンテンツ 🎁

          2024年12月末まで視聴可能【生成AIの社会と倫理】「画像生成AI Stable Diffusion スタートガイド」 #SD黄色本 公式ワークショップ

          画像

          話題の #SD黄色本 ワークショップが期間限定で視聴可能! お見逃しなく!

          美麗な表紙は
          インフルエンサーな「デルタもん」

          画像

          イラストレーター/キャラクターデザイナーの犬沢某さんが製作してくださいました

          ▼表紙を担当させていただきました。犬沢某(いぬさわばう)です。
          今回のテーマは「画像生成AI時代の社会と倫理」ということで、
          生成AI時代の社会に支えられるキャラクターの代表でもある「デルタもん」を描かせていただきました。
          近い将来、デルタもんのコスプレをしながら、ファッションモデルのようなインフルエンサーさんが、街中で自撮りをしている姿を見る日が来るかもしれませんね。
          テクニック的にはSD黄色本の内容で、AUTOMATIC1111を使って生成したものです。
          ふだんはオーバーオールを着た犬の少年ばかり描いています。
          犬沢某 (いぬさわばう/BowInusawa)

          🐶ばう先生、いつもありがとうございます🐾

          そして…気になる夏のアートコンテスト結果は…!?ファイナリストの皆さんを紹介

          詳しくは「AICUマガジン Vol.3」本誌🎉 読者のひろば🎉誌上にて!
          力作が集結!栄冠は誰の手に…?🏆


          レベルアップしたクリエイティブな夏休みを過ごそ~!🌻
          Kindle Unlimitedで無料です!

          https://j.aicu.ai/MagV3

          バックナンバーはこちら https://ja.aicu.ai/mag/

          https://note.com/aicu/n/n61476a3fc852

          https://prtimes.jp/main/html/rd/p/000000017.000133647.html

          #AICUマガジン #画像生成AI #著作権 #AIイラスト #生成AIの社会と倫理

          Originally published at https://note.com on Aug 6, 2024.

        5. FLUX.1[dev]の実力は?比較しながらGoogle Colabで動かしてみた。

          2024年8月1日、「世界最強」といわれるベンチャーキャピタル(VC)「アンドリーセン・ホロウィッツ」(a16z)が主導で投資する、Black Forest Labs(以下BFL)が、画像生成AIの新モデル「FLUX.1」発表しました。

          Stable Diffusionの元開発者たちを取り込み開発した画像生成モデルは「12B」つまり「120億パラメータ」という大規模なパラメータサイズで、『Midjourney v6.0、DALL·E 3、Stable Diffusion 3などを上回る性能を達成した』と伝えています。驚異的な画像生成能力を持つだけでなく、『これまでのAIが苦手としてきた人間の手の描写や複雑な場面の再現にも秀でている』と伝えています。さらに、商用からオープンソースまで、多様なニーズに応える3つのバージョンを用意し、ユーザーの需要を満たそうとしています。

          本記事では、FLUX.1の実力をStability AIの「Stable Diffusion 3」と比較しながら調査してみます。そして実際にComfyUIとFLUX.1  [dev]を用いて画像生成を行うまでの手順と、Google Colabで動作するノートブックをメンバーシップ向けに共有します。

          1. FLUX.1について

          画像

          FLUX.1は、Black Forest Labsが開発した最新の画像生成AI技術です。VQGANLatent DiffusionStable Diffusionモデル ( Stable Diffusion XLStable Video DiffusionRectified Flow Transformers )、超高速のリアルタイム画像合成のためのAdversarial Diffusion Distillationの研究開発に関わった人々が参加しています。基本的な信念としては、広くアクセス可能なモデルは、研究コミュニティと学術界内での革新とコラボレーションを促進するだけでなく、信頼と幅広い採用に不可欠な透明性を高めるということです。

          FLUX.1の主な特徴

          1.最先端の性能: 既存の主要なAIモデル(Midjourney v6.0、DALL·E 3、Stable Diffusion 3など)を上回る性能を達成したと伝えています。
          テキストから画像を生成する能力において新たな基準「ELO score」と、画像の詳細さ、プロンプトへの忠実性、スタイルの多様性、シーンの複雑さなどの面で優れた性能を示していると主張しています。

          画像

          たしかに、BFLのモデルはELO scoreにおいて優位性があるようです。
          順位としては FLUX.1 [pro] > FLUX1. [dev] > SD3-Ultra > Ideogram > FLUX.1 [schnell] > Midjourney-V6.0 > Dall-E 3 HD > SD3-Medium > SD3-Turboといった序列が付けられています。このバーグラフが正しければ、FLUX.1 [dev]はSD3-Ultra並であることがわかります。

          画像

          2.多様なバリエーション: FLUX.1 [pro]、FLUX.1 [dev]、FLUX.1 [schnell]の3バージョンを提供します。それぞれ用途やライセンスモデルが異なります。

          画像

          3.革新的な技術: マルチモーダルおよび並列拡散トランスフォーマーブロックのハイブリッドアーキテクチャを採用し、12Bパラメータにスケールアップ。

          4.柔軟性: 0.1から2.0メガピクセルの範囲で多様なアスペクト比と解像度をサポート。

          画像

          5.アクセシビリティ: APIを通じたアクセスと一部バージョンのオープンソース提供。

          FLUX.1の3つのバリエーション

          Black Forest Labsは、異なるニーズに対応するため、FLUX.1を3つのバリエーションで提供しています。

          1. FLUX.1 [pro]:APIのみのフラッグシップ

          FLUX.1 [pro]は、FLUX.1の最高性能を誇るバージョンです。

          • 最先端のパフォーマンスを持つ画像生成
          • トップクラスのプロンプト追従能力
          • 卓越した視覚的品質と画像の詳細さ
          • 多様な出力

          現在、Black Forest LabsはFLUX.1 [pro]の推論コンピューティング能力を徐々に拡大しているそうです。APIを通じてアクセスできるほか、ReplicateやFal.aiなどのパートナー企業を通じても利用可能です。さらに、企業向けのカスタマイズソリューションも提供するとのことです。

          https://fal.ai/models/fal-ai/flux/dev

          https://replicate.com/black-forest-labs/flux-dev

          2. FLUX.1 [dev]:オープンウェイトモデル

          FLUX.1 [dev]は、非商用アプリケーション向けのオープンウェイトモデルです。

          • FLUX.1 [pro]から直接蒸留された効率的なモデル
          • 同等のサイズの標準モデルより高効率
          • 高品質とプロンプト追従能力を維持

          FLUX.1 [dev]の重みはHuggingFaceで公開されており、ReplicateやFal.aiで直接試すこともできます。ガイダンス蒸留を使用したトレーニングを行い、生成された出力は、ライセンスに記載されているように、個人的、科学的、商業的な目的で使用することができます。

          3. FLUX.1 [schnell]:ローカル利用向け

          FLUX.1 [schnell]は、ローカル開発と個人利用に特化した最速モデルです。

          • Apache2.0ライセンスで公開
          • Hugging Faceでweightsを入手可能
          • GitHubで推論コードを公開
          • ReplicateとFal.aiでも利用可能

          各モデルの公開が非常に戦略的に進められていることが印象的です。

          2. ComfyUIでFLUX.1[dev]を使用する

          ComfyUIの作者であるcomfyanonymous氏が早速workflowを公開しています。以下のリンクに詳細がまとめられています。AICU AIDX Labではこのリンクの内容に従い、使用準備を進めていきます。
          文末にメンバーシップ向けにGoogle Colabで動作するノートブックを公開します(AICUのGitHub上でも無償公開しています)。

          https://github.com/comfyanonymous/ComfyUI_examples/tree/master/flux

          weightsのダウンロード

          以下のリンクよりFLUX.1[dev]のweightsをダウンロードします。flux1-dev.sft (23GB) をダウンロードし、ComfyUI/models/unetに格納してください。

          https://huggingface.co/black-forest-labs/FLUX.1-dev

          CLIPのダウンロード

          以下のリンクよりCLIPモデルをダウンロードします。clip_l.safetensorst5xxl_fp16.safetensors(または省メモリ版のt5xxl_fp8_e4m3fn.safetensors)をダウンロードし、ComfyUI/models/clipに格納してください。

          https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main

          VAEのダウンロード

          以下のリンクよりVAEをダウンロードします。ae.sftをダウンロードし、ComfyUI/models/vaeに格納してください。

          https://huggingface.co/black-forest-labs/FLUX.1-schnell/blob/main/ae.sft

          Workflowのロード

          以下の画像をダウンロードし、ComfyUIのキャンバスにドラッグ&ドロップしてください。画像ですが、workflowの情報が含まれているため、キャンバスにロードできます。

          https://github.com/comfyanonymous/ComfyUI_examples/blob/master/flux/flux_dev_example.png

          この狐娘さんの画像にワークフローが仕込まれています!

          画像

          ✨️このあたりのGoogle Colabでの動作がよくわからない方には以下の記事がおすすめです。

          キャンバスに上記のPNGファイルをロードすると、以下のようなフローがロードされます。

          画像

          cute anime girl with massive fluffy fennec ears and a big fluffy tail blonde messy long hair blue eyes wearing a maid outfit with a long black gold leaf pattern dress and a white apron mouth open holding a fancy black forest cake with candles on top in the kitchen of an old dark Victorian mansion lit by candlelight with a bright window to the foggy forest and very expensive stuff everywhere
          黒い金箔模様のロングドレスと白いエプロンのメイド服を着て、口を開けたまま、ろうそくの明かりに照らされた古い暗いビクトリア様式の邸宅の厨房で、ろうそくの上にろうそくを立てた黒い森のケーキを持っているかわいいアニメの女の子

          生成できました!

          画像

          FLUX.1 [dev]のモデルサイズ、Google Colabでは L4 GPU環境(GPU RAM 22.5GB)でギリギリ動作するように設計されているようです。

          画像

          dev版で高品質の画像を生成するためには、50steps必要なので、BasicSchedulerのstepsを50に変更してください。

          画像
          画像

          顔の表現が変わって、ろうそくが5本に増えてますね…

          ネットワークを読み解く

          グラフからFLUX.1のネットワークを分析してみます。

          画像

          モデル→BasicScheduler→SIGMAS→[SamplerCustomAdvanced]
          RandomNoize→[SamplerCustomAdvanced]
          KSamplerSelect→[SamplerCustomAdvanced]
          EmptySD3LatentImage(1024×1024)→[SamplerCustomAdvanced]
          DualCLIPLoader→[CLIP]→FluxGuidance→(Conditioning)→[BasicGUider]→(Guider)→[SamplerCustomAdvanced]

          [SamplerCustomAdvanced]→VAE Decode→Image

          画像

          Stable Diffusion 3の構成によく似ています。
          DualCLIP、EmptySD3LatentImageはStable Diffusion 3の部品と共通で、FluxGuidanceというノードがComfyUIによって新たに開発されています。これが従来のCFGにあたるプロンプトへの忠実度を示す値(現在は3.5)になるようです。ネガティブプロンプトやImage2Image、ControlNetはこのConditioningに与える形で提供されるのでしょうか。
          ComfyUIの開発者を取り込んだ状況や、Kolorsの最近のコミュニティでの開発状況から予想するに、早い段階でControlNet等が提供される可能性もありえます。この分野はオープンソースへのモデル提供という貢献がプラスに働くコミュニティでサイクルさせていく戦略なのでしょう。

          C2PAなどの対応はなし

          オープンモデルを自前で立てたGoogle Colab上で動かしているので当然といえば当然ですが、C2PAの埋込情報はないようです。

          画像

          有料APIでの対応がどのように提供されるのか興味深いところではあります。

          3. FLUX.1[dev]による画像生成

          実際にFLUX.1[dev]で画像生成してみました。以下に使用したプロンプトと生成された画像を貼付します。

          ヘリコプターから飛び降りる女性

          A cinematic image capturing a Japanese woman with long black hair, performing a dramatic dive from a helicopter into the vast open sky. The background features a breathtaking view of the sky filled with soaring birds, accentuating a sense of freedom and exhilaration. The woman's expression is focused and fearless, her hair flowing dramatically behind her as she dives. The helicopter is visible in the upper part of the frame, adding a touch of adventure and scale to the scene. The lighting is dynamic, highlighting the action and the expansive atmosphere.
          画像
          画像

          ダッシュする髭マッチョ男性

          A cinematic image depicting a rugged Japanese man with a beard, sprinting through the bustling streets of Shibuya, Tokyo. He is portrayed as muscular and intense, with his strong physique evident even through his clothing. The scene captures him mid-dash, with the iconic Shibuya crossing in the background blurred by the motion. Neon lights and the vibrant city life add to the dynamic and energetic atmosphere of the image. The lighting is urban and dramatic, emphasizing the man's determined expression and the fast-paced action of the scene.
          画像

          ドラゴンと勇者

          A cinematic fantasy image inspired by RPG themes, featuring a heroic scene with a dragon, a warrior, a wizard, a martial artist, and a cleric. Set in a mystical landscape, the dragon looms large in the background, spewing fire into the sky. The warrior, clad in armor, stands boldly in the foreground with a sword raised. Beside him, a wizard prepares a spell, glowing with magical energy. The martial artist, in dynamic pose, is ready to strike, and the cleric, with a staff in hand, invokes a protective spell. The scene is bathed in the ethereal light of magic and fire, creating a dramatic and epic atmosphere.
          画像

          ゾンビと逃げるカップル

          A cinematic image depicting a male and female couple frantically running from a massive horde of zombies. The scene is set in a chaotic urban environment with the army in the background, engaged in a fierce battle to contain the zombie outbreak. The couple appears desperate and terrified, dodging between abandoned cars and debris. Soldiers can be seen in the periphery, firing at the advancing zombies, providing a grim backdrop. The atmosphere is tense and suspenseful, with dark, ominous lighting amplifying the sense of impending danger.
          画像

          足の生成テスト

          A cinematic image of a Japanese woman casually displaying the soles of her feet, seated on a park bench. The scene captures her in a relaxed pose, perhaps during a leisurely afternoon in a tranquil urban park. The focus is on her bare feet, crossed elegantly as she enjoys a book or the peaceful surroundings. The background is softly blurred, emphasizing her and the detail of her feet. The lighting is warm and natural, highlighting the simplicity and quiet mood of the moment.
          画像

          軍隊の上陸作戦

          A cinematic image depicting a military landing at a beachfront during a defensive operation. The scene captures the intensity of the moment with troops disembarking from landing craft under the cover of smoke and gunfire. The ocean is rough, reflecting the turmoil of battle, with waves crashing against the shore. Soldiers in full gear advance onto the beach, facing resistance from defensive positions in the distance. The sky is overcast, adding a dramatic and somber tone to the scene, emphasizing the gravity of the military engagement.
          画像

          複数の女性がプールで遊ぶ

          A cinematic image featuring multiple Japanese women in swimsuits, enjoying a playful moment in a pool, surrounded by splashing water that creates a fantastical atmosphere. The scene captures them laughing and splashing water at each other, with the sun casting a shimmering glow on the droplets, creating a sparkling effect. The background shows a beautifully designed pool area that enhances the dreamlike quality of the image. The overall mood is joyful and ethereal, with soft, diffused lighting that adds a magical touch to the setting.
          画像

          イラスト: 魔法使いが爆発魔法を唱える

          A cinematic image inspired by anime, depicting a dramatic scene of magical alchemy leading to an explosion. The setting is a dark, mystic chamber filled with ancient symbols and glowing artifacts. In the center, a character performs a complex magical ritual, hands raised as they channel energy into a vibrant, swirling mass of light that culminates in a sudden, intense explosion. The explosion sends colorful magical energies radiating outward, casting vivid shadows and illuminating the room with a spectrum of light. The atmosphere is tense and charged with the power of unleashed magic.
          画像

          イラスト: 異世界転生したプログラマ

          A cinematic image blending realistic and anime styles, featuring a programmer who has been reincarnated into a fantastical other world. The scene shows the programmer sitting at a magical, glowing workstation filled with ancient scrolls and futuristic screens, coding to manipulate the laws of this new world. Around him, elements of a traditional fantasy setting—enchanted forests, distant castles, and mythical creatures—merge with digital effects to symbolize his unique role in this realm. The lighting is dynamic, highlighting the contrast between the old world's mystique and the new digital influence he brings.
          画像

          Animagine XL 3.1のプロンプトでLuC4を生成してみる

          AICUのキャラクターである「LuC4」をAnimagine XL 3.1用公式プロンプトで生成してみます。

          1boy, solo, upper body, front view, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight, hoodie, jeans, newest

          特にアニメ要素は指定していないのですが、非常にいい感じのLuC4くんが生成されました。

          画像
          画像
          画像

          1生成あたり平均129秒といったところです。これは大きい方のCLIPを使いLowVRAMモードで起動しているのでもっと高速化することもできるかもしれません。

          4. 所感と疑問: 過学習?何故かアニメに強い

          12B、ファイルサイズで22GB。

          まず 触ってみた所感として、FLUX.1 [dev]はさすが12B、ファイルサイズで22GBという巨大なサイズです。言語理解力が高く、高品質の画像を生成するモデルではありますが、扱いやすいサイズとは言い難い。Google Colab環境のL4で快適動作するサイズのギリギリ上限として[dev]をリリースされたのは見事です。

          商用利用は可能なのか?その品質は

          商用利用可能ではありませんので、ホビーストが Text to Imageでの一発出しを楽しむレベルつまり、Midjourneyとしては十分な品質を持っているという印象があります。しかし商用ライセンスとしてはまだウェイティングリスト状態ですし、出力される画像はMidJourneyにNijiJourneyが混ざったような総花的な感覚を受けます。

          人物の表現にも偏りや、実在感の不足を感じます。例えば最近のComfyUI環境で使われている「Kolors」はフォトリアル系人物に強い中国系企業によるモデルです。英語と中国語、文字レンダリング、指、そして東アジア各国の人物表現の分離がしっかりできています。

          https://note.com/yas_bizdev/n/nc160fe614725

          https://note.com/yas_bizdev/n/n701bed443641

          ComfyUIコミュニティとの協働は評価できる

          上記の通り、BFLははComfyUIコミュニティとの協働を行っているようです。
          ネガティブプロンプトやImage to Image、ControlNetはまだありませんが、KolorsでのComfyUIが公式からリリースされたように(※2024/8/6追記)、今後、オープンソースコミュニティと協働によって開発が進むのかもしれません。今後新しいワークフローがどこからリリースされるのか注目です。

          https://comfyanonymous.github.io/ComfyUI_examples/flux

          [dev]と[pro]の互換性は?

          [dev]で鍛えたナレッジが[pro]で活かせるのかどうか、プロユーザーは調査していきたいところではあります。蒸留された[dev]と商用API経由の[pro]がシードなどを介して互換性高く利用できるのであれば理想的ですが、特性がまるで異なるようであると、ビジュアル産業の用途には使いづらいと考えます。
          余談ですが、APIモデルのライセンス提供やAPIプロバイダを介した提供などは、今後も各社が頑張っていくところだと予測します。例えばStability AIもFireworks.AI経由で高速なAPIを提供していますし、オープンモデルの商用ライセンスも提供しています。

          https://stability.ai/license

          オウンホストできる[dev]とAPI利用のみになる[pro]に互換性があるのであれば、ビジュアルエフェクトに関わるエンジニアにとって、パイプライン、ワークフローは組みやすくなります。しかし双方が全く異なるアーキテクチャーや特性をもっていると、別のシステムとして扱わなければなりません。

          APIはドキュメントがあるが招待制

          AICUでは [pro]を評価すべく https://api.bfl.ml/  において登録を行いましたが、招待制とのことで利用はできませんでした。

          画像

          API化は演算環境のアウトソーシング化や品質の維持に貢献できますが、一方ではAPI提供企業によるブラックボックス化が進みやすい、透明性を下げる点もあります。
          Stable Diffusionに例えて見回すと、Stable Diffusion 3 Medium や Stability AI が提供するAPIは過去のStable Diffusion 1.xや Stable Diffusion XL (SDXL)に比べてはるかに高速・高機能で高品質です。ですが市場にはまだたくさんのSD1.5やSDXLのモデルで画像生成サービスを提供している企業があるようです。市場の形成という意味では、画像生成AIをサービスしているプレイヤーがきちんと「最新のAPIを使っています」とか「商用ライセンスを買っています!」という企業が増えて欲しいところですし、消費者も目が肥えてきているので、選んで使っていきたいところです。例えばパープレはエンドユーザからの集金と、外部モデルの選択可能性の仕組みを上手くサービスとして構築しているように見えます。

          今後も「とりあえず出せればいい用途」は限りなく無料化していく一方で、きちんと商業ライセンスが確立するサービスには圧倒的な画質と速度、価格と、C2PAなどの来歴データ提供などを含めたトータルな安心・安全までが整備された高品質APIに需要が向くと観測します。

          ▼「Stable Diffusion」の革命から2年、画像生成AIはAPIとコミュニティの時代へ ~倫理問題の「当たり前化」のその先に

          https://forest.watch.impress.co.jp/docs/serial/aistream/1612897.html

          追加学習しづらい

          サイズが大きいということで、追加学習やファインチューニングが難しいという想像はできます。現在のリリースラインナップでは、コンシューマーレベルのGPUで扱えるサイズは[schnell]ということになるかと思います。こちらについて、評価する機会があればいずれ見てみたいと思います。

          何故かアニメに強い

          特にアニメや漫画に寄せたプロンプトの指定をしていなくてもいい感じのアニメ風の画像が出てきます。

          AICUのコラボクリエイター犬沢某さん @InsBow の作品。

          過学習の過学習をしている可能性

          過学習とは、特定の学習元に最適化されたため汎化性能が下がってしまう例です。例えば「cyberpunk」というプロンプトに対してゲーム「Cyberpunk 2077」のアートが生成されてしまうような例です。これはMidJourney v6でも言われていることですが、それをベンチマークにすることで「過学習の過学習」をしてしまう可能性が感じられます。

          具体的にはモデルの性質として、何も指定していないのにアニメ顔が出る点です。Danbooruタグと呼ばれる「1girl」という表現や、Animagine XL 3.1のプロンプトである「latest」などに反応している点からも、他のモデルの蒸留をして、さらに過学習をしている可能性があります。

          過学習は特性として慣れれば扱いやすいかもしれませんが、一方では特定の画風や作者に対してのあらぬ嫌疑をかけられる可能性があります。

          倫理的なキュレーションはされていない可能性

          過学習と並んで、倫理的なキュレーションがされていない可能性を感じます。OpenAIや Stability AIといったAI基盤モデルの先駆者たちはデータセットの素性や倫理的な精査選別を行っています。このような作業を「curation」(キュレーション)、それを行う人を「キュレーター」といいます。
          例えばOpenAIは「アライメント」や「キュレーション」に多大なコストを払っており、人間によって倫理的な調教を行っています。

          https://note.com/o_ob/n/n68bd7db03162

          画像生成モデルにおけるキュレーションの状態をテストすることは非常に簡単です。「NSFW」や裸体、子供や人種差別、大統領などを生成させればすぐに分かりますが、AICU mediaの紙面ではふさわしくないので、割愛します。

          念の為「miku」だけSeed=39で生成してみます。

          画像

          みっくみくです。念の為、Google画像検索をしてみましたが、一致する画像はありませんでした。

          画像

          学習元のデータセットやオプトアウトといった手続きがないと新たな炎上や訴訟になる可能性があることは否定できません。
          ※いずれにしても生成側に責任があることは変わりません。

          性能評価におけるベンチマーク対象が恣意的

          いまいちどBFL提供の性能評価を確認してみます。

          画像

          まず評価対象のトップにある「SD3 Ultra」ですが、ちょっと恣意的かもしれません。まず「SD3 Ultra」という名前のモデルは存在しません。Stability AIで「Ultra」と呼ばれているモデルは「Stable Image Ultra」であって「Stable Diffusion 3」でも「SD3 Ultra」でもありません。

          Made from the most advanced models, including Stable Diffusion 3, Ultra offers the best of the Stable Diffusion ecosystem.
          Stable Diffusion 3 を含む最も高度なモデルから作成された Ultraは、Stable Diffusionエコシステムの最高峰です。

          Ultraが最高峰であるとすると、Stable Diffusion 3 シリーズで公開されているモデルの最高モデルは「Stable Diffusion 3 Large」でパラメーター数は8B、つまり推定80億パラメータ。「Stable Diffusion 3 Medium」は2B、20億パラメータです。「Ultra」はこれらの Stable Diffusion 3を含んだAPIサービスとなります。

          https://stability.ai/news/stable-diffusion-3

          単に最大パラメータサイズを売りにすると、120億vs80億で、「FLUX.1のほうが強そう」ですが、「同じパラメータ数のサービスとして評価すると、FLUX.1が劣後する可能性」すらあります。LLMを使った言語系サービスに例えれば「必要な課題への必要な回答」を「高い精度」で「低い費用」で利用できるためのモデルを考えてリリースする必要があり、必ずしも「辞書の大きさ」つまりパラメータ数が多いだけではなく「その最適化」、それ以外の変数やそもそも課題設定なども、求める性能を得るためには同じくらい重要です。これらを最適化するための機械学習の手法、ハイパーパラメータの最適化なども多くの技術があります。

          このような課題や品質ををどう捉えているか、といった視点でもう一度リリースを見直してみると、Visual Quality, Prompt Following, Size/Aspect Variability, Typography, Output Diversity…といったレーダーチャートで表現をしています。Stable Diffusion 3 Ultraと比較して、「画質」はほぼ同等です。
          その他の要素では「出力の多様性」、「サイズ・アスペクト比変動性」、「タイポグラフィ(文字)」は差が大きいようです。
          多様性については評価手法が確立しているとはいい難いです。AICUではStability AI APIのCoreAPIが提供している17スタイルの評価を上位モデルと比較して1800枚程度の同一プロンプト、同一シードの画像で互換性評価を実施していますが、前述の通り『過学習の影響』は使い手が判断するしかないのが現状です。ファインチューニング手法が確立するのを待つしかないでしょうか。

          タイポグラフィ

          文字を打つ能力はStable Diffusion 3 Ultraよりは劣後するという表現になっており、[pro],[dev],[Schnell]で大きく差がつく要素になっていますが、実際には[dev]でもアルファベットはしっかりかけるようです。

          画像

          日本語や漢字は苦手なようですが、今後はこの手の文字、特に日本語・中国語・韓国語(CJK)などの東アジア言語が主戦場になるのかもしれませんね。…といったところで実験していたら✂が出てきました。先にUnicodeでの絵文字の実装を狙っているのかもしれません。

          画像

          以上、FLUX.1 [dev]の実力についてのハンズオンレビューでした。

          次は動画…[SOTA]が登場!?

          画像

          次はすべての人のための Text-to-Video「SOTA」へ

          本日「FLUX.1」 Text to Imageモデル・スイートをリリースしました。強力なクリエイティブ機能を備えたこれらのモデルは、競争力のあるジェネレーティブ Text-to-Videoシステムの強力な基盤となります。私たちのビデオモデルは、高精細でかつてないスピードでの正確な作成と編集を可能にします。私たちは、ジェネレーティブ・メディアの未来を開拓し続けることを約束します。

          今後の画像生成AIにおける新しい常識がアップデートされるのでしょうか。期待して見守りたいと思います。

          この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!

          https://note.com/aicu/ X(Twitter)@AICUai

          ✨️本記事は Yas@BizDev支援のエンジニア さんの寄稿をベースにAICU AIDX Labおよび編集部にて大幅に加筆・検証したものです。ご寄稿いただきありがとうございました。
          ✨️初稿から評価面を大幅に加筆しています(2024年8月6日)

          メンバーシップ向けボーナス・コンテンツ

          Google Colabで動くノートブックを公開しています。

          この記事の続きはこちらから https://note.com/aicu/n/n750140124c01

          Originally published at https://note.com on Aug 5, 2024.