カテゴリー: 画像生成AI

画像生成AIの使い方や最新情報についてお届けします。

  • 【広告にAIは使えない?】広告の先生×AIクリエイター=「生成AI時代の広告企画から動画制作プロセス」をどうぞ

    こんにちは!AICUコラボクリエイターのぽんずです。
    まだまだ暑いですね!健康に良い飲み物をどうぞ。

    先日、マクドナルドが生成AIを使った広告を展開し、話題になりましたね。「生成AIってすごいけど、リスクもあるの…?」「結局、広告にどう使えばいいか分からない…」そう感じている方も多いのではないでしょうか?

    しらいはかせも言ってます

    超入門: Stable Diffusionではじめる画像生成AI」予約販売開始、おめでとうございます!

    ぽんずも作ってみました。

    「あつあつスープ」という一番関係ない歌をテーマソングに採用したM-CMです。AI広告の可能性を日々探っています。

    先日、AI動画で大きな国際賞を頂いたおかげもあって、色んなお仕事をいただくようになったのですが、実は同時並行でAICUでビッグなプロジェクトに関わらせていただいておりました!こちらです!

    画像

    Colosoオンライン講座「初級者:
    生成AI時代の広告企画から動画制作プロセス」

    Colosoさんから「初級者:生成AI時代の広告企画から動画制作プロセス」というタイトルで動画教材がリリースされます!!!

    生成AIによるCM制作は別の次元へ…

    実は、生成AIによるCM制作は、もう “別の次元” に進化しようとしています。そして、その “正しい使い方” を学べるのが、この秋Colosoで開講するオンライン講座 「初級者:生成AI時代の広告企画から動画制作プロセス」 です!7日後の8月30日についに公開オンライン講座プラットフォーム「Coloso」で公開されます!

    画像

    【6,000円割引クーポン付】事前通知を申請する>> https://bit.ly/3SWscoI

    この講座は、世界が認めた新進気鋭のAI広告クリエイター と 広告業界の受注も発注も経験した映像クリエイティブの先生、そして クリエイティブAIの世界でメディア事業を推進するAICU がプロデュースする、超実用的な初心者向けの講義になります。

    AIを使う人も、これから使ってみたいと思う人も、必見の内容です。

    画像
    野生のAI制作者が先生ふたりに囲まれる図

    藤吉さん(セツナクリエイション代表/AICUコラボクリエイター):
    ビデオグラファー出身のクリエイティブディレクターとして、生成AIは競合になるのかパートナーになるのか危機感を持って眺めてきました。AICUのコミュニティで得た知識で実務でどう扱っていくか研究してきたことをお伝えできる内容になっています。広告会社やプロダクションで働く方、クリエイターとしてお仕事をしていきたい方など様々な働き方をされている方にとって新たな発見を得ることができる講座です。生成AIで新しいクリエイティブの扉を開きましょう!

    しらいはかせ(AICU代表/デジタルハリウッド大学大学院客員教授):
    書籍「画像生成AI Stable Diffusionスタートガイド」を出した頃は『動画生成AIは5年はかかる』と言われていましたが、1年も経たずに実用レベルのサービスが出てきました。これまで画像生成AIクリエイティブの世界で「つくる人をつくる」を推進してきましたが、このたびColosoさんのプロデュースで藤吉さん・ぽんずさんらと新作を公開できることを嬉しく思います。既に「超入門: Stable Diffusionではじめる画像生成AI」という、ファッションやバリエーション広告向けのフォトリアルな画像生成についての入門プログラムを先行して開発しています。本日公開した新作第2弾は、更にそれを動画にしていくプロの動画や広告制作者向けの内容になります。2本セットでお楽しみいただけると最高です。

    実際に私・ぽんずも、AIを使うクリエイターとして広告の先生と一緒に講座制作に携わらせていただきました。おふたりとも優しい語りで一緒に仕事しているとドンドン自分の才能が開発されていく感じがあって楽しいです。 AIを使う目線だけでは絶対に気づけない、広告世界のリアルを肌で感じ、本当に刺激的な経験となりました!

    今、Colosoで講座の事前通知申請を申請すると 6,000円の割引クーポン がもらえますので、少しでも興味がある方は申請だけでもしておいてください!【6,000円割引クーポン付】事前通知を申請する>> https://bit.ly/3SWscoI講座カリキュラムの詳細ページは、7日後の8月30日に公開予定です。

    楽しみにお待ちください。事前通知を申請する>> https://bit.ly/3SWscoI

    以上、お知らせでした!

    関連

    ■【超入門 Stability AI API】「モデルとの対話」実習編。Stable Diffusion 3 時代に知っておきたいプロンプトの新常識

    ■「Coloso」とのコラボ講座「超入門: Stable Diffusionではじめる画像生成AI」を開講します

    https://note.com/o_ob/n/n430a15b8563d

    世界を舞台にAICUが開発「超入門: Stable Diffusionではじめる画像生成AI」Colosoで予約販売開始!!

    Originally published at https://note.com on Aug 23, 2024.

  • 世界を舞台にAICUが開発「超入門: Stable Diffusionではじめる画像生成AI」Colosoで予約販売開始!!

    生成AIの常識を覆した「Stable Diffusion」の革命から2年…「つくる人をつくる」AICUが世界を舞台に大型新作をリリース!

    クリエイティブAI時代に「つくる人をつくる」をビジョンに活動する生成AIの最先端を走り続けるクリエイターユニオン「AICU」が、Stable Diffusionによる最新・最先端・最高品質の画像生成の基礎から応用までを丁寧に解説するオンライン講座を国際的なラーニングプラットフォーム「コルソ」で開講します!

    ▼ Coloso講座ページはこちら ▼
    https://j.aicu.ai/AICUXColosoJP

    「画像生成AIって難しそう…」

    そんな風に思っていませんか?

    この講座は、AI初心者の方でも安心して学べるよう、AICUが開発した特別なカリキュラムに基づいて構成されています。

    ゼロからスタートし、AI初心者から次の一歩を踏み出すことができるカリキュラムを、Colosoで体験してください!

    画像

    【本講座で得られる3つのメリット】

    1. AI時代の必須スキル「プロンプトエンジニアリング」を基礎から習得
      • 生成AIを使いこなすための「呪文」、プロンプト。高品質、高画質な画像生成が可能になった今、隠されたテクニックは従来とは大きく変わっています。
      • 最新の商用利用可能なStability AI API公式サンプルを使って学ぶことで、 Stable Diffusion 3 時代のポテンシャルを最大限に引き出し、思い通りの画像を生成できるようになります。
      • 単語の選び方や順番といった基本文法から、シードやスタイルといったAPIならではの制御手法、未知のモデルとの対話テクニックなど、2年分のノウハウを体系的に詰め込んだ、先駆者ならではの『勝ち筋』を、入門者からプロフェッショナルに向けて優しく解説します。
    2. Google Colab & Slidesで、コードを書かずに実践的なスキルを習得
      • Google Colab & Slidesで開発された専用ツールを提供。
      • 専門知識不要! 環境構築でつまずくことなく、すぐに実践できます。
      • オープンソースなので改造もカンタン。商用も今すぐできます。
      • APIとツールを使って制御しながらプロフェッショナルな画像を大量に生成する実用的な解説、サンプル、プロンプト集。
      • バーチャルファッションモデル制作や広告バリエーション展開など、 すぐに使える実践的なスキルが身につきます。
    3. 生成AI時代に必要な著作権や倫理に関する知識も網羅
      • AI作品と著作権、倫理的な問題など、知っておくべき重要な知識を丁寧に解説します。
      • 責任あるクリエイターとして、自信を持って活動するための社会基盤としての常識を築きます。
      • 生成AIに関するクリエイティブの倫理課題を人に教えられるレベル、サービスやプロダクトを開発し、契約できるレベルまで高めましょう

    ▼ Coloso講座ページはこちら ▼ 
    https://j.aicu.ai/AICUXColosoJP

    【講座内容】

    • 生成AIの基礎知識
    • Stable Diffusion 3の仕組みと特徴
    • プロンプトエンジニアリング入門
    • Stability AI APIを活用した高度な画像生成
    • バーチャルファッションモデルの開発
    • AI技術を駆使した広告制作
    • AIの活用における倫理と未来予測

    使用プログラム
    [メインツール]
    – Stability AI API
    – Google Colab
    – Google Workspace

    【こんな方におすすめ】

    • 画像生成AIに興味があるけど、何から始めればいいか分からない方
    • Stable Diffusionをもっと使いこなしたい方
    • これからの時代を見据え、AIスキルを身につけておきたい方
    • デザイン、アート、広告など、クリエイティブな仕事に携わっている方
    • 業務的な画像生成AIを体系的に学ぶ必要が出てきた企業クリエイター
    • 新しい技術を学び、自分の可能性を広げたい方

    【AICU開発! 本講座だけの特典】

    • AICUによる画像生成AIに必要な知識が詰まった講座動画25講を期間制限なしで受講可能
    • 講座を通してセミリアルや実写など12点の例題を完成
    • 講座内容に関するPDFデータや資料、Google Slidesで使えるツールを提供
    • 画像生成プロンプト集を提供
    • AICUのノウハウが詰まった講座PDF使用を提供

    AICU Inc. は Stability AIと戦略提携を

    AICU Inc.(本社Delaware州Dover City, カリフォルニア州サニーベール)は、Stability AI Ltd.(本社London、United Kingdom)とのパートナーシップを発表しました。このパートナーシップは、エンゲージメント・レターを通じて正式に締結されており、持続革新的でオープンなAIDX(AI Driven user eXperience)開発、技術広報を提供するもので、生成AI技術の社会的認知と価値向上と市場開拓を推進するコミュニケーションに重点を置いています。
    AICU Inc.は、この提携により、Stability AI Ltd. の生成AI技術の社会的認知と円滑なコミュニケーションのために、advocacy communication service としてコンサルティングサービスと開発者・クリエイター支援・技術広報・PoC開発・クリエイターユニオン構築に協力します。

    2024/1/22 AICU Inc. プレスリリースより
    https://prtimes.jp/main/html/rd/p/000000007.000133647.html

    画像

    https://corp.aicu.ai/ja/stability-ai

    【講師紹介】

    • 白井 暁彦:生成AIクリエイティブ「AICU」代表、デジタルハリウッド大学大学院特任教授
    • RUNO.:生成AIクリエイター

    AIの波に乗り遅れるな!
    今すぐ予約して、未来を創造する力を手に入れよう!

    画像

    ▼ Coloso講座ページはこちら ▼ 

    https://bit.ly/AICUXColosoJP

    カリキュラム

    カリキュラム内容から一部を紹介します!

    SECTION 01:画像生成AIの歴史と現在、今後の価値

    画像
    画像
    画像
    画像

    SECTION 02:環境構築

    Google Slidesだけで使えるオリジナルツールが提供されます!

    画像

    その他、Google Colabを使った最新のデモやサンプルもあります。

    SECTION 03:基礎編[SD3時代のモデル評価とプロンプト探求]

    画像

    最新・最先端・高画質のモデル評価手法をしっかりマスター!

    https://j.aicu.ai/SD3GP

    SECTION 04:Stability AI API の革新的機能

    知らないと損、Stability AIのAPIだけで利用できる革新的な機能。

    画像

    Edit機能を活用した画像加工

    Structureを使ったポージング、構造の制御

    画像

    便利なツールと、初心者向けの対話、デモなどを使ってスキマ時間にギュンギュン学べちゃう構成になっています!

    SECTION 05:応用編 [バーチャルファッションモデルの開発]

    バーチャルなファッションブランドのルックブックを作ってみましょう!

    画像

    卒業制作や研究、企業のプロトタイプとして実践的なワークフローを学ぶ最高のチャンスです。

    SECTION 06:活用編 [広告バリエーションの展開と評価手法]

    広告バリエーションの制作にお悩みではありませんか?

    画像

    旅行代理店の広告制作を通して、画像生成AIを使った具体的な広告バリエーションの制作フローを体得できます。もちろんChatGPTを使いこなすプロンプトも含まれています!

    SECTION 07:法律・倫理・未来

    「画像生成AIって違法なの?」法律だけではありません、生成AIクリエイティブ分野の社会実装でトップランナーを続けてきたAICUならではのノウハウ、国家試験である知的財産管理技能検定に基づいた理解と解説、弁護士とのヒアリングで開発した倫理クイズ、子供でもわかる画像生成AIの「陽の当たる未来」のための重要なポイントを他人に説明できるレベルで体系的に学ぶことができます…!

    画像

    受講生全員に提供:AICUの講座だけの特典

    • AICUによる画像生成AIに必要な知識が詰まった、講座動画25講を期間制限なしで受講可能
    • 講座を通してセミリアルや実写など12点の例題を完成
    • 講座内容に関するPDFデータや資料、Google Slidesで使えるツールを提供
    • 画像生成プロンプト
      1. 講座で生成するイメージのプロンプト集提供
    • 講座資料提供
      1. AICUのノウハウが詰まった講座PDF使用を提供

    豊富な例題を通して学ぶ画像生成AIの基礎!

    1. ゴールの設定
    2. Google Slidesで使える自動スライド生成
    3. Google ColabによるStability AI公式サンプルの動作確認
    4. プロンプトの要素の並びによる生成結果の違い
    5. ネガティブプロンプトの有無による生成結果の違い
    6. APIから学ぶSD3時代のText to Imageモデル
    7. ワードリストを使った多様な表現
    8. Conservativeを用いた作品の高解像度化
    9. Edit機能を活用した画像加工
    10. Structureを使った構造の制御
    11. オリジナルLookbookの作成
    12. 広告バリエーションの制作

    講師紹介

    生成AIクリエイティブ:AICU

    [白井暁彦]

    こんにちは。生成AIクリエイティブAICU代表の白井暁彦です。 エンタメ業界とメタバース技術の研究開発や、ホワイトハッカー作家として活動しており、デジタルハリウッド大学大学院で特任教授を務めております。デジハリ発国際スタートアップ企業AICU Inc.は、生成AI 時代に「つくる人をつくる」をビジョンに英語や日本語、フランス語、プログラミング言語など、オープンなクリエイティブ活動を行っている会社です。生成AIの最先端で研究や作家活動を通して、生成AIの魅力と楽しさをたくさんの人々に届かせるために活動しています。

    [RUNO.]

    こんにちは。生成AIクリエイティブ AICUのRUNO.です。昼間は、ITベンチャーでマーケティング・事業開発・データアナリストとして活動しており、夜は、白井主宰のクリエイティブAIラボ「CAIL」で、クリエイティブAI分野の社会実装を研究する「クリエイティブAI系VTuber」として活動しています。得意分野は、プロンプトエンジニアリングやAIサービス開発、執筆、アート制作、事業企画などです。

    https://note.com/runos_log/n/ncf1843b2a30c

    ▼ Coloso講座ページはこちら ▼ https://j.aicu.ai/AICUXColosoJP

    この講座のポイント

    AI時代の必須スキル「プロンプトエンジニアリング」の基礎を網羅的に学習

    具体的な例題と実践を通して、安定した高品質画像生成のために必要なプロンプトの構造から、最新のテクニックまで、プロンプトエンジニアリングのスキルを体系的に学ぶことができます。また、今後登場するであろう、新しい画像生成AIにも応用可能な、普遍的なプロンプト構築の考え方を身に付けます。

    Google ColabとGoogle Slidesを用いたコーディング不要の実践スキル

    プログラミングの知識がなくても、Google ColabとGoogle Slidesを使用して、画像生成AIをビジネスに応用する方法を学びます。特に、バーチャルファッションモデルの制作や広告バリエーションの制作といった、具体的な例題を通して、実践的なスキルを磨いていきます。

    生成AI時代に必要な著作権や倫理における知識

    生成AIを取り巻く法律や倫理的な問題は法律だけではありません。新たな著作権の理解、クリエイティブの扱い、広告ビジュアルや消費者など受け手の理解、そして今後の展望について理解を深めます。それらを通して、AI技術を正しく、責任を持って活用するための知識と、実践的なガイドラインについて学び、持続的な創作活動を行うための基盤を築きます。

    講座内容: 下記のような内容を学べます。

    • 生成AIにおける基礎知識
      1. 画像生成AIの歴史やStable Diffusionの仕組み、AIにおける今後の展望など、AI技術についての理解を深めるために必要な基礎知識を学ぶことができます。
    • プロンプトによる画像生成の文法
      1. 高品質な画像生成を可能にするためのプロンプトの構造と要素、そして最新のテクニックを体系的に学びながら、プロンプトエンジニアリングのスキルを身に付けていきます。
    • Stability AI APIを活用した高度な画像生成
      1. 公式APIを活用した画像編集や構造制御などを実践的に学びながら、高度な画像生成技術を習得します。その上で、AIの可能性を最大限に引き出し、より複雑で創造的な画像生成に挑戦します。
    • バーチャルファッションモデルの開発
      1. バーチャルファッションモデルを制作する例題を通して学んだ知識を応用し、ファッションブランドのLookbookを制作することで、ポートフォリオとして活用できるレベルの作品制作を目指します。
    • AI技術を駆使した広告制作
      1. AIを活用した広告バリエーションの制作を通して、ビジネスにおけるAI活用の可能性を広げ、実践的なマーケティングスキルを習得します。AI技術をビジネスに活用することで、新たな価値創造とイノベーションに挑戦します。
    • AIの活用における倫理と未来予測
      1. 生成AIを取り巻く法的、倫理的な問題を理解し、責任のあるAI活用を実践するための知識を身に付けます。AI技術の倫理的な側面を理解し、持続可能な社会におけるAIのあり方を深く考察することで、AIの未来を創造する力を養います。
    • 無期限視聴:一回の購入で、期限の制限なく視聴することができます。
    • 最安値:08/31 (土) 販売価格が上がります。

    もうすぐ販売価格が上がる予定です。
    今すぐご購入ください!今が最安値!

    ▼ Coloso講座ページはこちら ▼ 

    https://j.aicu.ai/AICUXColosoJP

    インタビューを受けました

    生成AIクリエイティブ
    AICUがお話ししたいこと

    Question.01:該当の分野を勉強している方は、どういう部分を一番難しいと思っているでしょうか?また、本講座を通じて、そのような部分をどのように解決できるでしょうか?

    画像生成AIは、日々進化しており、新しい技術や情報が次々と出てきます。そのため、最新情報をキャッチアップし続けること、そして専門用語や技術的な内容を理解することが難しいと感じている方が多いと思います。この講座では、クリエイティブAIニュースメディアとして、クリエイターのための情報を発信する「AICU」が、基礎知識から先端技術、未来予測までを丁寧に解説していきます。また、実習を通して、実践的なスキルを身に付けることができるので、AI技術への理解を深め、自信を持って活用できるようになると思います。

    Question.02:講師さまご自身は、勉強してきた中で難しかった部分、それを解決するためにどのような努力をされてきましたか?

    日々進化し続ける生成AIの世界で、その技術についていきながら、毎日勉強し続けることが一番大切で、難しいことだと思います。私は、毎日ブログを書くことを続けています。日々の仮説検証や、新技術の検証といった積み重ねが、「自分自身の成長」としてしっかりと可視化できます。これは、ChatGPT時代のクリエイターにとってとても重要なことで、単に道具の使い方を学ぶのではなく、新しい技術に対して適応する速度が大きく変わってきます。

    Question.03:アウトプットを形にすることにおいて、大切なポイントは何になりますか?

    アウトプットを形にする上で大切なポイントは、「明確なビジョンと目的意識を持つこと」、そして「それを達成するための仮説と実験する方法論を持つこと」だと考えています。AI技術は常に進化しており、新しい技術や情報が次々と出てきます。何を作りたいのか、なぜ作りたいのか、誰のために作るのか、といった根本的なメッセージにフォーカスを合わせ、それを明確にすることで、ビジュアル制作の方向性を定めることができ、迷いが少なくなると思います。

    Question.04:講師さまがお考えになる、クリエイティブAI分野においての市場性と展望についてお話しください。

    クリエイティブAI分野は、まだ市場が構築されていません。世間には、謎のAIクリエイターがたくさんいらっしゃいますが、この技術を専門的に学べる場があるわけでもなく、多くの方々は、独学で学んでいる状況です。誰でも簡単に、画像を生成できるサービスが普及する一方で、業務的には、超スピードでインパクトのある画像や映像をつくる人々が求められる、専門性の高いプロフェッショナルな分野になっていくと予測します。単に「安く」ではなく、倫理観がしっかりした「学び続ける人」が、体系的な知識と技術を背景に、速度感をもって大きな市場を作っていくと思います。

    ▼ Coloso講座ページはこちら ▼ 

    https://bit.ly/AICUXColosoJP

    今後の更新情報や、オトクな情報はメンバーシップ向けに発信していきます。

    【8/24追記!】

    8月30日23時59分まで or 先着100名様限定で、AICUの講座限定で5,000円割引が受けられるシークレットクーポンをいただきました!
    リポストで見れるようにしておきましたのでぜひチェックしてください!

    最安値でゲットしてください!


    この記事の続きはこちらから https://note.com/aicu/n/nd680d8290d11

    Originally published at https://note.com on Aug 23, 2024.

  • あなたの才能が、デルタもんの世界を動かす!「デルタもん4コマ漫画コンテスト」開催決定

    「デルタもん」の世界に、あなただけの作品を刻み込め!
    BlendAI特別協賛「デルタもん4コマ漫画コンテスト」を開催します!

    クリエイティブAI時代に「つくる人をつくる」をビジョンに活動するAICUは、このたび「デルタもん」などのAIキャラクターを開発するBlendAIさんに特別協賛いただき、第5回デルタもんイラストコンテストを4コマ漫画形式で開催する運びとなりました!

    https://note.com/aicu/n/ncd46ab0f3286

    画像

    【コンテスト概要】

    個性的なキャラクターとユニークな世界観を持つ「デルタもん」の4コマ漫画をあなたの想像力とユーモアで、新たな魅力を引き出し、多くの人の心を掴む作品を生み出してください!
    AICU media公式SNS、note、AICUマガジンで作品公開!
    さらに有力作品のクリエイターにはAICU編集部やパートナー企業からの連載のチャンスも!

    才能あふれるクリエイターの皆様、このコンテストで、あなたの才能を世にアピールしましょう!

    【募集テーマ】「デルタもんの日常」4コマ漫画

    デルタもんの世界観をモチーフにしたカジュアルな4コマ漫画作品を募集します。

    【デルタもんとは?】

    AI技術の進展を象徴する新たなキャラクターであり、科学の発展を支援するために生まれました。なんらかの形でAIを利用している場合、このキャラクターを商業利用することが出来ます。ただし、AIとは無関係な利用、たとえば、手描きなどの二次創作や商業利用は禁止とさせて頂きます。「デルタもん」という名称は、COVID-19変異株の「デルタ」に付けられたネガティブな印象を払拭し、よりポジティブなイメージを持っていただけるようこの名前が選ばれました。
    このキャラクターは「アルファパラダイスプロジェクト」と称する、ギリシャ文字の24文字をモチーフにしたキャラクターシリーズの第一弾です。将来的には、追加のイラスト、詳細設定、3Dモデル、LoRAモデルなど、幅広い商用版権フリー素材を提供する予定です。

    デルタもん公式ページ より

    【どうやってつくるの?】

    素材やコンテンツはBlendAI公式で提供しています

    https://blendai.jp/contents

    ・LoRAを自分で作る場合
    AICUの過去記事や「SD黄色本」を参考に、オリジナルのLoRAをつくるもよし…
    ▼キャラLoRA学習ガイド2024年5月版 #SD黄色本・公式LoRA

    https://note.com/aicu/n/n02de834e3d5c

    ・公式LoRA
    最近はデルタもん公式LoRAも配布されています

    https://blendai.booth.pm/items/5801621

    AICU編集部による作例「ようこそ!アイキュー部」※ちびデルタとして出演

    https://note.com/aicu/n/ne878b6d68004

    ・編集長による作例:AniFusionで作成したようです

    LoRAをURLで伝えるだけでデルタもん漫画が生成できます!

    画像

    AniFusionでデルタもんのLoRAを使う方法についてはこちらの記事をご参照ください。最近のアップデートがすごいです。

    そして、編集部の特別情報によると、次号の「AICUマガジン Vol.4」は「AniFusion特集」が予定されているとのこと!これは保存版になるかも!?

    【応募方法】

    1. 「デルタもん」をテーマにしたオリジナル漫画を作成する
    Anifusionを中心に、色々なAIツールを使用してあなたのイメージを自由に表現しましょう。

    2. 作品をX(Twitter)に投稿し、応募フォームへ記入します
    エントリーフォームのURL → https://j.aicu.ai/Delta4manga

    https://docs.google.com/forms/u/7/d/e/1FAIpQLSdjGGZ6Ze2Gr8Bl2183UAb2_26htkD3Y9vDfB7IR0imXTO1dw/viewform

    必須ハッシュタグ #デルタもん4コマ #AICU #BlendAI
    過去作参照タグ: #デルタもんイラストコンテスト

    コンテストへの応募であることを明記し、AICU公式Xアカウント X@AICUai をフォローしてください(コンテストの受賞者へのご連絡はXのDMを使用いたします)。

    【過去のコンテスト参加者さんの作例から…】

    「デルタもん4コマ漫画コンテスト」開催期間

    告知開始:2024年8月22日(木)
    エントリー期間:2024年8月23日(金)~2024年9月10日(火)23:59
    審査期間:2024年9月11日(水)~2024年9月13日(金)
    結果発表:2024年9月14日(土) AICU media公式noteにて発表(予定)!

    期間中、審査員、デルタもん公式 X@BlendAIjp と X@AICUai が各ハッシュタグを巡回してコミュニケーションを取ることがあります。
    早めの投稿、多数の投稿をお待ちしております!

    画像

    【審査基準】

    ・品質
    ・発想力
    ・物語性

    作品の応募においては日本の法令を遵守し、 画像生成AIクリエイター仕草(v.1.0) をご参照いただき、モラルに沿った生成AIのご使用をお願いいたします。また、BlendAIが設定する利用規約も遵守してください。
    AICU編集部では「全年齢向け」(映倫・G、CERO-A)およびKindle Direct Publishingコンテンツガイドラインを考慮して採択します。
    ■デルタもんを利用する際のルールの簡単なまとめ https://blendai.jp/guideline
    ■Kindle Direct Publishingコンテンツガイドライン https://kdp.amazon.co.jp/ja_JP/help/topic/G200672390

    【賞】

    ・優秀賞:AICU編集部よりAmazonギフト券4444円分+デルタもん4コマ漫画連載オファー獲得!
    ・BlendAI賞:BlendAI代表 小宮自由氏より特別賞を設定します
    ・入賞:AICUマガジン誌上および AICU media媒体上での紹介

    【コンテスト審査員より】

    BlendAI代表 小宮自由:コンテストにご興味を持っていただきありがとうございます。『デルタもん』は、AIと創作者の架け橋になることを目的に創られたキャラクターです。皆さん楽しんで創作していただければと思います。

    主催:AICU media編集部
    特別協賛:BlendAI

    【受賞作品の発表】

    AICU media公式note(https://note.com/aicu/)及び、AICUマガジン誌上にて発表いたします。

    さらに、優秀賞・入選作品でメイキング記事などをご寄稿いただける方には、AICUパートナークリエイターとして所定の原稿料を謝礼としてお贈りします。

    【応募に関するQ&A】

    ・Photoshopなどで加工・加筆したものを投稿できますか
    できます。AI生成のみで生成した画像も、加筆したものも、どちらも可能です。

    ・不正や不適切な行為があった場合はどうなりますか
    各種ツールの不正利用や利用規約に反する行為があった場合、その他、運営が不適切と判断した場合、予告なくエントリーの対象から外させて頂く場合がございます。

    ・応募作品のレギュレーションについて
    作品の公開はX(Twitter)および作者の管理によるものになりますが、「全年齢向け」(映倫・G、CERO-A相当)に反する作品はコンテストの評価対象外とさせていただきます。ご容赦ください。

    ・応募作品の著作権はどうなりますか
    X(Twitter)を経由したイベントのため、X利用規約および著作権に関するポリシーに従い「ユーザーは、ポストまたは共有する自身のコンテンツに対する所有権と権利を留保するとともに、自分のコンテンツを世界中で利用できるようにしたり、他のユーザーがポストまたは共有できるようにしたりするための非独占的ライセンスを当社に提供するものとします。」となります。
    他人の著作権を侵害しないこと、エントリーフォームからのエントリーによってエントリーの意思を表明していただき、AICU独自メディアでの掲載する際は、非独占ライセンスを提供頂く形となります。

    【本コンテストに関するお問い合わせ】

    本件に関するお問い合わせは X(Twitter)@AICUai まで

    AICU Inc. について https://corp.aicu.ai/
    BlendAI について https://blendai.jp/

    デルタもんと一緒に、あなたの才能を世界に広げませんか?

    たくさんのご応募お待ちしております!

    画像
    シェア歓迎です!

    #デルタもん4コマ
    #AICU
    #BlendAI

    Originally published at https://note.com on Aug 21, 2024.

  • [7]ComfyUI設定完全ガイド!(後編)

    こんにちわ、AICU media編集部です。
    ComfyUIマスターガイド」シリーズの第7回になります。
    今回は、ComfyUIの基本操作と画像の生成について前後編に分けて解説していきたいと思います。

    前回はこちら シリーズ初回はこちら

    今回は、ComfyUIの基本的な操作から、ショートカット、画像の出力までの簡単な流れを解説します。AUTOMATIC1111と違い、完全にグラフィカルなユーザーインターフェースで操作するノードシステムは慣れるまで大変かと思いますが、用語や操作方法に慣れると大変見やすく効率的になります。またここでは、簡単な用語と中で起きている生成AIの処理についても解説していきます。

      1. 設定画面の開き方

      1.キャンバスの画面にて、メニューの上部の歯車マークをクリックします。

      画像

      2.ComfyUIの設定画面が開きます。

      画像

      2. 設定画面の項目の分類

      設定画面には、多くの設定項目がありますが、本記事では重要な機能と、知っておくと便利な機能を紹介します。それ以外の高度な機能については、今後機会があれば解説します。
      さらに、設定画面の項目の中には、ComfyUIで標準機能として提供されている項目と、ComfyUI Managerで追加機能として提供されている項目があるため、この分類も同時に示します。

      • カラーパレットの変更(ComfyUI Manager)
      • ノードのウィジェットの小数点以下の桁数の変更(ComfyUI)
      • グリッドサイズ(ComfyUI)
      • メニューのスクロール方向の反転(ComfyUI)
      • 入力とウィジェットを相互変換する項目のサブメニュー化(ComfyUI)
      • ノードの提案数の変更(ComfyUI)
      • ワークフローのクリア時の確認の有無(ComfyUI)
      • キャンバスポジションの保存の有効化(ComfyUI)
      • メニュー位置の保存(ComfyUI)

      3. 知っておくと便利な機能の解説

      メニューの位置の変更

      [Beta] Use new menu and workflow management. Note: On small screens the menu will always be at the top.は、Beta版の機能になりますが、メニューの位置を変更する設定になります。

      画像

      メニューの位置は、以下の3種類から選択できます。

      • Disabled: 通常のポジションです。メニューは右側に配置されます。
      • Top: メニューは上部に配置されます。
      画像
      • Bottom: メニューは下部に配置されます。
      画像

      カラーパレットの変更

      Color palette(カラーパレット)は、ComfyUI全体のテーマカラーを設定します。

      画像

      カラーパレットには、デフォルトの選択肢として以下の6つがあります。それぞれのカラーパレットでの表示の変化は以下の通りです。

      • Dark (Default)
      画像
      • Light
      画像
      • Solarized
      画像
      • Arc
      画像
      • Nord
      画像
      • Github
      画像

      カラーパレットは、既存のカラーパレットをカスタマイズしたり、自分で一から作成することも可能です。カラーパレットのプルダウンの下のボタン「Export」「Import」「Template」「Delete」の機能を確認してみましょう。

      画像
      • Export
        Exportは、プルダウンで選択中のカラーパレットの定義ファイル (JSON) を出力します。以下は、Dart (Default)をExportで出力したJSONファイルになります。
      {
        "id": "dark",
        "name": "Dark (Default)",
        "colors": {
          "node_slot": {
            "AUDIO": "",
            "AUDIOUPLOAD": "",
            "AUDIO_UI": "",
            "BBOX_DETECTOR": "",
            "BOOLEAN": "",
            "CLIP": "#FFD500",
            "CLIP_VISION": "#A8DADC",
            "CLIP_VISION_OUTPUT": "#ad7452",
            "CONDITIONING": "#FFA931",
            "CONTROL_NET": "#6EE7B7",
            "FLOAT": "",
            "GLIGEN": "",
            "GUIDER": "#66FFFF",
            "IMAGE": "#64B5F6",
            "IMAGEUPLOAD": "",
            "INT": "",
            "LATENT": "#FF9CF9",
            "MASK": "#81C784",
            "MODEL": "#B39DDB",
            "NOISE": "#B0B0B0",
            "OPTICAL_FLOW": "",
            "PHOTOMAKER": "",
            "POSE_KEYPOINT": "",
            "SAMPLER": "#ECB4B4",
            "SIGMAS": "#CDFFCD",
            "STRING": "",
            "STYLE_MODEL": "#C2FFAE",
            "TAESD": "#DCC274",
            "TRACKING": "",
            "UPSCALE_MODEL": "",
            "VAE": "#FF6E6E",
            "WEBCAM": "",
            "none,AnimeFace_SemSegPreprocessor,AnyLineArtPreprocessor_aux,BinaryPreprocessor,CannyEdgePreprocessor,ColorPreprocessor,DensePosePreprocessor,DepthAnythingPreprocessor,Zoe_DepthAnythingPreprocessor,DepthAnythingV2Preprocessor,DiffusionEdge_Preprocessor,DSINE-NormalMapPreprocessor,DWPreprocessor,AnimalPosePreprocessor,HEDPreprocessor,FakeScribblePreprocessor,LeReS-DepthMapPreprocessor,LineArtPreprocessor,AnimeLineArtPreprocessor,LineartStandardPreprocessor,Manga2Anime_LineArt_Preprocessor,MediaPipe-FaceMeshPreprocessor,MeshGraphormer-DepthMapPreprocessor,MeshGraphormer+ImpactDetector-DepthMapPreprocessor,Metric3D-DepthMapPreprocessor,Metric3D-NormalMapPreprocessor,MiDaS-NormalMapPreprocessor,MiDaS-DepthMapPreprocessor,M-LSDPreprocessor,BAE-NormalMapPreprocessor,OneFormer-COCO-SemSegPreprocessor,OneFormer-ADE20K-SemSegPreprocessor,OpenposePreprocessor,PiDiNetPreprocessor,SavePoseKpsAsJsonFile,FacialPartColoringFromPoseKps,UpperBodyTrackingFromPoseKps,RenderPeopleKps,RenderAnimalKps,ImageLuminanceDetector,ImageIntensityDetector,ScribblePreprocessor,Scribble_XDoG_Preprocessor,Scribble_PiDiNet_Preprocessor,SAMPreprocessor,ShufflePreprocessor,TEEDPreprocessor,TilePreprocessor,TTPlanet_TileGF_Preprocessor,TTPlanet_TileSimple_Preprocessor,UniFormer-SemSegPreprocessor,SemSegPreprocessor,Unimatch_OptFlowPreprocessor,MaskOptFlow,Zoe-DepthMapPreprocessor": ""
          },
          "litegraph_base": {
            "BACKGROUND_IMAGE": "data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAGQAAABkCAIAAAD/gAIDAAAAGXRFWHRTb2Z0d2FyZQBBZG9iZSBJbWFnZVJlYWR5ccllPAAAAQBJREFUeNrs1rEKwjAUhlETUkj3vP9rdmr1Ysammk2w5wdxuLgcMHyptfawuZX4pJSWZTnfnu/lnIe/jNNxHHGNn//HNbbv+4dr6V+11uF527arU7+u63qfa/bnmh8sWLBgwYJlqRf8MEptXPBXJXa37BSl3ixYsGDBMliwFLyCV/DeLIMFCxYsWLBMwSt4Be/NggXLYMGCBUvBK3iNruC9WbBgwYJlsGApeAWv4L1ZBgsWLFiwYJmCV/AK3psFC5bBggULloJX8BpdwXuzYMGCBctgwVLwCl7Be7MMFixYsGDBsu8FH1FaSmExVfAxBa/gvVmwYMGCZbBg/W4vAQYA5tRF9QYlv/QAAAAASUVORK5CYII=",
            "CLEAR_BACKGROUND_COLOR": "#222",
            "NODE_TITLE_COLOR": "#999",
            "NODE_SELECTED_TITLE_COLOR": "#FFF",
            "NODE_TEXT_SIZE": 14,
            "NODE_TEXT_COLOR": "#AAA",
            "NODE_SUBTEXT_SIZE": 12,
            "NODE_DEFAULT_COLOR": "#333",
            "NODE_DEFAULT_BGCOLOR": "#353535",
            "NODE_DEFAULT_BOXCOLOR": "#666",
            "NODE_DEFAULT_SHAPE": "box",
            "NODE_BOX_OUTLINE_COLOR": "#FFF",
            "DEFAULT_SHADOW_COLOR": "rgba(0,0,0,0.5)",
            "DEFAULT_GROUP_FONT": 24,
            "WIDGET_BGCOLOR": "#222",
            "WIDGET_OUTLINE_COLOR": "#666",
            "WIDGET_TEXT_COLOR": "#DDD",
            "WIDGET_SECONDARY_TEXT_COLOR": "#999",
            "LINK_COLOR": "#9A9",
            "EVENT_LINK_COLOR": "#A86",
            "CONNECTING_LINK_COLOR": "#AFA"
          },
          "comfy_base": {
            "fg-color": "#fff",
            "bg-color": "#202020",
            "comfy-menu-bg": "#353535",
            "comfy-input-bg": "#222",
            "input-text": "#ddd",
            "descrip-text": "#999",
            "drag-text": "#ccc",
            "error-text": "#ff4444",
            "border-color": "#4e4e4e",
            "tr-even-bg-color": "#222",
            "tr-odd-bg-color": "#353535",
            "content-bg": "#4e4e4e",
            "content-fg": "#fff",
            "content-hover-bg": "#222",
            "content-hover-fg": "#fff"
          }
        }
      }
      • Import
        カラーパレットの定義ファイル (JSON)を読み込み、新たなカラーパレットとして使用できるようにします。
      • Template
        カラーパレットを作成するためのテンプレートの定義ファイル (JSON)を出力します。以下は、テンプレートの一部になります。Exportとの違いは、全ての項目にカラーコードが設定されていないことです。
      {
        "id": "my_color_palette_unique_id",
        "name": "My Color Palette",
        "colors": {
          "node_slot": {
            "AUDIO": "",
            "AUDIOUPLOAD": "",
            "AUDIO_UI": "",
            "BBOX_DETECTOR": "",
            "BOOLEAN": "",
            "CLIP": "",
            "CLIP_VISION": "",
            "CLIP_VISION_OUTPUT": "",
            "CONDITIONING": "",
            "CONTROL_NET": "",
            "FLOAT": "",
            "GLIGEN": "",
            "GUIDER": "",
            "IMAGE": "",
            "IMAGEUPLOAD": "",
            "INT": "",
            "LATENT": "",
            "MASK": "",
            "MODEL": "",
            "NOISE": "",
            "OPTICAL_FLOW": "",
            "PHOTOMAKER": "",
            "POSE_KEYPOINT": "",
            "SAMPLER": "",
            "SIGMAS": "",
            "STRING": "",
            "STYLE_MODEL": "",
            "TRACKING": "",
            "UPSCALE_MODEL": "",
            "VAE": "",
            "WEBCAM": "",
            "none,AnimeFace_SemSegPreprocessor,AnyLineArtPreprocessor_aux,BinaryPreprocessor,CannyEdgePreprocessor,ColorPreprocessor,DensePosePreprocessor,DepthAnythingPreprocessor,Zoe_DepthAnythingPreprocessor,DepthAnythingV2Preprocessor,DiffusionEdge_Preprocessor,DSINE-NormalMapPreprocessor,DWPreprocessor,AnimalPosePreprocessor,HEDPreprocessor,FakeScribblePreprocessor,LeReS-DepthMapPreprocessor,LineArtPreprocessor,AnimeLineArtPreprocessor,LineartStandardPreprocessor,Manga2Anime_LineArt_Preprocessor,MediaPipe-FaceMeshPreprocessor,MeshGraphormer-DepthMapPreprocessor,MeshGraphormer+ImpactDetector-DepthMapPreprocessor,Metric3D-DepthMapPreprocessor,Metric3D-NormalMapPreprocessor,MiDaS-NormalMapPreprocessor,MiDaS-DepthMapPreprocessor,M-LSDPreprocessor,BAE-NormalMapPreprocessor,OneFormer-COCO-SemSegPreprocessor,OneFormer-ADE20K-SemSegPreprocessor,OpenposePreprocessor,PiDiNetPreprocessor,SavePoseKpsAsJsonFile,FacialPartColoringFromPoseKps,UpperBodyTrackingFromPoseKps,RenderPeopleKps,RenderAnimalKps,ImageLuminanceDetector,ImageIntensityDetector,ScribblePreprocessor,Scribble_XDoG_Preprocessor,Scribble_PiDiNet_Preprocessor,SAMPreprocessor,ShufflePreprocessor,TEEDPreprocessor,TilePreprocessor,TTPlanet_TileGF_Preprocessor,TTPlanet_TileSimple_Preprocessor,UniFormer-SemSegPreprocessor,SemSegPreprocessor,Unimatch_OptFlowPreprocessor,MaskOptFlow,Zoe-DepthMapPreprocessor": ""
          },
          "litegraph_base": {
            "BACKGROUND_IMAGE": "",
            "CLEAR_BACKGROUND_COLOR": "",
            "NODE_TITLE_COLOR": "",
            "NODE_SELECTED_TITLE_COLOR": "",
            "NODE_TEXT_SIZE": "",
            "NODE_TEXT_COLOR": "",
            "NODE_SUBTEXT_SIZE": "",
            "NODE_DEFAULT_COLOR": "",
            "NODE_DEFAULT_BGCOLOR": "",
            "NODE_DEFAULT_BOXCOLOR": "",
            "NODE_DEFAULT_SHAPE": "",
            "NODE_BOX_OUTLINE_COLOR": "",
            "DEFAULT_SHADOW_COLOR": "",
            "DEFAULT_GROUP_FONT": "",
            "WIDGET_BGCOLOR": "",
            "WIDGET_OUTLINE_COLOR": "",
            "WIDGET_TEXT_COLOR": "",
            "WIDGET_SECONDARY_TEXT_COLOR": "",
            "LINK_COLOR": "",
            "EVENT_LINK_COLOR": "",
            "CONNECTING_LINK_COLOR": ""
          },
          "comfy_base": {
            "fg-color": "",
            "bg-color": "",
            "comfy-menu-bg": "",
            "comfy-input-bg": "",
            "input-text": "",
            "descrip-text": "",
            "drag-text": "",
            "error-text": "",
            "border-color": "",
            "tr-even-bg-color": "",
            "tr-odd-bg-color": "",
            "content-bg": "",
            "content-fg": "",
            "content-hover-bg": "",
            "content-hover-fg": ""
          }
        }
      }
      • Delete
        登録されているカラーパレットを削除します。削除されるカラーパレットは、現在選択しているカラーパレットになります。

      ノードのウィジェットの小数点以下の桁数の変更

      Decimal placesは、ノードのウィジェットの小数点以下の桁数を変更できます。初期値は0で、小数点以下の桁数はComfyUI側で自動的に決定される設定になっています。

      画像

      以下に小数点以下の桁数が0の場合と5の場合の表示の違いを示します。小数点以下の桁数が0の場合は、cfgとdenoiseは、それぞれ8.0、1.00となっていますが、小数点以下の桁数が5の場合は、8.00000、1.00000と、小数点以下の桁数が5桁になっています。

      画像

      グリッドサイズ

      Grid Size(グリッドサイズ)一度のフローの実行で複数枚の画像を生成すると、Save Image(画像を保存するノード)に生成した画像がプレビューされますが、そのプレビューされる画像の枚数を指定します。

      画像

      例えば、グリッドサイズを10に設定し、フローで生成される画像の枚数を15枚(Empty Latent Imageノードのbatch_sizeを15に設定)した場合、Save Imageには10枚の画像がグリッドで表示されます。残りの5枚は表示されないだけで、保存はされています。

      画像

      メニューのスクロール方向の反転

      Invert Menu Scrollingは、キャンバスやノードを右クリックして表示されるメニューのスクロール方向を反転する項目です。この項目にチェックが入っていると、スクロール方向が反転します。

      画像

      通常は、マウスホイールを上に回すと、メニューも上に移動し、下に回すと、メニューが下に移動します。これを反転すると、マウスホイールを上に回すと、メニューが下に移動し、下に回すと、メニューが上に移動します。

      画像

      入力とウィジェットを相互変換する項目のサブメニュー化

      Node widget/input conversion sub-menusは、ノードのコンテキストメニュー(ノード上で右クリックして表示されるメニュー)のウィジェットを入力に変換(Convert Widget to Input)、または入力をウィジェットに変換(Convert Input to Widget)する項目をサブメニュー化する項目になります。

      画像

      この機能を有効化(チェックボックスにチェックをいれる)すると、入力とウィジェットの変換する項目がサブメニューとしてまとめられます。この機能を無効化(チェックボックスのチェックを外す)と、項目はコンテキストメニューのトップに配置されます。

      画像

      ノードの提案数の変更

      Number of nodes suggestions(ノード提案数)は、ノードの入力または出力から線を伸ばした際に表示されるノードの数を決定する項目です。初期値は5で、最大で100まで設定できます。

      画像

      ノードの提案とは、入力または出力をドラッグで接続線を伸ばし、キャンバスの適当なところでドロップすると、入力または出力元のノードに合うノードを提案してくれる機能のことです。

      画像

      ノードの提案数が5の場合は、ここに表示されるノードの数が5個になり、ノードの提案数が10の場合は、表示されるノードの数が10個になります。

      画像

      ワークフローのクリア時の確認の有無

      Require confirmation when clearing workflowは、ワークフローのクリア時に、即時クリアするのではなく、確認ダイアログを表示し、ユーザーの確認が取れてからクリアを実行する機能を有効化する項目になります。

      画像

      ワークフローのクリアは、メニューの「Clear」で実行可能です。クリアは、キャンバス上のノードを全て削除し、真っ新な状態にする機能です。

      画像

      この機能が無効化されている(チェックボックスのチェックが外れている)場合は、ユーザーへの確認なしで即座にワークフローがクリアされます。この機能が有効化されている(チェックボックスにチェックが入っている)と、下図のようにユーザーへの確認ダイアログが表示され、「OK」を選択することでクリアが実行されるようになります。

      画像

      キャンバスポジションの保存の有効化

      Save and restore canvas position and zoom level in workflowsは、ワークフローの保存時に、キャンバスの表示状態(ズームアップ/ダウン、表示位置)も合わせて保存する機能を有効化する項目です。

      画像

      例えば、KSamplerノードにズームアップした状態でワークフローを保存したとします。次に、保存時とキャンバスの状態が変わっている状態で保存したワークフローを読み込みます。そうすると、保存時と同様にKSamplerノードにズームアップした状態でキャンバスが表示されます。

      画像

      メニュー位置の保存

      Save menu positionは、メニュー位置の保存を有効化する項目です。通常は、ComfyUIをリロードや再起動すると、メニューの位置がデフォルトの位置に戻ってしまいますが、この機能を有効化していると、メニューの配置を記憶し、ComfyUIをリロードや再起動しても、最後に配置した場所でメニューが表示されます。

      画像

      この機能が無効化されている(チェックボックスのチェックが外れている)場合は、リロードするとデフォルトの位置にメニューが戻ります。この機能が有効化されている(チェックボックスにチェックが入っている)と、リロードしても以前の位置を保持するようになります。

      画像

      以上で、ComfyUI設定完全ガイドを終わります!
      ものすごいボリュームで前後編でお送りする形になりましたが、マスターできましたでしょうか!?

      画像生成AI「ComfyUI」マスターPlan

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。

      ✨️オトクなメンバーシップについての詳細はこちら


      この記事の続きはこちらからhttps://note.com/aicu/n/n20d7f1c7c6aa

      Originally published at https://note.com on Aug 21, 2024.

    1. 【超入門】Stability AI API の革新的機能(1)Edit機能からInpaintとOutpaintを便利に使おう!

      こんにちは、AICU media編集部です。ライターのRUNO.がお送りします!

      今回は、Stability AI API Guideの「革新的機能紹介」!
      全4回に分けてお送りします!

        おさらい:プロンプトの文法

        まずはプロンプトの基礎から始めたい!という場合は、
        合わせてこちらの記事をご覧ください!

        「プロンプトの文法」編で、こんなことがわかる!

        • Stability AI APIとは?
        • Stability AI APIの種類と特徴・構成
        • プロンプトの文法基礎
        • [機能紹介] Generate APIとは?
        • [機能紹介] Generate APIよりUpscale機能のデモ

        Stability AI APIの種類と特徴・構成

        「プロンプトの文法」編でもご紹介したように、Stability AI APIの画像生成系の機能は2024年8月現在、4つの機能に大別されています。

        • 「Generate」:いわゆる「TextToImage」です
          • プロンプト(テキスト)によって画像生成を行う
          • 現在6つのモデルが提供されている
        • 「Upscale」:高解像度化
          • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像生成を行う
          • 現在{Creative, Conservative}という2つのモデルが提供されている(加えて、Standardがcoming soonとして予告されている)
        • 「Edit」いわゆるImageToImageです
          • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像再生成を行う
          • 現在{Search and Replace, Inpaint, Outpaint, Remove Background, Erase Object}5つのモデルが提供されている
        • 「Control」こちらも いわゆる ImageToImage です
          • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像再生成を行う
          • 現在{Sketch, Structure, Style}3つのモデルが提供されている(加えて、 Recolorがcoming soonとして予告されている)

        https://platform.stability.ai

        今回扱うInpaintとOutpaintは、このうちの「Edit API」に当たります。

        Edit APIとは?

        Edit APIのAPIリファレンスはこちらから確認できます。

        https://platform.stability.ai/docs/api-reference#tag/Edit

        公式のAPIリファレンスによると、
        Edit機能は「既存の画像を編集するためのツール」です。

        2024年8月現在、全部で5つのEdit機能が公開されています。

        • Erase
          • 画像マスクを必要とする機能です
          • 画像マスクを使用して、元画像の汚れや、机の上のアイテム等の不要なオブジェクトを削除します
        • Inpaint
          • 画像マスクを必要とする機能です
          • 画像マスクを使用して、指定された領域を新しいコンテンツで埋めたり置き換えたりすることで、画像をインテリジェントに変更します
        • Outpaint
          • 画像に追加のコンテンツを挿入して、任意の方向のスペースを埋めます
          • 画像内のコンテンツを拡大する他の手段と比較して、
            Outpaint機能は、元の画像が編集された違和感を最小限に抑えます
        • Search and Replace
          • 画像マスクを必要としない、特殊なバージョンの修復機能です
          • 画像マスクの代わりに、search_promptに置換対象をテキストで指定します
          • この機能は、search_promptに指定されたオブジェクトを自動的にセグメント化し、promptで要求されたオブジェクトに置き換えます
        • Remove Background
          • 画像から前景(背景に対して、手前に位置する要素)を正確に分割し、背景を削除します
          • 結果として、前景を残し、背景が透過された状態の画像が得られます

        今回はこのうちの「Inpaint」と「Outpaint」について詳しく取り扱います。

        Inpaint機能とは?

        入力画像の一部の範囲(マスク)を簡易的に指定し、その部分のみを生成して変化させるImageToImage(img2img)の機能です。

        入力画像の背景や細かいパーツなどを後から追加したり、逆に削除することができます。

        公式が提供しているGoogle Colabでは次のように例が紹介されています。

        prompt: artificer of time and space(時間と空間の錬金術師)

        画像
        inpaint前の元画像
        画像
        inpaint後の画像

        このように、マスキングした画像を入力として与え、そこにどのような描画を施すか?をprompt、つまり文字列で与えることによって、新たな画像を生成してくれる、というのがInpaint機能です。

        実際にInpaintを使ってみよう!

        ここからは、公式が提供しているGoogle Colabを使ってデモを行なっていきます。

        このColabへのアクセス、初期設定の方法は「超入門」編の記事を参考にしてください。

        準備:画像のパスの入手方法

        Inpaintでも、このあと紹介するOutpaintでも、この準備が必要になります。

        まずは、画面左側の「ファイルマーク」をクリックします。
        下に示す画像に従って、順番にクリックしていきましょう。

        画像

        次に、Edit対象の画像を選んで、アップロードします。

        少し待つと、この三角マークを押して表示される「content」フォルダの中にアップロードした画像の名前が表示されます。

        画像

        ここから先、「画像のパスをペーストします」という工程が何度も出てくるのですが、ここで得られるパスを入力してくださいね
        (つまり、画像を入力として入れる際には、「Google Colab内のこのファイル部分にアップロード後に得られるパス」を入力してくださいね)。

        これで、Edit機能を利用する準備ができました!

        ステップ1:マスキング前の画像のパスを取得する

        Inpaintの入力項目に、「image」と「mask」があります。

        • image:マスキング前の画像のパスを入力しましょう
        • mask:マスク画像のパスを入力しましょう
        画像

        まずは、元画像のパスを取得しましょう。

        マスクを必要とする機能を使う場合、マスク画像とピクセルがずれた画像を入力したり、本来の画像とは関係のない部分(画像をGoogle Slideなどに貼り付けた場合の余った余白の部分など)を含む画像を入力すると、マスク画像とうまくリンクせずに画像が揺れてしまうことがあります。

        そのため今回は、Google Slideを使って丁寧にマスクをしていきます。

        まず、今回使うinpaint対象の元画像がこちらです。

        画像
        こちらをinpaint機能を使って加工していきます!

        これをGoogle Slideに貼り付け、「背景」を選択し、黒を選択します。

        画像
        画像
        背景色を黒に選択します

        この状態で、ファイル>ダウンロード>png画像 と選択し、画像をダウンロードしましょう。

        画像
        スクリーンショットだとピクセルを確実に合わせるのが困難なので、
        スライドごと画像ダウンロードしましょう

        これで、元画像の画像パスが得られました。
        プロンプトの「image」部分に、今得られた画像パスを入力しましょう。

        ステップ2:マスク画像のパスを取得する

        元画像に、Google Slideの機能を使って白い丸を乗せて、マスクしました。

        これはまだ「マスク画像」ではないので、注意してください。

        画像
        マスキングを施した画像。ただし、「mask」に入れるパスはこの画像のパスではありません

        次に、先ほどと同じように、背景を黒に設定します。
        重要な工程なので、スキップしないようにお願いします。

        背景が黒に設定できたら、元画像を削除し、黒背景とマスクのみが残る状態にしてください。

        画像
        これが「mask」に入れるマスク画像になります!

        ここまで完了したら、ファイル>ダウンロード>png画像 と選択し、画像をダウンロードしましょう。

        画像
        (※再掲)
        スクリーンショットだとピクセルを確実に合わせるのが困難なので、
        スライドごと画像ダウンロードしましょう

        これを先ほど同様に、Colab上にアップロードします。画像のパスを取得できたら、プロンプトの「mask」部分に得られたパスを入力します。

        これで、「image」と「mask」に適切な画像パスが入力できました。

        ステップ3:prompt, negative prompt, seedを指定する

        今回は、元画像のドレスを着た女性がもともと「何も持っていない」ところを、マスクした箇所において「一輪の白い薔薇を持っている」ようにEditを施したいと思います。

        そこで、それぞれ次のように設定します。

        • prompt:holding a red white rose
        • negative prompt:ugly, normal quality
        • seed:39(お好みで)

        ここまでで、必要な設定が完了しました!

        ステップ4:いざ、実行!

        さあ、画像を生成してみましょう。

        得られた画像が、こちら!

        画像
        inpaint後の画像がこちら

        ちゃんと、指定した位置に白薔薇を持ってくれています!うれしい!

        このように、inpaint機能を使えば、
        「あとちょっと、この部分だけ変えたい!」というときに、
        その位置にマスキングを施すことで
        「欲しい位置」に「欲しい修正」を施してくれます。

        他の画像生成APIと組み合わせて使うことで、さらに創作の幅が広がりますね!

        お手軽テクニック:Google Slide上でマスク画像を編集する

        Google Slideは画像編集ソフトではありませんが、このような簡易な塗りつぶしはラインツールやオブジェクトツールで何度でもやり直しできます。マスクに求められる解像度は高くはないので特に影響はありません。

        もちろんWindowsのペイントなどのアプリでも構いませんが、狙った場所に塗りを入れるツールとして非常にお手軽です。

        少し手間が多いですが、丁寧にやることで手戻りも少なく済むので、
        確実な手順を踏むことをおすすめします。

        Outpaint機能とは?

        入力画像を「指定された方向に」「指定された分だけ」新たな絵を生成してくれる、ImageToImage(img2img)の機能です。

        例えば、「入力画像のサイズを変えたいけれど、今の背景に対するメインモチーフの大きさは変えたくない…」というときに大活躍します!

        公式が提供しているGoogle Colabでは次のように例が紹介されています。

        元画像の左(left)に100、右(right)に512新たに生成する、という指定がされています。

        画像
        公式Colabを開いたら最初から入っている例
        画像
        Outpaint前の元画像
        画像
        Outpaint後の生成結果

        このように、元画像と背景のバランスを保ったまま、ある方向に画像を広げてみたいときに非常に便利な機能です。

        実際にOutpaintを使ってみよう!

        ステップ1:元画像のパスを取得する

        今回Outpaint対象とする画像はこちらになります。

        画像
        先ほどInpaintでEditを施した画像を使用します

        こちらをColabのファイルにアップロードし、パスを取得します。
        完了したら、「image」にパスを入力します。

        ステップ2:画像をどのように広げるか指定する

        今回は、上と左右を広げて広く見せることで、より臨場感のある画像に仕上げたいと思います。

        そこで、次のように指定します。

        • left:200
        • right:200
        • up:500
        • down:0

        場所としては「中世のお姫様が住む高級感のあるお屋敷」とします。

        • prompt:a luxurious mansion, medieval, a princess
        • creativity:0.5
        • seed:39

        これで、Outpaintを実行する準備が完了しました。

        ステップ3:いざ、実行!

        得られた画像がこちら!

        画像
        Outpaint後の生成結果がこちら!

        元の画像には存在しなかった「お屋敷の天井」が、元画像に合った雰囲気で生成されました!

        元画像では切れて写っていた、左端に飾ってある花が、白薔薇として生成されているのが面白いですね。これはInpaint機能と掛け合わせてさらに自然に見えるよう修正してもいいポイントですね。

        このように、Outpaint機能を使えば、用途に合わせて画像サイズを変更する、というのが簡単にできます。

        元の画像に写っていない部分を新たに自分で描き足さなくても、

        「こんなふうにしたい」をプロンプトで指定することで実現できてしまうのが、Stability AI APIのパワーですね!

        さいごに

        公式Colabには今回紹介した以外にも多くのAPIが公開されており自由に触ることができます。
        様々なモデルを試し、ぜひ色々なタイプの画像生成にチャレンジしてみてくださいね!

        Stable Diffusionを開発・公開している Stability AI は、HuggingFaceで無償でダウンロード可能な Stable Diffusion をはじめとするオープンモデル以外に「Stability AI API」という有償のAPIも提供しています。高品質で高速、高機能なAPIであり、新しく魅力的な機能もどんどんリリースされているので 開発者向けのAPIガイド として紹介していきたいと思います。

        上記「Stability AI API Guide」noteより

        それぞれのAPIについて解説した「Stability AI API Guide」は
        こちらに随時更新していきますので、ぜひ合わせてご覧ください。

        https://note.com/aicu/n/n4eda1d7ffcdf

        【AICUからビッグなプロダクトのお知らせ!】

        以上の通り、高速・高画質・高機能で、とても便利な「Stability AI API」ですが、こちらに関連してオンライン講座プラットフォーム「Coloso」と一緒に企画した講座「超入門: Stable Diffusionではじめる画像生成AI」が8月23日に公開されます!
        約10時間超えの豊富なカリキュラムで構成されています。

        画像

        今、Colosoで講座の事前通知申請を申請すると6,000円の割引クーポンがもらえるので、お得な特典をお見逃しなく!

        講座内容は主にStable Diffusionと、Stability AI APIを使ってファッションや広告デザインに活用する方法になる予定です。

        画像
        画像

        リアルテイストのかわいいビジュアル満載のやさしい入門ラーニング動画になる予定なので今から楽しみ!

        画像

        講座のカリキュラムが確認できる詳細ページは、
        8月23日に公開される予定ですので、もう少しお待ちください。

        事前通知はこちら>> https://bit.ly/3YGSNda

        最後までお読みいただき、ありがとうございました!


        この記事の続きはこちらから https://note.com/aicu/n/n605c1963f13b

        Originally published at https://note.com on Aug 20, 2024.

      1. AICU夏のアートコンテスト結果発表!!次回コンテスト予告も

        こんにちわ。AICU media編集部です。
        先日AICU創立一周年記念「AICU Summer Art Contest 2024」として開催した夏のアートコンテストの結果発表をお知らせいたします!

        気になる夏のアートコンテスト結果は…!?ファイナリストの皆さんを紹介

        既にAICUマガジンVol.3誌上で発表させていただきましたが、あらためて、オンライン上の発表となります。

        エントリーフォームを入力していただいた作品の中から、AICU media編集部で選出を行い、特に素晴らしいものを紹介していきます。

        #キャラクターイラスト 部門

        Kawaii…! 告知協力もありがとうございます

        ウォータースライダーですね!?
        AICUの文字が入ってるのありがたいです…!

        かわいい!
        ひまわり畑で佇む少女の笑顔が眩しいですね。
        服装も体操服っぽいのが素敵です!

        きゃわいい! おませな感じと 視線を合わせられない淡い初恋の思い出でキュン死しちゃいますね!!

        森を抜けた先には不思議な街。空を雄大に泳ぐクジラから噴き出される花火がとても美しいですね!

        水辺にたたずむ少女を照らす蛍の光。幻想的で儚い印象が素敵ですね!

        大輪の花火を背に振り向くデルタもん。
        儚げな表情と火照った頬がとても印象的です。

        彩り鮮やかな夏祭りと華やかな浴衣をまとった少女の笑顔が眩しいですね!
        とても楽しそうな雰囲気が画面からも伝わります。

        画面越しに見つめてくる彼女。爽やかなトーンと相まって少女の表情が印象深く伝わりますね。

        花火大会越しにこちらを見つめる少女。りんご飴もおいしそうですが、頭に被った狐面の表現がとても素晴らしいです。

        スライムと少年の夏休み。二人の友情と楽しそうに遊ぶ姿が大変眩しいですね!シャツからちらりと覗くお腹も大変可愛らしいです。

        #SD黄色本 部門

        ティーン向けのファッション誌に登場しそうなスタイリッシュな一枚。デルタもんの大人びた表情がとても素敵ですね。

        手のひらで開催される夏祭り。
        コンパクトだけど賑やかなお祭りにどこか不思議な印象を感じます。

        #StableDiffusionAPI 部門

        さすが Stable Image Ultra です。夏の光やフォーカスボケの表現が素晴らしいですね!

        さて、緊張の入賞者は…!

        #キャラクターイラスト 部門

        入賞:幻想都市に迷い込んだ少女を歓迎する空を泳ぐ鯨 / A whale swimming in the sky welcomes a girl who has wandered into a fantasy city
        穂花-HONOKA-さん

        画像

        #SD黄色本 部門

        部門賞:手の上の夏 / Summer in the hands
        にゃむさん

        画像

        #StableDiffusionAPI 部門

        部門賞:「ねぇ、」 / If only,
        RUNO.さん

        画像

        晴れある最優秀賞は!

        最優秀賞:碧の瞳 / Azure Eyes
        ジュニさん

        画像

        ジュニさんおめでとうございます!
        こちらの素敵なイラストは、本日よりAICU mediaのカバーアートにも採用させていただきます!

        今回は「夏」をテーマに色とりどりの作品をご応募くださりありがとうございました。
        編集部一同、個性豊かな作品を見ることができてとても楽しいコンテストでした。

        受賞者のコメント詳細は「AICUマガジン Vol.3」にて!

        最後に、重大発表…!

        アートコンテスト再び開催ッッ!
        集え、全世界の強者たちよ!

        次回のテーマは「デルタもん」になります。
        しかし、ただのデルタもんのイラストコンテストではありません


        詳細は近日公開!
        腕を磨いてお待ちください!

        Originally published at https://note.com on Aug 19, 2024.

      2. 動画も高精度に!ComfyUIとSegment Anything Model 2(SAM 2)でセグメンテーションをマスターしよう

        コンピュータビジョンの世界に革命をもたらした画像セグメンテーションモデル「Segment Anything Model(SAM)」。その登場から約1年、METAが新たな進化を遂げた「Segment Anything Model 2(SAM 2)」を発表しました。画像だけでなく動画にも対応したこの最新モデル、使い方によってはかなり実用的になり得るでしょう。
        本記事では、SAM 2の特徴や機能、そして将来の可能性について詳しく解説します。また、ComfyUIで実際に動作させる方法についても解説します。

          1. Segment Anything Model 2(SAM 2)とは

          画像

          2024年7月29日、METAは画像と動画の両方に対応した最新のオブジェクトセグメンテーションモデル「Segment Anything Model 2(SAM 2)」を発表しました。SAM 2は、昨年リリースされた画像セグメンテーションモデル「Segment Anything Model(SAM)」の後継として開発され、画像だけでなく動画にも対応した革新的な機能を備えています。

          https://ai.meta.com/blog/segment-anything-2

          SAM 2の主な特徴

          1. 統合モデル: SAM 2は、画像と動画の両方でオブジェクトセグメンテーションを行える初めての統合モデルです。
          2. リアルタイム処理: プロンプトベースのセグメンテーションをリアルタイムで実行できます。
          3. ゼロショット汎化: 事前に学習していない物体や視覚ドメインでもセグメンテーションが可能です。
          4. 高性能: 画像と動画の両方で最先端の性能を達成しています。
          5. 柔軟性: カスタム適応なしに多様な用途に適用できます。

          技術的詳細

          SAM 2は、統一されたプロンプト可能なモデルアーキテクチャを採用しています。このモデルは、1100万枚のライセンス画像とプライバシーを尊重した画像、110万枚の高品質セグメンテーションマスクデータ、10億以上のマスクアノテーションという過去最大のデータセットで訓練されています。

          また、SAM2は、画像と動画のセグメンテーションを統合する革新的なアーキテクチャを採用しています。

          画像
          1. 画像エンコーダー: 入力フレームを高次元の特徴表現に変換します。
            • アーキテクチャ: Vision Transformer (ViT)ベース
            • 出力: 空間的に構造化された特徴マップ
          2. マスクデコーダー: セグメンテーションマスクを生成します。
            • アーキテクチャ: Transformer decoder
            • 入力: 画像特徴、プロンプト埋め込み
            • 出力: 2D確率マスク
          3. メモリメカニズム:
            • メモリエンコーダー: 現在のマスク予測からメモリトークンを生成
            • メモリバンク: 過去フレームとプロンプトからのメモリを保存
            • メモリアテンション: 現在フレーム埋め込みとメモリを統合
          4. オクルージョンヘッド: オブジェクトの可視性を予測します。
            • アーキテクチャ: 軽量なMLPネットワーク
            • 出力: フレームごとの可視性スコア

          SAM 2の特筆すべき機能の一つが「メモリバンク」です。これは最近のフレームや以前にプロンプトされたフレームの情報を空間特徴マップとして保持する機能で、短期的な物体の動きを符号化し、オブジェクトトラッキング能力を向上させています。

          応用分野

          SAM 2は以下のような幅広い分野での活用が期待されています。

          1. クリエイティブ産業: ビデオ編集の改善、ユニークな視覚効果の作成
          2. 医療画像処理: 解剖学的構造の正確な識別
          3. 自動運転: 知覚能力の向上、ナビゲーションと障害物回避の改善
          4. 科学研究: 海洋科学での音波画像のセグメンテーション、サンゴ礁の分析
          5. 災害救援: 衛星画像の分析
          6. データアノテーション: アノテーション作業の高速化

          オープンソースとデータセット

          METAは、SAM 2のコードとモデルのweightsをApache 2.0ライセンスで公開しています。さらに、SAM 2の開発に使用されたSA-Vデータセットも公開されており、約51,000本の実世界の動画と60万以上のマスクレット(時空間マスク)が含まれています。このデータセットはCC BY 4.0ライセンスで提供され、研究者やデベロッパーが自由に利用できます。

          2. ComfyUIでの実行準備

          まずは、SAM2をComfyUIで実行するための準備をしましょう。

          AICU謹製の ComfyUI Manger入りGoogle Colabノートブックです。
          https://j.aicu.ai/Comfy

          カスタムノード

          以下のカスタムノードをインストールしてください。すべてComfyUI Managerからインストール可能です。

          • ComfyUI-segment-anything-2
            • Kijai氏が作成したSAM2用のカスタムノード
            • SAM2に必要なモデルは、Kijai氏のHugging Faceのリポジトリから自動でダウンロードされる

          https://github.com/kijai/ComfyUI-segment-anything-2

          • ComfyUI-Florence2
            • Florence2を使用するためのカスタムノード
            • Florence2でプロンプトからのオブジェクト検出を実現する

          https://github.com/kijai/ComfyUI-Florence2

          • KJNodes for ComfyUI
            • ImageAndMaskPreview: 画像とマスクを両方合わせてプレビューするためのノード
            • Resize Image: 画像サイズの変更に使用されるノード

          https://github.com/kijai/ComfyUI-KJNodes

          • comfyui-tensorop
            • ComfyUI-Florence2で必要

          https://github.com/un-seen/comfyui-tensorops

          • ComfyUI-VideoHelperSuite
            • 動画を処理するためのカスタムノード

          https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

          Google Colabのログにインストール経過が表示されます。

          画像

          ComfyUI Manager上からComfyUIの再起動が必要です。
          (URLは変わりません)

          ワークフロー

          ComfyUI-segment-anything-2のリポジトリで配布しているサンプルを使用します。サンプルは、オブジェクト自動検出による画像のセグメンテーション、同様の手法による動画のセグメンテーション、指定した箇所のセグメンテーションの3種類があります。以下のリポジトリからワークフローのJSONファイルをダウンロードし、ComfyUIのキャンバスにロードしてください。

          ロード直後は「truck.jpgがない」というエラーが出ますが、まずは動作確認をしていきましょう。気にせずにお好きな画像を左下の「Load Image」に読み込んで「Queue Prompt」を押してみてください。

          今回動作確認に使用した画像

          画像
          画像

          複雑な画像ですが見事に分離できています。

          以下は各ワークフローの詳細解説です。

          • オブジェクト自動検出による画像のセグメンテーション

          https://github.com/kijai/ComfyUI-segment-anything-2/blob/main/examples/florence_segment_2.json

          • オブジェクト自動検出による動画のセグメンテーション

          https://github.com/kijai/ComfyUI-segment-anything-2/blob/main/examples/image_batch_bbox_segment.json

          • 指定箇所のセグメンテーション

          https://github.com/kijai/ComfyUI-segment-anything-2/blob/main/examples/points_segment_video_example.json

          3. ワークフローの解説: オブジェクト自動検出による画像のセグメンテーション

          グラフの全体像

          以下がグラフの全体図になります。

          画像

          以下に今回使用するグラフのフローチャートと詳細を示します。

          画像

          このグラフは、Florence-2とSAM 2を組み合わせて画像内のオブジェクトを検出し、セグメンテーションを行うプロセスを示しています。以下に詳細な解説を提供します。

          グラフの主要コンポーネント

          1. 画像の読み込み (LoadImage ノード)
          2. Florence-2モデルのロード (DownloadAndLoadFlorence2Model ノード)
          3. SAM 2モデルのロード (DownloadAndLoadSAM2Model ノード)
          4. 画像のリサイズ (ImageResizeKJ ノード)
          5. Florence-2による物体検出 (Florence2Run ノード)
          6. 検出結果の座標変換 (Florence2toCoordinates ノード)
          7. SAM 2によるセグメンテーション (Sam2Segmentation ノード)
          8. 結果のプレビュー (ImageAndMaskPreview ノード)

          グラフの詳細な解説

          1. 画像の読み込み:
            • 「truck.jpg」という画像ファイルを読み込みます。
          2. Florence-2モデルのロード:
            • 「microsoft/Florence-2-base」モデルをFP16精度でロードします。
          3. SAM 2モデルのロード:
            • 「sam2_hiera_small.safetensors」モデルをCUDAデバイスでBF16精度でロードします。
          4. 画像のリサイズ:
            • 入力画像を768×512ピクセルにリサイズします。(大きすぎる画像を小さくしているだけなので、このノードをスキップしても問題ありません)
          5. Florence-2による物体検出:
            • リサイズされた画像に対してFlorence-2モデルを実行します。
            • 「wheel」(車輪)をプロンプトとして使用し、画像内の車輪を検出します。
            • 出力には検出されたオブジェクトの情報(バウンディングボックスなど)が含まれます。
          6. 検出結果の座標変換:
            • Florence-2の出力をSAM 2で使用可能な座標形式に変換します。
          7. SAM 2によるセグメンテーション:
            • Florence-2で検出されたバウンディングボックスを使用して、SAM 2モデルでセグメンテーションを実行します。
            • 結果として、検出されたオブジェクト(車輪)の詳細なセグメンテーションマスクが生成されます。
          8. 結果のプレビュー:
            • 元の画像とセグメンテーションマスクを組み合わせて表示します。
            • マスクは赤色(RGB: 255, 0, 0)で表示されます。

          4. ワークフローの解説: オブジェクト自動検出による動画のセグメンテーション

          グラフの全体像

          以下がグラフの全体図になります。

          画像

          以下に今回使用するグラフのフローチャートと詳細を示します。

          画像

          グラフの主要コンポーネント

          1. 動画の読み込み (VHS_LoadVideo ノード)
          2. Florence-2モデルのロード (DownloadAndLoadFlorence2Model ノード)
          3. SAM 2モデルのロード (DownloadAndLoadSAM2Model ノード)
          4. Florence-2による物体検出 (Florence2Run ノード)
          5. 検出結果の座標変換 (Florence2toCoordinates ノード)
          6. SAM 2によるセグメンテーション (Sam2Segmentation ノード)
          7. 結果の合成と表示 (MaskToImage, ImageCompositeMasked, VHS_VideoCombine ノード)

          グラフの詳細な解説

          1. 動画の読み込み:
            • 「katana_02.mp4」という動画ファイルを読み込みます。
            • 16フレームを上限とし、5フレームごとに1フレームを選択して処理します。
          2. Florence-2モデルのロード:
            • 「microsoft/Florence-2-large」モデルをFP16精度でロードします。
          3. SAM 2モデルのロード:
            • 「sam2_hiera_base_plus.safetensors」モデルをCUDAデバイスでBF16精度でロードします。
          4. Florence-2による物体検出:
            • 読み込んだ動画フレームに対してFlorence-2モデルを実行します。
            • 「sword」(剣)をプロンプトとして使用し、画像内の剣を検出します。
          5. 検出結果の座標変換:
            • Florence-2の出力をSAM 2で使用可能な座標形式(バウンディングボックス)に変換します。
          6. SAM 2によるセグメンテーション:
            • Florence-2で検出されたバウンディングボックスを使用して、SAM 2モデルでセグメンテーションを実行します。
            • 結果として、検出されたオブジェクト(剣)の詳細なセグメンテーションマスクが生成されます。
          7. 結果の合成と表示:
            • セグメンテーションマスクを画像に変換し、元の動画フレームと合成します。
            • 合成された画像をフレームごとに処理し、最終的な動画として出力します。

          5. ワークフローの解説: 指定箇所のセグメンテーション

          グラフの全体像

          以下がグラフの全体図になります。

          画像

          以下に今回使用するグラフのフローチャートと詳細を示します。

          グラフの主要コンポーネント

          1. 動画の読み込み (VHS_LoadVideo ノード)
          2. SAM 2モデルのロード (DownloadAndLoadSAM2Model ノード)
          3. ユーザーによる点の指定 (PointsEditor ノード)
          4. SAM 2によるセグメンテーション (Sam2Segmentation ノード)
          5. 結果のアニメーションプレビュー (PreviewAnimation ノード)
          6. 座標情報の表示 (ShowText ノード)

          グラフの詳細な解説

          1. 動画の読み込み:
            • 「ballerina_davinci.mp4」という動画ファイルを読み込みます。
            • 16フレームを上限とし、3フレームごとに1フレームを選択して処理します。
          2. SAM 2モデルのロード:
            • 「sam2_hiera_base_plus.safetensors」モデルをCUDAデバイスでBF16精度でロードします。
          3. ユーザーによる点の指定:
            • 動画の最初のフレームを表示し、ユーザーがセグメンテーションしたいオブジェクト(この場合はダンサー)上に点を配置できるインターフェースを提供します。
            • この例では、ダンサーの上半身に2つの正の点が配置されています。
          4. SAM 2によるセグメンテーション:
            • ユーザーが指定した点の情報と動画フレームを入力として、SAM 2モデルでセグメンテーションを実行します。
            • 結果として、指定されたオブジェクト(ダンサー)の詳細なセグメンテーションマスクが生成されます。
          5. 結果のアニメーションプレビュー:
            • 元の動画フレームとSAM 2で生成されたセグメンテーションマスクを組み合わせて、アニメーションとして表示します。
            • これにより、ユーザーはセグメンテーション結果をリアルタイムで確認できます。
          6. 座標情報の表示:
            • ユーザーが指定した点の座標情報を表示します。

          6. ワークフローの実行

          オブジェクト自動検出による画像のセグメンテーション

          今回使用した画像は以下になります。

          画像

          これを「truck.jpg」という名前でLoad Imageの「choose file to upload」でComfyUI上にアップロードします。

          画像

          画像サイズに合わせて、Resize Imageのwidthとheightを変更します。

          画像

          検出するオブジェクトは、wheelのままにします。

          画像

          これでワークフローを実行してみます。メニューの「Queue Prompt」をクリックしてください。
          しばらくすると、検出結果が出力されます。まずは、Florance2によるオブジェクトの検出結果です。しっかり写真に写っているタイヤがすべて検出されています。

          画像

          次にSAM2によるセグメンテーションの結果です。Florance2で検出したタイヤがしっかりとマスクされています。

          画像

          オブジェクト自動検出による動画のセグメンテーション

          まず、検証に使用する動画素材を入手します。以下のリンクから動画をダウンロードします。今回選んだ動画は、女性が牧場ではしゃいでいる動画になります。

          https://www.pexels.com/ja-jp/video/4919748

          今回は実験的にSAM2を動かすので、426×226の小さいサイズをダウンロードします。

          画像

          ダウンロードした動画をComfyUIにアップロードします。Load Video (Upload)の「choose video to upload」から動画をアップロードします。
          Load Video (Upload)の初期設定では、frame_load_cap(*1)が16になっており、最初の16フレーム(*2)のみを読み込むようになっています。検証としては、それで問題ないですが、もし動画を全て読み込んで欲しい場合は、frame_load_capを0に設定してください。
          また、初期設定では、select_every_nthが5になっていますが、これは1に変更してください。select_every_nthは、何フレームごとに1フレームを選択するかを指定するウィジェットです。1を設定することで、フレームをスキップせずに、全てのフレームが対象になります。

          *1 読み込むフレーム数を指定するウィジェット。例えば、24fpsの動画で、frame_load_capに16を指定すると、16/24 ≒ 0.7秒となる。
          *2 動画を構成する個々の静止画であり、1秒間に表示されるフレーム数(fps: frames per second)によって動きの滑らかさが決まります。

          画像

          次に、Florence2Runのプロンプトを変更します。今回は、女性をセグメンテーションするため、「girl」を入力します。

          画像

          これで生成を実行(Queue Prompt)します。以下が最終的な実行結果です。最初に後ろの牛を誤検出しているように見えますが、それ以外は問題ないように見えます。

          画像

          指定箇所のセグメンテーション

          前項の「オブジェクト自動検出による動画のセグメンテーション」で使用した動画を今回も使用します。動画は以下からダウンロードしてください。

          https://www.pexels.com/ja-jp/video/4919748

          前項と同様に、Load Video (Upload)の「choose video to upload」から動画をアップロードします。

          画像

          次にセグメンテーションする箇所を指定します。オブジェクトの指定は、Points Editorで行います。ワークフローの初期状態では、Points Editorにバレエの女性の写真が表示されています。

          画像

          まずは、オブジェクト検出箇所を指定するために、この写真を現在の動画の1フレーム目の画像にする必要があります。それには2つの方法があります。1つは、動画の1フレーム目の画像を用意し、Points Editorに写真の箇所を右クリックして表示されるコンテキストメニューの「Load Image」で画像を差し替える方法です。2つ目は、ワークフローを実行すると、Points Editorに写真の箇所が自動でアップロードした動画の1フレーム目に切り替わる性質を利用して、一先ずワークフローを実行し、オブジェクト検出箇所指定に使う画像を差し替える方法です。後者の方が楽なので、一先ずワークフローを実行し、画像を差し替えます。

          画像

          一度ワークフローを実行すると、以下のように動画の1フレーム目の画像が表示されます。Points Editorにバグがあるようで、左上に赤丸が残った状態になってしまいます。こちらは利用せずに、画像上に緑色の丸が表示されている場合は、女性の上に緑色の丸を配置してください。緑色の丸が表示されていない場合は、女性をクリックすると、新たに緑色の丸を追加できます。

          画像

          これで生成を実行(Queue Prompt)します。以下が最終的な実行結果です。女性が綺麗にマスクされています。

          画像

          7. まとめ: ComfyUIとSAM 2でセグメンテーションがより身近な存在に

          本記事では、画像や動画のセグメンテーションにおいて革新的な進化を遂げた「Segment Anything Model 2 (SAM 2)」について解説し、ComfyUIを用いた具体的な使用方法を紹介しました。

          SAM 2は、従来のSAMと比較して、動画への対応リアルタイム処理高精度なセグメンテーションを実現しており、その応用範囲は多岐に渡ります。

          ComfyUIのワークフローを活用することで、オブジェクトの自動検出によるセグメンテーションや、指定箇所のセグメンテーションを容易に行うことができます。

          SAM 2はまだ発展途上の技術ですが、今後の進化によって、映像制作医療画像解析自動運転など、様々な分野で大きな影響を与える可能性を秘めていると言えるでしょう。

          この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!

          https://note.com/aicu/ X(Twitter)@AICUai

          この記事を読んで「ComfyUIをマスターしたい!」と思った方はこちらもおすすめです。

          ゼロから学ぶ「ComfyUI」マガジン

          https://note.com/aicu/m/md2f2e57c0f3c

          ✨️オトクなメンバーシップについての詳細はこちら

          ComfyUIの世界はまだまだ拡がっていきそうです!

          ✨️本記事は Yas@BizDev支援のエンジニア さんの寄稿をベースにAICU AIDX Labおよび編集部にて加筆・検証したものです。ご寄稿いただきありがとうございました。


          この記事の続きはこちらから https://note.com/aicu/n/n9426cd3355f6

          Originally published at https://note.com on Aug 17, 2024.

        1. 【超入門 Stability AI API】「モデルとの対話」実習編。Stable Diffusion 3 時代に知っておきたいプロンプトの新常識

          こんにちは、AICU代表の しらいはかせ です。
          本日は重大ニュースがありますので、最後までしっかりお読みください。

          前回、Stability AI API Guideの「超入門」としてライターのRUNO.さんに基本となるGenerate APIと「TextToImageの最近の文法」を総ざらいしていただきました。

          Google Colabを使って、基本的な操作に慣れたところだと思います。

          この記事ではこの先の画像生成の時代に長く役に立つ「モデルとの対話テクニック」とStable Diffusion 3時代に知っておきたいプロンプトの新常識についてお伝えします。

            「Stable Diffusion 3」の時代に知っておきたいプロンプトの新常識

            モデル、TextToImage、プロンプト、CLIP…

            画像生成AI「Stable Diffusion」の最大の特徴は、テキストを入力することで単語をもとに画像を生成できる機能です。これを「TextToImage(t2i)」、AIに対する指示を行うテキストを「プロンプト」と呼びます。その後も多様な画像生成AIが登場していますが、多くはCLIPという画像と言語の対を学習したモデルが内部に使われており、現在も様々な言語理解を特徴として有したモデルが提案・開発されています。新しい画像生成AIサービスやモデルに出会った時に、まずはモデルと対話して、効率的なプロンプトの構造を理解することが重要です。またモデルや、それを利用したネットワーク、学習方法が多様にあり、多くはそのモデルを調教した側のノウハウにもなるため公開はされていません。想像や噂がネット上にたくさんあるのですが「これが完璧」という方法を一様に宣言することは難しいです。最近のモデルはプロンプトを短くすることに努力が割かれていますし、一方では簡単なキーワードで美麗な結果が出すぎるモデルは「過学習」と言えるかもしれません。

            重要なのは「制御性」と仮説検証テクニック

            画像生成の使い手にとって重要なのは品質や速度、簡単さに加えて「意のままに操れること」つまり「制御性」が重要になります。いくつかのポイントをおさえて仮説検証を行いながらモデルと対話すると、短時間でその特徴を理解して制御することが可能になってきます。

            「モデルとの対話」と実用的で再現可能な実験手法

            また公式情報として提供されているStability AI 公式のAPIガイド、そしてサンプルに散りばめられたプロンプトテクニックを読むことも重要なヒントになります。さらにコミュニティの開発者や探求者による情報も重要なヒントがあります。大事なポイントは、噂や推測でなく、自分で手を動かして、それを検証しなが「モデルと対話」していくことです。実用的で再現可能な実験手法です。ここでは、いくつかの実践的な例や実験手法を通して、最新のStable Diffusion 3時代の文法や表現力を引き出すコツをお伝えします。

            例:ネガティブプロンプトの位置づけの変化

            たとえばこちらに、海外で書かれたStable Diffusion 3 Medium (SD3M)に関する検証記事があります。
            How to get the best results from Stable Diffusion 3
            Posted June 18, 2024 by @fofr
            https://replicate.com/blog/get-the-best-from-stable-diffusion-3

            コミュニティのDELLさんが日本翻訳を公開してくれています。
            ■あなたはStable diffusion 3 の真の性能を発揮できていない

            https://qiita.com/nqdior/items/bd980e2664966871272e

            従来のStable Diffusionと SD3Mが異なる要素として、

            1. プロンプトの長さの制限が大幅に緩和され、より詳細な指示が可能になったこと
            2. 3つのテキストエンコーダーが採用され、表現力とメモリ効率のバランスを取れるようになったこと
            3. ネガティブプロンプトが効果を持たなくなり、詳細なポジティブプロンプトと適切な設定が重要になったこと

            などが挙げられています。SD3Mはオープンモデルなので実際にComfyUI等を使ってより詳細に対話することができます。ネガティブプロンプトはノイズを与える程度の意味しかなくなっています。さらにポジティブプロンプトはより具体性が求められ、従来あったCLIP テキストエンコーダーの77トークンの制限を気にする必要はなく、プロンプトは10,000文字、または1,500語以上といった、従来のプロンプトの常識とは異なるモデルになっています。

            前回の復習「プロンプトの文法:モデルとの対話ポイント」

            Stability AI API で提供されている各種モデル(Ultra, Core, SD3Large等)は、上記のSD3Mと同じではなく、上位のSD3を使ってより使いやすくトレーニングされたモデルになっています。
            前回のポイントを復習しながら、実際に手を動かしながら理解を深めてみたいと思います。同じプロンプト、同じシードを設定すると同様の結果画像が出力されますので、是非お手元で試してみてください。

            画像

            それでは実際に、公式で提供されているGoogle Colabサンプルを用いて、
            画像生成してみましょう!

            Stability AI 提供の公式サンプルへのショートカット
            https://j.aicu.ai/SAIci

            APIリファレンスから参照する場合はこちらから
            https://platform.stability.ai/docs/api-reference

            気になるAPI費用も最高画質のUltraでも1枚10円前後ですから文房具代感覚で使っていくと良いと思います。
            加えて、今回の復習でSD3時代の新常識を身につけると、効率よく画像生成ができるので「GPUやそれを運用する電気代より安い…」という感覚がでてくると思います。

            ポイント①:「生成したい画像のイメージを的確にする」

            画像のイメージ、とはなかなか難しいのですが、「主題・背景・その他」と整理しました。わかりやすく表現すれば単に「女の子」ではなく「女の子、どこで?何着ている?どんな画風で?どんなポーズで?どんな表情をしているの?」といった、主題に続く場面、画風、演出を具体的に意識しましょう。
            逆にモデルと対話したい場合は1語「girl」とだけ打ってみて、Seedや画面の縦横比を変えてみると良いです。具体的な指示がなかったときに何が起きるかを把握できるからです。

            ▼「girl」(seed:39, aspect ratio 1:1)Ultraにて生成

            画像

            ▼「girl」(seed:40, aspect ratio 1:1)Ultraにて生成

            画像

            ▼「girl」(seed:39, aspect ratio 16:9)Ultraにて生成

            画像

            どれも美麗な出力結果ですが、具体的に「どこで、どんな画風で、何を着ているの…?」といった対話するための「画像のイメージ」を持つことが大切です。

            ポイント②:「知っておくべきルール」

            • 英語で書く
            • 単語もしくは 文の区切りにカンマ(,)を入れる

            このあたりは基本として変わらないようです。こういうときも「日本語で書いてみると反応するかも?」という視点で試しておくと良いでしょう。

            ▼「日本人」(seed:39, aspect ratio 16:9)Ultraにて生成

            画像

            ▼「日本人」(seed:40, aspect ratio 16:9)Ultraにて生成

            画像

            日本語をある程度解釈していることがわかります。
            フランス語で「フランス人(les Français)」も試してみましょう。

            ▼「les Français」(seed:38, aspect ratio 16:9)Ultraにて生成

            画像

            ▼「les Français」(seed:39, aspect ratio 16:9)Ultraにて生成

            画像

            想像したような画像が出力されておりますでしょうか?
            フランスの法律によれば、「フランス人」は『すべて個人的にフランス国籍を享受する人々であり、また集団として主権領土として、自由な国民または国家としてフランスを享受する人々』ですが、なかなか「人々」を描いてくれません。日本語の学習と他の言語の学習を比較すると一様ではないということでもあります。

            具体的に英語で「人々(people)」を表現してみましょう。

            ▼「French people」(seed:39, aspect ratio 16:9)Ultraにて生成

            画像

            ▼「Japanese people」(seed:39, aspect ratio 16:9)Ultraにて生成

            画像

            ステレオタイプを強化する意図はないですが、「具体的に、英語で指示する」ことが重要なポイントであることが検証できました。

            カンマや順番についても実験しておきます。

            ▼「Japanese, people」(seed:39, aspect ratio 16:9)Ultraにて生成

            画像

            ▼「people, Japanese」(seed:39, aspect ratio 16:9)Ultraにて生成

            画像

            カンマで区切ったり、順番を入れ替えたりすることで、同シード・同じアスペクト比でも全く異なる画像が出る可能性があることがわかりました。

            ロケ地が近いことはなんとなく想像できるのですが、やはり「プロンプトの具体性がないと、画像として美しい絵はしっかり出るけれども、制御が難しい」という「ルール」が体感できたようであればまずは十分です。

            ポイント③:「クオリティプロンプトを使用する」

            過去、Stable Diffusion 1.x時代、Stable Diffusion XL (SDXL)時代に画像生成界隈で言及されてきたプロンプトの常識として「クオリティプロンプト」がありました。例えば、傑作(masterpiece)、高クオリティ(high quality, best quality)、非常に詳細(ultra detailed)、高解像度(8k)といった「定型句」を入れるとグッと画質が上がるというものです。これは内部で使われているCLIPやモデル全体の学習に使われた学習元による「集合知(collective knowledge/wisdom of crowds/collective knowledge)」なのですが、「それがなぜ画質を向上させるのか?」を説明することは難しい要素でもあります。
            Stability AI APIでも上記のクオリティプロンプトは効果があり、意識して使ったほうが良いことは確かですが、過去と同じ使い方ではありません。
            実験的に解説してみます。

            ultra detailed, hires,8k, girl, witch, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, fantasy, vivid color, noon, sunny

            #SD黄色本」からの引用です

            上記のプロンプトをクオリティプロンプトとしての「ultra detailed, hires, 8k,」を変更して、同じシード(seed:39)を使って Stability AI Generate Ultraによる比較をしてみました。

            ▼(seed:39), Stability AI Generate Ultraによる比較

            「girl, witch, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, fantasy, vivid color, noon, sunny」

            実は合成魔法なの…!? 過去と異なるクオリティプロンプト

            最近のモデルの言語理解力は「単語単位ではない」ようです。例えば今回の実験で与えた{hires, 8k, ultra detailed}をそれぞれバラバラに与えた場合、ほんの少し画像への影響はありますが、どれも同程度の変化です。

            しかし、「ultra detailed, hires, 8k」という形で3ワード同時に与えた場合は大きく画風が変わります。

            またベースになっているプロンプトにおいても、どこにも『アニメ絵で描いて』という指定は入っていません。{fantasy, witch} といったワードを外しても、プロンプト全体の雰囲気でファンタジーイラストを生成します。

            ▼「girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, vivid color, noon, sunny」(seed:39) Stability AI Generate Ultraによる生成

            画像

            ▼「girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, vivid color, noon, sunny」(seed:40) Stability AI Generate Ultraによる生成

            画像

            ここで公式のAPIガイドを確認しておきましょう。

            What you wish to see in the output image. A strong, descriptive prompt that clearly defines elements, colors, and subjects will lead to better results.
            To control the weight of a given word use the format (word:weight), where word is the word you’d like to control the weight of and weight is a value between 0 and 1. For example: The sky was a crisp (blue:0.3) and (green:0.8) would convey a sky that was blue and green, but more green than blue.

            出力画像で表示させたいもの。 要素、色、主題を明確に定義するわかりやすい説明的なプロンプトを使用すると、より良い結果が得られます。
            特定の単語の重みを制御するには、(単語:重み)という形式を使用します。単語は重みを制御したい単語、重みは0から1の間の値です。例えば、「空は晴れやかだった(青:0.3), (緑:0.8)」は、青と緑の空を表現しますが、青よりも緑が強調されます。

            という1文があります。
            要素、色、主題、そしてカッコを使った重み構文についての実験と検証もしてみましょう。

            vivid color,を外して、代わりに「(photoreal:1.0)」を入れてみます。

            ▼(photoreal:0.5), girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:40)

            画像

            この構文の数値は「0-1の間をとる」とのことですので、増減させることで、フォトリアル度を制御できます。この数字を減らすことで、アニメ絵に寄せることができるなら便利です。

            (photoreal:0.5), girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:40)

            画像

            (photoreal:0.1), girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:40)

            画像

            上手くフォトリアル-アニメ度を制御できました。

            逆に、1を超えて大きな値をいれるとどうなるでしょうか。

            (photoreal:2), girl, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:40)

            画像

            うまくリアル度が上がっていきます。
            「さらに大きな値を…」と欲張ってみましたが、ここから先は絵が破綻します。あまりにお見苦しいので興味があるひとはご自身で試してみてください。
            仕様から読み取ることができる使い方としては、複数のワード間の重み付けに使えるので、バランスを取ったり、色指定や表情の指定に使うと良さそうです。

            ▼(photoreal:1) a 10 years old child looks (girl:0.5) (boy:0.5), black robe, hat, long silver hair, sitting, smile, looking at viewer, flower garden, blue sky, castle, noon, sunny (seed:40)

            画像

            男児か女児か微妙な「10歳の子供」が見事に表現できました。

            ポイント④:「ポーズを指定しよう」

            人物画などを生成したいときは、ポーズを指定してみましょう。

            • sitting (座る)
            • raise hands (手を上げる)
            • looking back (振り返る)
            • jumping (ジャンプ)

            こちらも、より深い言語理解を想定して、きちんと人物に係る場所に入れるのが大事です。さらに複数語に渡るワードの強調構文も有効で(AICUの独自実験によると)スペースでもハイフンも認識されるようです。

            (photoreal:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands-on-own-cheeks:1), black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:39)

            画像

            (photoreal:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, noon, sunny (seed:39)

            画像

            男児か女児かわからない10歳ぐらいの子供が、「頬に手を当てこっちをみている」が表現できました。

            ポイント⑤:「構図を指定しよう」

            ポーズを指定しても、思ったような絵が出ない場合は、構図を指定すると効果的です。構図を後から変えると絵全体が変わることがあるので、初めからある程度決めておくのがおすすめです。

            • from above (上から)
            • from below (下から)
            • face focus (顔のアップ)
            • from side (横顔)

            さきほどのプロンプトから「looking at viewer, full body」を外して「(from side:1)」を入れてみます。

            ▼(photoreal:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (from side:1) ,flower garden, blue sky, castle, noon, sunny (seed:39)

            画像

            ▼(photoreal:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (from side:1), (face focus:1) ,flower garden, blue sky, castle, noon, sunny (seed:39)

            画像

            いい感じに顔に注目が当たりました。さらに目線をがんばってみたい。

            ▼(photoreal:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (from side:1), (eyes focus:1) ,flower garden, blue sky, castle, noon, sunny (seed:39)

            画像

            顔や目だけでなく、指にも気遣いたいのでバランスを取っていきます。

            ▼(photoreal:1) (from side:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (finger focus:0.5), (eyes focus:0.5) ,flower garden, blue sky, castle, noon, sunny (seed:39)

            画像

            良いプロンプトができました。
            念のため、シードも複数で試しておきますね。

            ▼(photoreal:1) (from side:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (finger focus:0.5), (eyes focus:0.5) ,flower garden, blue sky, castle, noon, sunny Seed:40

            画像
            指もいいかんじですね

            ▼(photoreal:1) (from side:1), a10 years old child looks (girl:0.5) (boy:0.5), (hands on own cheeks:1), black robe, hat, long silver hair, sitting, smile, (finger focus:0.5), (eyes focus:0.5) ,flower garden, blue sky, castle, noon, sunny Seed:41

            画像
            画像
            Seed 42
            画像
            Seed 43

            「中性的な魅力を持った子供っぽい魔法使い」を制御性高く表現できるようになりました。

            まとめ

            Stable Diffusion 3時代に知っておきたいプロンプトの新常識と、その検証方法を整理しました。ファンタジーイラストからフォトリアルまで、完璧に制御できるプロンプトの文法、さらに画風や性別なども数字で表現できるテクニック、シードを使った制御方法やその確認など、今までのTextToImageよりもさらに深い世界が広がっていることを感じていただけたようであれば幸いです。
            これらのテクニックやモデルとの対話方法により、従来のホビー向けイラスト表現や「一発出し」のフリー画像素材的な使い道を超えて、商業広告やグラフィックデザイン、動画制作のようなプロフェッショナル用途に使用できる可能性が大きく拡がっています。しかもライセンス的にもすべて商用利用可能です。

            AICUもさまざまなAI時代のクリエイターとともに、AI時代の商業映像開発、パイプライン開発、教育マテリアル開発などを行っています。

            Stability AI APIは手軽に使えて高機能で、こんなに美麗なグラフィックスが作れるのに、使いこなしのための情報が少ない!
            AICU media編集部ではこれからも Stability AIさんやクリエイティブAIコミュニティのみなさんと協力して、各種読み物メディアで日々APIガイドの日本語情報を発信していきます。

            記事はこちらに集約されています
            マガジン「Stability AI Fan!」
            ▶Stability AI APIガイド(インデックスページはこちら

            https://note.com/aicu/n/n4eda1d7ffcdf

            そして品質の高い技術を開発していただいている、Stability AIさんありがとうございます!

            https://corp.aicu.ai/ja/stability-ai

            そして「ワタシはこんな風に使いこなしてる!」という方、ぜひAICUでクリエイターとして活躍しませんか?ライターや案件など X@AICUai のDMやメンバーシップ、コミュニティDiscordにて随時お話お聞きしております。

            重大ニュース!「Coloso」とのコラボ講座
            超入門: Stable Diffusionではじめる画像生成AI」開講!!

            さて、誰もが簡単に出せるt2iから、プロフェッショナル向け、商業向けレベルの生成AIクリエイティブの新時代もやってきています。
            これはCGの歴史を振り返ってみても確実な流れです。
            ここで重大ニュースの発表です。

            画像
            https://coloso.global/

            世界中のトップクラスのコンテンツばかりを集めたオンライン講座の国際企業「Coloso」(コロッソ)とAICUが一緒に企画した、初めてのクリエイティブAIに関する専門講座「超入門: Stable Diffusionではじめる画像生成AI」が7日後(2024年8月23日)に公開されます!

            画像
            このシリーズ「超入門 Stability AI API」と同じなのでは…?いえいえ違います!

            講座内容はAICU mediaで人気の日々お送りしている生成AIクリエイティブの情報、画像生成AIの歴史や文化、GPU不要・Macでも安心な環境構築、Google Slidesを使ったオリジナルツール、そして「超入門 Stability AI API」でもお送りしている「Stability AI API」を使って基礎の基礎から丁寧に学ぶ「基礎編」、さらに美麗なファッションデザインを自分で制作する「応用編」、広告業界やクリエイティブ業界にとって気になる「広告バリエーション」を生成AIだけで制作する「活用編」、そして画像生成AIにおける倫理など広範になる予定です。

            画像
            受講者はオリジナルファッションブランドのルックブックを作りあげることができます

            全20講座超え、総プログラム時間10時間を超える豊富なカリキュラムで構成されています。
            (AICUクリエイターの夏休みのすべてが凝縮されています!!)

            【代表からのメッセージ】
            世界の動画ラーニングプラットフォームのトップブランド「Coloso」で、AICUから今回の講座を発表できることを嬉しく思います。
            今回、準備しながら感じたこととして。日々の読み物メディアで発信をしつつ、企業向けコンサルティング大企業向けワークショップで数多くのトップクリエーターさん向けにレクチャーを提供させていただいているAICUですが、今回はさらに広い方々向けに動画メディアで短期集中で実用的なテクニックを確実に学べる講座を企画いたしました。このような企画が短時間で実現できたのは、画像生成AI分野を長年研究し「つくる人をつくる」をビジョンに活動するデジタルハリウッド大学発の国際スタートアップ企業「AICU Inc.」と、国際ラーニングメディア「Coloso」とのコラボならでは!と感じています。
            世界を舞台に日々進化する画像生成AIの分野。長期に活用できるようなテクニックを、従来の画像生成の常識を揺さぶりながら、最新のテクニックを短い時間で丁寧に、楽しく集中して学べる良質コンテンツになっておりますので、「これからはじめてみたい」という方々も、画像生成に詳しい方々も、「最先端の使いこなしを知りたい」「社内教育に使いたい」といった方々にもご活用いただければ幸いです。

            講座のカリキュラムが確認できる詳細ページは、7日後
            8月23日に公開される予定ですのでもう少しお待ちください!

            実は今、Colosoで講座の事前通知申請を申請すると
            6,000円の割引クーポンがもらえるので、お得な特典をお見逃しなく!
            ▶事前通知を申請する>> https://bit.ly/3YGSNda

            以上、AICU media編集部・および代表のしらいはかせがお送りしました。
            🙇今後とも皆さんの応援をよろしくお願いいたします🙇

            最後まで読んでいただきありがとうございました!

            Originally published at https://note.com on Aug 16, 2024.

          1. AniFusion最新機能で漫画制作がもっと楽しく!

            こんにちわ。AICU media編集部のはねごろうです。
            ブラウザだけで本格的な漫画が描ける話題の海外サービス「AniFusion」が、2024年8月11日に更なる進化を遂げたとのことで、アップデート内容をまとめてみました。

            https://anifusion.ai

            過去のAICUでご紹介した記事はこちらからどうぞ!

              まずは公式から、アップデート内容の紹介です。

              (日本からのユーザーがとても多いそうで)
              日本語サポートも進んでいます!
              とはいえ、「わかるAIを伝える」をポリシーにしているAICU media編集部はもっとわかりやすい解説をお届けします。

              1. ワークスペースタイプの追加

              画像

              今回新たにコミック制作用のキャンバスが追加されました。
              しかも、欧米コミック・日本コミックそれぞれのフォーマット選択も可能となります!

              2. コマ割りが簡単に!

              画像

              パネル上で左クリックをするとEditモードになります。
              表示されている分割アイコンをクリックすると画像のように簡単にコマの分割を行うことができます。

              3. ストーリー生成機能

              ストーリー生成機能が実装されました。「ストーリープロンプト」に日本語でも英語でも入れると画像とフキダシを生成します。

              画像

              右側の操作パネルから、ページを選択するとモデルのプロンプト・ストーリーのプロンプトを入力する画面が出てきます。
              モデルのプロンプトには従来の通り、キャラクターやシチュエーションなどの指示を書き込みますが、今回の目玉はストーリーのプロンプトです。物語の内容を打ち込むことで、セリフも含めて簡単に自動生成されます。

              4. FLUX.1の搭載

              画像

              なんと、FLUX.1が搭載されております。凄い…!

              どうやら内部ではFLUX.1(おそらく[schnell])が使われているようです。
              言語理解能力の高さを生かした最新の実装事例ですね。

              AniFusionではCivitaiで配布されている独自LoRAを使用することは可能ですが、現在はFLUXに対応しているものは殆どありません。
              もし、LoRAを使用したい場合は、FLUXのチェックをOFFにして他のモデルを使用する必要がありますのでご注意ください。

              5. 実際に作ってみた

              編集部では「デルタもん公式LoRA」を使ってデルタもん漫画を作ってみました。

              モデルを選び「Animagine XL 3.1」を選択しつつ、

              画像

              「+LoRAを追加」から

              画像

              このURLを貼り付けます。

              https://civitai.com/models/492694/deltamon-official-version10

              こんな感じに出来上がります!

              デルタもんのLoRAをはじめ、LoRAを生成する手法やその可能性が更に広がりますね!

              https://note.com/aicu/n/ncd46ab0f3286

              「15分で作った(細かいことを気にしなければ 5 分でできます)」
              私の生産性は爆上がりだ

              FLUX.1[dev]も実験されているようです。

              いかがでしたでしょうか?日進月歩で進化を遂げていくAniFusionの今後がますます楽しみになりますね!
              また、手軽に漫画制作を行うことができることから、AI漫画クリエイターが増えていくことも期待ができます。


              画像

              漫画製作のための画像生成AIプラン

              プロフェッショナルな漫画製作のための画像生成AI技術や関連ツール活用技術を紹介するプランです。加えて、サンプルデータなどを提供する[漫画製作メンバー特典マガジン]もございます。

              ✨️メンバーシップについての詳細はこちら

              https://note.com/aicu/membership/join


              この記事の続きはこちらから https://note.com/aicu/n/nd123231e99c9

              Originally published at https://note.com on Aug 14, 2024.

            1. 【超入門】Stability AI API 公式サンプルで「TextToImageの最近の文法」を総ざらい!

              こんにちは、AICU media編集部です。ライターのRUNO.がお送りします!

              今回は、Stability AI API Guideの「超入門」!
              Generate APIと「TextToImageの最近の文法」を総ざらいします。

                Stability AI APIとは?

                Stability AI APIは、Stability AIが提供するクラウドベースのAPIサービスです。後述のGoogle Colabでの実験環境だけでなく、Google Slidesや独自のアプリなどで、画像生成をはじめとしたパワフルな機能を利用することができます。ユーザーはGPUやサーバーといった演算環境をはじめ、何も用意する必要はありません。
                そして、とても重要な特徴なのですが、Stability AIのAPIはすべて「商用利用可能な画像生成が可能」なのです。これはあまり知られていないことなのですが、後々のトラブルを防ぐためにもプロフェッショナル向けの画像生成において意識しておきたいポイントです。

                APIの種類と特徴について

                Stability AI公式ページでは、2024年8月現在全部で16個の画像系モデルが存在しています(coming soonと記載されたものを含めると18個)。

                https://note.com/aicu/n/n4eda1d7ffcdf

                動画生成、言語、3D、オーディオを含めると23種類となります。

                画像

                画像系は大きくは「Generate」「Upscale」「Edit」「Control」の4つに大別され、それぞれ次のような特徴があります。

                • 「Generate」:いわゆる「TextToImage」です
                  • プロンプト(テキスト)によって画像生成を行う
                  • 現在6つのモデルが提供されている
                • 「Upscale」:高解像度化
                  • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像生成を行う
                  • 現在{Creative, Conservative}という2つのモデルが提供されている(加えて、Standardがcoming soonとして予告されている)
                • 「Edit」いわゆるImageToImageです
                  • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像再生成を行う
                  • 現在{Search and Replace, Inpaint, Outpaint, Remove Background, Erase Object}5つのモデルが提供されている
                • 「Control」こちらも いわゆる ImageToImage です
                  • ベースとなる画像を入力し、そこにプロンプト(テキスト)で指示を追加し画像再生成を行う
                  • 現在{Sketch, Structure, Style}3つのモデルが提供されている(加えて、 Recolorがcoming soonとして予告されている)

                https://platform.stability.ai

                今回は最も基本的な「Generate API」について解説していきます。

                Generate APIとは

                新しい画像や既存の画像のバリエーションを生成するためのツールです。
                TextToImage(テキストから画像を生成する)の根幹を担いますが、最高品質の画質と文字を書く能力(タイポグラフィー)、照明、色合い、構成力などに優れています。特にStable Diffusion 3世代のモデルから作られた Ultraは特筆に値します。

                Stable Image Ultra
                Stability AIの最も先進的な「Text to Image」画像生成サービスであるStable Image Ultraは、前例にないほど迅速な言語理解と最高品質の画像を作成します。Ultraは、タイポグラフィー、複雑な構成、ダイナミックな照明、鮮やかな色合い、そしてアート作品全体のまとまり(cohesion)と構成力に優れています。Stable Diffusion 3をはじめとする最先端のモデルから作られたUltraは、Stable Diffusionエコシステムにおける最高のサービスです。

                https://platform.stability.ai/docs/api-reference#tag/Generate  より人力翻訳

                Stable Diffusion 3時代のプロンプトの文法

                まず、Stable Diffusionではテキストを入力することで単語をもとに画像を生成し、これを「TextToImage(t2i)」と呼びます。このAIに対する指示を行うテキストを「プロンプト」と呼びます。
                モデルによって様々な言語理解が特徴としてありますが、まずはモデルと対話して、効率的なプロンプトの構造を理解することが重要です。

                画像

                モデルが多様にあるため「これが完璧」という方法を一様に宣言することは難しいです。想像や噂がネット上にたくさんあるのですが、最近のモデルはプロンプトを短くすることに努力が割かれていますし、一方では簡単なキーワードで美麗な結果が出すぎるモデルは「過学習」とも言えるかもしれません。画像生成の使い手にとって重要なのは品質や速度、簡単さに加えて「意のままに操れること」つまり「制御性」が重要になります。いくつかのポイントをおさえてモデルと対話すると、その特徴を理解して制御が可能になってきます。
                Stability AI 公式のサンプルに散りばめられたサンプルプロンプトを読んでいると、最新のStable Diffusion 3時代の文法や表現力を引き出すコツが見えてきます。ポイントを整理して、実際に手を動かしながら理解を深めてみたいと思います。

                ポイント①:「生成したい画像のイメージを的確にする」

                例として「遠くに小さな小屋の前で、少女が青い小鳥と仲良く遊んでいる」といったイメージがあったとします。これを細部を深めつつ分解して考えてみましょう。

                • 主題:少女、赤いワンピース、赤い靴、三つ編み、青い小鳥…
                • 背景:小屋・青空・草原・森・木々・差し込む光
                • その他:ファンタジー・落ち着いた雰囲気・昼間・晴れている

                ビジュアルを構成する要素を大きく分けると「主題」と「背景」、そしてアニメ風やファンタジーイラスト、フォトリアルなどの「画風」、さらに構図、表情、雰囲気といった演出の要素になります。

                画像

                ポイント②:「知っておくべきルール」

                • 英語で書く
                • 単語もしくは 文の区切りにカンマ(,)を入れる

                例:ルール通りにプロンプトを書く

                • 主題:1girl, red one-piece dress, red shoes, braided hair, a bluebird
                • 背景:a cottage, blue sky, meadow, forest, trees, rays of sunlight
                • その他:fantasy, calm atmosphere, daytime, sunny

                ポイント③:「クオリティプロンプトを使用する」

                これまで画像生成界隈で言及されてきたプロンプトの常識として「クオリティプロンプト」がありました。例えば、傑作(masterpiece)、高クオリティ(high quality, best quality)、非常に詳細(ultra detailed)、高解像度(8k)といった「定型句」を入れるとグッと画質が上がるというものです。Stability AI APIでもクオリティプロンプトは効果があります。

                画像

                ultra detailed, hires, 8k, girl, witch, black robe, hat, long silver hair, sitting, smile, looking at viewer, full body, flower garden, blue sky, castle, fantasy, vivid color, noon, sunny

                上記のプロンプトをクオリティプロンプトとしての「ultra detailed, hires, 8k,」を変更して、同じシード(seed:39)を使って Stability AI Generate Ultraによる比較をしてみました。

                画像

                なお最近のモデルでは既にこのような常識も学習済みであったり、モデルや出力する画風によっては逆効果になる場合もあります。
                Stability AI API の公式情報によると、

                出力画像で表示させたいもの。 要素、色、主題を明確に定義するわかりやすい説明的なプロンプトを使用すると、より良い結果が得られます。
                特定の単語の重みを制御するには、(単語:重み)という形式を使用します。単語は重みを制御したい単語、重みは0から1の間の値です。例えば、「空は晴れやかだった(青:0.3)」と「(緑:0.8)」は、青と緑の空を表現しますが、青よりも緑が強調されます。

                という指摘があります。AICUでは日々、このような制御構文は研究を進めており、詳しくは別の機会に実験方法とともに解説したいと思います。

                ポイント④:「ポーズを指定しよう」

                画像

                人物画などを生成したいときは、ポーズを指定してみましょう。

                • sitting (座る)
                • raise hands (手を上げる)
                • looking back (振り返る)
                • jumping (ジャンプ)

                ポイント⑤:「構図を指定しよう」

                画像

                ポーズを指定しても、思ったような絵が出ない場合は、構図を指定すると効果的です。構図を後から変えると絵全体が変わることがあるので、初めからある程度決めておくのがおすすめです。

                • from above (上から)
                • from below (下から)
                • face focus (顔のアップ)
                • from side (横顔)

                【実践:基礎】 Google Colabサンプルの動かし方

                それでは実際に、公式で提供されているGoogle Colabサンプルを用いて、
                画像生成してみましょう!

                Stability AI 提供の公式サンプルへのショートカット
                https://j.aicu.ai/SAIci

                APIリファレンスから参照する場合はこちらから
                https://platform.stability.ai/docs/api-reference

                ステップ1:公式Colabにアクセスする

                APIリファレンスを開くと、公式Colabが次のように提供されています。

                画像
                ピンクの枠部分をクリックすると、公式が提供しているColabに飛ぶことができます
                画像

                実際のリンクはこちらになります。

                https://colab.research.google.com/github/stability-ai/stability-sdk/blob/main/nbs/Stable_Image_API_Public.ipynb#scrollTo=yXhs626oZdr1

                ステップ2:画像生成を始めるための準備

                クリックしてColabに飛ぶと、このような画面になります。

                画像生成を始める準備として、上から3つの操作を順番に実行する必要があります。

                画像
                まずはInstall requirementsを実行しましょう

                警告が表示されますが、今回は公式が提供しているColabになるので、
                「このまま実行」をクリックします。

                画像
                青い字で書かれた「このまま実行」をクリックします

                これが完了したら、次にConnect to the Stability APIを実行します。

                画像
                このピンクの枠部分がConnect to the Stability APIの実行ボタンです

                実行すると、このようにAPIキーの入力を求められます。

                画像

                APIキーは、Stability AIにアクセスし、右上のアカウントアイコンをクリックすることで取得することが可能です。

                画像
                右上のアカウントアイコンをクリックしましょう
                画像
                こちらの API key のリンクからでも取得可能です

                https://platform.stability.ai/account/keys

                画像
                ピンクの枠内にAPIキーが表示されています(※マスキングしております)

                「sk-… 」で始まる文字列がAPIキーです。

                これを先ほどのColabの枠内に入力し、Enterを押しましょう。

                完了したら、最後にDefine functionsを実行しましょう。

                画像
                ピンクの枠に示すボタンをクリックし、Define functionsを実行します

                ここまで完了したら、それより下に続くモデルをどれでも利用可能な状態になります。

                ステップ3:モデルを選んで、いざ画像生成!

                今回は、Stable Image Ultraを使って、画像生成をしてみましょう!

                サンプルでは、はじめからこのようなプロンプト例と実行例が表示されています。

                画像
                はじめはこの状態

                既に入力されているプロンプトを削除し、生成したい画像を示すプロンプトを「prompt」箇所に入力します。

                今回は、上で例にとった「遠くに小さな小屋の前で、少女が青い小鳥と仲良く遊んでいる」を生成してみます。

                実際はプロンプトは一行で書きますが、見やすいように要素ごとに分けて記載します。

                prompt:

                • best quality(クオリティプロンプト)
                • 1girl, little girl, wide angle, vertical angle, red one-piece dress, red shoes, gold braided hair(主題1)
                • a tiny bluebird, playing, chatting(主題2)
                • in front of a cottage, blue sky, meadow, forest, trees, rays of sunlight, fantasy, calm atmosphere, daytime, sunny(背景など)

                次に、ネガティブプロンプトを入力します。
                ネガティブプロンプトとは、写って欲しくないものを入力し、出力画像のクオリティを上げるために指定します。

                たとえば、

                • 普通のクオリティ(normal quality)
                • 醜い(ugly)
                • 上手に生成されていない手(bad hands)
                • 暗い雰囲気にしたくないとき(dark)

                今回はシンプルに

                negative prompt:  normal quality, ugly

                とします。

                ちなみに、ネガティブプロンプトは細かく入れすぎると逆効果の場合もあります。できるだけシンプルに入れることで無駄な制約を減らすことができます。

                aspect_ratioは出力画像のサイズを指定します。
                seedは画像の種類に番号が振られているようなイメージで、同じseedかつ同じプロンプトでは毎回同じ出力が得られます。絵柄を固定したい時などに便利です。

                今回はaspect_ratio: 3:2, seed: 39とします。

                それぞれの設定が入力できたら、実行ボタンを押下します。

                画像
                いざ、実行!

                実行が完了すると、画像が表示されます。

                画像
                嬉しい!
                画像
                かわいらしい!そして画質がいい!

                まるでアニメのオープニングのような美しい画像が得られました!

                皆様はイメージ通りの画像が得られましたでしょうか?

                補足1:画像の保存

                この段階で表示された画像を保存したいときは、表示されている画像を右クリックすることで「名前をつけて保存」で保存できます。

                画像

                もう一つの方法はGoogle Colabの左側にあるフォルダタブ📁をクリックして「generated_…」という名前のPNG画像を保存することです。

                画像

                どちらも1216×832ピクセルの同じ画像です。
                これをGoogle Driveに直接保存する方法がありますが、こちらは公式サンプルをほんの少し修正する必要がありますので別の機会に紹介します。

                補足2:Colabをドライブにコピーし、オリジナルのコードを追加する

                左上から「ドライブにコピー」を押すと、ログインしているGoogleアカウントのGoogle driveにColabノートブックをコピーすることができます。

                画像
                自分のドライブ上で自由に生成を楽しもう

                オリジナルのpythonコードを追加して、生成した画像を自動でGoogle drive上のフォルダにアップロードするなど、
                コードを追加すれば様々な処理が可能になります。

                ちなみに、自分のドライブにコピーをしないままコードを追加しようとするとこのようなエラーが出てしまい、実行することができません。

                画像
                コードを追加したいときは最初に自分のドライブにコピーしてから始めましょう!

                【実践:応用】 Upscaler機能紹介とデモ

                Upscalerとは、画像を入力として与え、そこにテキストで追加指示を送ると、高画質に変換してくれるAPIです。

                現在公式が提供しているColab上では「Creative Upscaler」と「Conservative Upscaler」の2つを利用することができます。

                先ほどUltraで生成したColabの画面を下にスクロールすると、Upscaler機能を利用できます。

                画像
                下にスクロールするとUpscalerなど他のモデルがあります

                「Creative Upscaler」と「Conservative Upscaler」の違い

                • Creative Upscalerは、与えた画像にさらにクリエイティブな加工を施すとともに、高画質化して出力します。
                • Conservative Upscalerは、与えた画像を高画質化して出力します。

                先ほどUltraで出力した画像をこの2つのモデルにかけてみましょう。

                Upscalerを始めるための準備

                まずは、画面左側の「ファイルマーク」をクリックします。
                下に示す画像に従って、順番にクリックしていきましょう。

                画像
                画面左側のファイルマークをクリックします
                画像
                次に、一番上のファイルマークをクリックします
                画像
                「content」ファイルにカーソルを当て、右側のマークをクリックします
                画像
                表示されたメニューから「アップロード」をクリックします。

                そして、先ほどUltraで生成した画像を選んで、アップロードします。

                少し待つと、この三角マークを押して表示される「content」フォルダの中にアップロードした画像の名前が表示されます。

                画像
                contentフォルダの中身を確認しましょう
                画像
                アップロードした画像にカーソルを当て、メニューを開きます
                画像
                「パスをコピー」をクリックします

                これで、Upscalerを利用する準備ができました!

                Creative Upscalerを使ってみよう!

                「image」には今コピーしたファイルのパスをペーストします。
                「prompt」には、どのように加工を施すか入力します。
                「negative prompt」には写したくないものや雰囲気を、
                「creativity」には新たに施す加工をどの程度強くするかを設定します。

                今回は
                  prompt: photorealistic, emotional
                  negative prompt: normal quality, ugly
                  seed: 39
                  creativity: 0.30
                としました。

                画像
                入力イメージ

                さあ、実行してみましょう。

                画像
                フォトリアルに変わっています!

                比べてみると、高画質化もされているのがわかります。

                画像
                左がUpscale後の画像、右が元画像です

                Conservative Upscalerを使ってみよう!

                「Conservative」とは「保守的な」という意味です。
                「Creative」に対して、もとの画風を維持します。

                promptには、元画像を生成した時のプロンプトを入れます。
                その他の設定はCreative Upscalerと同じです。

                画像
                入力イメージ

                実行すると、次のような画像が得られました。

                画像
                ぱっと見は変化がわかりづらいかも?

                拡大して比較してみると、確かに高解像度化されているのがわかります。

                画像
                左が元画像、右がUpscale後の画像です

                [体験談] ライターのnoteアイコンを実際にUpscaleしてみた

                Upscale前の元画像がこちらになります。

                画像
                Upscale前の元画像です

                Upscale後の画像がこちらです。今回はConservative Upscalerを使用しました。この状態で見比べても、画質が良くなっていることがわかりますね!

                画像
                Conservative Upscalerで高画質化した後の画像です

                拡大して比較すると、明確にUpscaleされていることがわかります。

                画像
                左が元画像、右がUpscale後の画像です!

                元画像はDALL-Eを活用して生成しました。

                このように、他サービスで生成した画像をStability AI APIと掛け合わせて使うこともできるのですね。

                好みや用途に合わせて使うことで、より創作の幅が広がりますね。

                皆様もぜひ、気に入った画像を高画質化してみてくださいね!

                さいごに

                公式Colabには今回紹介した以外にも多くのAPIが公開されており、
                自由に触ることができます。

                様々なAPIを試し、ぜひ色々なタイプの画像生成にチャレンジしてみてくださいね!

                Stable Diffusionを開発・公開している Stability AI は、HuggingFaceで無償でダウンロード可能な Stable Diffusion をはじめとするオープンモデル以外に「Stability AI API」という有償のAPIも提供しています。高品質で高速、高機能なAPIであり、新しく魅力的な機能もどんどんリリースされているので 開発者向けのAPIガイド として紹介していきたいと思います。

                上記「Stability AI API Guide」noteより

                冒頭でも紹介したStability AI API Guideは随時更新していきます!

                https://note.com/aicu/n/n4eda1d7ffcdf

                最後に Stability AI APIの Stable Image Ultra で生成したカバーアートの探求を共有します。

                AICUのAIキャラクター「全力肯定彼氏くんLuC4」です

                画像
                画像

                3D化して

                画像

                実写化してみました

                画像

                そのまま学位帽をかぶせて3Dアニメーション風に…

                画像

                完成です!

                画像
                best quality, photorealistic, graduation cap, mortarboard, 1boy, very cool high school boy, solo, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight, hoodie, jeans, newest, colorful illuminating dust, in a mystical forest seed:39

                ここまで読んでいただき、ありがとうございました!


                この記事の続きはこちらから https://note.com/aicu/n/n8981d463ee89

                Originally published at https://note.com on Aug 14, 2024.