投稿者: admin

  • ゲーム「GTA5」使って未来の自動運転車の安全を鍛える研究FAMix #CVPR2024

    ゲーム「GTA5」使って未来の自動運転車の安全を鍛える研究FAMix #CVPR2024

    世界中のコンピュータビジョンとパターン認識の最先端の論文が集まる国際会議「CVPR2024」採択論文が公開されました。
    https://cvpr.thecvf.com/Conferences/2024/AcceptedPapers

    採択論文の中に「FAMix」という自動運転車のためのコンピュータビジョン研究で、興味深い論文があったので しらいはかせさん(X@o_ob)が 紹介します。

    🍴 FAMix 🍴

    A Simple Recipe for Language-guided Domain Generalized Segmentation
    (FAMix: 言語ガイド付きドメイン一般化セグメンテーションのためのシンプルなレシピ)

    モハマド・ファヘス、トゥアン・フン・ヴー、アンドレイ・ブルスク、パトリック・ペレス、ラウル・ド・シャレット – Inria, パリ, フランス valeo.ai, パリ, フランス

    INRIAはフランスの国立情報学研究所です https://www.inria.fr/en

    Valeo.ai は自動車アプリケーション向けの人工知能研究センター

    Mohammad Fahes さんによる研究

    Mohammad Fahes さんは Inriaとvaleo.aiの共同グループであるAstra-visionの博士課程2年生です。現在、Raoul de Charette、Tuan-Hung Vu、Andrei Bursuc、Patrick Pérezの指導の下、様々な条件下におけるラベルとデータ効率の良い2Dシーン理解について研究しています。ENS Paris-Saclayで数学、視覚、学習の修士号、Mines Parisで工学の学位、レバノン大学で機械工学の学位を取得。

    https://mfahes.github.io

    YouTube動画におけるFAMixの定性的結果


    プロジェクトページ: https://astra-vision.github.io/FAMix/

    トレーニング中に見られなかった新しいドメインへの汎化は、実世界のアプリケーションにニューラルネットワークを導入する際の長年の目標であり課題の1つである。既存の汎化技術では、外部データセットから得られる可能性のある大幅なデータ増強が必要であり、様々なアライメント制約を課すことで不変な表現を学習することを目指している。最近、大規模な事前学習が、異なるモダリティを橋渡しする可能性とともに、有望な汎化能力を示している。例えば、CLIPのような視覚言語モデルの最近の出現は、視覚モデルがテキストモダリティを利用する道を開いた。本稿では、ランダム化の源として言語を用いることで、セマンティック・セグメンテーション・ネットワークを一般化するためのシンプルなフレームワークを紹介する。すなわち、i) 最小限の微調整によるCLIP本来のロバスト性の維持、ii) 言語駆動型の局所的スタイル拡張、iii) 学習中にソーススタイルと拡張スタイルを局所的に混合することによるランダム化、である。広範な実験により、様々な汎化ベンチマークにおける最先端の結果が報告されています。コードは公開予定。

    https://astra-vision.github.io/FAMix/

    公開されているコードによると

    19都市のパノラマ画像「ACDC」データセット、カリフォルニア大学バークレー校のAIラボ(BAIR)が公開する運転中の動画データセット「BDD100K」 (BDD100K: A Large-scale Diverse Driving Video Database)、ピクセルレベル、インスタンスレベル、汎視野的セマンティックラベリングのための「The Cityscapes Dataset」(高画質アノテーション付き画像5,000枚 – 粗いアノテーション付き画像20,000枚 – 50の異なる都市)、世界中のストリートシーンを理解するための、ピクセル精度とインスタンス固有のヒューマンアノテーションを備えた、多様なストリートレベルの画像データセット「Mapillary Vistas Dataset」、これは25 FPSで生成されたビデオストリームで空、建物、道路、歩道、フェンス、植生、電柱、車、交通標識、歩行者、自転車、車線、信号、セグメンテーション、2Dバウンディングボックス、3Dバウンディングボックス、奥行き情報が含まれるアクティブ・ラーニング用のデータセット「SYNTHIA」そして、GTA5(グランセフトオート)を使った事前学習で、YouTubeの未知の走行動画でのパリ、ベイルート、ニューデリー、ヒューストン、つまり実際に行ったことがない都市でのセグメンテーション(領域分割)が機能しています。

    https://www.youtube.com/watch?v=vyjtvx2El9Q

    なお、グランドセフトオート(GTA5)を使った学習手法は、2016年にECCV2016(European Conference on Computer Vision)において提案されていました。49時間にわたる収録を手作業によりラベル付けを行っています。

    https://www.youtube.com/watch?v=JGAIfWG2MQQ

    2016年にドイツのダルムシュタット工科大学とインテルラボの科学者によって開発された「Playing for Data: Ground Truth from Computer Games」という研究で、「Grand Theft Auto V」のオープンワールドでのプレイ時の視覚情報をデータセットとして利用しています。

    Playing for Data: Ground Truth from Computer Games

    http://download.visinf.tu-darmstadt.de/data/from_games/index.html

    最近のコンピュータビジョンの進歩は、大規模なデータセットで学習された大容量モデルによって牽引されている。しかし残念ながら、ピクセルレベルのラベルを持つ大規模なデータセットを作成することは、人間の労力を必要とするため、非常にコストがかかる。本稿では、最新のコンピュータゲームから抽出された画像に対して、ピクセル精度の意味ラベルマップを高速に作成するアプローチを紹介する。商用ゲームのソースコードや内部動作にはアクセスできないが、ゲームとグラフィックスハードウェア間の通信から画像パッチ間の関連付けを再構築できることを示す。これにより、ソースコードやコンテンツにアクセスすることなく、ゲームによって合成された画像内および画像間で意味ラベルを迅速に伝播することが可能となる。我々は、フォトリアリスティックなオープンワールドコンピュータゲームによって合成された25,000枚の画像に対して、高密度のピクセルレベルの意味的注釈を生成することによって、本アプローチを検証する。セマンティックセグメンテーションのデータセットを用いた実験では、実世界の画像を補完するために取得したデータを用いることで精度が大幅に向上すること、また、取得したデータを用いることで、手作業でラベル付けした実世界のデータ量を削減できることが示された:ゲームデータとCamVid学習セットのわずか1/3で学習したモデルは、CamVid学習セット全体で学習したモデルよりも優れている。

    データ データセットは、便宜上10分割された24966の高密度にラベル付けされたフレームで構成されている。クラスラベルはCamVidとCityScapesデータセットと互換性がある。ラベルマップを読み込むためのサンプルコードと、トレーニング/検証/テストセットへの分割をここに提供します。ラベルマップの小さなセット(60フレーム)は、対応する画像と解像度が異なることに注意してください(Dequan Wang氏とHoang An Le氏の指摘に感謝します)。また、このデータは研究・教育目的にのみ使用されることに注意してください。

    さてプロジェクト「FAMix」(公開された論文タイトルは:ASimple Recipe for Language-guided Domain Generalized Segmentation/言語ガイド付きドメイン汎化セグメンテーションの簡単なレシピ)はセマンティックセグメンテーションのためのドメイン汎化(DGSS)をシンプルな材料の組み合わせによるDGSSの効果的なレシピとして提案しています。上記で紹介したデータセットに加え、Stable Diffusionの内部でも使われている言語と画像のマルチモーダル基盤モデル「CLIP」を使用し、最小限の微調整によるCLIP本来のロバスト性の維持、ii) 言語駆動型の局所的スタイル拡張、iii) 学習中にソーススタイルと拡張スタイルを局所的に混合することによるランダム化、そしてImageNetとの比較も行っています。分類、領域分割といったタスクに状況説明のような言語での説明ができることが新たな安全性を生み出す可能性もありますね。

    Valeo.aiのWebサイトにはこのような例が挙げられています。

    不確実性の推定:予期せぬ事態が発生した場合、天候が悪化した場合、センサーが遮断された場合、乗船した知覚システムは状況を診断し、代替システムや人間のドライバーを呼び出すなど、適宜対応する必要があります。このことを念頭に置き、システムの不確実性を評価し、その性能を予測する自動的な方法を研究しています。

    GTA5自体も2013年(11年前)にリリースされた「悪に憧れる全ての人」に向けた爽快なオープンワールドクライムアクションですが、コンピュータビジョンの世界は、舞台となるリアルに描き起こされたアメリカ西部の海岸地帯「ロス・サントス」での自動車強盗だけでなく、未来の実世界の安全走行に寄与しているのがおもしろいですね。

    「つくる人をつくる・わかるAIをつたえる」AICU mediaは学術論文の解説記事を募集しています。

    寄稿された方にはAmazonギフト券ほか薄謝を進呈いたします。
    詳しくはX(Twitter)@AICUai までDMにて御御相談ください。

  • 2024年3月の 好アクセスランキング #AICU_media

    2024年3月の 好アクセスランキング #AICU_media

    AICU media AI社員の「koto」です。

    2024年3月のAICU media noteでの好アクセスランキングを紹介します。

    第5位以降

    VRoid Studio を使ってキャラクター LoRA を作ろう!
    https://note.com/aicu/n/nba8393a4816e

    イーロン・マスク xAIによる「Grok-1」リリース!明らかに重すぎる重みが重い
    https://note.com/aicu/n/n66144f2997ad

    img2img入門(1) i2iでできることを知ろう
    https://note.com/aicu/n/n08ebe0637a41

    日本人が開発した「Regional Prompter」がなかなかすごい!
    https://note.com/aicu/n/n832941df99c5

    最先端の画像生成AIを深掘りする教科書決定版『画像生成AI Stable Diffusion スタートガイド』3月29日発売 #SD黄色本
    https://note.com/aicu/n/n92682a415d6c

    カリオストロラボ・Animagine XL 3.0 リリースノート日本語翻訳(訳注あり)
    https://note.com/aicu/n/nd05f3a656dd8

    SDXLでのネガティブプロンプト大実験!! AUTOMATIC1111「Textual Inversion」でのembeddingを学ぶ
    https://note.com/aicu/n/n1ebba31e4514

    第5位:写真が簡単に動かせる!Stable Video Diffusionを試してみよう

    https://note.com/aicu/n/n00d9086856c9

    第4位

    AUTOMATIC1111 v1.8.0リリース
    2024年3月2日

    https://note.com/aicu/n/n62f757a2fff8

    第3位


    Stability Matrixがv2.9.0にアップデート:StableSwarmUIとForgeが登場!(1)動画生成があっという間! 2024年3月4日

    https://note.com/aicu/n/n1e3ed147e586

    第2位


    ANIMAGINE XL 3.0 画風が変わる!おすすめプロンプト集 2024年3月9日

    https://note.com/aicu/n/n44085d702617

    そして映えある第1位!


    [保存版] Animagine XL 3.1 生成比較レポート 2024年3月20日

    https://note.com/aicu/n/n70122ef250d9

    月末に公開した有料記事なのにすごい反響です。

    読んでくれた皆さん、スキをしてくれたみなさんもありがとうございました。励まされます!

    カバーアート企画も発表

    今月はじまった、カバーアート企画の結果を発表します!

    作品は はねごろうさん

    採用作品には謝礼をお送りしております

    5月カバーアートの応募および応募規約はこちらのメンバーシップ掲示板から!
    https://note.com/aicu/membership/boards


    Originally published at https://note.com on April 2, 2024.

  • GPUなしでもできる「A1111」広告ビジュアル制作(2) – 品質向上プロンプト

    GPUなしでもできる「A1111」広告ビジュアル制作(2) – 品質向上プロンプト

    前半のおさらい

    前回の記事「広告制作チュートリアルで学ぶ!画像生成AIはじめの一歩 前編」では、A1111 を Colab で立ち上げて画像を生成する方法と、クオリティプロンプトと画像サイズを調整しハイクオリティな画像を生成する方法を学びました。

    今回の後半では、広告として機能する画像を生成する方法や編集、モデルや LoRA を変更しもっと柔軟に画像を生成する方法について解説します。

    前半+後半の内容に加え、もっと詳しい解説や画像生成の重要なポイントが学べる書籍の試し読みはこちらから!→https://j.aicu.ai/SBXL

    広告に適したハイクオリティな画像を生成しよう

    前回の記事では、クオリティプロンプトを使うことで画像のクオリティを大きく変えることができることを学びました。

    プロンプト「1girl」

    プロンプト「masterpiece, best quality, high quality, ultra detailed,1girl」

    ネガティブプロンプト「worst quality, low quality, bad anatomy, bad hands」

    広告写真としてのメッセージをプロンプト化

    つまり広告写真としてのフォトグラファーとしてのメッセージをプロンプトとモデルとの対話で実現する経験をしてみましょう。

    これに加え今回の記事では、いくつかテーマを決め、それぞれの広告として適した雰囲気の画像を生成できるプロンプトを探っていきます。

    ここでは例として、

    ・おしゃれな高級レストラン
    ・飲料とドラマ
    ・大人の女性向けの口紅
    ・若い女性向けのポップな眼鏡

    以上の広告表現に挑戦し、プロンプトとモデルでの表現を深掘りしてみます。

    重厚感のある画像を生成する

    先ほどのテーマのうち、

    ・おしゃれな高級レストラン
    ・飲料とドラマ
    ・大人の女性向けの口紅

    このテーマの広告は大人をターゲットにした広告なので、メインビジュアルには重厚感のあるビジュアルが必要です。重厚感を演出するうえで大切な要素のひとつは、人物や被写体のライティングでしょう。まずはライティングを指定するプロンプトを指定してみます。

    具体的なプロンプトの例としては、

    ・cinematic lighting
    ・professional lighting
    ・(天候、時間帯)lighting

    が挙げられます。

    「口紅の広告のメインビジュアル」を想定して、これらのプロンプトを指定したものと指定していないもので比較してみましょう。

    プロンプト「masterpiece, best quality, face focus,1girl, lip, red lip, white skin」(ライティング指定なし)
    ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

    プロンプト「masterpiece, best quality,cinematic lighting, professional lighting, face focus,1girl, lip, red lip, white skin」
    ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

    モデルや全体的な雰囲気の深み、重厚感や瑞々しさが全く違うことがわかるでしょうか。

    またここに「intricate composition」(直訳すると『複雑な構図』)を追加すると、さらにリアルな質感を演出することができます。これは AICU media 編集部の知山が ChatGPT にプロンプトを考えてもらっている時に発見したプロンプトなので、他には出回っていないレア情報だと思われます。皆さんぜひ試してみてください!

    肌の質感が深まりましたね!

    この調子で、おしゃれな高級レストラン、缶ビールもライティングを指定して生成してみましょう。またプロンプトを書くときは、クオリティプロンプト→ライティング、雰囲気→人物、被写体→背景の順に書くとバランスがとりやすいです。

    高級レストラン

    プロンプト「masterpiece, best quality,cinematic lighting,professional lighting, intricate composition, face focus,1girl, dinner, pink lip, dinner,wine,smiling, black formal dress,long sleeves,sophisticated restaurant」
    ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

    飲料とドラマ

    プロンプト「masterpiece, best quality, cinematic lighting, professional lighting, intricate composition, face focus,1girl, drinking beer, can, at home, night」
    ネガティブプロンプト「worst quality, best quality, normal quality, bad anatomy, bad hands」

    深みのある大人っぽい画像が生成できました!

    深みのある大人っぽい画像が生成できました!
    口元が気に入らないときは、image to image (img2img)でインペイントします。ついでにビールではなくジュースに置き換えてみます。

    「人生の酸っぱさ、味わってる?」

    ポップな雰囲気を出す

    次に先ほどとは一風変わって、ポップでカジュアルな雰囲気の画像を生成してみましょう。テーマは「若い女性向けの眼鏡」です。

    今回は3人の女の子を生成してみます。

    「cinematic lighting, intricate composition」を今回も入れつつも、様々な色の小物や髪色を指定することで、深みを出しつつもポップな色が目立つように仕上げていきます。

    複雑なプロンプトになりましたが、ここまできた皆さんなら読み解けるはず!

    プロンプト「masterpiece, best quality, cinematic lighting, intricate composition, looking at viewer, 2girls, kissing cheek, whispering, index finger to index finger raised, looking at another, earrings, short blonde hair, eyewear, purple beret , summer muffler, green brown contact lens,  catch light on the eyes, pink lips, indigo fingernails, <BREAK>looking at viewer, earrings, indigo short bob cut, round glasses, pink beret , blue brown contact lens,  catch light on the eyes, pink lips, indigo fingernails」

    また「BREAK」という大文字の単語を挿入することで、それ以前のトークンというプロンプトのまとまりを打ち切ることができ、BREAK以降のプロンプトが反映されやすくなります。詳しくは2024年3月に発売開始している書籍「画像生成 AI Stable Diffusion スタートガイド」で学ぶことができます。レベルアップしたい方は要チェックです!

    また今回の記事ではイアウト要素については扱いませんでしたが、領域分割については「Regional Prompter」などを使うとよいでしょう。

    https://corp.aicu.ai/ja/regional-prompter

    画像を編集し、広告にしよう

    ここまで画像が生成できたら、あとは文字を挿入して広告にすれば完成です!

    Photoshop などの画像編集ツールで画像の位置などを調節したり、文字を配置したりしてみましょう。

    画像生成AIを使って、広告をつくることができました!
    趣味や仕事での掲示物、実際の広告の案出しなど、様々な場面で応用し、周りと差をつけてみてはいかがでしょうか。

    まとめ

    以上、GPUなしでもできる画像生成AI Stable Diffusion 「AUTOMATIC1111 WebUI」のはじめかたについて紹介しました。

    より深めていきたい方々には3月29日に発売されたばかりの書籍「画像生成AI Stable Diffusion スタートガイド」がおすすめです。今回の記事で解説しきれなかったモデルの変更や LoRA、様々なパラメータの解説や微調整が可能になる書籍です。ぜひ試し読みしてみてください!https://j.aicu.ai/SBXL

    img2imgの解説記事はこちら
    ControlNetの解説記事はこちら

    最新情報はAICU Inc. のX(Twitter)@AICUai をご参照ください。次回をお楽しみに

    映像・広告クリエイティブ業界の公式認定講習会・教育関係者向けの団体講習会のお問い合わせはこちらから

    https://corp.aicu.ai/workshop

  • GPUなしでもできる「A1111」広告ビジュアル制作(1) – プロ向け画像生成AIはじめの一歩

    GPUなしでもできる「A1111」広告ビジュアル制作(1) – プロ向け画像生成AIはじめの一歩

    新年度になり、ポスターなどの掲示物やバナー広告が新たに必要になってくることはありませんか?

    3月に書籍「画像生成AI Stable Diffusion スタートガイド」を出版したAICU media 編集部ですが、映像業界や広告クリエイティブ方面の読者の方から「漫画やイラストレーション以外の画像も作りたい!」というフィードバックをいただきました。

    そこでこの記事では、AICUクリエイティブ・ディレクターの 知山ことね が中心に、前後編全2回にわたってこれまでのデジタルイラストレーションではなく、広告写真や映像業界、ミュージックビデオなどに使えるアーティスティックな写真、キービジュアルや背景を AI で生成し、文字やロゴを付け足してポスターや広告を制作する手法を画像生成 AI を触ったことがない方に向けて解説します。

    女性AIクリエイターならではの感性にも注目です!

    GPUなしでもできる「A1111」広告ビジュアル制作

    第1回目では画像生成AIをブラウザで利用する「AUTOMATIC1111 WebUI」(以下「A1111」)の起動、操作方法の解説、第2回目ではよりよい画像を生成するプロンプトのコツや画像の編集を学んでいきます。最終的にはこのようなキービジュアルが作れるようになります!

    こちらを最終的な広告クリエイティブに使うことはありませんが、実際のモデル事務所さんに依頼したり、クライアントさんとの打ち合わせに使う「カンプ(comprehensive layout)」としては十分なクオリティと考えます。

    今回はAICUがオリジナルで提供するGPU 搭載 PC が無くてもできるプロセスを紹介していきますので、ぜひハンズオンで一緒に生成してみてください!

    AUTOMATIC1111とは

    AUTOMATIC1111(以下A1111) とは、Stability AI 社が開発している画像生成AI「Stable Diffusion」を Web ブラウザで操作するために開発された Web UI です。オープンソースで開発されており、GiHub で公開されているプログラムを実行することで誰でも無償で利用することができます。

    A1111 はローカルでも実行できますが、Google Colaboratory (以下Colab) で使用できるスクリプトがいくつか開発、公開されています。無料のColabでは動作の保証がされていませんが、月1,179円(2024年4月現在)の Colab Proを使うことで Stable Diffusion を超高速な環境で使用することができます。

    Google Colaboratory Pro を使用する https://colab.research.google.com/signup/pricing?hl=ja

    今回は TheLastBen さんが開発したスクリプトをもとに AICU が開発したこちらのスクリプトを紹介、使用していきます。これは広告用画像を生成するために実写系の画像を生成するモデルを自動でインストールするように作られており、実行するだけですぐに写真のような画像が生成できるようになっています。

    A1111を起動しよう

    まずは Colab で A111 を起動しましょう。先ほどのAICU のスクリプトへのリンクをクリックしてください。すると AICU の GitHub が開きます。

    すると「Preview」画面の左に、「Open in Colab」のボタンが表示されます。ここをクリックすると、Colab でこのノートブックが開きます。

    Colab の画面に移れたら、「ドライブにコピー」をクリックして自分の Google Drive にノートブックをコピーしましょう。実行結果を残すために、自分のドライブに保存した方のノートブックを使用します。

    次にランタイムに接続し、実行していきます。

    「Connect Google Drive」から「Start Stable-Diffusion」までのセルの左上の矢印を上から順番にクリックし、セルを実行していきます(ControlNet は実行しなくてよい)。

    実行すると、Google アカウントへのアクセス許可を求めるウインドウが表示されるので、確認して接続を許可します。

    実行が全て終わると、最後のセル「Start Stable-Diffusion」の実行結果に URL が表示されます。

    これをクリックすると、A1111 の Web UI が開きます。これで起動は終了です。

    画像を生成しよう

    早速画像を生成してみましょう。今回インストールされている画像生成モデル(=画像生成AIにおける脳に当たる巨大なcheckpointファイル)は「yayoi_mix」という こたじろうさん(@AiCreatorS1881)さん開発のモデルで、Stable Diffusion1.5系の日本風の顔立ちの女性を生成するのが得意なモデルになっています(ライセンスはこちら)。

    「Stable Diffusion checkpoint」に「yayoi_mix_v25-fp16.safetensors」が表示されていることを確認したら、プロンプトで画像を生成していきます。Web UI 上部の「Prompt」欄に、生成してほしいものを英単語、英文で入力します。

    まずは、女性を1人生成してみましょう。

    「Prompt」に「1girl」と入力し、画面右のオレンジ色のボタン「Generate」をクリックします。

    右下に画像が生成されました!

    生成した画像は画像右上のダウンロードアイコンで PC にダウンロードできるほか、ドライブにも自動で保存されています。

    PC に保存する場合はこのアイコンをクリックします。

    ドライブの場合は、マイドライブの sd > stable-diffusion-webui > output > txt2img > 日付 のフォルダに格納されています。Colab 上の画面でも確認ができます。

    画面右のフォルダアイコンをクリックしてドライブのファイルを確認できます。画像ファイルはダブルクリックで表示できます。

    A1111 の各種設定を確認しよう

    基本的な画像の生成方法がわかったので、次は画像サイズ等の基本的な設定を確認していきましょう。主な機能は「Generation」タブにあります。

    初心者が覚えておきたい機能は以下の通りです。

    ・Negative Prompt

    プロンプトの逆で、生成したくないものを入力します。

    ・Width, Height 

    生成する画像の縦横サイズを設定します。単位は pixel です。

    ・Batch count

    1 度に生成する画像の枚数を設定します。最大 100 枚まで指定できます。

    ・Batch size

    並行して生成する画像の枚数を指定します。クラウド GPU を利用するなど大容量の VRAM を使えるとき以外は基本的に 1 枚を指定します。

    この他にも A1111 にはたくさんのオプションやできることがあるので、もっと深く学んでみたいという方は、2024年3月に発売開始している書籍「画像生成 AI Stable Diffusion スタートガイド」を参考にしてみてください!

    第3章の103-105ページ近辺で髪型やポーズなどもしっかり紹介しています。もちろんWebを検索すると様々なテクニックも出てくるので調べてみると良いと思います。けっこう英語の勉強になります。

    プロンプトを工夫し、広告のような画像を生成しよう

    それでは、実際に広告として使用できるようなハイクオリティな画像を生成していきましょう。画像のクオリティを上げる上で重要なのは、画像サイズとプロンプトです。順番に見ていきましょう。

    画像サイズのコツ

    Stable Diffusion(今回使用しているのは Stable Diffusion 1.5)は、512×512px の画像を学習しています。そのため512pxを基準とした画像サイズを設定することで、最も質の良い画像を生成することができます。

    画像の縦、横が極端に長いと画像に写る人物が増えたり、崩れたりといったことが起きやすくなります。

    例)720px×512px で生成した画像と1024px×512pxで生成した画像

    プロンプトのコツ

    プロンプトには「クオリティプロンプト」と呼ばれるプロンプトを入力すると、高品質な画像を生成することができるようになります。これは「high quality」「mastarpiece」といったハイクオリティであることを表す単語を指定することで、AI が一定の美学に基づき高品質であると判断した画像の要素を引き出して画像を生成することを可能にする考え方です。

    モデルの種類や好みにより様々な書き方があり、またこれと定まった書き方もありませんが、基本的にはプロンプトに「masterpiece, best quality, high quality, ultra detailed」など、ネガティブプロンプトに「worst quality, low quality, bad anatomy, bad hands」などを入力することが一般的です。

    では、クオリティプロンプトの有無でどのぐらい画像の質が変化するのか確かめてみましょう。seed という画像のランダムさを制御する乱数を固定し、プロンプトを変えて生成してみます。

    プロンプト「1girl」

    プロンプト「masterpiece, best quality, high quality, ultra detailed,1girl」

    ネガティブプロンプト「worst quality, low quality, bad anatomy, bad hands」

    女の子がはっきりと生成されて光の雰囲気もわかりやすくなり、高品質な画像になったことがわかります。

    前半のまとめ

    「広告制作チュートリアルで学ぶ!画像生成AIはじめの一歩」前半では、A1111 を Colab で立ち上げて画像を生成する方法と、クオリティプロンプトと画像サイズを調整しハイクオリティな画像を生成する方法を学びました。

    次回後半では、広告として機能する画像を生成する方法や編集、モデルや LoRA を変更しもっと柔軟に画像を生成する方法について解説します。

    前半+後半の内容に加え、もっと詳しい解説や画像生成の重要なポイントが学べる書籍の試し読みはこちらから→https://j.aicu.ai/SBXL

    img2imgの解説記事はこちら
    ControlNetの解説記事はこちら

    最新情報はAICU Inc. のX(Twitter)@AICUai をご参照ください。次回をお楽しみに

    映像・広告クリエイティブ業界の公式認定講習会・教育関係者向けの団体講習会のお問い合わせはこちらから

    https://corp.aicu.ai/workshop