カテゴリー: 画像生成AI

画像生成AIの使い方や最新情報についてお届けします。

  • AUTOMATIC1111 v1.8.0リリース

    AUTOMATIC1111 v1.8.0リリース


    日本時間2024年3月2日、人気のあるオープンソース画像生成WebUI「AUTOMATIC1111/Stable Diffusion WebUI」の最新版v1.8.0 がリリースされました。

    • Update torch to version 2.1.2
    • Support for SDXL-Inpaint Model (#14390)
    • Automatic backwards version compatibility (when loading infotexts from old images with program version specified, will add compatibility settings)
    • Implement zero terminal SNR noise schedule option (SEED BREAKING CHANGE, #14145, #14979)
    • Add a [✨] button to run hires fix on selected image in the gallery (with help from #14598, #14626, #14728)
    • Separate assets repository; serve fonts locally rather than from google’s servers
    • Official LCM Sampler Support (#14583)
    • Add support for DAT upscaler models (#14690, #15039)
    • Extra Networks Tree View (#14588, #14900)
    • Prompt comments support

    以下、主要な機能の日本語訳です

    torch をバージョン2.1.2に更新
    ソフトインペイント (#14208) を追加
    FP8のサポート (#14031, #14327)
    SDXL-Inpaintモデルのサポート (#14390)
    アップスケーリングと顔復元アーキテクチャにスパンドレルを使用 (#14425, #14467, #14473, #14474, #14477, #14476, #14484, #14500, #14501, #14504, #14524, #14809)
    古いバージョンとの自動互換性 (プログラムバージョンを指定して古い画像からテキスト情報を読み込む場合、互換性設定を追加)
    ゼロターミナルSNRノイズスケジュールオプションを実装 (SEED BREAKING CHANGE, #14145, #14979)
    ギャラリーで選択された画像の hires.fix を実行する[✨]ボタンを追加 (#14598, #14626, #14728からのヘルプ)
    アセットリポジトリを分離し、フォントをgoogleのサーバーからではなくローカルで提供するように。
    公式LCMサンプラーのサポート (#14583)
    DATアップスケーラーモデルのサポートを追加 (#14690, #15039)
    ネットワークツリービューの追加(#14588, #14900)
    NPUのサポート(#14801)
    プロンプトコメントのサポート

    Stability Matrixのほうはまだ対応できていないようです。
    追記:自動アップデートで対応されました。

    破壊的変更#14145 #14978 はともにリファイナーのスケジューラに関するものです。

    1.7.0→1.8.0の全てのコミットログはこちらです

    機能関係

    微細な修正:

    ExtentionsとAPI:

    パフォーマンス

    14507に対処するため、膨大な数のファイルを含むextra networksディレクトリのパフォーマンスを大幅に改善した (#14528)
    余分なnetworkディレクトリの不要な再インデックス作成を削減 (#14512)
    不要なisfile/exists呼び出しを回避 (#14527)

    バグ修正:

    その他:

    現在、Issuesは1899件存在します。

    全てのオープンソースの開発者に敬意を持って・・・応援したい。

    まだまだ元気なAUTOMATIC1111プロジェクトです。
    世界中でも多くの国で使われています。

    これについてはまた別の機会にレポートします。


    Originally published at https://note.com on March 2, 2024.

  • 子供の時の絵を AI で学習、生成してみよう! #描画タイムマシン

    子供の時の絵を AI で学習、生成してみよう! #描画タイムマシン


    つくる人をつくる!AICU media の 知山ことねです。

    昨日の記事「 VRoid Studio を使ってキャラクター LoRA を作ろう! 」が好評で、LoRA の制作に興味を持っている方からの「ぜひやってみたい!」という声を聴くことができました。

    ところでこちら、画像生成AI「Stable Diffusion」の一大ブームを予言した深津貴之さんのつぶやきです。

    ▶世界変革の前夜は思ったより静か|深津 貴之 (fladdict) https://note.com/fladdict/n/n13c1413c40de https://note.com/aicu/n/n9d5cf46761b7 @fladdict

    子供の頃の絵って魅力的ですよね。Soraが正式リリースされるのはまだわかりませんが、うかうかしていられませんね!

    子供ゴコロあふれる「真の芸術」を爆発させていきましょう。

    今回は、画像生成 AI でたびたび話題になる「 下手な子供の絵を生成する AI」、命名「描画タイムマシン」を Stable Diffusion の LoRA 学習を利用して作っていきます!

    美と知能を超え、人間性を爆発させていきましょう。

    Google Colabだけで作る描画タイムマシン

    描画タイムマシンは学習元の画像データと Google Colab だけで完成するので、皆さんもぜひ、自分の幼少期の絵やお子さんの絵で一緒に作ってみてください。

    用意するもの:小学校時代の黒歴史

    まずは学習元の画像、データセットを用意します。

    今回は、この原稿を書いている私、知山ことねが小学生の時に自由帳に描いていた 直筆雑誌「ザ・コトネ」「ことまが friends」 を用意しました。

    この色鉛筆の質感と歪んだデッサンが小学生らしいですね。
    これらのページをスキャンして、画像データとして PC に取り込みます。

    学習には15~40枚ほどの画像を用意することをおすすめしますので、1枚の絵をそのまま学習したい場合は、絵を最低7,8枚ほど用意しましょう(後述しますが、あとで左右反転コピーを行って枚数を増やすことができます)。

    今回は1枚の紙に複数イラストが描かれているため、貴重なサンプルとして切り取ってデータセットを増やしていきます。雑誌の中のイラストを多く含んだ箇所20ページほどをスキャンしました。

    PC に取り込んだら、画像をそれぞれトリミングしていきます。今回は LoRAを扱いやすい Stable Diffusion (SD1.5) で学習を行うので、Photoshop 等を使い 512×512 px の正方形に画像を切り取っていきます。これを正則画像化といいます。

    またこのままではノートの罫線や文字、透けている裏の紙の内容などのノイズも学習されてしまうので、それらの不要な部分は塗りつぶして消去し、画像全体のコントラストを上げるなどの色調補正も行いました。

    これをイラストの枚数分繰り返し、正則画像化済みの画像のデータセットを作りました。

    またこの時に、用意できた画像の枚数が少ない場合や、画像の左右のバランスが望まない崩れかたをしている場合(左向きの顔が多い、など)は、左右反転したコピーPhotoshop等で作成し、保存しましょう。

    また、LoRA を作ったことがある人ならご存じかと思いますが、学習時に画像をセットにして学習を行うため、画像枚数を2の倍数、具体的には 「2,4,…で割り切れる枚数」に揃えましょう。今回は32枚にしています。

    学習

    データセットが用意できたら、フォルダにまとめて他の LoRA と同じように学習を行います。もちろんローカル環境でも Colab でも可能ですが、初めて LoRA を制作する方は khoya-trainer の Colab notebook をおすすめします。

    これは kohya-ss さん ( https://github.com/kohya-ss ) が制作した sd-scripts ( https://github.com/kohya-ss/sd-scripts?tab=readme-ov-file ) を Linaqruf ( https://github.com/Linaqruf ) さんが Colab notebook で使用できるようにしたものです。
    編集した画像のzipファイルをドライブにアップロードし、手順に沿ってパスや LoRA のファイル名などを入力して実行すると学習された LoRA を制作することができます。

    また今回は2次元のイラストを学習しますが、アニメ系の絵柄には寄せたくないので、2次元イラスト LoRA 学習定番の AnyLoRA などのアニメ系モデルではなく、Stable-Diffusion-v1–5 を使用して学習しました。

    詳しい学習の流れはいずれ日本語の解説版を作って公開しようと思います。
    (AICU mediaメンバーシップ掲示板でリクエストいただけるとプライオリティが上がるかもしれません…!)

    AUTOMATIC1111 StableDiffusionWebUI をGoogle Colabで!|AICU: AI Creators Union生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するnote.com

    完成!

    Colab の実行が完了したら終了です!完成した LoRA で画像を生成してみましょう!

    モデル v1–5-pruned-emaonly

    鉛筆のストロークや雑な色塗り、斜めに歪んだデッサンを再現することができました!Stable Diffusionおそるべし底力。

    大人になってから子供っぽい絵を描くことはなかなか難しいので、過去の自分とコラボレーションできる感覚は楽しいです。また画像だけでなく動画の素材に使う、さらに「不可能な動画」を製作できる可能性があります。
    ファミリーカーむけの広告動画などにも需要がありそうですね。

    これを使ったファンシーイラストやキャラクターデザインの探求にも使えそうです。ガチな産業向けの用途だけでなく、「子供の絵あるある~!」と誰かにシェアしたくなるような画像が生成できるので、皆さん試してみてください!
    ※LoRAを生成するときは本人やお子さんの許諾をもって実施してくださいね!

    面白い作品ができたら、ぜひこちらのメンバーシップ掲示板でご共有ください~!

    メンバーオンリー画像投稿コーナー

    メンバーオンリー画像投稿コーナー|AICU: AI Creators Union生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するnote.com

    Stable Diffusion — ControlNet入門はこちらから

    img2img 入門シリーズはこちらから。

    ※本ブログは発売予定のAICU media新刊書籍に収録される予定です。期間限定で先行公開中しています。
    メンバー向けには先行してメンバーシップ版をお届けします
    Stable Diffusionをお手軽に、しかもめっちゃ丁寧に学べてしまう情報をシリーズでお送りします。
    メンバーは価値あるソースコードの入手や質問、依頼ができますので、お気軽にご参加いただければ幸いです!

    AICU: AI Creators Union|AICU media生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するnote.com

    この下にGoogle Colabで動作する「AUTOMATIC1111/Stable Diffusion WebUI」へのリンクを紹介しています。
    メンバーシップ向けサポート掲示板はこちら!応援よろしくお願いします!

    AUTOMATIC1111 StableDiffusionWebUI をGoogle Colabで!|AICU: AI Creators Union生成AIクリエイターユニオン『AICU: AI Creators Union』は、「つくる人をつくる」をビジョンに活動するnote.com


    Originally published at https://note.com on February 28, 2024.

  • VRoid Studio を使ってキャラクター LoRA を作ろう!

    VRoid Studio を使ってキャラクター LoRA を作ろう!


    つくる人をつくる!AICU media 知山ことねです。
    突然ですが、 AI を使って漫画を創作したい!と思ったことがあるそこの貴方!
    こんな壁にぶつかったことがあるのではないでしょうか。
    「同じキャラクターが二度と生成できない!」

    漫画を描くにはキャラクターの特徴を固定して生成する必要がありますよね。そんな時に役立つのは、特定のキャラクターを学習させたいわゆる「キャラクター LoRA」です。すでにそういった LoRA を制作したことがある方もいるかと思います。
    例えば先日発表されたBlendAIさんの「 デルタもん」は、 二次創作が AI 限定 ということもあり、多くの人が LoRA の制作を行っていました。

    しかし、いざ LoRA を作ろう!と思っても、そもそも学習元の画像がないとキャラクター LoRA が制作できない…という第二の壁が立ちはだかります。
    AI で生成した絵を学習に使用する場合、特徴的なキャラクターを作ろうとするほど生成が難しくなり、データセットの枚数が足りなくなってしまいますよね。

    しかしそんな時におすすめなのが、「VRoid Studio」です!

    VRoid Studio とは?

    「VRoid Studio」とは、株式会社 pixiv が運営している 3D キャラクター制作ツールです。PC、タブレット端末を用いて、無料で感覚的に3Dのキャラクターを制作することができます。

    3D初心者でも簡単
    たくさんのプリセットアイテムとパラメータを搭載。ゼロからモデリングをしなくても、アイテムを選んで組み合わせ、パラメータを調整するだけでキャラクターメイキングができます。

    オリジナリティを表現

    絵を描くように髪型を直感的にモデリングできるだけでなく、3Dモデルに直接デザインを描いて、こだわりの表情や瞳、服のデザインを制作可能。普段のお絵かき感覚で3D創作に取り組むことができます。

    無料で利用可能

    VRoid Studioの利用は無料。煩雑なセットアップもなく、すぐにインストールして始められます。もちろん制作したモデルもさまざまな用途で無料で使うことができます。

    VRoid Studio 公式サイト

    今回はこの VRoid Studio を用いてキャラクターを作成、そのスクリーンショットを撮影し、それをもとにキャラクター LoRA を制作します。

    キャラクターを作る

    まずは 公式サイトから VRoid Studio をインストールしましょう。
    Windows, Mac, iPad に対応しています。

    ソフトをインストールできたら、画面左「新規作成」の+アイコンを選択して新しいモデルを作成します。

    男女を選択するとモデルのエディタが開きます。

    ・画面上のタブ
    顔、髪型、体形、衣装、アクセサリー、ルック(アウトラインの細さや陰影の質)のメニューを開きます。

    ・画面左のメニュー
    顔や身体のパーツのプリセットを選択します。

    ・画面右のパラメータ
    プリセットから選択したパーツの大きさやバランス、ディテールの微調整を行います。

    またモデルを回転などする場合の操作は以下の通りです。
    ショートカットキー — VRoid ヘルプ (pixiv.help)

    操作方法を覚えたら、好きにキャラクターを作ってみましょう。
    私はチャイナな女の子を作りました。

    撮影

    モデルができたら、モデル編集画面の右上のカメラのアイコンを選択し、撮影に移ります。

    ここでは、キャラクターにポーズをとらせたり、動かしたりして撮影することができます。

    ・画面左のメニュー
    表情、ポーズ、背景の編集を切り替えます。

    ・中央
    キャラクターが動きます。このスクリーンショットを撮ります。
    画面右下の青いカメラのアイコンをクリックすると、画面中央のキャラクターのみのスクリーンショットを保存することができます。

    ・画面右のメニュー
    キャラクターにとらせるポーズ、表情を選択します。

    表情やポーズ、視点を変えながら撮影していきましょう。
    この画像にバリエーションを持たせるほど、LoRA を制作した際にとることのできるポーズが柔軟になります。

    ✨VRoidでキャラクターを作るときにはこちらの書籍もオススメです

    📖3Dマイキャラメイキング VRoidでキャラを作ろう! ペーパーバック — 2023/9/18 佐久間蒼乃 (著)

    今回は25枚撮影し、学習の偏りをなくすためにコピー、左右反転を行って50枚の画像を用意しました。

    学習

    データセットが用意できたら、フォルダにまとめて他の LoRA と同じように学習を行います。もちろんローカル環境でも Colab でも可能ですが、初めて LoRA を制作する方は khoya-trainer の Colab notebook をおすすめします。

    これは kohya-ss さん ( https://github.com/kohya-ss ) が制作した sd-scripts ( https://github.com/kohya-ss/sd-scripts?tab=readme-ov-file ) を Linaqruf ( https://github.com/Linaqruf ) さんが Colab notebook で使用できるようにしたものです。

    Stable DiffusionのLoRA活用方法、こちらもおすすめです。

    zipファイルをドライブにアップロードし、手順に沿ってパスや LoRA のファイル名などを入力して実行すると学習された LoRA を制作することができます。

    この辺の流れはいずれ日本語の解説版を作って公開したいです…!
    AICU mediaメンバーシップ掲示板でリクエストいただけるとプライオリティが上がるかもです

    完成!

    完成です!実際に生成した画像がこちら。
    モデル anything-v4.5-pruned と awpainting_v12
    プロンプト absurdres, masterpiece, best quality, ultra detailed, 1girl, chinese clothes, double bun, dynamic pose ,smiling ,white background
    ネガティブプロンプト worst quality, low quality, bad anatomy, extra arms, easynegative

    作ったキャラクターの特徴が再現されていますね!
    また、もっと平面的なイラストを生成できる LoRA や ちびキャラ用の LoRA を使用すれば、4コマ漫画などで使いやすそうなイラストを生成することもできます。

    使用した LoRA「chibi comic style」

    生成画像

    かわいいちびキャラを生成することができました!

    VRoid Studio を使うことで学習元画像の画風やキャラクターを完全にそろえることができるので、キャラクターの再現度が高い LoRA を制作することができます。

    これで漫画用キャラ LoRA 制作はばっちり!皆さんもぜひ試してみて下さい。
    魅力的な作品ができたらこちらのメンバーシップ掲示板でご共有ください!

    Stable Diffusion — ControlNet入門はこちらから

    img2img 入門シリーズはこちらから。

    ※本ブログは発売予定の新刊書籍に収録される予定です。期間限定で先行公開中しています。
    メンバー向けには先行してメンバーシップ版をお届けします
    Stable Diffusionをお手軽に、しかもめっちゃ丁寧に学べてしまう情報をシリーズでお送りします。
    メンバーは価値あるソースコードの入手や質問、依頼ができますので、お気軽にご参加いただければ幸いです!

    この下にGoogle Colabで動作する「AUTOMATIC1111/Stable Diffusion WebUI」へのリンクを紹介しています。
    メンバーシップ向けサポート掲示板はこちら!応援よろしくお願いします!


    Originally published at https://note.com on February 27, 2024.

  • img2img入門(1) i2iでできることを知ろう

    この記事では、画像とプロンプトをもとにして新たな画像を生成する『image-to-image』について解説します。

      image-to-imageとは

      『image-to-image』(以下『i2i』)とは、画像とテキストプロンプトをもとにして、新たな画像を生成する方法のことです。これにより、テキストのみでは伝えにくかった細かい雰囲気や色味などが再現しやすくなります。また、t2tで生成した画像の一部分のみの修正も行うことができます。

      画面上部のメニューの左から2番目の『img2img』を選択することで使用できます。

      画像
      この画面になります

      i2iには、『img2img』『Sketch』『Inpaint』『Inpaint scketch』『Inpaint upload』の5種類の機能があります。順番に試してみましょう。

      img2imgの使い方

      まず最初に、『img2img』です。これは、指定した画像とプロンプトをもとに全く別の新たな画像を生成する機能です。実際に試してみましょう。
      まず、t2tで生成した画像を用意します。

      モデル blue_pencil (今回はblue_pencil-XL-2.9.0を使っています)
      プロンプト masterpiece, best quality, ultra detailed, 1girl
      ネガティブプロンプト worst quality, low quality, normal quality, easynegative

      画像
      生成された画像

      これを赤枠内にドラッグアンドドロップ、または枠内をクリックしてフォルダから選択してアップロードします。

      画像

      まずは設定は何も変えずに生成してみます。

      画像

      生成されました。確かに雰囲気が似ていますね。
      では、プロンプトを指定してみましょう。t2tの際と同じようにプロンプトを入力します。
      プロンプト masterpiece, best quality, ultra detailed
      ネガティブプロンプト worst quality, low quality, normal quality, easynegative, 

      画像

      先ほどよりハイクオリティで、もとのイラストの雰囲気を残したイラストになりました。
      では、プロンプトで少し女の子の見た目を変えてみましょう。プロンプトに『smile』を追加してみます。

      画像
      笑顔になりました

      色味や雰囲気はそのままに、笑顔の女の子を生成することができました。
      このように、img2imgでは、画像とプロンプトをもとにして新しいものを生成することができます。
      では、細かい設定を見ていきましょう。これは他のi2iの機能でも共通して使用します。

      画像

      ① Resize mode 
      生成する画像のサイズを変えた時の(④)、元の画像との差の補完方法です。生成する画像の横幅を2倍にし、それ以外の条件を揃えて比較してみましょう。
      元画像

      画像

      Just resize
      元画像をそのまま引き伸ばします。

      画像

      Crop and resize
      縦横比を保ったまま、一部を切り取り拡大します。

      画像

      Resize and fill
      足りない部分を生成し補完します。

      画像

      Just resize(latent upscaler)
      『Just resize』を、異なるアップスケーラーを用いて行います。

      画像

      このように、画像の補完方法が全く異なるので、目的に応じて適したものを選びましょう。

      ②Sampling method
      t2tと共通の設定です。ノイズを除去し画像を生成する過程のアルゴリズムの種類を選択します。t2tの際と同じで、デフォルトのDPM++ 2M Karrasを使うことをおすすめします。

      ③Sampling steps
      こちらもt2tでも使う設定です。ノイズを除去する回数を指定します。詳しくはC3-コラムで解説しています。

      ④Resize to/Resize by
      生成する画像のサイズを指定します。『Resize to』を選択すると縦横のサイズを指定でき、『Resize by』を選択すると拡大縮小する倍率を指定することができます。

      ⑤Batch count
      t2tと共通の設定。指定した枚数の画像を順番に生成します。

      ⑥Batch size
      t2tと共通の設定。指定した枚数の画像を同時に生成します。

      ⑦CFG Scale
      t2tと共通の設定。生成画像をどれだけプロンプトに従わせるかを調節します。

      ⑧Denoising strength
      生成画像をどの程度元画像に近づけるかを設定します。

      Denoising strengthの使い方

      ここからは、先ほどの⑧『Denoising strength』というパラメーターについて実験と解説をしていきます。これは、img2imgの画像をアップロードする箇所の下部にあるメニューで設定する数値です。

      画像

      『Denoising strength』は、元の画像と生成する画像にどれだけ差をつけるかを表します。デフォルトは0.75ですが、0に近づくと元画像に忠実に、1に近づくと元画像とは違う画像になります。実際にi2iで画像を生成して比べてみましょう。

      まず、t2iで画像を生成します。
      モデル bluepencil
      プロンプト masterpiece, best quality, ultra detailed, 1girl, 
      ネガティブプロンプト worst quality, low quality, normal quality, easynegative, 

      画像

      これをi2iのX/Y/Z plotで、『Denoising』の数値を変えて生成します。

      画像

      これらを比較すると、Denoising:0.3のイラストは元のイラストとほとんど同じですが、Denoising:1.0のイラストは、女の子の服装、髪色、背景がかなり変わっていることがわかります。このように、Denoisingの値は小さいほど元のイラストと似たものになり、大きいほど元のイラストとの差が大きくなります。

      続きはこちら!

      https://note.com/aicu/n/n853810115170

      https://note.com/aicu/n/n65145ad4f762

      https://note.com/aicu/n/n0ce22c439af7

      ※本ブログは発売予定の新刊書籍に収録される予定です。期間限定で先行公開中しています。
      メンバー向けには先行してメンバーシップ版をお届けします
      Stable Diffusionをお手軽に、しかもめっちゃ丁寧に学べてしまう情報をシリーズでお送りします。
      メンバーは価値あるソースコードの入手や質問、依頼ができますので、お気軽にご参加いただければ幸いです!

      https://note.com/aicu/membership/join

      この下にGoogle Colabで動作する「AUTOMATIC1111/Stable Diffusion WebUI」へのリンクを紹介しています。
      メンバーシップ向けサポート掲示板はこちら!応援よろしくお願いします!

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/7cab00942b22?from=self


      この記事の続きはこちらから https://note.com/aicu/n/n08ebe0637a41

      Originally published at https://note.com on Jan 5, 2024.

    1. 日本語で画像を生成できる新技術「JSDXL」とは?和風画像を生成してみよう!

      日本語で画像を生成できる新技術「JSDXL」とは?和風画像を生成してみよう!

      この記事では、StabilityAI社が新たにリリースした「JSDXL」の概要、使い方、実際に生成できる画像を公式リリースに基づいて解説していきます。

      公式リリース

      2023年11月17日11時、StabilityAI社から「Japanese Stable Diffusion XL」(以下JSDXL)がリリースされました。

      🚀 新リリース 🚀
      「Japanese Stable Diffusion XL (JSDXL)」が登場!
      ✨ 日本特化の商用利用可能なtext-to-imageモデル ✨

      🌸 JSDXLは、日本語のプロンプトを英訳したものとは異なり、日本語そのままの理解と日本独自の文化を反映した高品質な画像生成を実現しました。

      公式リリースはこちら

      https://ja.stability.ai/blog/japanese-stable-diffusion-xl

      昨年8月に世界を一変させた画像生成AI「Stable Diffusion」をオープンモデルでリリースしたStabilityAI社は日本に拠点があり、日本でも特色ある開発を行っています。11月には数多くの日本語モデルがリリースされました。

      今回リリースされた『JSDXL』はどのような特徴を持っているのでしょうか。単なる翻訳とは異なるのでしょうか。公式リリースを読み解いてみましょう。

      「Japanese Stable Diffusion XL(JSDXL)」は、最新の英語版 text-to-image モデルSDXLに対して、日本語入力はもちろん、日本の文化やものが理解・反映された画像生成に特化させた日本向け text-to-image モデルです。
      昨今、SDXL を含む強力な text-to-image モデルが公開されております。これらと翻訳ツールを組み合わせることで日本語入力は可能ですが、日本特有の表現の認識が難しい点や開発コストがかかる点、モデルが認識できるテキスト最大文字数の制限などの課題があります。また、英語プロンプトをそのまま「呪文」として扱い画像生成することも可能ですが、大規模に学習されたモデルは西洋系の画像生成が得意であり日本スタイルの画像生成がまだまだ物足りないのが現実です。
      「JSDXL」は、Stable Diffusion の中で最高性能である SDXL の汎用性と高解像度の画像生成能力をできる限り維持したまま、以下の点を可能にした日本特化モデルです。
      ・日本語をモデルが直接扱うことができ、日本語特有の表現を認識可能
      ・日本の広範囲な文化やアート、伝統的なものから現代的なものまで含め、それらを反映した高解像度で質の高い画像を作成することが可能
      ・また、SDXL にはテキストエンコーダーが2つありますが、「JSDXL」には1つのみであるため、SDXL と比べ、より効率的な推論が可能になります。

      ■公式リリースより引用

      つまり、日本語を英語に翻訳して画像を生成するのではなく、日本語を学習することで日本特有のものを生成可能にしている、ということですね。

      StabilityAI日本の代表・Jerry Chiさんのツイート

      JSDXLの使い方

      それでは、実際にJSDXLを使って画像を生成してみましょう。
      今回のこの記事では、JSDXLを使う方法を3つ紹介します。

      (方法1) HuggingFace公式の「Spaces」を使う(最も簡単)

      様々な機械学習モデルが公開されているSNS「HuggingFace」の「Spaces」にてJSDXLが利用できるようになっています。

      https://huggingface.co/spaces/stabilityai/japanese-stable-diffusion-xl

      HuggingFaceの中の人のアカウントで、日本語を歓迎する発言が発信されています。

      Spacesでの運用は有料なので、どこかで費用を負担してくれている方がいらっしゃいます。ありがたいことです。

      (方法2) Google Colab Pro を使う(中上級者向け)

      上記の公開Spacesが使えない時、Google Colab Proのアカウントがある人は、自分でGradioのUIを立ち上げて利用できます。

      まずは HuggingFace上で公開されているJSDXLのライセンスを確認します。

      https://huggingface.co/stabilityai/japanese-stable-diffusion-xl

      このモデルは商用利用可能ですが、利用規約を読み、名前、在住国と所属、メールアドレス等を入力する必要があります。
      (これを行わないと、次のステップでモデルをダウンロードできません)

      利用規約
      > By downloading, using, or distributing any portion or element of this model, you agree to be bound by the agreement described in the LICENSE file.

      (意訳)このモデルのいかなる部分または要素をダウンロード、使用、または配布することにより、あなたはライセンスファイルに記載されている契約に拘束されることに同意するものとします。

      実際のライセンスファイルはこちらにあり、合意後に読むことができます。

      https://huggingface.co/stabilityai/japanese-stable-diffusion-xl/blob/main/LICENSE

      続いてこちらのURLでGoogle Colabによるサンプルコードが共有されていますので、自分のアカウントで実行します。

      https://colab.research.google.com/github/Stability-AI/model-demo-notebooks/blob/main/japanese_stable_diffusion_xl.ipynb

      GPUを必要としますので、Colab ProのアカウントでGPUインスタンスを選んで実行してください。

      最後の段階まで進むと、GradioのURLが生成されますのでそちらから利用できます。

      Google ColabのV100でGradioを使った例

      (方法3) StabilityAI 社が提供しているテスト用Gradio環境を使用する(初心者向け・期間限定)

      https://discord.gg/stablejp

      初心者は 「Stable Community Japan」のDiscord で質問しながら、お試し環境で遊んでみることができます。
      discord招待リンク

      こちらのリンクで テスト用のWebサイト(Gradio)にアクセスできます

      https://discord.com/channels/1062784909191680120/1088440176398831729/1175022582655893535

      https://____.gradio.live/

      というURLが期間限定で無料で試せるように公開されていますので、試してみてください。

      今回は、②の方法で画像を生成していきます。

      実際に生成してみよう

      では、実際にプロンプトを入力して画像を生成してみましょう。
      各パラメーター、枠に数値やプロンプトを指定し、『Run』を押すだけで生成することができます。

      • prompt ここに生成したいものを記述します。
      • cfg_scale 画像がプロンプトに従う程度を指定します。デフォルトの7.5で問題ありません。
      • steps 画像からノイズを除去するステップ数を指定します。こちらもデフォルトの40で問題ありません。
      • width,height 生成する画像の縦横の大きさを指定します。
      • n_samples 一度に生成する画像の数を指定します。
      • seed (integer or ‘random’) 画像を生成する乱数です。最初は「random」にしておきましょう。値を固定することで、同じ条件でプロンプトや他の数値の比較ができます。
      • negative prompt 生成したくないものを記述します。

      ※実際に試してみた印象ですが、cfg_scaleもNPも絶対ではなく、だいたい1/3(10回中3回)といった印象です。気長にたくさん生成してみることをおすすめします。

      美味しい和食の生成

      それでは、さっそく日本独自の文化を生成してみましょう。

      「幕の内弁当、使い捨て弁当箱」

      よく見るお弁当です
      売り物のお弁当が再現されています!

      プロンプト「日本、板前、寿司職人」
      ネガティブプロンプト「無人」

      おかみさんの存在が現実感を出しています
      カウンター席ですね!

      しっかり日本文化が再現されています!
      これは個人的な感覚ですが、「寿司職人」など「モノ+人」の単語を指定すると、「モノ」の方が強く出てしまいがちです。人物が出力されない場合、ネガティブプロンプトに「無人」と記述すると上手くいくことが多いです。

      じわじわくる「和顔」ですね。

      掛け軸の生成

      また、縦横比を工夫することで、掛け軸や巻物が良い感じに生成されました。

      「掛け軸」「水墨画」「松竹梅」「鯉」などが良いキーワードになりそうです。

      「白黒」を指定するとスタイリッシュになります。

      年賀状の生成に便利

      弊社CEO白井が以前リリースした記事にて、「年賀状」というキーワードを使って年賀状を生成したのですが、JSDXLでも試してみたところ、雰囲気を掴んだ画像が生成されました。

      https://forest.watch.impress.co.jp/docs/serial/aistream/1537430.html

      プロンプト「年賀状」

      他にも、「屏風絵」「渋谷」「原宿」なども効果的なようです。
      ぜひ試してみてください!

      Originally published at https://note.com on November 22, 2023.

    2. 弊社CEOが東京藝術大学で「生成AIと芸術」に関する特別講義を実施

      弊社CEOが東京藝術大学で「生成AIと芸術」に関する特別講義を実施

      弊社CEO白井が2023年10月19日に日本の国立大学・東京藝術大学において「生成AIと芸術」に関する特別講義を行いました。本講義は今年度、東京藝術大学において新しく取り組まれた「 アートDX特別講義シリーズ・生成AIと芸術 」という学内向けの講演の第1回であり、予定されている続く講演者も日本を代表するAI研究者・表現者となっており、大変興味深いものです。

      告知の段階から大変多くの方にご反響を頂いております。

      実施概要: 東京藝大アートDXプロジェクトでは2023年度後期の特別講義シリーズ「生成AIと芸術」を開催します。2022年の夏からMidJourneyやStable Diffusionをはじめとした画像生成AIや、2022年11月に公開されたChatGPTのような大規模言語モデル(LLM)の登場をはじめとして、この数ヶ月で人工知能(Artificial Intelligence:AI)の話題は芸術分野でも急速に議論を巻き起こしています。本特別講義シリーズでは、画像をはじめ言葉や詩、音楽、ゲームのような幅広い分野で人工知能と芸術表現の関わりを、各分野で研究してきた専門家に講演いただきます。AIに興味はあるけど実際何をやってるのかよくわからない、AIが自分のやっている表現活動にどう影響を与えてくるのか考えたい方はぜひ参加をお願いします。

      東京藝術大学・AMCより

      シリーズ講演者一覧

      ・白井暁彦(AICU Inc. CEO / Hidden Pixel Technology Inc. CEO / デジタルハリウッド大学大学院 客員教授)「生成AI時代を生き抜く創作活動 — Ask Me Anything」
      ・三宅陽一郎(株式会社スクウェア・エニックス AI部 ジェネラルマネージャー/リードAIリサーチャー)「芸術と人工知能とデジタルゲーム」
      ・徳井直生(アーティスト / (株) Qosmo・Neutone 代表取締役)「オルタナティブな生成AIと創作の未来」
      ・浦川通(研究者・アーティスト)「ことばを計算してつくる―言語モデルと創造的応用」
      ・清水亮(AI研究家 / UberEats配達員)「今日のAI、明日のAI」

      東京藝術大学・AMCより抜粋

      「生成AI時代を生き抜く創作活動」
      講演の抜粋についてはCEOの個人ブログの方で展開しております。

      https://note.com/o_ob/n/ndb671e6da1bf

      講演は、生成AIと創作活動、クリエイティブ産業の関係に焦点を当てています。若者の反AI感情を認めつつ、生成AI技術の進化とその社会的受容について写真や映像、出版や著作権の歴史から考察し、初期の感情論から文化庁による法的解釈の進展、そして現在のAIの普及とその影響までを網羅しています。技術の発展と社会的受容のバランスを重要視し、クリエイティブ分野でのAI利用の可能性と課題を深く掘り下げています。

      生成AIに対する若者の反対運動は、新技術による自分たちの努力の無価値化への恐れに基づいています。講演は彼らのアイデンティティを表現者としての自分の過去を振り返りながら認め、尊重し、しかし同時に、産業界ではChatGPT4やAdobe FireFlyなどの生成AIが既に広く使われています。法的・倫理的な混乱は新技術導入時によく見られる現象です。
      八谷先生のコメントでも指摘されているように、人類の歴史におけるすべてのクリエイティブ活動は社会的であり、AIもその一部であることを示しています。この講演は、新技術をどのように人類の歴史や社会に編み込んでいくか、という重要な現代的課題を反映しています。複雑な技術、法的・倫理的問題を分かりやすく説明し、クリエイティブAI技術のクリエイティブ分野における主体的な理解や可能性を道筋だてて提示しています。これらの側面を統合するワークショップや講演を丁寧に行っていくことで、AICU社のビジョンとする「つくるひとをつくる」を工学や技術だけでなく、芸術活動や人類の歴史におけるギャップを埋めるための重要な視点を提供していると考えています。

      以上の通り、AICU社における学術講演はメディア事業部により実施されております。白井・徳田らの講演につきましては、弊社の お問い合わせフォーム よりご打診いただけますと幸いです。

      https://corp.aicu.ai/

      Originally published at https://note.com on October 31, 2023.