タグ: 生成

  • [ComfyMaster34] 便利LoRA紹介: Detail Tweaker XLで画像の精細さをコントロール

    画像生成AIの世界は、日々進化し続けています。その中で、作品にどれだけ細かなディテールを与えられるかが、仕上がりのクオリティを左右する重要なポイントとなっています。美しい風景や繊細なキャラクター、壮大な建築物など、細部までこだわった表現は、見る者の心を掴み、深い感動を呼び起こします。

    そんな中、注目を集めているのが「Detail Tweaker XL」というLoRAモデルです。このモデルを使うことで、精緻でシャープなディテールを持つ作品が生み出されます。作品の魅力を一段階引き上げたいと考えているすべてのクリエイターにとって、このモデルは強力な味方となるでしょう。

    こんにちわ、AICU media編集部です。
    ComfyUI マスターガイド」第34回目になります。
    本記事では、この「Detail Tweaker XL」がどのような特徴を持ち、どのように活用できるのかを詳しく見ていきます。

    本連載の初回はこちら。前回はこちら、目次はこちらです。

    [ComfyMaster33] 便利LoRA紹介: Envy Zoom Slider XLで画角を調整しよう! #ComfyUI

      1. 概要

      Detail Tweaker XLは、その名が示す通り、画像の細部を強化することに特化したLoRAモデルです。このモデルを使用すると、生成される画像全体のディテールが著しく向上し、より鮮明で精緻な結果を得ることができます。

      https://civitai.com/models/122359/detail-tweaker-xl

      具体的には、物体の表面テクスチャがより精密に表現され、細かな凹凸や模様が際立つようになります。また、画像全体のシャープネスが増し、輪郭がくっきりと定義されるため、より「解像度が高い」印象を与える画像が生成されます。これは特に、建築物や自然風景、あるいは精密な機械部品などの複雑な構造を持つ被写体を生成する際に顕著な効果を発揮します。

      さらに、Detail Tweaker XLの興味深い特徴として、その汎用性の高さが挙げられます。このLoRAは特定のスタイルや主題に限定されることなく、幅広いプロンプトや設定と組み合わせて使用できます。風景画から人物ポートレート、あるいはSF的な未来世界の描写まで、様々なジャンルの画像生成において、その効果を発揮することができるのです。

      Detail Tweaker XLのページの説明では、強度を±3.0の範囲で使用することが推奨されています。また、使い方として、詳細度を上げる場合は、強度を+1.5から開始し、そこから調整していくことがおすすめされています。

      2. 使用準備

      今回使用するLoRA「Detail Tweaker XL」を以下よりダウンロードし、「ComfyUI/models/loras」フォルダに格納してください。

      https://civitai.com/models/122359/detail-tweaker-xl

      3. ワークフローの構成

      ワークフローは、標準ワークフローにLoad LoRAノードを追加したものになります。モデルにはSDXLのベースモデルを使用しています。

      画像

      ワークフローは以下よりダウンロードしてください。

      https://note.com/api/v2/attachments/download/9fa23fa1821fb0c06031cef55c7e30a0

      プロンプトは以下の通りです。

      • ポジティブプロンプト
      1girl, detailed, beautiful, intricate design, delicate, flowing hair, soft lighting, pastel colors, ornate dress, lace, floral patterns, long hair, glowing, ethereal, serene expression, detailed eyes, highly detailed background, flowers, soft shading, elegant, fantasy setting, fairy tale atmosphere, sparkles, graceful, warm tones
      • ネガティブプロンプト
      bad hands, bad anatomy, ugly, deformed, (face asymmetry, eyes asymmetry, deformed eyes, deformed mouth, open mouth)

      KSamplerノードの各ウィジェットの設定は以下の通りです。

      • seed: 747064347533087
      • control_after_generate: fixed
      • steps: 20
      • cfg: 8.0
      • sampler_name: euler
      • scheduler: normal
      • denoise: 1.0

      4. 生成結果の検証

      まずは、LoRAなしで生成してみます。以下が生成結果です。この状態でも十分に美麗な画像となっています。

      画像

      次にLoRAの強度を+3.0にし、画像生成してみます。

      画像

      以下が生成結果です。LoRAなしよりも明瞭になったのではないでしょうか。例えば、周囲の花や、頭の花飾り、ドレスの柄が細かく描写されています。

      画像

      次は、LoRAの強度を-3.0にし、詳細度を落としてみました。全体的に細かさが減っているように見えます。例えば、頭の花飾りの花が大きくなっていたり、洋服の柄の細かさも少なくなっています。

      画像

      微妙な違いもあるので、ChatGPTに評価してもらいました。以下がChatGPTの評価結果です。

      【レビュー】
      1. ディテールの精密さ
      ・1枚目 (LoRAなし)
      ディテールは十分に美しく描かれていますが、特に髪やドレスの質感において、少し柔らかくぼやけた印象があります。特に髪の毛の一本一本や、刺繍の細かい部分はやや滑らかで、精細度が少し低いと感じます。
      ・2枚目 (LoRA +3.0適用)
      LoRAが適用されたことで、全体的に細部がよりシャープに、そして明瞭に見えます。特に髪の毛の一本一本の描写が非常に鮮明で、光の反射や髪の質感がリアルに表現されています。また、ドレスの刺繍部分の細かい装飾がより詳細に描かれており、ドレスの素材感もはっきりと感じられるようになっています。
      ・3枚目 (LoRA -3.0適用)
      LoRAがマイナス強度で適用されているため、ディテールはLoRAなしの状態よりも減少しています。特に、髪の毛の一本一本の描写がやや滑らかになり、ドレスの刺繍や質感も控えめになっています。光の反射や細かいテクスチャがややぼやけており、ディテールが抑えられています。

      2. 色の表現
      ・1枚目 (LoRAなし)
      カラーパレットは柔らかく、少し淡いトーンでまとめられており、全体的にやや控えめな印象を与えます。色の深みやコントラストが少し少なく、ふんわりとした雰囲気です。
      ・2枚目 (LoRA +3.0適用)
      LoRAを適用することで、色彩がより豊かに、そして鮮明に表現されています。特にドレスの花の色や背景の光のコントラストがより強調され、色の深みが増しています。全体的に鮮やかで、色が際立って見えます。
      ・3枚目 (LoRA -3.0適用)
      LoRAがマイナス強度で適用されているため、色の表現も抑えられており、少し淡い印象になっています。特にドレスや背景の花々の色がやや薄れており、全体的により控えめで穏やかなトーンになっています。LoRAなしと比べると、少し彩度が低下しているように見えます。

      3. 質感の表現
      ・1枚目 (LoRAなし)
      ドレスの素材や髪の質感が柔らかく描かれており、特に繊細な部分において、質感のリアルさが若干欠けている印象です。
      ・2枚目 (LoRA +3.0適用)
      LoRAにより、ドレスの布の繊維や刺繍部分の立体感が増し、髪の質感もよりリアルに描かれています。光の反射や影のつけ方が繊細で、まるで実物に近い感覚をもたらします。
      ・3枚目 (LoRA -3.0適用)
      LoRAがマイナス強度で適用されることで、質感の描写がLoRAなしの状態よりも抑えられています。ドレスの刺繍部分がより滑らかで、立体感が少し薄れており、布地のテクスチャも控えめです。髪の毛の質感も若干ぼやけており、LoRAなしよりも滑らかな印象です。

      4. 背景の詳細
      ・1枚目 (LoRAなし)
      背景の窓やキャンドルのデザインが少し滑らかで、細部がぼやけているように感じられます。全体的に柔らかい表現がされています。
      ・2枚目 (LoRA +3.0適用)
      LoRAが適用されているため、背景の装飾や窓のステンドグラスの模様がより細かく描かれており、キャンドルの光の反射や炎の描写も非常に細やかになっています。
      ・3枚目 (LoRA -3.0適用)
      LoRAがマイナス強度で適用されているため、背景の細部がよりぼやけた印象です。特に花々や窓のデザインが柔らかくなり、光の反射や細かい装飾が控えめに描写されています。全体的にソフトフォーカスのような効果があり、背景が少し曖昧になっています。

      5. 全体的な印象
      ・1枚目 (LoRAなし)
      全体的にやや柔らかく、ふんわりとした幻想的な雰囲気を持っていますが、細部の描写や質感の表現において少し控えめです。
      ・2枚目 (LoRA +3.0適用)
      LoRAによって細部の精密さが向上し、全体的に高い解像度で描かれています。ディテールが際立ち、特に質感や色の深みが増しているため、よりリアルで華やかな印象を与えます。
      ・3枚目 (LoRA -3.0適用)
      LoRAを-1.5の強度で適用することで、全体がより柔らかく、ぼやけた印象に変わっています。LoRAなしと比較すると、ディテールが減少し、特に質感や色の鮮やかさが控えめで、ソフトな印象が強まっています。幻想的で柔らかい雰囲気が際立つ一方、細部の描写は抑えられており、より優しく控えめな印象を与えます。

      【結論】
      LoRAを通常の強度で適用すると、画像のディテールが大幅に向上し、質感や色彩、細部がよりシャープでリアルに表現されます。詳細な描写を求める場合、LoRAは効果的です。一方、LoRAをマイナス強度で適用すると、逆にディテールが減少し、全体的に柔らかく、ぼんやりとした印象になります。質感や色彩も控えめになり、幻想的で穏やかな雰囲気が強まるため、LoRAなしよりもシャープさが失われる結果となります。

      ChatGPT

      結論、プラスの強度でDetail Tweaker XLを適用すると、全体的に詳細に描かれて明瞭な画像となり、マイナスの強度で適用すると、詳細さが失われていくことになります。

      5. おまけ: XY Plotで画角の変化を一括で確認

      以前の記事で「XY Plot」で生成結果を一括で確認する方法を解説しました。今回もXY Plotを使用して、画角の変化を一括で確認してみます。XY Plotの解説記事は以下になります。

      ワークフローの全体像は以下になります。X軸にLoRAの強度、Y軸にSeedを設定しています。

      画像

      ワークフローは、文末のリンクよりダウンロードしてください。

      以下が生成結果です。一括でLoRAの強度の変化を確認できます。Detail Tweaker XLに関しては、遠目では詳細度の違いが分かりづらいので、アップにして確認が必要ですね。

      画像

      6. まとめ

      Detail Tweaker XLは、画像生成においてディテールを強化する優れたLoRAモデルです。特に、複雑な構造やテクスチャの描写において、その効果が顕著に表れます。建築物や自然風景、人物、さらにはSF的なシーンに至るまで、幅広いジャンルで活用でき、ユーザーの創造力を最大限に引き出すツールとなっています。

      LoRAの強度をプラスに調整すると、画像は鮮明で精緻な仕上がりとなり、視覚的なインパクトが増します。一方で、強度をマイナスに調整することで、より柔らかく、幻想的な表現を得ることも可能です。これにより、シーンの雰囲気やテーマに合わせた柔軟なアプローチが可能となります。

      Detail Tweaker XLは、さまざまなシーンで使用することができ、その汎用性と効果の高さから、クリエイティブな作品づくりに欠かせないツールとなるでしょう。

      次回からいよいよComfyUIによる動画編が始まります。乞うご期待!

      ここから始める動画編!SDXL+AnimateDiffでテキストから動画を生成しよう!

      X(Twitter)@AICUai もフォローよろしくお願いいたします!

      画像生成AI「ComfyUI」マスターPlan

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。
      ✨️オトクなメンバーシップについての詳細はこちら

      メンバーシップ加入者向けのおまけ

      Detail Tweaker XL に XY-plotを追加したワークフローはこちらです

      画像
      画像
      画像

      この記事の続きはこちらから https://note.com/aicu/n/na628f140e954

      Originally published at https://note.com on Nov 18, 2024.

    1. [ComfyMaster33] 便利LoRA: Envy Zoom Slider XLで画角調整しよう!

      プロンプトで画角を指定しても、思ったような画角にならないといった体験をしたことはありませんか?もっと直感的に画角を調整したいですよね。
      そんな画角調整を可能にするのが「Envy Zoom Slider XL 01」です。「Envy Zoom Slider XL 01」は、画角調整の自由度を飛躍的に向上させる革新的なLoRAとして注目を集めています。


      この記事の続きはこちらから https://note.com/aicu/n/n3b1ef1cc3fac

      Originally published at https://note.com on Nov 8, 2024.

    2. 【広告にAIは使えない?】広告の先生×AIクリエイター=「生成AI時代の広告企画から動画制作プロセス」をどうぞ

      こんにちは!AICUコラボクリエイターのぽんずです。
      まだまだ暑いですね!健康に良い飲み物をどうぞ。

      先日、マクドナルドが生成AIを使った広告を展開し、話題になりましたね。「生成AIってすごいけど、リスクもあるの…?」「結局、広告にどう使えばいいか分からない…」そう感じている方も多いのではないでしょうか?

      しらいはかせも言ってます

      超入門: Stable Diffusionではじめる画像生成AI」予約販売開始、おめでとうございます!

      ぽんずも作ってみました。

      「あつあつスープ」という一番関係ない歌をテーマソングに採用したM-CMです。AI広告の可能性を日々探っています。

      先日、AI動画で大きな国際賞を頂いたおかげもあって、色んなお仕事をいただくようになったのですが、実は同時並行でAICUでビッグなプロジェクトに関わらせていただいておりました!こちらです!

      画像

      Colosoオンライン講座「初級者:
      生成AI時代の広告企画から動画制作プロセス」

      Colosoさんから「初級者:生成AI時代の広告企画から動画制作プロセス」というタイトルで動画教材がリリースされます!!!

      生成AIによるCM制作は別の次元へ…

      実は、生成AIによるCM制作は、もう “別の次元” に進化しようとしています。そして、その “正しい使い方” を学べるのが、この秋Colosoで開講するオンライン講座 「初級者:生成AI時代の広告企画から動画制作プロセス」 です!7日後の8月30日についに公開オンライン講座プラットフォーム「Coloso」で公開されます!

      画像

      【6,000円割引クーポン付】事前通知を申請する>> https://bit.ly/3SWscoI

      この講座は、世界が認めた新進気鋭のAI広告クリエイター と 広告業界の受注も発注も経験した映像クリエイティブの先生、そして クリエイティブAIの世界でメディア事業を推進するAICU がプロデュースする、超実用的な初心者向けの講義になります。

      AIを使う人も、これから使ってみたいと思う人も、必見の内容です。

      画像
      野生のAI制作者が先生ふたりに囲まれる図

      藤吉さん(セツナクリエイション代表/AICUコラボクリエイター):
      ビデオグラファー出身のクリエイティブディレクターとして、生成AIは競合になるのかパートナーになるのか危機感を持って眺めてきました。AICUのコミュニティで得た知識で実務でどう扱っていくか研究してきたことをお伝えできる内容になっています。広告会社やプロダクションで働く方、クリエイターとしてお仕事をしていきたい方など様々な働き方をされている方にとって新たな発見を得ることができる講座です。生成AIで新しいクリエイティブの扉を開きましょう!

      しらいはかせ(AICU代表/デジタルハリウッド大学大学院客員教授):
      書籍「画像生成AI Stable Diffusionスタートガイド」を出した頃は『動画生成AIは5年はかかる』と言われていましたが、1年も経たずに実用レベルのサービスが出てきました。これまで画像生成AIクリエイティブの世界で「つくる人をつくる」を推進してきましたが、このたびColosoさんのプロデュースで藤吉さん・ぽんずさんらと新作を公開できることを嬉しく思います。既に「超入門: Stable Diffusionではじめる画像生成AI」という、ファッションやバリエーション広告向けのフォトリアルな画像生成についての入門プログラムを先行して開発しています。本日公開した新作第2弾は、更にそれを動画にしていくプロの動画や広告制作者向けの内容になります。2本セットでお楽しみいただけると最高です。

      実際に私・ぽんずも、AIを使うクリエイターとして広告の先生と一緒に講座制作に携わらせていただきました。おふたりとも優しい語りで一緒に仕事しているとドンドン自分の才能が開発されていく感じがあって楽しいです。 AIを使う目線だけでは絶対に気づけない、広告世界のリアルを肌で感じ、本当に刺激的な経験となりました!

      今、Colosoで講座の事前通知申請を申請すると 6,000円の割引クーポン がもらえますので、少しでも興味がある方は申請だけでもしておいてください!【6,000円割引クーポン付】事前通知を申請する>> https://bit.ly/3SWscoI講座カリキュラムの詳細ページは、7日後の8月30日に公開予定です。

      楽しみにお待ちください。事前通知を申請する>> https://bit.ly/3SWscoI

      以上、お知らせでした!

      関連

      ■【超入門 Stability AI API】「モデルとの対話」実習編。Stable Diffusion 3 時代に知っておきたいプロンプトの新常識

      ■「Coloso」とのコラボ講座「超入門: Stable Diffusionではじめる画像生成AI」を開講します

      https://note.com/o_ob/n/n430a15b8563d

      世界を舞台にAICUが開発「超入門: Stable Diffusionではじめる画像生成AI」Colosoで予約販売開始!!

      Originally published at https://note.com on Aug 23, 2024.

    3. 世界を舞台にAICUが開発「超入門: Stable Diffusionではじめる画像生成AI」Colosoで予約販売開始!!

      生成AIの常識を覆した「Stable Diffusion」の革命から2年…「つくる人をつくる」AICUが世界を舞台に大型新作をリリース!

      クリエイティブAI時代に「つくる人をつくる」をビジョンに活動する生成AIの最先端を走り続けるクリエイターユニオン「AICU」が、Stable Diffusionによる最新・最先端・最高品質の画像生成の基礎から応用までを丁寧に解説するオンライン講座を国際的なラーニングプラットフォーム「コルソ」で開講します!

      ▼ Coloso講座ページはこちら ▼
      https://j.aicu.ai/AICUXColosoJP

      「画像生成AIって難しそう…」

      そんな風に思っていませんか?

      この講座は、AI初心者の方でも安心して学べるよう、AICUが開発した特別なカリキュラムに基づいて構成されています。

      ゼロからスタートし、AI初心者から次の一歩を踏み出すことができるカリキュラムを、Colosoで体験してください!

      画像

      【本講座で得られる3つのメリット】

      1. AI時代の必須スキル「プロンプトエンジニアリング」を基礎から習得
        • 生成AIを使いこなすための「呪文」、プロンプト。高品質、高画質な画像生成が可能になった今、隠されたテクニックは従来とは大きく変わっています。
        • 最新の商用利用可能なStability AI API公式サンプルを使って学ぶことで、 Stable Diffusion 3 時代のポテンシャルを最大限に引き出し、思い通りの画像を生成できるようになります。
        • 単語の選び方や順番といった基本文法から、シードやスタイルといったAPIならではの制御手法、未知のモデルとの対話テクニックなど、2年分のノウハウを体系的に詰め込んだ、先駆者ならではの『勝ち筋』を、入門者からプロフェッショナルに向けて優しく解説します。
      2. Google Colab & Slidesで、コードを書かずに実践的なスキルを習得
        • Google Colab & Slidesで開発された専用ツールを提供。
        • 専門知識不要! 環境構築でつまずくことなく、すぐに実践できます。
        • オープンソースなので改造もカンタン。商用も今すぐできます。
        • APIとツールを使って制御しながらプロフェッショナルな画像を大量に生成する実用的な解説、サンプル、プロンプト集。
        • バーチャルファッションモデル制作や広告バリエーション展開など、 すぐに使える実践的なスキルが身につきます。
      3. 生成AI時代に必要な著作権や倫理に関する知識も網羅
        • AI作品と著作権、倫理的な問題など、知っておくべき重要な知識を丁寧に解説します。
        • 責任あるクリエイターとして、自信を持って活動するための社会基盤としての常識を築きます。
        • 生成AIに関するクリエイティブの倫理課題を人に教えられるレベル、サービスやプロダクトを開発し、契約できるレベルまで高めましょう

      ▼ Coloso講座ページはこちら ▼ 
      https://j.aicu.ai/AICUXColosoJP

      【講座内容】

      • 生成AIの基礎知識
      • Stable Diffusion 3の仕組みと特徴
      • プロンプトエンジニアリング入門
      • Stability AI APIを活用した高度な画像生成
      • バーチャルファッションモデルの開発
      • AI技術を駆使した広告制作
      • AIの活用における倫理と未来予測

      使用プログラム
      [メインツール]
      – Stability AI API
      – Google Colab
      – Google Workspace

      【こんな方におすすめ】

      • 画像生成AIに興味があるけど、何から始めればいいか分からない方
      • Stable Diffusionをもっと使いこなしたい方
      • これからの時代を見据え、AIスキルを身につけておきたい方
      • デザイン、アート、広告など、クリエイティブな仕事に携わっている方
      • 業務的な画像生成AIを体系的に学ぶ必要が出てきた企業クリエイター
      • 新しい技術を学び、自分の可能性を広げたい方

      【AICU開発! 本講座だけの特典】

      • AICUによる画像生成AIに必要な知識が詰まった講座動画25講を期間制限なしで受講可能
      • 講座を通してセミリアルや実写など12点の例題を完成
      • 講座内容に関するPDFデータや資料、Google Slidesで使えるツールを提供
      • 画像生成プロンプト集を提供
      • AICUのノウハウが詰まった講座PDF使用を提供

      AICU Inc. は Stability AIと戦略提携を

      AICU Inc.(本社Delaware州Dover City, カリフォルニア州サニーベール)は、Stability AI Ltd.(本社London、United Kingdom)とのパートナーシップを発表しました。このパートナーシップは、エンゲージメント・レターを通じて正式に締結されており、持続革新的でオープンなAIDX(AI Driven user eXperience)開発、技術広報を提供するもので、生成AI技術の社会的認知と価値向上と市場開拓を推進するコミュニケーションに重点を置いています。
      AICU Inc.は、この提携により、Stability AI Ltd. の生成AI技術の社会的認知と円滑なコミュニケーションのために、advocacy communication service としてコンサルティングサービスと開発者・クリエイター支援・技術広報・PoC開発・クリエイターユニオン構築に協力します。

      2024/1/22 AICU Inc. プレスリリースより
      https://prtimes.jp/main/html/rd/p/000000007.000133647.html

      画像

      https://corp.aicu.ai/ja/stability-ai

      【講師紹介】

      • 白井 暁彦:生成AIクリエイティブ「AICU」代表、デジタルハリウッド大学大学院特任教授
      • RUNO.:生成AIクリエイター

      AIの波に乗り遅れるな!
      今すぐ予約して、未来を創造する力を手に入れよう!

      画像

      ▼ Coloso講座ページはこちら ▼ 

      https://bit.ly/AICUXColosoJP

      カリキュラム

      カリキュラム内容から一部を紹介します!

      SECTION 01:画像生成AIの歴史と現在、今後の価値

      画像
      画像
      画像
      画像

      SECTION 02:環境構築

      Google Slidesだけで使えるオリジナルツールが提供されます!

      画像

      その他、Google Colabを使った最新のデモやサンプルもあります。

      SECTION 03:基礎編[SD3時代のモデル評価とプロンプト探求]

      画像

      最新・最先端・高画質のモデル評価手法をしっかりマスター!

      https://j.aicu.ai/SD3GP

      SECTION 04:Stability AI API の革新的機能

      知らないと損、Stability AIのAPIだけで利用できる革新的な機能。

      画像

      Edit機能を活用した画像加工

      Structureを使ったポージング、構造の制御

      画像

      便利なツールと、初心者向けの対話、デモなどを使ってスキマ時間にギュンギュン学べちゃう構成になっています!

      SECTION 05:応用編 [バーチャルファッションモデルの開発]

      バーチャルなファッションブランドのルックブックを作ってみましょう!

      画像

      卒業制作や研究、企業のプロトタイプとして実践的なワークフローを学ぶ最高のチャンスです。

      SECTION 06:活用編 [広告バリエーションの展開と評価手法]

      広告バリエーションの制作にお悩みではありませんか?

      画像

      旅行代理店の広告制作を通して、画像生成AIを使った具体的な広告バリエーションの制作フローを体得できます。もちろんChatGPTを使いこなすプロンプトも含まれています!

      SECTION 07:法律・倫理・未来

      「画像生成AIって違法なの?」法律だけではありません、生成AIクリエイティブ分野の社会実装でトップランナーを続けてきたAICUならではのノウハウ、国家試験である知的財産管理技能検定に基づいた理解と解説、弁護士とのヒアリングで開発した倫理クイズ、子供でもわかる画像生成AIの「陽の当たる未来」のための重要なポイントを他人に説明できるレベルで体系的に学ぶことができます…!

      画像

      受講生全員に提供:AICUの講座だけの特典

      • AICUによる画像生成AIに必要な知識が詰まった、講座動画25講を期間制限なしで受講可能
      • 講座を通してセミリアルや実写など12点の例題を完成
      • 講座内容に関するPDFデータや資料、Google Slidesで使えるツールを提供
      • 画像生成プロンプト
        1. 講座で生成するイメージのプロンプト集提供
      • 講座資料提供
        1. AICUのノウハウが詰まった講座PDF使用を提供

      豊富な例題を通して学ぶ画像生成AIの基礎!

      1. ゴールの設定
      2. Google Slidesで使える自動スライド生成
      3. Google ColabによるStability AI公式サンプルの動作確認
      4. プロンプトの要素の並びによる生成結果の違い
      5. ネガティブプロンプトの有無による生成結果の違い
      6. APIから学ぶSD3時代のText to Imageモデル
      7. ワードリストを使った多様な表現
      8. Conservativeを用いた作品の高解像度化
      9. Edit機能を活用した画像加工
      10. Structureを使った構造の制御
      11. オリジナルLookbookの作成
      12. 広告バリエーションの制作

      講師紹介

      生成AIクリエイティブ:AICU

      [白井暁彦]

      こんにちは。生成AIクリエイティブAICU代表の白井暁彦です。 エンタメ業界とメタバース技術の研究開発や、ホワイトハッカー作家として活動しており、デジタルハリウッド大学大学院で特任教授を務めております。デジハリ発国際スタートアップ企業AICU Inc.は、生成AI 時代に「つくる人をつくる」をビジョンに英語や日本語、フランス語、プログラミング言語など、オープンなクリエイティブ活動を行っている会社です。生成AIの最先端で研究や作家活動を通して、生成AIの魅力と楽しさをたくさんの人々に届かせるために活動しています。

      [RUNO.]

      こんにちは。生成AIクリエイティブ AICUのRUNO.です。昼間は、ITベンチャーでマーケティング・事業開発・データアナリストとして活動しており、夜は、白井主宰のクリエイティブAIラボ「CAIL」で、クリエイティブAI分野の社会実装を研究する「クリエイティブAI系VTuber」として活動しています。得意分野は、プロンプトエンジニアリングやAIサービス開発、執筆、アート制作、事業企画などです。

      https://note.com/runos_log/n/ncf1843b2a30c

      ▼ Coloso講座ページはこちら ▼ https://j.aicu.ai/AICUXColosoJP

      この講座のポイント

      AI時代の必須スキル「プロンプトエンジニアリング」の基礎を網羅的に学習

      具体的な例題と実践を通して、安定した高品質画像生成のために必要なプロンプトの構造から、最新のテクニックまで、プロンプトエンジニアリングのスキルを体系的に学ぶことができます。また、今後登場するであろう、新しい画像生成AIにも応用可能な、普遍的なプロンプト構築の考え方を身に付けます。

      Google ColabとGoogle Slidesを用いたコーディング不要の実践スキル

      プログラミングの知識がなくても、Google ColabとGoogle Slidesを使用して、画像生成AIをビジネスに応用する方法を学びます。特に、バーチャルファッションモデルの制作や広告バリエーションの制作といった、具体的な例題を通して、実践的なスキルを磨いていきます。

      生成AI時代に必要な著作権や倫理における知識

      生成AIを取り巻く法律や倫理的な問題は法律だけではありません。新たな著作権の理解、クリエイティブの扱い、広告ビジュアルや消費者など受け手の理解、そして今後の展望について理解を深めます。それらを通して、AI技術を正しく、責任を持って活用するための知識と、実践的なガイドラインについて学び、持続的な創作活動を行うための基盤を築きます。

      講座内容: 下記のような内容を学べます。

      • 生成AIにおける基礎知識
        1. 画像生成AIの歴史やStable Diffusionの仕組み、AIにおける今後の展望など、AI技術についての理解を深めるために必要な基礎知識を学ぶことができます。
      • プロンプトによる画像生成の文法
        1. 高品質な画像生成を可能にするためのプロンプトの構造と要素、そして最新のテクニックを体系的に学びながら、プロンプトエンジニアリングのスキルを身に付けていきます。
      • Stability AI APIを活用した高度な画像生成
        1. 公式APIを活用した画像編集や構造制御などを実践的に学びながら、高度な画像生成技術を習得します。その上で、AIの可能性を最大限に引き出し、より複雑で創造的な画像生成に挑戦します。
      • バーチャルファッションモデルの開発
        1. バーチャルファッションモデルを制作する例題を通して学んだ知識を応用し、ファッションブランドのLookbookを制作することで、ポートフォリオとして活用できるレベルの作品制作を目指します。
      • AI技術を駆使した広告制作
        1. AIを活用した広告バリエーションの制作を通して、ビジネスにおけるAI活用の可能性を広げ、実践的なマーケティングスキルを習得します。AI技術をビジネスに活用することで、新たな価値創造とイノベーションに挑戦します。
      • AIの活用における倫理と未来予測
        1. 生成AIを取り巻く法的、倫理的な問題を理解し、責任のあるAI活用を実践するための知識を身に付けます。AI技術の倫理的な側面を理解し、持続可能な社会におけるAIのあり方を深く考察することで、AIの未来を創造する力を養います。
      • 無期限視聴:一回の購入で、期限の制限なく視聴することができます。
      • 最安値:08/31 (土) 販売価格が上がります。

      もうすぐ販売価格が上がる予定です。
      今すぐご購入ください!今が最安値!

      ▼ Coloso講座ページはこちら ▼ 

      https://j.aicu.ai/AICUXColosoJP

      インタビューを受けました

      生成AIクリエイティブ
      AICUがお話ししたいこと

      Question.01:該当の分野を勉強している方は、どういう部分を一番難しいと思っているでしょうか?また、本講座を通じて、そのような部分をどのように解決できるでしょうか?

      画像生成AIは、日々進化しており、新しい技術や情報が次々と出てきます。そのため、最新情報をキャッチアップし続けること、そして専門用語や技術的な内容を理解することが難しいと感じている方が多いと思います。この講座では、クリエイティブAIニュースメディアとして、クリエイターのための情報を発信する「AICU」が、基礎知識から先端技術、未来予測までを丁寧に解説していきます。また、実習を通して、実践的なスキルを身に付けることができるので、AI技術への理解を深め、自信を持って活用できるようになると思います。

      Question.02:講師さまご自身は、勉強してきた中で難しかった部分、それを解決するためにどのような努力をされてきましたか?

      日々進化し続ける生成AIの世界で、その技術についていきながら、毎日勉強し続けることが一番大切で、難しいことだと思います。私は、毎日ブログを書くことを続けています。日々の仮説検証や、新技術の検証といった積み重ねが、「自分自身の成長」としてしっかりと可視化できます。これは、ChatGPT時代のクリエイターにとってとても重要なことで、単に道具の使い方を学ぶのではなく、新しい技術に対して適応する速度が大きく変わってきます。

      Question.03:アウトプットを形にすることにおいて、大切なポイントは何になりますか?

      アウトプットを形にする上で大切なポイントは、「明確なビジョンと目的意識を持つこと」、そして「それを達成するための仮説と実験する方法論を持つこと」だと考えています。AI技術は常に進化しており、新しい技術や情報が次々と出てきます。何を作りたいのか、なぜ作りたいのか、誰のために作るのか、といった根本的なメッセージにフォーカスを合わせ、それを明確にすることで、ビジュアル制作の方向性を定めることができ、迷いが少なくなると思います。

      Question.04:講師さまがお考えになる、クリエイティブAI分野においての市場性と展望についてお話しください。

      クリエイティブAI分野は、まだ市場が構築されていません。世間には、謎のAIクリエイターがたくさんいらっしゃいますが、この技術を専門的に学べる場があるわけでもなく、多くの方々は、独学で学んでいる状況です。誰でも簡単に、画像を生成できるサービスが普及する一方で、業務的には、超スピードでインパクトのある画像や映像をつくる人々が求められる、専門性の高いプロフェッショナルな分野になっていくと予測します。単に「安く」ではなく、倫理観がしっかりした「学び続ける人」が、体系的な知識と技術を背景に、速度感をもって大きな市場を作っていくと思います。

      ▼ Coloso講座ページはこちら ▼ 

      https://bit.ly/AICUXColosoJP

      今後の更新情報や、オトクな情報はメンバーシップ向けに発信していきます。

      【8/24追記!】

      8月30日23時59分まで or 先着100名様限定で、AICUの講座限定で5,000円割引が受けられるシークレットクーポンをいただきました!
      リポストで見れるようにしておきましたのでぜひチェックしてください!

      最安値でゲットしてください!


      この記事の続きはこちらから https://note.com/aicu/n/nd680d8290d11

      Originally published at https://note.com on Aug 23, 2024.

    4. Stability AI:動的多視点動画生成を実現する「Stable Video 4D」を発表

      2024年7月24日、Stability AI は同社の初の Video to Video生成モデルである動的多視点動画生成技術「Stable Video 4D」を提供開始しました。1本のビデオから8つの新しいアングルの動的で斬新な視点の動画を生成できます。

      この発表に合わせて、このモデル開発で達成された方法論、課題、ブレークスルーを詳述した包括的な技術レポートも公開されています。

      Stable Video 4D (英語ページ)

      日本語公式リリース

      https://ja.stability.ai/blog/stable-video-4d

      主なポイント:

      • Stable Video 4D は、1つの目的の動画から、8 つの異なる角度/視点からの斬新な複数視点動画に変換します。
      • Stable Video 4D は、1回の推論で、8視点にわたる 5フレームを約40秒で生成します。
      • ユーザーはカメラアングルを指定して、特定のクリエイティブニーズに合わせて出力を調整できます。
      • 現在研究段階にあるこのモデルは、ゲーム開発、動画編集、バーチャルリアリティにおける将来的な応用が期待されており、継続的な改善が進められています。Hugging Face で現在公開中です。

      仕組み

      ユーザーはまず、単一の動画をアップロードし、目的の3D カメラの姿勢を指定します。次に、Stable Video 4D は、指定されたカメラの視点に従って 8 つの斬新な視点動画を生成し、被写体の包括的で多角的な視点を提供します。生成された動画は、動画内の被写体の動的な 3D 表現を効率的に最適化するために使用できます。

      現在、Stable Video 4D は 8 つの視点にわたって 5 フレームの動画を約 40 秒で生成でき、4D最適化全体には約 20 ~ 25 分かかります。開発チームは、ゲーム開発、動画編集、バーチャルリアリティにおける将来的な応用を構想しており。これらの分野の専門家は、オブジェクトを複数の視点から視覚化する機能から大きな恩恵を受け、製品のリアリズムと没入感を高めることがが可能になります。

      最先端のパフォーマンス

      画像拡散モデル、動画拡散モデル、多視点拡散モデルの組み合わせからサンプリングする必要がある従来のアプローチとは異なり、SV4D は複数の斬新な視点動画を同時に生成できるため、空間軸と時間軸の一貫性が大幅に向上しています。この機能により、複数の視点とタイムスタンプにわたって一貫したオブジェクトの外観が保証されるだけでなく、複数の拡散モデルを使用した煩雑なスコア蒸留サンプリング (Score Distillation Sampling: SDS) を必要としない、より軽量な 4D 最適化フレームワークが可能になります。

      Stable Video 4D は、既存の事例と比較して、より詳細で、入力動画に忠実で、フレームと視点間で一貫性のある斬新な視点動画を生成できます。

      研究開発

      Stable Video 4D は Hugging Face で公開されており、Stability AI 初の動画から動画への生成モデルであり、エキサイティングなマイルストーンとなっています。現在トレーニングに使用されている合成データセットを超えて、より幅広い実際の動画を処理できるように、モデルの改良と最適化に積極的に取り組んでいます。

      テクニカルレポート

      この発表と併せて、このモデルの開発中に達成された方法論、課題、ブレークスルーを詳述した包括的な技術レポートが公開されています。

      https://sv4d.github.io/static/sv4d_technical_report.pdf

      リポジトリより(VRAM40GB以上必要)

      Hugging Face でのモデル配布は実施されていますが、そのまま試すことは難しい状態です。AICU AIDX LabではローカルおよびGoogle Colab Pro環境で実験してみました(結論はVRAMが40GB以上必要で、動作確認には至っていません)。ノートブックへのリンクは文末にて。

      Stability AI の GitHub では Generative Models というリポジトリでサンプルコードが提供されています。
      SV4D helper
      https://github.com/Stability-AI/generative-models/blob/main/scripts/demo/sv4d_helpers.py
      Sample code
      https://github.com/Stability-AI/generative-models/blob/main/scripts/sampling/simple_video_sample_4d.py

      事前準備

      まず Hugging Face で以下のモデルについてライセンス登録を行う必要があります。

      https://huggingface.co/stabilityai/sv4d

      https://huggingface.co/stabilityai/sv3d

      次にGPUメモリが40GB以上搭載された環境をご準備ください。
      Google Colab Pro+ でA100環境をご準備ください。

      Hugging Face Access Token キー を HF_TOKEN という名前で Google Colab左側の「シークレット」に設定します。

      画像

      sv4d.safetensors と sv3d_u.safetensors を ./checkpoints/ にダウンロードします。

      SV4Dは、5つのコンテキストフレーム(入力映像)と、同じサイズの8つの参照ビュー(SV3Dのようなマルチビュー拡散モデルを使用して、入力映像の最初のフレームから合成された)が与えられ、576×576の解像度で40フレーム(5ビデオフレームx8カメラビュー)を生成するように訓練されています。より長い新規のビュー動画(21フレーム)を生成するために、まず5つのアンカーフレームをサンプリングし、次に時間的な一貫性を保ちながら残りのフレームを高密度にサンプリングするという、SV4Dを用いた新しいサンプリング方法を提案します。

      例えば21フレームの単一の入力動画でSV4Dを実行するには:

      generative-models ディレクトリから
      以下のコマンドを実行します。

      python scripts/sampling/simple_video_sample_4d.py –input_path <path/to/video>

      起動時パラメータとしては以下のとおりです。

      • input_path: 入力動画は、
        • assets/test_video1.mp4のような gif または mp4 形式の単一のビデオファイル
        • .jpg、.jpeg、または.png形式の(連番)ビデオフレームの画像を含むフォルダ
        • ビデオフレームの画像に一致するファイル名パターン
          を指定できます。
      • num_steps: デフォルトは20です。より高い品質を得るには50に増やすことができますが、サンプリング時間が長くなります。
      • sv3d_version: 参照マルチビューを生成するために使用するSV3Dモデルを指定するには、SV3D_uの場合は –sv3d_version=sv3d_u、SV3D_pの場合は –sv3d_version=sv3d_p を設定します。
      • elevations_deg: SV3D_p(デフォルトはSV3D_u)を使用して、指定された仰角(デフォルトの仰角は10)でノベルビュー動画を生成するには、 python scripts/sampling/simple_video_sample_4d.py –input_path test_video1.mp4 –sv3d_version sv3d_p –elevations_deg 30.0 を実行します。
      • 背景削除: 無地の背景を持つ入力動画の場合、(オプションで) –remove_bg=True を設定することで、rembgを使用して背景を削除し、ビデオフレームをトリミングします。ノイズの多い背景を持つ現実世界の入力動画でより高品質の出力を得るには、SV4Dを実行する前に、Cliipdropを使用して前景オブジェクトをセグメント化してみてください。

      # このままだと A100 GPU (40GB)でも動作しない
      #!python scripts/sampling/simple_video_sample_4d.py –input_path assets/test_video1.mp4 –output_folder outputs/sv4d


      import os
      os.environ[‘PYTORCH_CUDA_ALLOC_CONF’] = ‘max_split_size_mb:512’
      #パラメータを小さくしてみましたが動かず
      !python scripts/sampling/simple_video_sample_4d.py \
          –input_path assets/test_video2.mp4 \
          –output_folder outputs/sv4d \
          –model_path checkpoints/sv4d.safetensors \
          –model_path_sv3d checkpoints/sv3d_u.safetensors \
          –batch_size 1 \
          –height 32 –width 32 \
          –num_steps 1

      # どなたか動作確認していただける方を募集します!

      Stable_Video_4D.ipynb https://j.aicu.ai/SVD4D

      Originally published at https://note.com on July 24, 2024.

    5. Sakana AIより「日本の美を学んだAI」が公開

      2024年7月22日、日本の経済産業省(METI)傘下のNEDOやNTTドコモ・ベンチャーズ(NDV)、KDDIが出資し、推定45億円を調達している AI研究開発スタートアップの「Sakana AI(サカナAI)」(東京都港区)が、「日本の美を学んだAI」を公開しました。

      https://sakana.ai/evo-ukiyoe/

      https://note.com/aicu/n/na02326d588bf

      Sakana AIは、日本の美を学んだAIとして、浮世絵風画像生成モデルEvo-Ukiyoeと、浮世絵カラー化モデルEvo-Nishikieを公開します。Sakana AIが進化的モデルマージによって構築した日本語対応画像生成モデルEvo-SDXL-JPを基盤とし、浮世絵画像を大規模に学習することで、日本語に対応し、かつ浮世絵の特徴を学んだ画像生成モデルができました。

      https://sakana.ai/evo-ukiyoe

      このリリースの要点は以下の通りです。

      • Evo-Ukiyoeは、日本語のプロンプトを入力すると浮世絵風の画像を生成します。風景や着物姿の人々など、浮世絵によく取り上げられる題材については、実物の浮世絵に近い品質で生成できます。
      • Evo-Nishikieは、単色摺の浮世絵(墨摺絵等)を入力すると、多色摺の浮世絵(錦絵)風の画像を生成します。墨一色で印刷された江戸時代の本(古典籍)の挿絵をカラー化したり、多色摺の錦絵を別の色に変換して出力したりする目的にも利用できます。
      • Evo-UkiyoeとEvo-Nishikieの学習データセットには、立命館大学アート・リサーチセンター(ARC)所蔵浮世絵作品のデジタル画像24,038枚を利用しました。
      • Evo-UkiyoeとEvo-Nishikieが、日本の伝統文化の魅力を世界に広めるとともに、教育などへの活用や古典籍の新しい楽しみ方など、多くの人々に活用されることを期待しています。

      HuggingFace Spacesでのデモとモデル

      今回公開するモデルは、プロンプトから画像を生成するEvo-Ukiyoeと、古典籍の挿絵をカラー化するEvo-Nishikieモデルです。これらのモデルが、歴史や文化を学ぶための新たなコンテンツ作成に利用され、浮世絵に関する興味を増すことにつながり、日本や世界の人々が浮世絵や日本文化に興味を持つきっかけを生み出すことを期待しています。

      残念ながらHuggingFace SpacesでのデモはGPUが取得できないため、AICU media編集部での十分な動作確認できていませんが、 Evo-Ukiyoeは、入力した日本語プロンプトに沿った浮世絵風の画像を生成することができ、Evo-Nishikieは入力した単色摺の浮世絵(墨摺絵等)を日本語プロンプトに沿って多色摺の浮世絵(錦絵)風に変換した画像を生成することができるようです。

      画像

      編集部での実験例

      画像

      先行して公開されている日本特化の高速な画像生成モデル「EvoSDXL JP」は動作しています。非常に高速です。

      https://huggingface.co/spaces/SakanaAI/EvoSDXL-JP

      浴衣の男女が川岸で花火を見ています

      与えたプロンプト

      画像

      担当した研究者の方々

      開発者
      カラーヌワット・タリン(Sakana AI)
      シーン誠(Sakana AI)
      今宿祐希(Sakana AI)
      協力者
      赤間亮(立命館大学アート・リサーチセンター)
      北本朝展(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所)

      Evo-UkiyoeはText-to-Imageモデルであり、画像データとキャプションのペアを学習データセットとします。そこで、浮世絵画像の内容を説明するキャプションを付与するために、大規模マルチモーダルモデルを用いて、Few-shot promptingによりキャプションを生成しました。そして、キャプションの間違い(人物の性別など)を人手で修正するとともに、Evo-SDXL-JPの最大プロンプト長(77トークン)に合わせて、キャプションを短くする、明確な特徴のみを加える、鳥籠模様や梅花模様などの複雑な専門用語を削除する、などの調整を行いました。
      この学習データセットを用いて、Evo-SDXL-JPをベースモデルとして、LoRAによるファインチューニングを行いました。

      生成時には、プロンプトを入力して画像を生成します。ただし、浮世絵により近い画像を生成するには、桜、富士山、着物、鳥など、浮世絵でよく取り上げられる要素をプロンプトに含めると効果的です。一方、江戸時代に存在しないもの(パソコンやハンバーガーなど)も生成はできますが、学習データセットに存在しないものを浮世絵風に生成することは難しく、全体として浮世絵らしくない画像が生成されることがあります。

      「日本古典籍の挿絵をカラー化」として、大学共同利用機関法人 情報・システム研究機構(ROIS: Research Organization of Information Systems)により、「絵本玉かつら Evo-Nishikieカラー化」が公開されています。

      http://codh.rois.ac.jp/tsukushi/evo-nishikie/200013861/

      オリジナル画像

      画像

      Evo-Nishikieカラー化画像

      画像

      テキストから画像への拡散モデルに対する技術としては「DPO-SDXL」と呼ばれる技術が使われているようです。直接嗜好最適化 (Direct Preference Optimization: DPO) は、人間の比較データを直接最適化することで、拡散モデルをテキストの人間の嗜好に合わせる方法です。2023年11月に「Diffusion Model Alignment Using Direct Preference Optimization(直接嗜好最適化を使用した拡散モデルの調整)」として論文化された技法です。

      https://huggingface.co/mhdang/dpo-sdxl-text2image-v1

      https://huggingface.co/RunDiffusion/Juggernaut-XL-v9

      興味深い Sakana AI の HuggingFace

      学術・文化的な古典日本文化の貢献の横で、HuggingFaceには「Magicoder」といった小サイズのLLMも公開されています。

      https://huggingface.co/SakanaAI/Meta-Llama-3-8B-Instruct-Magicoder-185k-lr_2e-5-minlr_4e-6_GB_64_1epoch-iter_0002912/tree/main

      今後も様々な先端技術の公開が発信されると想像します。

      Originally published at https://note.com on July 22, 2024.

    6. [速報]AICU CEO白井が「ChatGPTとStable Diffusion丸わかりナイト」に登壇いたしました

      [速報]AICU CEO白井が「ChatGPTとStable Diffusion丸わかりナイト」に登壇いたしました

      2024年5月30日(木)に、デジタルハリウッド大学本校にて開催された「ChatGPTとStable Diffusion丸わかりナイト」に弊社CEO白井暁彦(@o_ob/しらいはかせ)が登壇いたしました!

      https://ai-maruwakari-night.peatix.com/

      デジタルハリウッド大学大学院教授の橋本大也先生、特任教授の弊社CEO白井暁彦が、近日それぞれ発売した書籍に関する講演、トークイベントを実施しました。

      『頭がいい人のChatGPT&Copilotの使い方』(橋本大也教授著)
      『画像生成AI Stable Diffusionスタートガイド』(AICU media (著), 白井 暁彦 (著))

      ChatGPTとStable Diffusionを中心に、文章、画像、音楽、動画の生成AIの面白さ、可能性について熱く語られ、本を読んだ人も読んでいない人も、学生も社会人も、生成AIの最新事情をアップデートできるイベントとなりました。

      書籍執筆に使われた蔵出し資料の数々!

      参加された方の感想
      「2時間びっしり濃い内容すぎて、消化しきれませんでした・・・」
      「楽しかった!」
      「頭のいい人…じゃなくて…頭のおかしい人の情報量…」

      本人曰く「40分強の講演に実に244枚のスライドがあるんだ」とのこと

      https://note.com/o_ob/n/n930c390b6dfa

      1分あたり6.1枚、だいたい10秒1枚という計算なんですね!(慣れた)

      終了後のサイン会でも沢山の方が購入されました。

      購入された方のご感想
      「実はKindle版も購入していたのですが、これはリアル本であったほうがいい!&先生のサイン付き✨ということでゲットできて良かったです😊」

      ご参加・ご購入ありがとうございました。

      詳細のレポートをお楽しみに!

      Originally published at https://note.com on May 30, 2024.

    7. 東大のHCI研究:Stable Diffusionを用いた写真内の情報秘匿技術

      東大のHCI研究:Stable Diffusionを用いた写真内の情報秘匿技術

      東京大学より 2024年5月14日に発信されたプレスリリースが興味深い画像生成AIに関する研究でしたので紹介いたします。
      コンピュータ・ヒューマン・インタラクションのトップカンファレンス「CHI 2024」に「 Examining Human Perception of Generative Content Replacement in Image Privacy Protection 」というタイトルで採択されております。

      拡散モデルを用いた写真内の情報秘匿技術

      発表のポイント
      ◆ 生成AI を用いた画像の生成的コンテンツ置換(GCR)法を開発し、秘匿しつつ画像の見た目と内容の両方を維持する加工手法を開発しました。
      ◆ 新たに開発された手法では、画像の全体的な内容とプライバシーに関係しうる部分を特定した上で、拡散モデルを用いて代替画像を生成し、元の画像に適応させることで、プライバシーを守りつつ画像の視覚的魅力を保持する革新的なアプローチを提供します。
      ◆ 本手法は、SNS での画像共有、プレゼンテーション、ビジュアルデザインなど写真の視覚的美しさが重要な場面への応用が見込まれています。

      本研究が提案する画像秘匿手法GCRによる秘匿加工例

      概要

      東京大学大学院工学系研究科電気系工学専攻の矢谷浩司准教授らのグループは、生成AIを用いた画像の生成的コンテンツ置換(GCR)法を開発し、秘匿しつつ画像の見た目と内容の両方を維持する加工手法を開発しました。画像の秘匿化は、SNSの普及により重要性が増しています。従来の秘匿化手法にはモザイクやぼかしがありますが、これらの方法は手間がかかり、しばしば秘匿が不十分であるだけでなく、画像の見た目や統一感を損なう問題がありました。開発された手法は、画像全体とプライバシーに関連しうる部分の内容を表現するテキストを生成し、それらから拡散モデルにより代替画像を生成し、元の画像に配置することで、プライバシー保護と視覚的美しさのバランスを実現する画期的な方法となっています。SNSでの画像共有やプレゼンテーション、ビジュアルデザインへの応用が期待されます。また、将来的には動画への応用や、より使用しやすいインタフェースの開発も進められています。

      発表内容

      画像の秘匿化は、画像の中に含まれているプライバシーに関係する情報を保護するために、大変重要な編集方法です。近年では画像のごく一部の情報から、撮影者の場所や属性が漏洩することが度々発生していますが、SNSなどの急速な普及により、そのような危険性を十分に理解しないまま、画像が一般に公開されていることも数多くあります。秘匿化を実現する既存の編集方法としては、モザイクやぼかし、あるいは絵文字などを重ねる、などがありますが、多くの場合ではユーザが直接編集を施す必要があるため、多くの手間を要したり、秘匿が十分でなかったりすることがあります。またこのような秘匿加工を施すと、元の画像から比べて見た目の美しさや統一感を損なってしまうことがあり、SNSなどでの共有を目的とする場合には好ましくないこともあります。

      この研究では、生成AI技術を用いてプライバシーに関係する情報を現実的な類似の代替物でシームレスに置き換える生成的コンテンツ置換(Generative Content Replacement, GCR)法を構築しました(図1)。この方法では、ユーザが加工を行いたい画像をシステムにアップロードします。システムはアップロードされた画像に対してBLIP-2モデル(注1)を用い、画像全体の内容を表現するようなテキストを生成します。さらに、DIPA(注2)と呼ばれる矢谷研究室が構築したデータセットにより提供されているマスク情報を用いて、画像内のプライバシーに関連しうる部分を抽出し、その部分の内容を表現するようなテキストを生成します。この2つのテキストをもとに、Stable diffusion(現在はバージョン2.1を使用)(注3)して、画像内のプライバシーに関連しうる部分に類似した代替画像を生成し、元画像上に配置することで、コンテンツの置換を行います。これにより、もと画像にあったプライバシーに関連しうる情報は秘匿化されながらも、画像の見た目や内容を維持することが可能となります。

      図1:GCRの処理フロー

      ユーザがアップロードした画像に対して、画像全体とプライバシーに関連しうる部分のテキストを生成し、それを元に画像内のプライバシーに関連しうる部分に類似した代替画像を生成し、元画像上に配置することで、コンテンツの置換を行います。

      図2に示す通り、ぼかし、カートゥーニング(画像の一部を非現実的な程度に強調する方法)、色塗り、除去(画像内の物体等を消し去り、背景で置き換える)、GCRの5つを比較したユーザ実験の結果、GCRによる秘匿加工では、画像内で加工が行われた場所を見つけ出すことが最も難しかったことが確認されました。また、他の秘匿加工手法と比較して、加工後の視覚的な調和が最も保たれていることも確認されました。元画像が持つストーリー性の維持に関しては、GCRはカートゥーニングよりも劣ったものの、プライバシー保護の強さにおいてはGCRが秀でており、GCRによる秘匿加工が、プライバシー保護と画像の視覚的美しさを両立しうる手法であることが確認されました。そのほか、GCRによる秘匿加工の一例を図3に示します。

      図2:秘匿加工方法の比較

      左から、元画像、ぼかし、カートゥーニング、色塗り、除去、GCR。

      図3:GCRによる秘匿加工の一例

      (上)後ろにいる男性を置換している。左が元画像、右が加工後の画像。(下)前面にある車は維持しつつ、背景にある車やナンバープレートを置換している。左が元画像、右が加工後の画像。

      この研究成果は、画像のプライバシー保護と有用性の両方が求められる応用において、実用的な生成AIの応用例を示すものです。SNSでの画像共有のほか、プレゼンテーションやビジュアルデザインへの応用も期待されます。将来への展望として、研究室では、一般的なユーザがより簡単にGCRを使用できるインタフェースを構築しているほか、動画への応用を検討しています。

      本研究はMicrosoft Research Asia D-CORE Program、および株式会社メルカリ R4Dとインクルーシブ工学連携研究機構との共同研究である価値交換工学の成果の一部です。

      発表者・研究者等情報

      東京大学大学院工学系研究科電気系工学専攻

      矢谷 浩司 准教授

      論文情報

      雑誌名: Proccedings of the ACM Conference on Human Factors in Computing Systems(CHI 2024)

      題 名: Examining Human Perception of Generative Content Replacement in Image Privacy Protection

      著者名: Anran Xu*, Shitao Fang, Huan Yang, Simo Hosio, and Koji Yatani*

      用語解説

      (注1)BLIP-2

      与えられた画像から情報を抽出し、画像を説明するテキストを生成するマルチモーダル学習技術をベースに構築された人工知能技術。

      (注2)DIPA

      矢谷研究室で構築した画像内においてプライバシーに関連しうる物体にアノテーションを施したデータセット。

      (注3)Stable Diffusion

      拡散モデルと呼ばれる確率的プロセスを用い、テキストの記述に基づいて画像を生成する人工知能技術。

      プレスリリース本文: PDFファイル

      Examining Human Perception of Generative Content Replacement in Image Privacy Protection | Proceedings of the CHI Conference on Human Factors in Computing Systems https://dl.acm.org/doi/10.1145/3613904.3642103

      https://dl.acm.org/doi/10.1145/3613904.3642103

      [MIT Technology Review] 生成AIを用いて画像内の情報を秘匿するシステム、東大が開発

      https://www.technologyreview.jp/n/2024/05/17/336549/

      東京大学によるプレスリリース
      https://www.t.u-tokyo.ac.jp/press/pr2024-05-14-002

      Originally published at https://note.com on May 24, 2024.

    8. 日報を画像生成でバエさせる #10分で学べるAI

      日報を画像生成でバエさせる #10分で学べるAI

      新企画「#10分で学べるAI」

      「つくる人をつくる」AICU新人ライターのNaruです。初の原稿となる今回は、Stability AIが提供しているStable Diffusion 3 APIを用いた画像生成ついて、忙しいビジネスパーソンがめっちゃ使えそうなテクニックを #10分で学べるAI というシリーズで紹介していきたいと思います。

      今すぐ終業、でもバエる絵が見つからない…。

      「提案書や日報にバエる、インパクトがある画像がほしいな…」と思ったこと、ありませんか?でもライセンスフリーの画像検索では画像的にも著作権的に微妙…有料のストックフォトを日報に使うなんて予算がない…そんなあなたに送る、画像生成テクニックです。

      <設定>新入社員のSくん
      新人研修ももうすぐ終わり…毎日の日報もネタがつきてきました。今すぐスライドのトップページに16:9の画像を付け足して、BOSSに送りつけて帰宅したい…!でも検索しても検索してもバエる絵が見つからない…!

      ふと某ChatGPT 4oさんにお願いしてみました。
      「今日の日報に使える16:9のバエる画像がほしい」

      うーん、ちょっと、微妙すぎやしませんか。ここは日本ですし。

      ちなみに今日は飛び込み営業で、 日焼けした27歳の元気なスタートアップ企業の社長さんにお会いしました。というレポートしたいので、そんな感じの絵を作りたかったのです。

      そしてBOSSから注文が入りました。

      「今日の日付を入れて」

      いま16時30分ですよ?

      出来上がった画像がこれです。

      念の為、ソースコードへのリンクがあったので確認してみました。

      from PIL import Image, ImageDraw, ImageFont
      import matplotlib.font_manager as fm
      
      # Load the image
      image_path = "/mnt/data/A_vibrant,_eye-catching_image_for_a_daily_report,_.png"
      image = Image.open(image_path)
      
      # Define the date text
      date_text = "2024年5月20日"
      
      # Get a font
      # Using a default font as an example
      font_path = fm.findSystemFonts(fontpaths=None, fontext='ttf')[0]
      font = ImageFont.truetype(font_path, 40)
      
      # Initialize ImageDraw
      draw = ImageDraw.Draw(image)
      
      # Define the text position and color
      text_position = (image.width - 300, image.height - 70)
      text_color = (255, 255, 255)  # White color
      
      # Add the date text to the image
      draw.text(text_position, date_text, font=font, fill=text_color)
      
      # Save the edited image
      output_path = "/mnt/data/A_vibrant_image_with_date.png"
      image.save(output_path)
      
      output_path

      ちがう!僕がやりたいのはこういうことじゃない…!

      僕が作りたいのは、こういうインパクトがある絵です。

      ギラッギラです

      ギラッギラなカバーアートでぜひともBOSSに読んでもらいたい!
      ですが、
      必要な知識は AICU media の過去記事だけで十分でした。
      非エンジニアでも大丈夫、コーディングはゼロ、絵心もゼロです。
      さて作っていきましょう。

      必要なもの

      • Google Colab(無料アカウントでOK)
      • Stability AI のアカウント

      Stability AIのアカウントを持っていない人は https://platform.stability.ai/ にアクセスすると作成できます。

      右上からアカウントを作成できます

      セットアップしよう

      APIキーを取得する

      まずはGoogle Colabで呼び出すためのAPIキーを用意しましょう。

      https://platform.stability.ai/account/keys

      https://platform.stability.ai/account/keys にアクセスするとAPIの管理画面に行くことができます。

      ここでAPIキーを発行できます

      右上にあるCreate API Key というボタンを押すと新しくAPIキーが発行されます。
      なおAPIの呼び出しにはクレジットを使うので不足した人は適宜追加をしてください。

      クレジットはDreamStudioと共通です。10ドルは僕の時給よりも安いです。

      Colabでプログラムを実行する

      今回は実行に必要なPythonコードをアナタのために限定で用意しました。
      日本語解説付きです。

      https://colab.research.google.com/drive/1mc1iQyIDT7FTO74SWcGqqHItUr9nkIC8?usp=sharing

      GitHubは こちら ✨️現在はGitHubに バグ があるのでひと手間あります。

      このColabを開いたら、まずは「ドライブにコピー」のボタンを押してからはじめのコードを▶を押して実行しましょう。

      ドライブにコピーをお忘れなく
      これで必要なライブラリをインポートできます

      次のコードを実行して、取得したAPIキーを入力します。

      実行すると入力画面が現れます

      最後のコードで画像生成の機能を準備します。

      モデルをColab上に用意しないので非常に速いです

      これで画像を生成する準備ができました!


      実際に生成してみよう

      いよいよ画像の生成に取り掛かります。
      下にスクロールするとプロンプトの入力画面があるので[prompt]に生成したい画像を入力し、実行します。

      ここまで正しくできていれば ▶ を押すたびに画像が生成されます。

      文字までしっかりと生成されました!
      ※日本語はまだ書けないっぽいです。

      さて日報のカバーイラスト作っていきます

      ここまでの部分は何度でも再利用できます。
      今日の日報も明日の日報も今週末の日報も、これでイケるって寸法です。

      今日の飛び込み営業で体験した日焼けした27歳の元気なスタートアップ企業の社長さんというレポートにふさわしいカバーイラストを作りましょう。

      [Prompt]にプロンプトを入力しますが、英語で入力する必要があります。
      ここは大人しくDeepLを使いましょう、早く退勤しないとなので。

      https://www.deepl.com/ja/translator/l/ja/en-US

      日報の表紙イラスト、日焼けした27歳の元気な日本人社長のマンガ。右下に「5/20th」の文字。

      Cover illustration of the daily bulletin, a manga of a Japanese president tanned, energetic 27-year-old man, With the words “May/20th” in the lower right corner.

      prompt: Cover illustration of the daily bulletin, a manga of a Japanese president tanned, energetic 27-year-old man, With the words “May/20th” in the lower right corner.

      negative_prompt: NSFW

      aspect_ratio: 16:9

      output_format: png

      こんな感じに入力して▶を押します。

      気に入る画像になるまで、何度でも押しましょう。数秒で生成されます。
      SD3は実写も綺麗ですが、イラストレーションとか漫画も得意です。
      美少女っぽいのもめちゃ良いですが、オジサンが好きそうな絵も作れます。

      どやっ!

      どやっ!

      ちょうどイメージぴったりです!
      このカバーアートに続くレポートの本文にはもちろん、この若くて何か大きなことをしでかしそうな社長さんへの提案が記載されています。
      きっとBOSSも興味を持って読んでくれることでしょう!

      明日からはこの[Prompt]を書き換えるだけです!やったぜ

      10分でできましたか?

      今回はここで終わります。また次回もぜひ読んでください!

      なおStable Diffusion 3 APIの技術詳細についてはこちらで紹介しているのでぜひ読んでくださいね~。

      https://note.com/aicu/n/n838bf71a361f

      https://note.com/aicu/n/ne2fe8a0073b0


      ✨️以上のように業務で仕事でパッと使える画像生成を社内やサービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

      本記事が面白かったら、ぜひシェアをよろしくお願いいたします!
      社内Slack等のシェアでも歓迎です。
      また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

      AICU Inc.は Stability AI 公式パートナーです。
      様々なアプリ開発のご相談も承っております!

      https://corp.aicu.ai/ja/stability-ai

      https://corp.aicu.ai/ja/stability-ai-membership

      Originally published at https://note.com on May 20, 2024.