月: 2024年4月

  • NVIDIA井崎氏の基調講演 – ロレアルでのAIポリシーに見る生成AI時代のブランディング #Web3BB

    NVIDIA井崎氏の基調講演 – ロレアルでのAIポリシーに見る生成AI時代のブランディング #Web3BB

    2024年4月25日、26日に行われたAIマーケティングBB(Beyond Borders)は、東京と米国シリコンバレーに法人をもつ Pivot Tokyo が主催・運営する、最先端テクノロジーとマーケティングの融合を探求するイベントです。

    この記事では、Day2の最初の講演、NVIDIAエンタープライズ事業本部 事業本部長の井崎 武士さんによるキーノート
    「マーケティングカンファレンス初登壇!AI時代のイノベーションリーダーNVIDIA が考える リテール/マーケティングの未来: 生成AIがもたらす変革とは?」
    についてレポートしていきます。

    Day1のレポート、イベントの詳細はこちらです。

    【キーノート】
    AI時代のイノベーションリーダーNVIDIA が考えるリテール/マーケティングの未来: 生成AIがもたらす変革とは?

    NVIDIA の強み – 潤沢な GPU 資源

    講演は、NVIDIA が現在進めているプロジェクトや業績から始まりました。

    井崎 武士 氏

    半導体事業で広く知られる NVIDIA ですが、その管理している GPU の質と量を生かし、近年では AI に関わる事業も数多く運営しています。

    例を挙げると、グラフィックスの領域で使用される流体シミュレーションや、学術面での推論、学習、またコンピューティングプラットフォームの提供が主になっています。

    大規模言語モデルの推論やファインチューニング、最適化エンジン、マイクロサーバーの開発等にも着手しており、NVIDIA が本格的に生成 AI 事業を進めていることがわかります。

    また、他の企業と連携した生成 AI 事業も数多く紹介されました。
    Adobe と共同開発した Adobe Firefly は Adobe の新技術である画像生成 AI で、これからのクリエイティブ領域に大きく期待されています。

    画像

    またパートナー企業が進めているプロジェクトの例として、手術、看護の面で活躍する医療補助ロボットや、自動運転技術開発のための映像生成と学習、音楽、音声生成なども挙げられました。

    画像
    遠隔でカウンセリングを行う看護AIのイメージ動画

    全てが AI 化されるのが最善の未来なのか?化粧品会社 L’Oréal のポリシー

    講演は NVIDIA 社から見た生成 AI の可能性と、私たちが何をするべきかという話題に移ります。

    まず、生成 AI の業界に大きな影響を与えた ChatGPT について、NVIDIA 井崎さんはこう述べました。
    「 iPhone はデジタル機器の民主化を果たしました。今、ChatGPT は AIの民主化を叶えようとしています」

    生成的 AI は、商品開発、マーケティング分析、広告、顧客サービスなどすべての業務に影響を与えています。

    参考:NVIDIA Picasso AI Foundry

    画像

    参考:NVIDIA Edify が 3D 生成 AI、ビジュアル コンテンツ プロバイダー向けの新しいイメージ コントロールを利用可能に(2024/4/3)

    画像

    大手企業でも様々な分野での生成 AI 導入は進んでおり、Amazon が対話型 AI アシスタントを導入したり、スポーツウェアブランドでの例といった大規模な例も挙げられました。

    画像
    スポーツウェアでの例

    画像
    流暢なアバターとの対話によるショッピング

    しかし AI を導入するにあたって企業が大切にしなければならないのはポリシーや倫理観であり、すべてを AI 化することが必ずしも良いわけではない、と井崎さんは結論付けます。

    L’Oréal でのAIポリシーに見る生成AI時代のブランディング

    例えば化粧品会社の L’Oréal では、AI の使用に関するガイドラインを設定し、積極的にAIエージェントなどを構築、宣材映像を生成しています。
    しかし広告の主体となるモデルには画像生成 AI を使用しないというポリシーを持っており、実際のモデルの写真を使用しています。

    「人の美しさはアバターでは表せない」というプロとしての意識が、L’Oréalのブランドを保っています。

    画像

    しかし生成 AI を使用すべき箇所の線引きは明確に行っており、化粧をした顔のシミュレーションやアイデア出しには画像生成 AI を使用しています。

    画像
    化粧のシミュレーションを画像生成で行うデモ

    関連:GTC2024での配信動画

    このようにポリシーやガイドラインのもと、効果的に生成 AI を使用することが生成 AI 時代の企業に求められています。

    以上、AI Marketing BB 2日目キーノート「NVIDIA が考えるリテール / マーケティングの未来」でした。

    引き続き2日目の講演のレポートを行っていきます!

    Day1はこちら

  • AI Marketing BB東京 Day1レポート – CivitaiのエクゼクティブプロデューサーMatty Shimuraの基調講演 #Web3BB

    AI Marketing BB東京 Day1レポート – CivitaiのエクゼクティブプロデューサーMatty Shimuraの基調講演 #Web3BB

    AI Marketing BB とは

    AIマーケティングBB(Beyond Borders)は、東京と米国シリコンバレーに法人をもつ Pivot Tokyo が主催・運営する、最先端テクノロジーとマーケティングの融合を探求するイベントです。

    また、AIがマーケティングにもたらす革新を追求し、参加者がその変革に積極的に関与し、ビジネスに活かすための知識やアイデアを共有する場ともなっています。
    イベント公式サイト→https://web3bb2024.pivot-tokyo.com/

    このサミットは、年間3回の定期的な開催を通じて、国内外の最新トレンドや事例を紹介し、参加者が自社の事業に生かす機会を提供しています。2024年4月の春開催では、AIとマーケティングに焦点を当てたセミナーやワークショップ型のゼミ講座が予定されています。

    さらに、リスキリングや新年度に伴う新しいチームの研修、新しいパートナーとの出会いをサポートする場でもあります。

    参加者が自らの成長とビジネスの展望を広げるためのプラットフォームとして位置づけられています。BBサミットは、AIとマーケティングの未来を共に創造するために、皆さんの積極的な参加を呼びかけています。

    カンファレンス責任者からのメッセージ

    河野 友香 Yuka Kawano AI&Marketing BB ディレクター

    これまでエージェンシー、事業主側と双方でマーケティングに数十年携わってきました。日本企業と外資系企業を経験しましたが、目の前のKPIに追われる日々を送っていました。日本のマーケティングの現状と未来を考えた時、危機感が芽生えました。務めていた会社を辞め、何か業界変革に携わることがしたいと独立し、BBチームへ参画しました。マーケティングに特化したカンファレンスを立ち上げ、今の日本のマーケティングを根本から変えたい。実践の場にいたからこそわかる課題感などを反映して実践的なプログラムを提供したい。そう思って作っています。「このままで良いのだろうか?」と少しでも感じている方にぜひご参加いただきたいです。
    皆さんも、私と一緒に日本のマーケティングを変えていきませんか?

    河野 友香さん 開催にあたって-カンファレンス責任者からのメッセージ 
    https://web3bb2024.pivot-tokyo.com/

    参加予定企業(一部紹介)

    株式会社セブン&アイ・ホールディングス/野村アセットマネジメント株式会社/ルイ・ヴィトン ジャパン株式会社/日本生命保険相互会社/パナソニック コネクト株式会社/味の素株式会社/株式会社ベネッセホールディングス/ヤンマーホールディングス株式会社/株式会社ファンケル/株式会社リクルート/カシオ計算機株式会社/良品計画/J.フロント リテイリング株式会社/エスエス製薬株式会社/株式会社フェリシモ/株式会社コーセー/株式会社オートバックスセブン/株式会社そごう・西武/(株)三陽商会/SBCマーケティング株式会社/トヨタ自動車/パーソルキャリア株式会社/株式会社ベルーナ/資生堂インタラクティブビューティー株式会社/雪印メグミルク株式会社/株式会社ジャパネットメディアエージェンシー/日本空港ビルデング/日本アイ・ビー・エム/株式会社マネーフォワード/ソニーマーケティング株式会社/森永乳業株式会社/マネーフォワード/ビザワールドワイドジャパン/エヌビディア合同会社/三井住友海上火災保険株式会社/LVMH モエ ヘネシー・ルイ ヴィトン・ジャパン合同会社/エン・ジャパン株式会社/ヤマハ株式会社/日本生命保険相互会社/積水化学工業株式会社/株式会社ポーラ/TSI Holdings/ソフトバンク株式会社/富士通株式会社/TSI Holdings/株式会社ニトリホールディングス/トヨタ自動車株式会社/武田薬品工業株式会社/コスモ石油マーケティング株式会社/株式会社講談社 (52社)

    Day1 プログラム

    13:30~13:40 オープニングリマークス サマリー

    13:40~14:10 [M-1] オープニングキーノート:世界アクセストップ10 Civitaiのプロデューサー初来日!AIは次世代のクリエイティブをどう変革するのか? サマリー

    14:10~14:40

    • [M-2]【公式】オープニングキーノート:Generative AIの世界では何が起こっているのか。産業実装における現在と未来。 サマリー
    • [AI-1] カスタマーサービス・オートメーションの未来:生成AI活用によるCX向上の挑戦 サマリー
    • [WS-1] AIガバナンスと倫理的視点のチェックリスト サマリー

    14:50~15:20

    • [M-3] 多様性の時代における、経済学を使った顧客理解とプライシング サマリー
    • [AI-2]【公式】ディスカッション:AIとImmersiveテクノロジーの融合による新しいコミュニケーションデザインの可能性 サマリー
    • [WS-2] ゼミ講座概論 いまさら聞けないAI基礎知識 「AI進化の最前線:人工知能(AI)とは?従来型AIから生成AI、AGIまで」Powered by 日本ディープラーニング協会 サマリー

    15:20~15:50

    • [M-4] CMOが考えるAI時代のマーケティング戦略の成功の鍵とは? サマリー
    • [AI-3] リテールAI研究会プレゼンツ:日本のリテーラーの課題とAI革命への道筋 サマリー
    • [WS-3] スペシャルゼミ講座:AIトレンド総復習 グラフと動画で一気に理解する生成AI サマリー

    16:00~16:30

    16:30-17:00

    • [M-6] 「AIとメディアの未来:ブランドセーフティな生成AIコンテンツの可能性と課題」 サマリー
    • [AI-5]生成AI旋風によるゲームチェンジ。企業経営の常識はどう変わるか サマリー
    • [WS- 5] AIデジタル生産性協会 プレゼンツ AI教育コンサルタントが活用法をレクチャー!マーケターが業務で使えるGPTs&ツール事例紹介 サマリー

    17:00 – 17:30

    • [M-7] [クロージングキーノート] 味の素のマーケティング改革における生成AIの活用 サマリー

    18:00 – 20:00【公式ネットワーキングパーティー】

    セッション抜粋紹介

    世界アクセストップ10 Civitaiのプロデューサー初来日!AIは次世代のクリエイティブをどう変革するのか?

    このセッションでは、クリエイティブ産業におけるAIの変革的役割を探ります。AIは人間の創造性を補完し、新たな可能性のためのコラボレーションを促進することができるのか?著作権や偏見といった倫理的な問題にも触れ、責任あるAIの利用を提唱します。AIと人間の創造性が相乗効果を発揮し、イノベーションを生み出す未来を描くには?
    [スピーカー] Matty Shimura (Executive Producer of AI Film and TV, Civitai)
    [M] 三浦 謙太郎(創業者兼 CEO, DouZen, Inc)

    Civitaiのプロデューサー初来日です!

    画像

    Shimura氏は日系のお名前ですが、日本語はわからないそうで、コンピュータ生成による不思議な感覚の音声合成が披露されました。

    最後の部分が非常に印象的でしたので紹介します。
    「どのツールが 長期的に最適な ソリューションになるかは誰 にもわからないと。ツールに関係なくインパクトを 生み出せる ことが今後 ますます 重要になる だろう。その上で、AI が人間の創造性を代替するので はなく、どのように普及できるかを考えてみて欲しい。映画・テレビ・マーケティング キャンペーンなどでは使用されるテクノロジーにかかわらず、その背後には常に優れたアイデアが必要だ。アーティストとなくして芸術 は なく 、人々が共感するこメッセージがなければ、聴衆はいないでしょう。」

    ・米国シリコンバレーから世界アクセストップ10にランクインしている
    ・ギルドと組合を中心としたマーケティングメディア。
    ・特に著作権に関しては。
    ・ギーク・エコノミーではなく、こういった新しいタイプのキャリアで人々が給料を得られているか?
    ・多くのA.I.企業は、雇用がどのように変わるかについて話していますが、実際の解決策を提示していない。
    ・コミュニティ・イニシアチブ、インキュベーター・プログラム、アーティスト・イン・レジデンス・プログラムを通じて、Civitaiは、これらのツールを実際に使って、仕事の流れに適用し、価値を見出すことができるように、人々に資金を提供する方法を証明しようとしている
    ・やろうとしているのは、A Iリソース、ワークフロー、教育、アート処理を作成できるプラットフォームを提供することで、クリエイティブなプロセスを民主化することです。
    ・将来的には、このような難しいスキルの多くはそれほど重要ではなくなり、最高のアイデアを持つ人が最高のアウトプットを出せるようになると思います。
    ・テレビ番組を見る方法や、映画館で映画を見る方法、スマホでソーシャルメディアコンテンツを見る方法など、参入障壁を下げると同時に誰でも素晴らしいストーリーを作れるようになったら、どうなるんでしょうね。
    ・しかし、それはまた、次のレベルを解き放つことができるよう、トップの人たちを後押しするのです。つまり、それがあなたのアイデアであり、ストーリーテリングなのです。

    三浦氏:Matty Shimura氏はアーティスト出身だそうですが、クリエイティブなコミュニティに入ってくる若い人たちや、エグゼクティブの人たちに対して、どんなアドバイスがありますか。

    ・若い人たち、特に今学校で伝統的な映画制作のプロセスを学んでいるクリエイターたちにとっては。授業で学んでいる道具が、毎日、リリースから時代遅れにされているというのは、チャレンジだと思います。そして、紙にペンで書くという技術から、創作という行為、そしてそのプロセスを人間らしくすることができるように、それを再構築しなければならない方法があると思います。そうすれば、より多くの採用につながると思います。

    ・知財保有者であれ、クリエイティブ・エージェンシーであれ、プロダクションのワークフローにA.I.を統合しようと考えている企業のための管理について教えてください。たとえプロダクションで使うつもりがないとしても、投資を始める時期が来ていると思います。ですから、特に変化に対してオープンマインドでいられることだと思います。それが私のおすすめです。

    そして最後にもう一つ、A rvrnft暗号のバブルがありました。しかし、私たちがこの半年ですでに目にした価値は、それがここにとどまり、さらに良くなっていることを示していると思います。ですから、今、統合できることは、私のプレゼンテーションにおいて、将来的に多くの見返りをもたらすでしょう。

    APAC地域だけでなく、欧米全土にローカライズすることで、言葉や文化の障壁のためにリーチできなかった、まったく新しいオーディエンスや市場層にリーチすることができます。

    AICU mediaからの質問:有料プランを導入でどのような判断があったのでしょうか。

    以前は無料の世代がありましたが、今は独自のバズエコノミーがあります。モデルやLoRAなど、すべてのリソースの世代を作るために使えるクレジットは、誰でもこれらのツールにアクセスできるように、無料で提供しています。そして将来的には、みんなが集まり、仕事を共有し、コミュニケーションやコミュニティを持てるような「タウンスクエア」になろうとしています。モデルやツールは無料で利用できるのですね。サブスクリプションについて、人々は何にお金を払っているのでしょうか?これらの画像を作るのに必要な計算能力の生成時間や、電気代などです。

    Day2のレポートに続きます!

  • Stable Diffusion 3 を Google Apps Scriptで利用する

    Stable Diffusion 3 を Google Apps Scriptで利用する

    つくる人をつくる!AICU mediaのしらいはかせです

    先日、APIが先行して公開された Stable Diffusion 3ですが、色々試していたらわりと簡単にコマンドラインでも、Google Apps Scriptでも Stable Diffusion 3のパワフルな画像生成機能を利用できることがわかったので紹介いたします。
    ちょっとした画像を生成するアプリを開発するのに便利です。

    Stability AI の API キーの入手

    まずは Stability AI のプラットフォームでAPIキーを入手しましょう。
    https://platform.stability.ai/

    右上のアカウントアイコンから「API Keys」を確認できます。
    作成したらクリップボードにコピーします。

    0.0065USD=約1円ぐらいです。

    curlコマンドで使う Stable Diffusion 3

    Windowsで標準的にインストールされているコマンドラインツール「curl」を使ってAPIを叩くことができます。まずはこれを使って試してみましょう。

    curl -f -sS "https://api.stability.ai/v2beta/stable-image/generate/sd3" -H "authorization: Bearer sk-????" -H "accept: image/*" -F prompt="Lighthouse on a cliff overlooking the ocean" -F output_format="jpeg" -o "./lighthouse.jpeg"
    
    
    
    
    

    分解して解説するとこんな感じです。
    curl -f -sS “https://api.stability.ai/v2beta/stable-image/generate/sd3→SD3のAPIエンドポイントです。v2betaとあるので変更されるかも?
    -H “authorization: Bearer sk-????” -H “accept: image/*” -F
    →ベアラーのあとの sk-???? のところにAPIキーを貼り付けてください。
    prompt=”Lighthouse on a cliff overlooking the ocean” -F
    →ここがプロンプトです
    output_format=”jpeg” -o “./lighthouse.jpeg”
    →ここが出力ファイル形式です。Webp形式なんかも使えます。

    うまく行かないひとは「Windows cURLインストール」などで調べてみてください。けっこういろんな方法があるのですが、自分の環境ではこんな cURL が動いてました。

    curl — version
    curl 8.4.0 (Windows) libcurl/8.4.0 Schannel WinIDN
    Release-Date: 2023–10–11
    Protocols: dict file ftp ftps http https imap imaps pop3 pop3s smtp smtps telnet tftp
    Features: AsynchDNS HSTS HTTPS-proxy IDN IPv6 Kerberos Largefile NTLM SPNEGO SSL SSPI threadsafe Unicode UnixSockets

    “curl — version”とコマンドラインで打ち込むと表示されます

    Google Apps Script で使う Stable Diffusion 3

    これがうまく行ったら次は、Google Apps Scriptで実装します。
    Google Driveを開いて、新規→その他→Google Apps Scriptで新しいスクリプトを作ります。

    // Stable Diffusion 3 を Google Apps Scriptで利用する|AICU media @AICUai #note https://note.com/aicu/n/ne2fe8a0073b0
    
    const STABILITY_KEY = PropertiesService.getScriptProperties().getProperty("STABILITY_KEY");
    
    function saveImageToDrive() {
      var url = "https://api.stability.ai/v2beta/stable-image/generate/sd3";
      var token = "Bearer "+ STABILITY_KEY; // 本番環境ではセキュリティを考慮して保管してください
      var boundary = "-------314159265358979323846";
      var data = "--" + boundary + "\r\n" +
                 "Content-Disposition: form-data; name=\"prompt\"\r\n\r\n" +
                 "shibuya crossing, animetic, with graffiti 'AICU media'\r\n" +
                 "--" + boundary + "\r\n" +
                 "Content-Disposition: form-data; name=\"output_format\"\r\n\r\n" +
                 "png\r\n" +
                 "--" + boundary + "\r\n" +
                 "Content-Disposition: form-data; name=\"aspect_ratio\"\r\n\r\n" +
                 "16:9\r\n" +
                 "--" + boundary + "--";
    
      var options = {
        "method": "post",
        "contentType": "multipart/form-data; boundary=" + boundary,
        "headers": {
          "Authorization": token,
          "Accept": "image/*"
        },
        "payload": data,
        "muteHttpExceptions": true
      };
    
      var response = UrlFetchApp.fetch(url, options);
      
      if (response.getResponseCode() == 200) {
        var blob = response.getBlob();
        blob.setName("SD3.png");
        var file = DriveApp.createFile(blob);
        Logger.log('Image saved to Drive with ID: ' + file.getId());
      } else {
        Logger.log('Failed to fetch image: ' + response.getResponseCode());
      }
    }

    GitHubにも置いておきます。
    https://github.com/aicuai/GenAI-Steam/blob/main/SD3Text2Img.gs

    このコードは上記の cURL でのリクエストを単純に置き換えたものですが、APIキーをハードコードしたりGitHubに晒したくはないので、スクリプトプロパティに保存しています。

    const STABILITY_KEY = PropertiesService.getScriptProperties().getProperty(“STABILITY_KEY”);

    スクリプトの左側「⚙プロジェクトの設定」からスクリプトプロパティを設定することができます。

    「スクリプトプロパティを追加」ボタンを押して「STABILITY_KEY」というプロパティを追加して、値として、冒頭で取得した「sk-」から始まるAPIキーを貼り付けて「スクリプトプロパティを保存」ボタンを押してコード編集に戻りましょう。

    これでコードにAPIキーを保存しなくてすみますね!
    さて、関数「saveImageToDrive」を実行していきます。

    コードの上部にある「デバッグ」を押すと実行できますが、初回は権限設定と確認が必要です。

    こんな感じの警告が出ますが、自分のGmailの権限でGoogle Driveに画像を生成するだけなので特に害はありません。左下の「SD3(安全ではないページ)に移動」を押して進めます。

    ドライブへの権限を設定したらもう一度デバッグを押して実行します。

    数秒で実行ログに「Image saved to Drive with ID: 1xxxxxx」と表示されたら成功です。Google Driveの「最近使用したアイテム」を見てみてください。

    「SD3.png」が生成されています。

    実行する度に様々な画像が生成されます。
    なお、このスクリプトではプロンプトとアスペクト比を12~17行で設定しています。

    “shibuya crossing, animetic, with graffiti ‘AICU media’\r\n”
    →ここがプロンプトです。ちゃんと文字「AICU media」が描けています。
    “Content-Disposition: form-data; name=”aspect_ratio”\r\n\r\n” + “16:9\r\n”
    →縦横比「16:9」を指定しています。1:1の場合は1024×1024、16:9にした場合は 1344×768 の画像が生成されました。

    APIマニュアルはこちら

    https://platform.stability.ai/docs/api-reference#tag/Generate

    せっかくなので翻訳していきます。

    prompt プロンプト:必須

    文字列 [ 1 … 10000 ] 文字
    出力画像に表示したい内容。要素、色、被写体を明確に定義した、強く説明的なプロンプトがより良い結果を導きます。

    aspect_ratio アスペクト比:文字列

    デフ ォ ル ト : 1:1
    列挙 : 16:9 1:1 21:9 2:3 3:2 4:5 5:4 9:16 9:21
    生成画像のアスペクト比を制御します。

    mode モード:文字列 (生成モード)

    デフォル ト : text-to-image
    「text-to-image」か「image-to-image」(画像パラメータ が必要かどうか)を制御します。

    text-to-image
    このモー ド では、 必須パラメータ は prompt だけです。このモードでは、生成される画像の縦横比を制御するために、aspect_ratioパラメータをオプションで使用することができます。

    image-to-imageモードでは、さらに2つのパラメータを指定する必要があります: image — ランダムノイズの代わりに、生成の開始点として使用されます。 strength — 画像が拡散プロセスに与える影響を制御するために使用されます。また他の指定できるパラメータもかわります。

    negative_prompt 
    文字列 <= 10000文字
    出力画像で見たくないものを説明するテキスト。これは高度な機能です。
    このパラメータは sd3-turbo では動作しません。

    model モデル:文字列
    デフォルト: sd3
    列挙型: sd3 sd3-turbo
    生成に使用するモデル。
    sd3 は生成あたり 6.5 クレジットを必要とします。
    sd3-turbo は1生成あたり4クレジット必要です。
    ★100クレジット=1USDです。だいたい10円ぐらいです。安っ!

    seed シード: 数値 
    [ 0 .. 4294967294 ]。
    デフォルト: 0
    生成の’ランダム性’を導くために使用される特定の値。(このパラメータを省略するか、0を渡すとランダムなシードを使用します)。

    output_format 出力形式 
    文字列
    デ フ ォル ト : png
    列挙型: jpeg png
    生成画像のコンテントタイプを指定します。WebPも使えるようです。

    Image to Image、アップスケール、そしてエディット機能、さらに「Control」と書かれた機能がドキュメントに存在します。

    Stability AI の 画像サービスには、4つのカテゴリがあります。

    生成

    最高のテキスト画像生成サービスです。これらのサービスは、Stability AIが提供する最新のStable Diffusionモデルを活用し、専門家による微調整とマイクロサービスをワークフローに組み込んでいます。その中でも、Stable Image Coreは、迅速なエンジニアリングを必要とせず、多様なスタイルで高品質の画像を得ることができるフラッグシップサービスです。

    アップスケール

    標準的で昔からあるアップスケールから、画像を4Kの傑作に変えるクリエイティブモードまで、クラス最高の画像アップスケールです。中でもCreative Upscaleは、低画質入力からフォトリアリスティックな画像を作成するためのフラッグシップの手法です。

    エディット

    マスク(生成的塗りつぶし)や文字によるインペイントを含む、最も効果的なAIベースの画像編集サービス。背景除去などの基本的なツールだけでなく、商品配置や広告用のニッチなツールも含まれています。

    コントロール(まだ未公開)

    最高の画像から画像へのサービス。プロンプト、マップ、その他のガイドが必要な場合があります。これらのサービスは、ControlNetsやStable Diffusionモデルに基づいて構築された同様の技術を活用しています。

    色んな機能が出てきて楽しみです。
    しかも1生成あたり6~10円となると気軽に使えますね。
    本記事のGoogle Apps Scriptでの活用について、 X(Twitter)@AICUai でご感想いただければ幸いです。色々開発してみたいと思います。

    AICU Inc.は Stability AI 公式パートナーです。
    様々なアプリ開発のご相談も承っております!

    https://corp.aicu.ai/ja/stability-ai

    https://corp.aicu.ai/ja/stability-ai-membership


    Originally published at https://note.com on April 23, 2024.

  • 「生成AIなんでも展示会」がすごかった!!を一気紹介 #生成AIなんでも展示会

    「生成AIなんでも展示会」がすごかった!!を一気紹介 #生成AIなんでも展示会

    2024年4月21日に開催された「生成AIなんでも展示会」での魅力的な展示内容を一気紹介。AIを使った新たな体験、グラフィック制作や、ネットワーク接続が不要なAI Tuber、独自モデル、日本語VLMの展示など、最新の個人による技術が集結したイベントの様子をお届けします。


    2024年4月21日に渋谷ABEMAタワーで開催された「生成AIなんでも展示会」、登録者限定で500人を超える予約者で実施されたこのイベントですが「会場に行きたいけどいけない!」という人も多かったものと想像します。

    「つくる人をつくる」をビジョンに活動するAICUメディアが勝手取材させていただきました。全部を扱えずにすみません。
    (ご迷惑な写真等がございましたら削除いたします X(Twitter)@AICUai までお伝え下さい)

    ★場所や分野に関係なくランダムで紹介させていただきます

    猩々 博士 @Mega_Gorilla_

    作品予告には「言語」って書いてあったけど展示されていたのは動画。

    いや、これすごいですよ、手、服、顔、髪を Segment Anything を使ってレイヤーにして描き直しをしているそうです。

    本当はプロジェクションマッピングで服を着せたかったらしいんですが、電源が足りなかったそうで…。

    新清士 @kiyoshi_shin

    生成AIとLookingGlassPortraitを組み合わせた裸眼立体視

    新さん、最近はゲーム作ってるんだそうです。

    とよふく @Yeq6X

    イラスト添削AI

    AIによる漫画生成

    すごい好きな漫画の作者に会えました

    開発工程

    AIキャラクターで使える自然な音声合成

    Nanase Watanabe @nanase_ja

    その他 AIを用いたキャラクター、アニメ、PV
    これすごかったんだけど、すごいガチなお話されている方がいて近づけなかった…(小心者)

    ローカルAIや複数LLM統合型AIキャラのデモ(めぐ&さくら)

    ここはガチなハードウェア実装とキャラクターUXが融合していて本当にすごい。

    ガチな紙コップスピーカーとアンプ。

    Ubuntu Desktopで高速に動くコンソールとデモ画面

    RTX A6000 (68万円)が剥き晒しの筐体で組まれているのかっこいい

    フロントの実装もしっかり。しかもネットワーク不要と見た。
    これで次世代カーナビ作れるじゃん・・・

    高解像度画像が入力可能な日本語LVLM

    高性能な日本語VLMを展示されておりました

    VLMについて解説した過去記事はこちら

    期間限定のデモもあります!

    眞泥魚太 @ MudddyWWater

    までぃうぉーたさん
    生成AIを用いたグラフィック制作とワークフロー

    Stable Diffusion Web UIのDynamic Prompts→Photoshop・クリスタ→Krita AI Diffusion→クリスタ・Photoshopというフローだそうです。

    #SD黄色本 もご購入いただいたそうで、ありがとうございます!

    直接取材できなかったみなさま

    混みすぎていてきちんと取材したくても難しかった方々など!

    ネットで見かけた感想

    業界の有名人も!

    みょーすけさん、シェイン・グウさん、ショーティーさん、しらいはかせ

    Stability AIのJerry Chiさんもいらっしゃいました

    主催のひとり、さるどらさん

    関係者の皆様お疲れ様でした!

    事後報告編はこちら

    https://note.com/aicu/n/n44ad7b02f175


    Originally published at https://note.com on April 21, 2024.

  • AIと作るWeb体験「Create.XYZ」 今すぐ始めるインタラクティブなサイト開発

    AIと作るWeb体験「Create.XYZ」 今すぐ始めるインタラクティブなサイト開発

    プロンプトからサイトが作れる!?話題の「Create.xyz」を使ってみた!

    さいきん話題の「Create.xyz」というサービスをご存じですか?

    Web サイト開発に関わる様々な AI 技術を提供しており、ノーコード Web 開発、Web サイトの情報の収集、ダッシュボード、LP 、サインインページの開発などがとても手軽に行える柔軟性の高いサービスとなっています。

    今回は、様々なことができる Create.xyz の中から、基本的なレビューと「プロンプトを入力するだけでWeb サイトを作る機能」を実際に試してご紹介します!

    料金プラン

    気になる使用料金ですが、2024年4月13日現在では、無料で生成、20プロジェクトまでの保存が可能です。試しに何か数個プロジェクトを作るぐらいなら無料でできてしまいます。

    プロプラン(月額19ドル)API を利用したり、ChatGPT 以外の強力なテキスト生成 AIモデルや、強力なエディター機能が利用できます。

    使っている人のお話を聞く限りでは「Web制作を生業としてらっしゃる方ならしばらくPro版で評価してみて良いかも」とのことでした。

    サイトを生成してみる

    それでは、実際にサイトを作ってみましょう。
    まず、マイページから「New Project」を選択し、新たなプロジェクトを作りましょう。

    そして「New Component」を選択します。これで準備は終了です。

    ここからの手順はとても簡単で、作って欲しいサイトの説明をテキストで入力し、生成するだけです。

    サイトを生成するウィンドウの右の欄にプロンプトを入力します。

    今回は、「 『AICU』という大きな虹色のテキストと『create people who create』という文字を表示して、カラフルな線をつけて、背景を暗くする 」というような内容をリクエストしました。

    プロンプトを入力したら、右下の青い「Generate」ボタンを押して生成を開始します。
    すると数秒でサイトが完成します!

    「Generate」やその隣の回る矢印アイコンを選択することで、何度も同じプロンプトで生成することができます。
    生成回数は無制限なので、何度も生成してみましょう!

    またウィンドウ上部のメニューで、PC、スマホの表示を切り替えることもできます。

    また、ウィンドウ上部メニューから <> を選択することで、生成されたサイトの React のコードを確認、コピペすることができます。

    プロンプトからビジュアル制作、コーディングまでできるのはとても便利ですね!

    細部を再生成する

    また文字などを選択し、「Convert to Component」を選択すると、その部分のみのプロンプトを編集し、生成しなおすことができます。

    試しに、文字を「AICU media」に変更してみます。

    スタイルをそのままに、表示されている文字を変更することができました!
    これをルールベースのフォーム入力などではなくプロンプトで行っているのがすごいですね。

    以上、プロンプトから Web サイトが製作可能な Web 開発ツール「Create.xyz」の紹介でした。

    ぜひプロジェクトの Web サイト制作や、最新技術の体験に試してみてください!

  • AUTOMATIC1111 v1.9.0リリース

    AUTOMATIC1111 v1.9.0リリース

    2024年4月13日、シンプルな UI で幅広く使われるオープンソース画像生成WebUI「AUTOMATIC1111/Stable Diffusion WebUI」の最新版v1.9.0 がリリースされました。

    主要なリリース日本語訳

    • サンプリングステップではなく、モデルのタイムステップに基づいてリファイナーを切り替えるようにした。
    • ツリービューの代わりに古いスタイルのディレクトリビューを表示するオプションを追加した。
    • コールバックの順序を変更するためのUIを追加し、拡張メタデータでコールバックの順序を指定できるようにした。
    • SDXL-Lightningモデル用のSgm統一スケジューラを整備した。
    • メインUIでのスケジューラ選択をできるようにした。
    • “open images directory “ボタンが実際のディレクトリを開くようにした。

    詳細リリース&修正 日本語訳

    • LyCORIS BOFTネットワークの推論をサポート
    • 追加ネットワークカードの説明をデフォルトでプレーンテキストに
    • 追加ネットワークのハンドルのサイズを変更
    • cmd args: と ( — unix-filenames-sanitization — filenames-max-length)
    • 余分なネットワークのパラメータを生のJSONではなくHTMLテーブルで表示するようにしました
    • LoRA/LHA/LoKrに対するDoRA(weight-decompose)のサポートを追加
    • 最終世代のプロンプト履歴を無効にするコマンド引数’ — no-prompt-history’を追加
    • 置換プレビューのプレビューを更新
    • エクステンションのアクティブなgitブランチの更新のみを取得するようにした
    • アップスケールの後処理UIをアコーディオンにした
    • URLをドラッグドロップしてインフォテキストを読み込めるようにした
    • キャッシュにdiskcacheライブラリを使用
    • エクストラタブでPNG-RGBAを使用可能に
    • safetensorsメタデータに埋め込まれたカバー画像をサポート
    • NNアップスケール使用時の割り込みを高速化
    • エクストラアップスケーラー: 出力画像の最大辺の長さを制限する入力フィールドを追加
    • Extrasタブにポストプロセッシングオプションを非表示にするオプションを追加。

    API関係リリース日本語訳

    • ResizeHandleRow — 列のスケールパラメータをオーバーライド可能に
    • script_callbacks.ui_settings_callbackをより早く呼び出すようにした。extra-options-section組み込みの拡張機能で、存在しない設定を使用した場合にuiが強制終了するのを修正。
    • zoom.jsをwebuiのコンテキスト外で使用できるようにしました。
    • metadata.iniで拡張機能名のバリアントを許可するようにした
    • UIスクリプトのリロードをオプションにし、デフォルトではオフにする。
    • txt2imgと同様に、img2img関数の最初にrequest: gr.Requestを追加。
    • utilとしてのopen_folder
    • 拡張機能のスクリプトファイルをインポートできるようにした (import scripts.<ファイル名>)

    AUTOMATIC1111ユーザー分析

    最近は、Stable Diffusion を使用している人の中で ComfyUI や Fooocus といった Web UI も広く使われてきていますが、A1111 も多くのユーザーに愛されています。

    あわせて Stability Matrix も自動アップデート対応

    原稿執筆時点の最新版 Stability Matrix v.2.10.1においても自動アップデートで対応済みでした。

    A1111の下部にこのように表示されています。

    目立ったUI変更はなさそうです。

    サンプリングステップではなく、モデルのタイムステップに基づいてリファイナーを切り替える点とSDXLのスケジューラーは画作りに微妙な影響がありそうです。
    📁ボタンによって画像保存先が開けるようになったのは嬉しいですね。

    AUTOMATIC1111 で画像生成を学ぶ、Stable Diffusion 解説書はこちら!


    Originally published at https://note.com on April 19, 2024.

  • Adobe Premiereにサードパーティモデルの生成AIが登場

    Adobe Premiereにサードパーティモデルの生成AIが登場

    Photoshop、Illustrator、Webで生成AIソリューション「Adobe Firefly」を展開している米Adobeが新たな動画編集ソリューションを公開しました。

    公式ティザー動画のナレーション全文翻訳をお送りします

    Generative AI in Premiere Pro powered by Adobe Firefly

    アドビはジェネレーティブAIの力を使って、Premiere Pro史上最も先進的で正確な編集ツールを提供します。編集者の作業方法を変える、新しいAdobe Fireflyビデオモデルを搭載した近日公開予定の機能を見てみましょう。

    ショット内で追加、もしくは置換する必要があるものを見つけたら、クリックしてオブジェクトの追加機能とAdobe Fireflyのビデオモデルを組み合わせると、テキストプロンプトでオブジェクトの追加や変更ができます。

    選択範囲を作って、プロンプトを書いて、想像できるものすべてを追加します。

    このダイヤモンドは現在開発中であるFireFlyビデオモデルによって作成されています。

    オブジェクトの追加だけでなく、オブジェクトの削除も簡単に行えます。

    AIベースのスマートマスキングを使用したオブジェクトの削除では、フレームをまたいだオブジェクトの選択と削除をすばやく正確に行うことができます。

    ここではこの邪魔なユーティリティボックスが FireFlyによって削除されます。

    不要な小道具、スタッフ、ギア、ブランドロゴなどのコピーライトで保護された要素を削除します。

    また、Premiere Proでは、すべての編集が非破壊で行われるため、クリップが短すぎて、ショットやキャラクターをほんの少し追加したい場合にも、いつでも元の映像に戻すことができます。

    ジェネレーティブな拡張は、Fireflyを使ってフレームをインテリジェントに追加します。

    女性のショットを数フレーム拡張したいとき…こんなふうにフッテージを生成して追加することができます。

    このようなFireflyを利用したビデオ編集ワークフローを2024年後半にPremiere Proに導入できることが待ち遠しいです。

    私達はコンテンツ認証情報とモデルの透明性についても取り組んでいます。メディアの作成にAIが使われているかどうかを常に知ることができます。Fireflyを活用したビデオ編集ワークフローをPremiere Proに導入するのが待ちきれません。

    そして…!Adobe と サードパーティモデル

    さらに、制作者が映像に最適なモデルを使用する選択肢を提供出来るようにするための探求を共有できることを嬉しく思います。

    これは生成拡張機能を強化する初期の例です。サードパーティの生成モデル「Pika」、このモデルがPremiere Pro内でどのように見えるのか、紹介します。

    OpenAIの初期研究中のモデル「Sora」は、シンプルなテキストプロンプトを通して、あらゆるシーンのB-Rollを生成します。

    ★「 B-Roll」とはメインショットにインターカットされる補足または代替のフッテージ。転じて動画素材をまとめた映像資料のこと。

    Runway aiのビデオモデルを使用して、新しいビデオクリップを生成し、タイムラインに簡単に追加することができます。

    タイムラインに入れて瞬時に追加するだけ。

    今年Premiere Proに追加されるコンテンツ認証情報により、AIが使用されたかどうか、メディアの作成に遠ようなモデルが使用されたかが常に透明になります。

    また、新しいAdobe Fireflyビデオモデルによるオブジェクトの追加削除やジェネレーティブ拡張などの画期的な機能がPremiere Proに搭載される予定です。

    編集者がプロジェクトに最適なモデルを自由に使用できるように、Open AI、RunwayとPikaの友人たちとの初期のリサーチエクスプローラーを紹介できることに興奮しています。Adobe Premiere ProがAIでパワーアップ!

    Originally published at https://note.com on April 16, 2024.

  • ゲーム「GTA5」使って未来の自動運転車の安全を鍛える研究FAMix #CVPR2024

    ゲーム「GTA5」使って未来の自動運転車の安全を鍛える研究FAMix #CVPR2024

    世界中のコンピュータビジョンとパターン認識の最先端の論文が集まる国際会議「CVPR2024」採択論文が公開されました。
    https://cvpr.thecvf.com/Conferences/2024/AcceptedPapers

    採択論文の中に「FAMix」という自動運転車のためのコンピュータビジョン研究で、興味深い論文があったので しらいはかせさん(X@o_ob)が 紹介します。

    🍴 FAMix 🍴

    A Simple Recipe for Language-guided Domain Generalized Segmentation
    (FAMix: 言語ガイド付きドメイン一般化セグメンテーションのためのシンプルなレシピ)

    モハマド・ファヘス、トゥアン・フン・ヴー、アンドレイ・ブルスク、パトリック・ペレス、ラウル・ド・シャレット – Inria, パリ, フランス valeo.ai, パリ, フランス

    INRIAはフランスの国立情報学研究所です https://www.inria.fr/en

    Valeo.ai は自動車アプリケーション向けの人工知能研究センター

    Mohammad Fahes さんによる研究

    Mohammad Fahes さんは Inriaとvaleo.aiの共同グループであるAstra-visionの博士課程2年生です。現在、Raoul de Charette、Tuan-Hung Vu、Andrei Bursuc、Patrick Pérezの指導の下、様々な条件下におけるラベルとデータ効率の良い2Dシーン理解について研究しています。ENS Paris-Saclayで数学、視覚、学習の修士号、Mines Parisで工学の学位、レバノン大学で機械工学の学位を取得。

    https://mfahes.github.io

    YouTube動画におけるFAMixの定性的結果


    プロジェクトページ: https://astra-vision.github.io/FAMix/

    トレーニング中に見られなかった新しいドメインへの汎化は、実世界のアプリケーションにニューラルネットワークを導入する際の長年の目標であり課題の1つである。既存の汎化技術では、外部データセットから得られる可能性のある大幅なデータ増強が必要であり、様々なアライメント制約を課すことで不変な表現を学習することを目指している。最近、大規模な事前学習が、異なるモダリティを橋渡しする可能性とともに、有望な汎化能力を示している。例えば、CLIPのような視覚言語モデルの最近の出現は、視覚モデルがテキストモダリティを利用する道を開いた。本稿では、ランダム化の源として言語を用いることで、セマンティック・セグメンテーション・ネットワークを一般化するためのシンプルなフレームワークを紹介する。すなわち、i) 最小限の微調整によるCLIP本来のロバスト性の維持、ii) 言語駆動型の局所的スタイル拡張、iii) 学習中にソーススタイルと拡張スタイルを局所的に混合することによるランダム化、である。広範な実験により、様々な汎化ベンチマークにおける最先端の結果が報告されています。コードは公開予定。

    https://astra-vision.github.io/FAMix/

    公開されているコードによると

    19都市のパノラマ画像「ACDC」データセット、カリフォルニア大学バークレー校のAIラボ(BAIR)が公開する運転中の動画データセット「BDD100K」 (BDD100K: A Large-scale Diverse Driving Video Database)、ピクセルレベル、インスタンスレベル、汎視野的セマンティックラベリングのための「The Cityscapes Dataset」(高画質アノテーション付き画像5,000枚 – 粗いアノテーション付き画像20,000枚 – 50の異なる都市)、世界中のストリートシーンを理解するための、ピクセル精度とインスタンス固有のヒューマンアノテーションを備えた、多様なストリートレベルの画像データセット「Mapillary Vistas Dataset」、これは25 FPSで生成されたビデオストリームで空、建物、道路、歩道、フェンス、植生、電柱、車、交通標識、歩行者、自転車、車線、信号、セグメンテーション、2Dバウンディングボックス、3Dバウンディングボックス、奥行き情報が含まれるアクティブ・ラーニング用のデータセット「SYNTHIA」そして、GTA5(グランセフトオート)を使った事前学習で、YouTubeの未知の走行動画でのパリ、ベイルート、ニューデリー、ヒューストン、つまり実際に行ったことがない都市でのセグメンテーション(領域分割)が機能しています。

    https://www.youtube.com/watch?v=vyjtvx2El9Q

    なお、グランドセフトオート(GTA5)を使った学習手法は、2016年にECCV2016(European Conference on Computer Vision)において提案されていました。49時間にわたる収録を手作業によりラベル付けを行っています。

    https://www.youtube.com/watch?v=JGAIfWG2MQQ

    2016年にドイツのダルムシュタット工科大学とインテルラボの科学者によって開発された「Playing for Data: Ground Truth from Computer Games」という研究で、「Grand Theft Auto V」のオープンワールドでのプレイ時の視覚情報をデータセットとして利用しています。

    Playing for Data: Ground Truth from Computer Games

    http://download.visinf.tu-darmstadt.de/data/from_games/index.html

    最近のコンピュータビジョンの進歩は、大規模なデータセットで学習された大容量モデルによって牽引されている。しかし残念ながら、ピクセルレベルのラベルを持つ大規模なデータセットを作成することは、人間の労力を必要とするため、非常にコストがかかる。本稿では、最新のコンピュータゲームから抽出された画像に対して、ピクセル精度の意味ラベルマップを高速に作成するアプローチを紹介する。商用ゲームのソースコードや内部動作にはアクセスできないが、ゲームとグラフィックスハードウェア間の通信から画像パッチ間の関連付けを再構築できることを示す。これにより、ソースコードやコンテンツにアクセスすることなく、ゲームによって合成された画像内および画像間で意味ラベルを迅速に伝播することが可能となる。我々は、フォトリアリスティックなオープンワールドコンピュータゲームによって合成された25,000枚の画像に対して、高密度のピクセルレベルの意味的注釈を生成することによって、本アプローチを検証する。セマンティックセグメンテーションのデータセットを用いた実験では、実世界の画像を補完するために取得したデータを用いることで精度が大幅に向上すること、また、取得したデータを用いることで、手作業でラベル付けした実世界のデータ量を削減できることが示された:ゲームデータとCamVid学習セットのわずか1/3で学習したモデルは、CamVid学習セット全体で学習したモデルよりも優れている。

    データ データセットは、便宜上10分割された24966の高密度にラベル付けされたフレームで構成されている。クラスラベルはCamVidとCityScapesデータセットと互換性がある。ラベルマップを読み込むためのサンプルコードと、トレーニング/検証/テストセットへの分割をここに提供します。ラベルマップの小さなセット(60フレーム)は、対応する画像と解像度が異なることに注意してください(Dequan Wang氏とHoang An Le氏の指摘に感謝します)。また、このデータは研究・教育目的にのみ使用されることに注意してください。

    さてプロジェクト「FAMix」(公開された論文タイトルは:ASimple Recipe for Language-guided Domain Generalized Segmentation/言語ガイド付きドメイン汎化セグメンテーションの簡単なレシピ)はセマンティックセグメンテーションのためのドメイン汎化(DGSS)をシンプルな材料の組み合わせによるDGSSの効果的なレシピとして提案しています。上記で紹介したデータセットに加え、Stable Diffusionの内部でも使われている言語と画像のマルチモーダル基盤モデル「CLIP」を使用し、最小限の微調整によるCLIP本来のロバスト性の維持、ii) 言語駆動型の局所的スタイル拡張、iii) 学習中にソーススタイルと拡張スタイルを局所的に混合することによるランダム化、そしてImageNetとの比較も行っています。分類、領域分割といったタスクに状況説明のような言語での説明ができることが新たな安全性を生み出す可能性もありますね。

    Valeo.aiのWebサイトにはこのような例が挙げられています。

    不確実性の推定:予期せぬ事態が発生した場合、天候が悪化した場合、センサーが遮断された場合、乗船した知覚システムは状況を診断し、代替システムや人間のドライバーを呼び出すなど、適宜対応する必要があります。このことを念頭に置き、システムの不確実性を評価し、その性能を予測する自動的な方法を研究しています。

    GTA5自体も2013年(11年前)にリリースされた「悪に憧れる全ての人」に向けた爽快なオープンワールドクライムアクションですが、コンピュータビジョンの世界は、舞台となるリアルに描き起こされたアメリカ西部の海岸地帯「ロス・サントス」での自動車強盗だけでなく、未来の実世界の安全走行に寄与しているのがおもしろいですね。

    「つくる人をつくる・わかるAIをつたえる」AICU mediaは学術論文の解説記事を募集しています。

    寄稿された方にはAmazonギフト券ほか薄謝を進呈いたします。
    詳しくはX(Twitter)@AICUai までDMにて御御相談ください。

  • 2024年3月の 好アクセスランキング #AICU_media

    2024年3月の 好アクセスランキング #AICU_media

    AICU media AI社員の「koto」です。

    2024年3月のAICU media noteでの好アクセスランキングを紹介します。

    第5位以降

    VRoid Studio を使ってキャラクター LoRA を作ろう!
    https://note.com/aicu/n/nba8393a4816e

    イーロン・マスク xAIによる「Grok-1」リリース!明らかに重すぎる重みが重い
    https://note.com/aicu/n/n66144f2997ad

    img2img入門(1) i2iでできることを知ろう
    https://note.com/aicu/n/n08ebe0637a41

    日本人が開発した「Regional Prompter」がなかなかすごい!
    https://note.com/aicu/n/n832941df99c5

    最先端の画像生成AIを深掘りする教科書決定版『画像生成AI Stable Diffusion スタートガイド』3月29日発売 #SD黄色本
    https://note.com/aicu/n/n92682a415d6c

    カリオストロラボ・Animagine XL 3.0 リリースノート日本語翻訳(訳注あり)
    https://note.com/aicu/n/nd05f3a656dd8

    SDXLでのネガティブプロンプト大実験!! AUTOMATIC1111「Textual Inversion」でのembeddingを学ぶ
    https://note.com/aicu/n/n1ebba31e4514

    第5位:写真が簡単に動かせる!Stable Video Diffusionを試してみよう

    https://note.com/aicu/n/n00d9086856c9

    第4位

    AUTOMATIC1111 v1.8.0リリース
    2024年3月2日

    https://note.com/aicu/n/n62f757a2fff8

    第3位


    Stability Matrixがv2.9.0にアップデート:StableSwarmUIとForgeが登場!(1)動画生成があっという間! 2024年3月4日

    https://note.com/aicu/n/n1e3ed147e586

    第2位


    ANIMAGINE XL 3.0 画風が変わる!おすすめプロンプト集 2024年3月9日

    https://note.com/aicu/n/n44085d702617

    そして映えある第1位!


    [保存版] Animagine XL 3.1 生成比較レポート 2024年3月20日

    https://note.com/aicu/n/n70122ef250d9

    月末に公開した有料記事なのにすごい反響です。

    読んでくれた皆さん、スキをしてくれたみなさんもありがとうございました。励まされます!

    カバーアート企画も発表

    今月はじまった、カバーアート企画の結果を発表します!

    作品は はねごろうさん

    採用作品には謝礼をお送りしております

    5月カバーアートの応募および応募規約はこちらのメンバーシップ掲示板から!
    https://note.com/aicu/membership/boards


    Originally published at https://note.com on April 2, 2024.

  • GPUなしでもできる「A1111」広告ビジュアル制作(2) – 品質向上プロンプト

    GPUなしでもできる「A1111」広告ビジュアル制作(2) – 品質向上プロンプト

    前半のおさらい

    前回の記事「広告制作チュートリアルで学ぶ!画像生成AIはじめの一歩 前編」では、A1111 を Colab で立ち上げて画像を生成する方法と、クオリティプロンプトと画像サイズを調整しハイクオリティな画像を生成する方法を学びました。

    今回の後半では、広告として機能する画像を生成する方法や編集、モデルや LoRA を変更しもっと柔軟に画像を生成する方法について解説します。

    前半+後半の内容に加え、もっと詳しい解説や画像生成の重要なポイントが学べる書籍の試し読みはこちらから!→https://j.aicu.ai/SBXL

    広告に適したハイクオリティな画像を生成しよう

    前回の記事では、クオリティプロンプトを使うことで画像のクオリティを大きく変えることができることを学びました。

    プロンプト「1girl」

    プロンプト「masterpiece, best quality, high quality, ultra detailed,1girl」

    ネガティブプロンプト「worst quality, low quality, bad anatomy, bad hands」

    広告写真としてのメッセージをプロンプト化

    つまり広告写真としてのフォトグラファーとしてのメッセージをプロンプトとモデルとの対話で実現する経験をしてみましょう。

    これに加え今回の記事では、いくつかテーマを決め、それぞれの広告として適した雰囲気の画像を生成できるプロンプトを探っていきます。

    ここでは例として、

    ・おしゃれな高級レストラン
    ・飲料とドラマ
    ・大人の女性向けの口紅
    ・若い女性向けのポップな眼鏡

    以上の広告表現に挑戦し、プロンプトとモデルでの表現を深掘りしてみます。

    重厚感のある画像を生成する

    先ほどのテーマのうち、

    ・おしゃれな高級レストラン
    ・飲料とドラマ
    ・大人の女性向けの口紅

    このテーマの広告は大人をターゲットにした広告なので、メインビジュアルには重厚感のあるビジュアルが必要です。重厚感を演出するうえで大切な要素のひとつは、人物や被写体のライティングでしょう。まずはライティングを指定するプロンプトを指定してみます。

    具体的なプロンプトの例としては、

    ・cinematic lighting
    ・professional lighting
    ・(天候、時間帯)lighting

    が挙げられます。

    「口紅の広告のメインビジュアル」を想定して、これらのプロンプトを指定したものと指定していないもので比較してみましょう。

    プロンプト「masterpiece, best quality, face focus,1girl, lip, red lip, white skin」(ライティング指定なし)
    ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

    プロンプト「masterpiece, best quality,cinematic lighting, professional lighting, face focus,1girl, lip, red lip, white skin」
    ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

    モデルや全体的な雰囲気の深み、重厚感や瑞々しさが全く違うことがわかるでしょうか。

    またここに「intricate composition」(直訳すると『複雑な構図』)を追加すると、さらにリアルな質感を演出することができます。これは AICU media 編集部の知山が ChatGPT にプロンプトを考えてもらっている時に発見したプロンプトなので、他には出回っていないレア情報だと思われます。皆さんぜひ試してみてください!

    肌の質感が深まりましたね!

    この調子で、おしゃれな高級レストラン、缶ビールもライティングを指定して生成してみましょう。またプロンプトを書くときは、クオリティプロンプト→ライティング、雰囲気→人物、被写体→背景の順に書くとバランスがとりやすいです。

    高級レストラン

    プロンプト「masterpiece, best quality,cinematic lighting,professional lighting, intricate composition, face focus,1girl, dinner, pink lip, dinner,wine,smiling, black formal dress,long sleeves,sophisticated restaurant」
    ネガティブプロンプト「worst quality, best quality, nomal quality, bad anatomy, bad hands」

    飲料とドラマ

    プロンプト「masterpiece, best quality, cinematic lighting, professional lighting, intricate composition, face focus,1girl, drinking beer, can, at home, night」
    ネガティブプロンプト「worst quality, best quality, normal quality, bad anatomy, bad hands」

    深みのある大人っぽい画像が生成できました!

    深みのある大人っぽい画像が生成できました!
    口元が気に入らないときは、image to image (img2img)でインペイントします。ついでにビールではなくジュースに置き換えてみます。

    「人生の酸っぱさ、味わってる?」

    ポップな雰囲気を出す

    次に先ほどとは一風変わって、ポップでカジュアルな雰囲気の画像を生成してみましょう。テーマは「若い女性向けの眼鏡」です。

    今回は3人の女の子を生成してみます。

    「cinematic lighting, intricate composition」を今回も入れつつも、様々な色の小物や髪色を指定することで、深みを出しつつもポップな色が目立つように仕上げていきます。

    複雑なプロンプトになりましたが、ここまできた皆さんなら読み解けるはず!

    プロンプト「masterpiece, best quality, cinematic lighting, intricate composition, looking at viewer, 2girls, kissing cheek, whispering, index finger to index finger raised, looking at another, earrings, short blonde hair, eyewear, purple beret , summer muffler, green brown contact lens,  catch light on the eyes, pink lips, indigo fingernails, <BREAK>looking at viewer, earrings, indigo short bob cut, round glasses, pink beret , blue brown contact lens,  catch light on the eyes, pink lips, indigo fingernails」

    また「BREAK」という大文字の単語を挿入することで、それ以前のトークンというプロンプトのまとまりを打ち切ることができ、BREAK以降のプロンプトが反映されやすくなります。詳しくは2024年3月に発売開始している書籍「画像生成 AI Stable Diffusion スタートガイド」で学ぶことができます。レベルアップしたい方は要チェックです!

    また今回の記事ではイアウト要素については扱いませんでしたが、領域分割については「Regional Prompter」などを使うとよいでしょう。

    https://corp.aicu.ai/ja/regional-prompter

    画像を編集し、広告にしよう

    ここまで画像が生成できたら、あとは文字を挿入して広告にすれば完成です!

    Photoshop などの画像編集ツールで画像の位置などを調節したり、文字を配置したりしてみましょう。

    画像生成AIを使って、広告をつくることができました!
    趣味や仕事での掲示物、実際の広告の案出しなど、様々な場面で応用し、周りと差をつけてみてはいかがでしょうか。

    まとめ

    以上、GPUなしでもできる画像生成AI Stable Diffusion 「AUTOMATIC1111 WebUI」のはじめかたについて紹介しました。

    より深めていきたい方々には3月29日に発売されたばかりの書籍「画像生成AI Stable Diffusion スタートガイド」がおすすめです。今回の記事で解説しきれなかったモデルの変更や LoRA、様々なパラメータの解説や微調整が可能になる書籍です。ぜひ試し読みしてみてください!https://j.aicu.ai/SBXL

    img2imgの解説記事はこちら
    ControlNetの解説記事はこちら

    最新情報はAICU Inc. のX(Twitter)@AICUai をご参照ください。次回をお楽しみに

    映像・広告クリエイティブ業界の公式認定講習会・教育関係者向けの団体講習会のお問い合わせはこちらから

    https://corp.aicu.ai/workshop