タグ: Flux

  • xAIが「Grok」で画像生成モデル「Aurora」をリリース。もう使えるの?実験で証明しつつ最近の高品質画像生成を日本語で比較してみた!

    旧Twitterなどを運営する X Corp.グループの xAI社 (x.ai) は2024年12月9日、Grok の機能をアップデートし、𝕏 プラットフォームで利用可能な、コードネーム「Aurora」と呼ばれる新しい自己回帰画像生成モデルを同社の対話型AIサービス「Grok」に搭載しました。

    画像

    https://x.ai/blog/grok-image-generation-release

    「Aurora」は、テキストと画像データを交互に配置したデータから次のトークンを予測するようにトレーニングされた、自己回帰型の Mixture-of-Experts ネットワークになっているとのこと。何十億ものインターネット上の例でモデルをトレーニングしたため、世界を深く理解しています。その結果、写真のようにリアルなレンダリングとテキストによる指示への正確な追従に優れているだけでなく、テキスト以外にも、マルチモーダル入力のネイティブサポートも備えている設計であり、ユーザーが提供した画像からインスピレーションを得たり、直接編集したりできます。

    Grok の新しい機能は、一部の国で 𝕏 プラットフォームで利用できるようになり、1 週間以内にすべてのユーザーに展開される予定とのことです。

    画像生成

    Grok は、他の画像生成モデルが苦労するいくつかの分野で高品質の画像を生成できるようになりました。実世界のエンティティ(実体)、テキスト、ロゴの正確な視覚的詳細をレンダリングし、人間のリアルなポートレートを作成できます。

    <画像のサンプルについては文末で紹介します>

    エンティティ生成

    プロンプト: オーロラの下のサイバートラック(Cybertruck under an aurora)

    画像
    [Grok、Imagen 3、Flux.1 Pro、Ideogram 2.0、DALL-E 3 の生成結果比較]

    まだ発売されて間もないTesla社の「Cybertruck」ですが、Grokにより見事にオーロラの下で生成されています。Google Deepmindの「Imagen 3」とIdegoramによる「Ideogram 2.0」は、かろうじてそれらしいトラックを生成していますが、「Flux.1 Pro」は従来型のトレーラー、「Dall-E 3」に至っては「生成できません」という表示になっています。

    アーティスティックなテキスト

    プロンプト:「Grok」と綴る銀河の星(Stars in a galaxy spelling “Grok”)

    画像

    同様に、星として描けているのは Grok, Imagen 3, Ideogram 2.0であり、Dall-E 3とFlux.1 Proはイラスト調になっています。

    ミーム生成

    プロンプト:Anime Pepe

    「Pepe」とはMatt Furie氏による世界的なインターネットミームです。

    https://en.wikipedia.org/wiki/Pepe_the_Frog

    画像

    非常に抽象的で難しいお題だと思います。Flux.1 Proにとっては難しかったようです。

    リアルなポートレート

    プロンプト:濡れた虹色の髪とネオンブルーのレインコートを着た男性が、激しい雨の中、街の通りに立っています(A man with wet rainbow hair and a neon blue raincoat standing in heavy rain on the city street)

    画像

    著名人

    プロンプト:イーロン・マスクが xAI ジャケットを着て、背景にアメリカ国旗を掲げている(Elon Musk wearing an xAI jacket with a USA flag in the background)

    画像

    Imagen 3、Dall-E 3にとっては苦手なお題かもしれませんね。Grokのヒゲの描写が素晴らしいです。

    画像編集

    Grokの新しい画像生成モデルは、画像を入力として受け取ることができるようです。この機能は、今後 𝕏 プラットフォームのユーザーにリリースされる予定とのこと。

    プロンプト: 猫をアニメスタイルにする(Make the cat anime style)

    画像

    プロンプト:カウボーイハットを追加する(Add a cowboy hat)

    画像

    プロンプト:金髪にする(Make him blonde)

    画像

    プロンプト:雪模様にする(Make it snowy)

    画像

    AICU編集部による日本語での画像生成実験

    公式リリースだけで記事を書いてはAICUらしくありませんので、手を動かして評価してみます。あえて日本語でプロンプトを与えてみます。

    Grok2(内部は不明)

    ※「Grok 2 new」と表記されていますが、Auroraであるかどうかは現時点では判定が難しい状態です。

    画像

    プロンプト:メタル調の画像がほしい「MASTER GUIDE」

    画像

    たしかに日本語で一発でこのクオリティが生成できるのは素晴らしいですね。右下に「GROK」のロゴが入ります。

    画像

    プロンプトを英語にしてみました。

    画像

    ボイラープレートというよりは、モダンな感じになってしまった感じはあります。
    日本語の文字生成も試してみます。

    画像

    Ideogram 2.0

    回数制限は多いのですが、実は無料で使えるサービスとして Ideogram 2.0は優秀であるといえます。

    画像
    metallic boiler plate of “MASTER GUIDE” (Ideogram 2.0)

    日本語プロンプト:メタル調の画像がほしい「MASTER GUIDE」

    画像

    Imagen 3

    Imagen 3はGeminiのインタフェースから利用できます。

    https://gemini.google.com

    画像

    日本語でもきちんと生成できているのは印象的です。
    英語のプロンプトにしてみます。

    画像
    画像

    Flux1.1 pro ultra

    Flux.1.1 pro ultraをFal経由で実験しています
    https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra

    プロンプト:メタル調の「MASTER GUIDE」ボイラープレート(銘板)

    画像

    プロンプト:metallic boiler plate of “MASTER GUIDE”

    画像

    錆などの表現はできていますが、文字のフォントそのものの表現は、他のモデルに比べると見劣りし始めているかもしれません。

    Dall-E 3

    ChatGPT 4o(有料版)にて生成してみます。

    プロンプト「画像の作成:メタル調の「MASTER GUIDE」ボイラープレート(銘板)」

    画像

    英語のほうが確実のようです。

    画像

    よく見ると文字に間違いがありますね。

    2024年12月時点の総合評価

    上記の実験を「文字描写力」「日本語解釈」それから「真贋性情報」を加えて星取表で表現してみました。

    画像

    エンティティの生成能力や表現能力や、アニメなどの画風での表現力では差を評価しづらい点もありますので、あくまで文字描写力と日本語ユーザーとしての日本語解釈(日本語を描写できるモデルはこの中では存在していません)として評価すると、総合評価ではたしかにGrok2(Aurora)が高い評価となります。特に「Flux1.1 pro ultra」やStability AIの「Stable Diffusion 3.5」などもありますが、その他のモデルは「無料で使用できる」という視点で、あくまでホビーやカジュアルユーザーがテキストチャットで対話的に画像生成を使いたい、という視点で評価しています。

    実はxAIはFluxを開発するblack forest labs.と提携関係あり「FLUX.1 now on Grok 2.0」というアナウンスを8月14日に行っていました。

    画像

    つまり、これまでの(現在も)Grok2の能力は Black Forest Labs. (BFL) の Fluxによる提供である可能性がありますが、今回リリースされた「Aurora」の能力は「新しい自己回帰画像生成モデル(a new autoregressive image generation model)」と呼んでいますので、内部でFluxの改善版を利用している可能性もあります。

    現状のGrok2がAuroraを使っているのかどうか、という意味では、上記の実験からFluxには日本語解釈能力が著しく劣るため、「現在のGrok2はAuroraになっている」と確認できたと言ってもよいでしょう。

    BFLのビジネスモデルについてはよくわからない部分もありますが、今後のxAIとの関係やAuroraの展開によっては、プロ用とxAIなどB2B経由のコンシューマ用に分かれていくような可能性もあるのかもしれませんね。このあたりはビッグテック同士の「仁義なき戦い」なのでしょうか。

    真贋性情報があるのは Dall-E 3 と Imagen 2のみ

    今回の調査で並列して、C2PAによる真贋性を確認しました。
    ダウンロードした画像に埋め込み情報があるかどうかを確認しています。
    https://contentcredentials.org/verify

    実際のところ、AdobeやOpenAI、Stability AI、Microsoft、AWS、Googleなどが参加しているC2PAで真贋性情報を埋め込んでいるモデルは DALL-E 3以外はないようです。

    画像
    C2PAの運営委員会メンバー
    https://c2pa.org/membership/
    画像
    https://contentcredentials.org/verify

    ImagenはGoogle Deepmindが開発した真贋性判定技術(画像合成判定技術)「SynthID」を使って判定可能でした。スマホアプリの「Googleレンズ」を使って「この画像について」を選択すると「Google AIによって生成」と表示されます。

    画像

    ※Tadashi Honjoさんご指摘いただきありがとうございました

    なお、総合的な画像生成判定を行いたい場合はHiveが提供する「AI生成コンテンツ検出ツール」がオススメです。

    https://hivemoderation.com/ai-generated-content-detection

    AI生成であることを総合的に判定し、どのモデルが使用されたかも含めて推論します。

    画像

    以上、2024年を総括するに相応しい、テキスト画像生成のビッグテック同士の戦いをまとめさせていただきました。

    なお、とき同じくして、ついにOpenAIから世界シミュレーターとしての動画生成モデル「Sora」がリリースされたようです。

    https://openai.com/sora

    今後、Stability AIの新作モデルや中国からのプレイヤーの参戦が楽しみですね!

    Stability AI APIを学ぶなら、こちらがおすすめ!
    「超入門:Stable Diffusionではじめる画像生成AI」
    生成AIクリエイティブ AICU
    https://j.aicu.ai/coloso1

    Auroraギャラリー

    最後に公式のギャラリーより生成例を紹介します。

    https://x.ai/blog/grok-image-generation-release

    画像
    Lockheed SR-71 Blackbird in an abstract style
    画像
    Optimus wearing a Xmas costume in a Xmas scene
    画像
    Generate a creative logo for “GROK” with a golden color and sunglasses
    画像
    Cherry blossom
    画像
    An origami Cybertruck
    画像
    A superposition of a cat in a hyperbolic time chamber in the style of Van Gogh
    画像
    Jackie Chan in Donald Trump’s hairstyle
    ドナルド・トランプの髪型をしたジャッキー・チェン
    画像
    Dog drinking a tea
    画像
    A comic of a young man standing by the sea, looking back and saying “Make it happen yesterday.”
    海辺に立って振り返りながら「昨日実現させろ」と言う若い男性の漫画
    画像
    Crude crayon drawing of a Tesla driving through a fiery meadow
    燃える草原を走るテスラのクレヨン画
    画像
    A castle in the clouds
    画像
    Elon Musk as a Ghibli character
    画像
    Baby capybara
    画像
    A close-up of a female warrior with a sword
    剣を持った女性戦士のクローズアップ

    Originally published at https://note.com on Dec 9, 2024.

  • Black Forest Labs「FLUX.1 Tools」発表!異次元の高画質を自在に操る新機能4つを試してみた

    2024年11月21日、Black Forest Labsは、ベースのテキスト画像生成モデルFLUX.1に制御性と操作性をもたらすモデルスイート、「FLUX.1 Tools」のリリースすることを発表しました。

      「FLUX.1 Tools」リリース概要

      オープンアクセスモデルと FLUX.1 [pro]を補完するBFL APIで利用可能な4つの異なる機能で構成されています。

      • FLUX.1 Fill: 最先端のインペイントとアウトペイントモデル。テキストとバイナリマスクで現実の画像と生成された画像の編集と拡張を可能に。
      • FLUX.1 Depth: 入力画像から抽出された深度マップとテキストプロンプトに基づいて、構造的ガイダンスを可能にするモデル。
      • FLUX.1 Canny: 入力画像から抽出されたキャニーエッジとテキストプロンプトに基づいて、構造的ガイダンスを可能にするモデル。
      • FLUX.1 Redux: 入力画像とテキストプロンプトを混合および再作成できるアダプター。

      このリリースは、研究コミュニティ向けに最先端のオープンウェイトモデルを提供すると同時に、APIを通じてクラス最高の機能を提供するという、二重のコミットメントを強化する目的とのことで、各ツールは BFL API で FLUX.1 [pro] のバリアント(亜種)としてリリースしつつ、推論コードと重みをガイダンス蒸留されたオープンアクセスFLUX.1 [dev]バリアントとして提供します。さらに、リリースされたモデルは、パートナーの fal.aiReplicate, Together.ai, Freepikkrea.ai からも入手できます。

      以下公式提供の画像より

      FLUX.1 Fillによるインペイントとアウトペイント

      FLUX.1 Fillは、Ideogram 2.0などの既存のツールや、Alimama CreativeのFLUX-Controlnet-Inpaintingなどの人気のあるオープンソースバリアントを凌駕する高度なインペイント機能を導入します。既存の画像と自然に統合されるシームレスな編集が可能です。

      画像

      さらに、FLUX.1 Fillはアウトペイントをサポートしており、ユーザーは元の境界を超えて画像を拡張できます。

      画像

      [ベンチマークへのリンク]を実施した結果、Flux.1 Fill [pro]は他のすべての競合方法よりも優れており、現在までの最先端のインペイントモデルとなっています。2番目はFlux.1 Fill [dev]で、独自のソリューションよりも優れており、推論の効率も高くなっています。

      画像

      Flux.1 Fill [dev]はFlux Dev Licenseの下で利用可能です。

      • Hugging Faceで入手可能な完全なモデルの重み: [Fill]
      • GitHubで入手可能な推論コード: GitHub
      • Flux.1 Fill [pro]は[BFL API]で利用可能です。

      FLUX.1 Canny / Depthによる構造的コンディショニング

      構造的コンディショニングは、キャニーエッジまたは深度検出を使用して、画像変換中の正確な制御を維持します。エッジまたは深度マップを通じて元の画像の構造を保持することにより、ユーザーはコアとなる構成をそのまま維持しながら、テキストガイド付きの編集を行うことができます。これは、画像のテクスチャ変更に特に効果的です。

      画像
      画像

      [ベンチマークへのリンク]の評価では、FLUX.1 DepthはMidjourney ReTextureなどの独自モデルよりも優れています。特に、FLUX.1 Depth [pro]はより高い出力多様性を提供し、FLUX.1 DepthのDevバージョンは深度認識タスクでより一貫した結果を提供します。キャニーエッジモデルの場合、[ベンチマークへのリンク]はこちらで、FLUX.1 Canny [pro]がクラス最高で、FLUX.1 Canny [dev]がそれに続きます。

      画像

      FLUX.1 Canny / Depthは、最大限のパフォーマンスのためのフルモデルと、開発を容易にするためのFLUX.1 [dev]に基づくLoRAバージョンの2つのバージョンで利用可能です。

      Flux Depth / Canny [dev]はFlux Dev Licenseの下で利用可能です。

      • Hugging Faceで入手可能な完全なモデルの重み:[Depth] [Canny]
      • Hugging Faceで入手可能なLoRAの重み: [Depth] [Canny]
      • GitHubで入手可能な推論コード: GitHub
      • Flux.1 Depth / Canny [pro]はBFL APIで利用可能です。BFL API

      FLUX.1 Reduxによる画像のバリエーションとリスタイリング

      FLUX.1 Reduxは、画像バリエーション生成のためのすべてのFLUX.1ベースモデルに対応するアダプターです。入力画像が与えられると、FLUX.1 Reduxはわずかなバリエーションで画像を再現し、特定の画像を改良できます。

      これは、プロンプトによる画像のリスタイリングを可能にする、より複雑なワークフローに自然に統合されます。リスタイリングは、画像とプロンプトを提供することにより、APIを通じて利用できます。この機能は最新のモデルFLUX1.1 [pro] Ultraでサポートされており、入力画像とテキストプロンプトを組み合わせて、柔軟なアスペクト比で高品質の4メガピクセル出力を生成できます。

      画像

      [ベンチマークへのリンク]は、FLUX.1 Reduxが画像バリエーションにおいて最先端のパフォーマンスを達成していることを示しています。

      画像
      画像

      Flux.1 Redux [dev]はFlux Dev Licenseの下で利用可能です。

      • Hugging Faceで入手可能なモデルの重み: [Redux]
      • GitHubで入手可能な推論コード: GitHub
      • FLUX1.1 [pro] UltraをサポートするFlux.1 Reduxは BFL APIで利用可能です。

      有料APIは[api.bfl.ml]で提供されています。
      ドキュメントはこちら  https://docs.bfl.ml/


      Falでの環境を確認!異次元の高画質を自在に操る新機能4つを試してみた

      ここから先はAICU編集部による”自腹調査”です。
      Falでは既にリリースされていました。

      画像

      こちらの検索結果に表示されています。

      https://fal.ai/models?keywords=flux&categories=image-to-image

      Fill: 強力なインペイント機能

      https://fal.ai/models/fal-ai/flux-pro/v1/fill

      ベースの画像がこちらです。

      画像

      与えるマスク画像がこちらです。盾をざっくり塗った感じです。

      画像

      以下のプロンプトを投じてみます。

      A knight in shining armour holding a greatshield with “AICU” on it

      できました!

      画像
      画像

      コストは1メガピクセルあたり0.05ドルだそうです。

      Canny: 高度な置き換え機能

      サンプル「Flux-lora-canny」ではフクロウをピンクに塗り替えています。
      https://fal.ai/models/fal-ai/flux-lora-canny

      画像
      画像
      画像

      サンプル「Flux-pro-canny」ではFLUX.1 [pro]を使ったCannyが体験できます。
      https://fal.ai/models/fal-ai/flux-pro/v1/canny

      画像

      Depth

      サンプルが何故かブラックホールの奥行き、という謎の画像なので開設を割愛します。

      画像

      Redux

      Flux[pro] ultra Redux https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra/redux

      入力画像とプロンプトを使って、もとのスタイルに近い画像を生成できるようです。

      画像
      画像

      出力結果です。
      制御性はあまり良くない印象ですが、画質は素晴らしいので使い道を考えて生きたいところですね。

      画像

      ComfyUIがゼロデイ対応

      「FLUX.1 Tools」が、ComfyUI で初日からサポートされるようになりました。
      – FLUX.1 塗りつぶし – >画像の塗りつぶしや拡大に最適
      – FLUX.1 Redux – >イメージの異なるバージョンを作成する
      – コントロールネット – >キャニーガイドまたは深度ガイドを使用して画像を制御する

      サンプル画像としてわかりやすいのでこちらのポストをぜひご確認ください。

      編集部の印象

      Stability AI の API群とも近い感じですが、リリース直後からFalやReplicate、ComfyUIなどで利用できるのは流石ですね!
      また商用利用できる点も良いですね。
      FLUX1[pro]自体の画質は過学習気味な印象があります。

      Alimama Creative の例では商用IPに類似した出力が示されていますが、Image-to-Imageに商用IPを使うのは日本の著作権法を侵害する可能性が非常に高いので、技術的にできるという点と、倫理的にやっていいか、という視点は並列に持っておくほうが良さそうですね。

      いずれにせよ今回の「FLUX.1 Tools」はモデルとAPIだけでシンプルに制御できるので、サービスを開発するには役立ちそうです。Staility AI 3.5系の熾烈な戦いが始まりますね。

      [PR] 基本を学びたいひとはこちら!

      https://j.aicu.ai/coloso1

      Originally published at https://note.com on Nov 21, 2024.

    1. FLUX@falで デルタもん 準公式LoRAをつくってみた!!

      falは開発者向けのメディアプラットフォームです。今日はfalにホストされているFlux.1[dev]のLoRAを使ってデルタもんの漫画向けLoRAをつくる実験を行ってみます。
      https://fal.ai/

      画像

      falは人気の漫画制作ツール「Anifusion」の内部の演算基盤としても使用されているようです。非常に高速で比較的安価なAPIコストで画像生成が実現できます。

      今回はこちらのfalにおいて公開されている「FLUXによるキャラクターLoRA生成」を紹介します。

        デルタもんを使った準公式LoRA生成実験

        今回の実験はAIキャラクター「デルタもん」を開発・管理するBlendAIさんのご協力により「デルタもん4コマ漫画コンテスト」の提供でお送りします!

        まずデルタもんには既に公式LoRAが存在します

        https://blendai.booth.pm/items/5801621

        こちらはSDXLをベースにした追加学習(LoRA)であり、「Anifusion」使ったデルタもん漫画に利用できます。

        Anifusionを使ったすべての漫画制作工程を知りたい読者は、現在配信中の「AICUマガジン」最新刊「AICUマガジンVol.4 完全解説Anifusion」を御覧ください。
        書籍版、Kindle版があり、Kindle Unlimited加入者は無料で購読可能です。

        https://j.aicu.ai/MagV4

        【前提】LINEスタンプ画像を使った機械学習は大丈夫なの?

        デルタもんはLINEスタンプとしてリリースされています

        https://store.line.me/stickershop/product/28076624/ja

        LINE スタンプ – デルタもんが来た!

        これは可愛いですね!買いました!

        BlendAIさんの「かわいい!! みどりちゃんスタンプ」もいいですね!

        https://store.line.me/stickershop/product/11304932/ja?from=sticker

        このようなキャラクター画像は通常IP(Intellectual Property:インテレクチュアル プロパティ)つまり知的財産として管理されています。
        このようなスタンプ画像をソースにして、機械学習や情報分析をすることは「日本の著作権法では可能」ですが、贋作をつくることが目的になったり、実際に偽物・類似品の「デルタもん」つまり、「デルタもの」をリリースして販売することは一般的には許可されていることはあまりないことです。
        ※「利用規約」によります。

        画像

        今回の実験にあたり、BlendAIさんに利用規約を確認したところ、ご許諾いただけました。

        Q: 商用利用はできますか?
        A: 以下に該当する利用であれば、利用規約の範囲内で自由に商用利用ができます(ボイスは除きます。詳細は後述)。
        非営利目的の利用
        Youtube、Twitter(X)、Facebook、Tiktok、Instagram 等、動画投稿サイトへの投稿目的での利用
        pixivリクエスト等のコミッションサイトでの利用
        FANBOX や Patreon 等ファン限定作品のデータもしくはそのアクセス権を販売するサイトでの利用
        ハッカソンまたはコミケ等の同人イベントでの利用(常設ではない単発のイベントのみ)
        同人誌等の同人作品の販売(ダウンロード販売含む)
        AIの研究開発の為の利用(ただし、成果物を頒布・公開する場合は、対価を受け取ってはならない)
        個人による年間の売上が10万円以下の商品またはサービスを作る際の利用
        上記以外の利用を希望する場合、ライセンス申請してください。また、ボイスの利用については、声優の権利保護のため商用利用可能な条件が異なります。ボイスの商用利用を希望する場合は、こちらのページを見てください。

        https://blendai.jp/guideline

        AICU Inc.が定める
        画像生成AIクリエイター仕草(v.1.0)
        も参照しておきます。

        すべきでないこと
        他者の迷惑になること。
        技術的な可否と法律上の可否とマナーやモラル、過去の常識やリスクや感情を混ぜて混乱させること。
        (スキルがあるからといって)他者の作品を上から目線で批判すること。
        画像生成 AI だから安いとか、自動だとか、無償で何かを作れるとか「楽して儲かる」など世間を誤解させるようなこと。
        すべきこと
        楽しむこと。作品を作る情熱を持ち続けること。
        わからないことは自分で調べて、共有し、コミュニティや Issue で共有すること。
        あいさつ、返事、お礼、質問を具体化、質問時は「わからない」だけでなく詳細な情報、進行具合を報告するなど誠意、他者に対するリスペクトや理解する姿勢を持つこと。
        「ぬくもりティ」だいじ。オープンソースコミュニティの開発者には敬意をもって接しよう。
        画像生成AIクリエイター仕草(v.1.0)は、AICU media が提唱するものです。
        倫理や法律を大切に、他者を尊重したコミュニティ構築を行っていきましょう。

        手順:LoRA生成と公開

        fal-aiが公開している flux-lora-general-training を使用して、デルタもん公式が配布している画像を学習させてみます。

        https://blendai.jp/resources

        画像
        画像

        実際にかかるコストなどのレポートも行っていきます!

        falアカウントの作成

        GitHubアカウントでのみ登録可能です。

        画像

        プロジェクト「flux-lora-general-training」を開く

        https://fal.ai/models/fal-ai/flux-lora-general-training

        画像

        実は商用利用可能なようです。

        クレジットを追加する

        今回のLoRAを作成するには5ドル、その後の生成も含めると、まずは10USDぐらい必要です。Stripeで決済できますので、クレジットを追加しておきましょう。

        画像の登録

        実は4枚ぐらいでもできます。まずは小規模に試してみるのもいいかもしれません。

        画像

        素材はBlendAIの「素材配布」から「LINEスタンプ画像」を使って登録してみます
        https://blendai.jp/resources

        画像
        画像

        PNGファイルの001-040までの40枚を追加してみます。

        画像

        トリガーワードは「DeltamonStamp」としてみます。
        キャプションファイルがあるとなお良いかもしれませんが、今回は実験なのでデフォルトのまま進行します。

        画像

        予算(クレジット)を確認する

        このLoRA学習用エンドポイントを実行するには5ドル相当のクレジットが必要です。なお、クレジットが不足しても実行はできることがありますが、その分、マイナスになって、次回以降は何もできなくなってしまいます。

        画像

        画像生成はメガピクセルあたり0.035ドルかかります。日本円で5円弱、1ドルで約29回実行できますので生成自体の単価は安いのかもしれません。

        ちなみにこの実験では1000ステップほどで実行していますが、たとえば複数のLoRAを生成した場合は、どんどんコストが大きくなります。例えば5400ステップですと…27ドルといった具合です。

        画像

        学習を実行する

        枚数にもよりますが10分ぐらいで終わります。速い!

        画像

        生成したLoRAを試用する

        結果の右側にある「▶Run interface」を押すと、TextToImageのプロジェクトが開かれ、すぐに試すことができます。

        「chibi manga panels of DeltamonStamp」で生成してみました。

        画像

        後頭部が描かれているのは尊いですね。

        画像
        スタンプ画像の雰囲気再現性が高いです
        画像
        漫画コマを生成してみました
        画像
        キャラクター紹介シートっぽい
        画像
        謎文字が可愛い
        画像

        生成したsafetensorsをHugging Faceで公開する

        今回生成したsefetensorsファイルをHugging Faceで公開してみます。

        画像

        「Hugging Face」ボタンを押します。

        画像

        ・Hugging Faceのトークンを取得して、設定します。
        ・リポジトリ名を設定します
        ・説明書きを加えます

        デルタもんStampをベースにしたLoRAです。特徴的な日本語の描き文字が化けて可愛いですね。
        This LoRA is based on Deltamon Stamp. It is cute with distinctive Japanese drawn characters that have been transformed.

        ・インスタンスプロンプトとしてトリガーワード「DeltamonStamp」を指定します。
        ・ここではアクセス権を「Public」にしていますが、これは「Private」でもいいと思います。

        こんな感じに公開されます。

        公開できました!(publicになっています

        画像

        Hugging Faceでの生成もできます

        画像

        Flux.1[dev]のワークフローを使って、ComfyUIでLoRAとして利用することもできますね。

        画像

        ご許諾いただいたBlendAIさんと、かわいらしいイラストと描き文字を書いて、LINEスタンプのフォーマットに揃えて納品していただいている作者の方に感謝を表明します。

        画像

        https://huggingface.co/AICU/deltamon-flux-lora

        ※メンバーシップ向け追加情報


        この記事の続きはこちらから https://note.com/aicu/n/n02e4dc8b88d6

        Originally published at https://note.com on Sept 7, 2024.

      1. FLUX.1[dev]の実力は?比較しながらGoogle Colabで動かしてみた。

        2024年8月1日、「世界最強」といわれるベンチャーキャピタル(VC)「アンドリーセン・ホロウィッツ」(a16z)が主導で投資する、Black Forest Labs(以下BFL)が、画像生成AIの新モデル「FLUX.1」発表しました。

        Stable Diffusionの元開発者たちを取り込み開発した画像生成モデルは「12B」つまり「120億パラメータ」という大規模なパラメータサイズで、『Midjourney v6.0、DALL·E 3、Stable Diffusion 3などを上回る性能を達成した』と伝えています。驚異的な画像生成能力を持つだけでなく、『これまでのAIが苦手としてきた人間の手の描写や複雑な場面の再現にも秀でている』と伝えています。さらに、商用からオープンソースまで、多様なニーズに応える3つのバージョンを用意し、ユーザーの需要を満たそうとしています。

        本記事では、FLUX.1の実力をStability AIの「Stable Diffusion 3」と比較しながら調査してみます。そして実際にComfyUIとFLUX.1  [dev]を用いて画像生成を行うまでの手順と、Google Colabで動作するノートブックをメンバーシップ向けに共有します。

        1. FLUX.1について

        画像

        FLUX.1は、Black Forest Labsが開発した最新の画像生成AI技術です。VQGANLatent DiffusionStable Diffusionモデル ( Stable Diffusion XLStable Video DiffusionRectified Flow Transformers )、超高速のリアルタイム画像合成のためのAdversarial Diffusion Distillationの研究開発に関わった人々が参加しています。基本的な信念としては、広くアクセス可能なモデルは、研究コミュニティと学術界内での革新とコラボレーションを促進するだけでなく、信頼と幅広い採用に不可欠な透明性を高めるということです。

        FLUX.1の主な特徴

        1.最先端の性能: 既存の主要なAIモデル(Midjourney v6.0、DALL·E 3、Stable Diffusion 3など)を上回る性能を達成したと伝えています。
        テキストから画像を生成する能力において新たな基準「ELO score」と、画像の詳細さ、プロンプトへの忠実性、スタイルの多様性、シーンの複雑さなどの面で優れた性能を示していると主張しています。

        画像

        たしかに、BFLのモデルはELO scoreにおいて優位性があるようです。
        順位としては FLUX.1 [pro] > FLUX1. [dev] > SD3-Ultra > Ideogram > FLUX.1 [schnell] > Midjourney-V6.0 > Dall-E 3 HD > SD3-Medium > SD3-Turboといった序列が付けられています。このバーグラフが正しければ、FLUX.1 [dev]はSD3-Ultra並であることがわかります。

        画像

        2.多様なバリエーション: FLUX.1 [pro]、FLUX.1 [dev]、FLUX.1 [schnell]の3バージョンを提供します。それぞれ用途やライセンスモデルが異なります。

        画像

        3.革新的な技術: マルチモーダルおよび並列拡散トランスフォーマーブロックのハイブリッドアーキテクチャを採用し、12Bパラメータにスケールアップ。

        4.柔軟性: 0.1から2.0メガピクセルの範囲で多様なアスペクト比と解像度をサポート。

        画像

        5.アクセシビリティ: APIを通じたアクセスと一部バージョンのオープンソース提供。

        FLUX.1の3つのバリエーション

        Black Forest Labsは、異なるニーズに対応するため、FLUX.1を3つのバリエーションで提供しています。

        1. FLUX.1 [pro]:APIのみのフラッグシップ

        FLUX.1 [pro]は、FLUX.1の最高性能を誇るバージョンです。

        • 最先端のパフォーマンスを持つ画像生成
        • トップクラスのプロンプト追従能力
        • 卓越した視覚的品質と画像の詳細さ
        • 多様な出力

        現在、Black Forest LabsはFLUX.1 [pro]の推論コンピューティング能力を徐々に拡大しているそうです。APIを通じてアクセスできるほか、ReplicateやFal.aiなどのパートナー企業を通じても利用可能です。さらに、企業向けのカスタマイズソリューションも提供するとのことです。

        https://fal.ai/models/fal-ai/flux/dev

        https://replicate.com/black-forest-labs/flux-dev

        2. FLUX.1 [dev]:オープンウェイトモデル

        FLUX.1 [dev]は、非商用アプリケーション向けのオープンウェイトモデルです。

        • FLUX.1 [pro]から直接蒸留された効率的なモデル
        • 同等のサイズの標準モデルより高効率
        • 高品質とプロンプト追従能力を維持

        FLUX.1 [dev]の重みはHuggingFaceで公開されており、ReplicateやFal.aiで直接試すこともできます。ガイダンス蒸留を使用したトレーニングを行い、生成された出力は、ライセンスに記載されているように、個人的、科学的、商業的な目的で使用することができます。

        3. FLUX.1 [schnell]:ローカル利用向け

        FLUX.1 [schnell]は、ローカル開発と個人利用に特化した最速モデルです。

        • Apache2.0ライセンスで公開
        • Hugging Faceでweightsを入手可能
        • GitHubで推論コードを公開
        • ReplicateとFal.aiでも利用可能

        各モデルの公開が非常に戦略的に進められていることが印象的です。

        2. ComfyUIでFLUX.1[dev]を使用する

        ComfyUIの作者であるcomfyanonymous氏が早速workflowを公開しています。以下のリンクに詳細がまとめられています。AICU AIDX Labではこのリンクの内容に従い、使用準備を進めていきます。
        文末にメンバーシップ向けにGoogle Colabで動作するノートブックを公開します(AICUのGitHub上でも無償公開しています)。

        https://github.com/comfyanonymous/ComfyUI_examples/tree/master/flux

        weightsのダウンロード

        以下のリンクよりFLUX.1[dev]のweightsをダウンロードします。flux1-dev.sft (23GB) をダウンロードし、ComfyUI/models/unetに格納してください。

        https://huggingface.co/black-forest-labs/FLUX.1-dev

        CLIPのダウンロード

        以下のリンクよりCLIPモデルをダウンロードします。clip_l.safetensorst5xxl_fp16.safetensors(または省メモリ版のt5xxl_fp8_e4m3fn.safetensors)をダウンロードし、ComfyUI/models/clipに格納してください。

        https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main

        VAEのダウンロード

        以下のリンクよりVAEをダウンロードします。ae.sftをダウンロードし、ComfyUI/models/vaeに格納してください。

        https://huggingface.co/black-forest-labs/FLUX.1-schnell/blob/main/ae.sft

        Workflowのロード

        以下の画像をダウンロードし、ComfyUIのキャンバスにドラッグ&ドロップしてください。画像ですが、workflowの情報が含まれているため、キャンバスにロードできます。

        https://github.com/comfyanonymous/ComfyUI_examples/blob/master/flux/flux_dev_example.png

        この狐娘さんの画像にワークフローが仕込まれています!

        画像

        ✨️このあたりのGoogle Colabでの動作がよくわからない方には以下の記事がおすすめです。

        キャンバスに上記のPNGファイルをロードすると、以下のようなフローがロードされます。

        画像

        cute anime girl with massive fluffy fennec ears and a big fluffy tail blonde messy long hair blue eyes wearing a maid outfit with a long black gold leaf pattern dress and a white apron mouth open holding a fancy black forest cake with candles on top in the kitchen of an old dark Victorian mansion lit by candlelight with a bright window to the foggy forest and very expensive stuff everywhere
        黒い金箔模様のロングドレスと白いエプロンのメイド服を着て、口を開けたまま、ろうそくの明かりに照らされた古い暗いビクトリア様式の邸宅の厨房で、ろうそくの上にろうそくを立てた黒い森のケーキを持っているかわいいアニメの女の子

        生成できました!

        画像

        FLUX.1 [dev]のモデルサイズ、Google Colabでは L4 GPU環境(GPU RAM 22.5GB)でギリギリ動作するように設計されているようです。

        画像

        dev版で高品質の画像を生成するためには、50steps必要なので、BasicSchedulerのstepsを50に変更してください。

        画像
        画像

        顔の表現が変わって、ろうそくが5本に増えてますね…

        ネットワークを読み解く

        グラフからFLUX.1のネットワークを分析してみます。

        画像

        モデル→BasicScheduler→SIGMAS→[SamplerCustomAdvanced]
        RandomNoize→[SamplerCustomAdvanced]
        KSamplerSelect→[SamplerCustomAdvanced]
        EmptySD3LatentImage(1024×1024)→[SamplerCustomAdvanced]
        DualCLIPLoader→[CLIP]→FluxGuidance→(Conditioning)→[BasicGUider]→(Guider)→[SamplerCustomAdvanced]

        [SamplerCustomAdvanced]→VAE Decode→Image

        画像

        Stable Diffusion 3の構成によく似ています。
        DualCLIP、EmptySD3LatentImageはStable Diffusion 3の部品と共通で、FluxGuidanceというノードがComfyUIによって新たに開発されています。これが従来のCFGにあたるプロンプトへの忠実度を示す値(現在は3.5)になるようです。ネガティブプロンプトやImage2Image、ControlNetはこのConditioningに与える形で提供されるのでしょうか。
        ComfyUIの開発者を取り込んだ状況や、Kolorsの最近のコミュニティでの開発状況から予想するに、早い段階でControlNet等が提供される可能性もありえます。この分野はオープンソースへのモデル提供という貢献がプラスに働くコミュニティでサイクルさせていく戦略なのでしょう。

        C2PAなどの対応はなし

        オープンモデルを自前で立てたGoogle Colab上で動かしているので当然といえば当然ですが、C2PAの埋込情報はないようです。

        画像

        有料APIでの対応がどのように提供されるのか興味深いところではあります。

        3. FLUX.1[dev]による画像生成

        実際にFLUX.1[dev]で画像生成してみました。以下に使用したプロンプトと生成された画像を貼付します。

        ヘリコプターから飛び降りる女性

        A cinematic image capturing a Japanese woman with long black hair, performing a dramatic dive from a helicopter into the vast open sky. The background features a breathtaking view of the sky filled with soaring birds, accentuating a sense of freedom and exhilaration. The woman's expression is focused and fearless, her hair flowing dramatically behind her as she dives. The helicopter is visible in the upper part of the frame, adding a touch of adventure and scale to the scene. The lighting is dynamic, highlighting the action and the expansive atmosphere.
        画像
        画像

        ダッシュする髭マッチョ男性

        A cinematic image depicting a rugged Japanese man with a beard, sprinting through the bustling streets of Shibuya, Tokyo. He is portrayed as muscular and intense, with his strong physique evident even through his clothing. The scene captures him mid-dash, with the iconic Shibuya crossing in the background blurred by the motion. Neon lights and the vibrant city life add to the dynamic and energetic atmosphere of the image. The lighting is urban and dramatic, emphasizing the man's determined expression and the fast-paced action of the scene.
        画像

        ドラゴンと勇者

        A cinematic fantasy image inspired by RPG themes, featuring a heroic scene with a dragon, a warrior, a wizard, a martial artist, and a cleric. Set in a mystical landscape, the dragon looms large in the background, spewing fire into the sky. The warrior, clad in armor, stands boldly in the foreground with a sword raised. Beside him, a wizard prepares a spell, glowing with magical energy. The martial artist, in dynamic pose, is ready to strike, and the cleric, with a staff in hand, invokes a protective spell. The scene is bathed in the ethereal light of magic and fire, creating a dramatic and epic atmosphere.
        画像

        ゾンビと逃げるカップル

        A cinematic image depicting a male and female couple frantically running from a massive horde of zombies. The scene is set in a chaotic urban environment with the army in the background, engaged in a fierce battle to contain the zombie outbreak. The couple appears desperate and terrified, dodging between abandoned cars and debris. Soldiers can be seen in the periphery, firing at the advancing zombies, providing a grim backdrop. The atmosphere is tense and suspenseful, with dark, ominous lighting amplifying the sense of impending danger.
        画像

        足の生成テスト

        A cinematic image of a Japanese woman casually displaying the soles of her feet, seated on a park bench. The scene captures her in a relaxed pose, perhaps during a leisurely afternoon in a tranquil urban park. The focus is on her bare feet, crossed elegantly as she enjoys a book or the peaceful surroundings. The background is softly blurred, emphasizing her and the detail of her feet. The lighting is warm and natural, highlighting the simplicity and quiet mood of the moment.
        画像

        軍隊の上陸作戦

        A cinematic image depicting a military landing at a beachfront during a defensive operation. The scene captures the intensity of the moment with troops disembarking from landing craft under the cover of smoke and gunfire. The ocean is rough, reflecting the turmoil of battle, with waves crashing against the shore. Soldiers in full gear advance onto the beach, facing resistance from defensive positions in the distance. The sky is overcast, adding a dramatic and somber tone to the scene, emphasizing the gravity of the military engagement.
        画像

        複数の女性がプールで遊ぶ

        A cinematic image featuring multiple Japanese women in swimsuits, enjoying a playful moment in a pool, surrounded by splashing water that creates a fantastical atmosphere. The scene captures them laughing and splashing water at each other, with the sun casting a shimmering glow on the droplets, creating a sparkling effect. The background shows a beautifully designed pool area that enhances the dreamlike quality of the image. The overall mood is joyful and ethereal, with soft, diffused lighting that adds a magical touch to the setting.
        画像

        イラスト: 魔法使いが爆発魔法を唱える

        A cinematic image inspired by anime, depicting a dramatic scene of magical alchemy leading to an explosion. The setting is a dark, mystic chamber filled with ancient symbols and glowing artifacts. In the center, a character performs a complex magical ritual, hands raised as they channel energy into a vibrant, swirling mass of light that culminates in a sudden, intense explosion. The explosion sends colorful magical energies radiating outward, casting vivid shadows and illuminating the room with a spectrum of light. The atmosphere is tense and charged with the power of unleashed magic.
        画像

        イラスト: 異世界転生したプログラマ

        A cinematic image blending realistic and anime styles, featuring a programmer who has been reincarnated into a fantastical other world. The scene shows the programmer sitting at a magical, glowing workstation filled with ancient scrolls and futuristic screens, coding to manipulate the laws of this new world. Around him, elements of a traditional fantasy setting—enchanted forests, distant castles, and mythical creatures—merge with digital effects to symbolize his unique role in this realm. The lighting is dynamic, highlighting the contrast between the old world's mystique and the new digital influence he brings.
        画像

        Animagine XL 3.1のプロンプトでLuC4を生成してみる

        AICUのキャラクターである「LuC4」をAnimagine XL 3.1用公式プロンプトで生成してみます。

        1boy, solo, upper body, front view, gentle smile, gentle eyes, (streaked hair), red short hair with light highlight, hoodie, jeans, newest

        特にアニメ要素は指定していないのですが、非常にいい感じのLuC4くんが生成されました。

        画像
        画像
        画像

        1生成あたり平均129秒といったところです。これは大きい方のCLIPを使いLowVRAMモードで起動しているのでもっと高速化することもできるかもしれません。

        4. 所感と疑問: 過学習?何故かアニメに強い

        12B、ファイルサイズで22GB。

        まず 触ってみた所感として、FLUX.1 [dev]はさすが12B、ファイルサイズで22GBという巨大なサイズです。言語理解力が高く、高品質の画像を生成するモデルではありますが、扱いやすいサイズとは言い難い。Google Colab環境のL4で快適動作するサイズのギリギリ上限として[dev]をリリースされたのは見事です。

        商用利用は可能なのか?その品質は

        商用利用可能ではありませんので、ホビーストが Text to Imageでの一発出しを楽しむレベルつまり、Midjourneyとしては十分な品質を持っているという印象があります。しかし商用ライセンスとしてはまだウェイティングリスト状態ですし、出力される画像はMidJourneyにNijiJourneyが混ざったような総花的な感覚を受けます。

        人物の表現にも偏りや、実在感の不足を感じます。例えば最近のComfyUI環境で使われている「Kolors」はフォトリアル系人物に強い中国系企業によるモデルです。英語と中国語、文字レンダリング、指、そして東アジア各国の人物表現の分離がしっかりできています。

        https://note.com/yas_bizdev/n/nc160fe614725

        https://note.com/yas_bizdev/n/n701bed443641

        ComfyUIコミュニティとの協働は評価できる

        上記の通り、BFLははComfyUIコミュニティとの協働を行っているようです。
        ネガティブプロンプトやImage to Image、ControlNetはまだありませんが、KolorsでのComfyUIが公式からリリースされたように(※2024/8/6追記)、今後、オープンソースコミュニティと協働によって開発が進むのかもしれません。今後新しいワークフローがどこからリリースされるのか注目です。

        https://comfyanonymous.github.io/ComfyUI_examples/flux

        [dev]と[pro]の互換性は?

        [dev]で鍛えたナレッジが[pro]で活かせるのかどうか、プロユーザーは調査していきたいところではあります。蒸留された[dev]と商用API経由の[pro]がシードなどを介して互換性高く利用できるのであれば理想的ですが、特性がまるで異なるようであると、ビジュアル産業の用途には使いづらいと考えます。
        余談ですが、APIモデルのライセンス提供やAPIプロバイダを介した提供などは、今後も各社が頑張っていくところだと予測します。例えばStability AIもFireworks.AI経由で高速なAPIを提供していますし、オープンモデルの商用ライセンスも提供しています。

        https://stability.ai/license

        オウンホストできる[dev]とAPI利用のみになる[pro]に互換性があるのであれば、ビジュアルエフェクトに関わるエンジニアにとって、パイプライン、ワークフローは組みやすくなります。しかし双方が全く異なるアーキテクチャーや特性をもっていると、別のシステムとして扱わなければなりません。

        APIはドキュメントがあるが招待制

        AICUでは [pro]を評価すべく https://api.bfl.ml/  において登録を行いましたが、招待制とのことで利用はできませんでした。

        画像

        API化は演算環境のアウトソーシング化や品質の維持に貢献できますが、一方ではAPI提供企業によるブラックボックス化が進みやすい、透明性を下げる点もあります。
        Stable Diffusionに例えて見回すと、Stable Diffusion 3 Medium や Stability AI が提供するAPIは過去のStable Diffusion 1.xや Stable Diffusion XL (SDXL)に比べてはるかに高速・高機能で高品質です。ですが市場にはまだたくさんのSD1.5やSDXLのモデルで画像生成サービスを提供している企業があるようです。市場の形成という意味では、画像生成AIをサービスしているプレイヤーがきちんと「最新のAPIを使っています」とか「商用ライセンスを買っています!」という企業が増えて欲しいところですし、消費者も目が肥えてきているので、選んで使っていきたいところです。例えばパープレはエンドユーザからの集金と、外部モデルの選択可能性の仕組みを上手くサービスとして構築しているように見えます。

        今後も「とりあえず出せればいい用途」は限りなく無料化していく一方で、きちんと商業ライセンスが確立するサービスには圧倒的な画質と速度、価格と、C2PAなどの来歴データ提供などを含めたトータルな安心・安全までが整備された高品質APIに需要が向くと観測します。

        ▼「Stable Diffusion」の革命から2年、画像生成AIはAPIとコミュニティの時代へ ~倫理問題の「当たり前化」のその先に

        https://forest.watch.impress.co.jp/docs/serial/aistream/1612897.html

        追加学習しづらい

        サイズが大きいということで、追加学習やファインチューニングが難しいという想像はできます。現在のリリースラインナップでは、コンシューマーレベルのGPUで扱えるサイズは[schnell]ということになるかと思います。こちらについて、評価する機会があればいずれ見てみたいと思います。

        何故かアニメに強い

        特にアニメや漫画に寄せたプロンプトの指定をしていなくてもいい感じのアニメ風の画像が出てきます。

        AICUのコラボクリエイター犬沢某さん @InsBow の作品。

        過学習の過学習をしている可能性

        過学習とは、特定の学習元に最適化されたため汎化性能が下がってしまう例です。例えば「cyberpunk」というプロンプトに対してゲーム「Cyberpunk 2077」のアートが生成されてしまうような例です。これはMidJourney v6でも言われていることですが、それをベンチマークにすることで「過学習の過学習」をしてしまう可能性が感じられます。

        具体的にはモデルの性質として、何も指定していないのにアニメ顔が出る点です。Danbooruタグと呼ばれる「1girl」という表現や、Animagine XL 3.1のプロンプトである「latest」などに反応している点からも、他のモデルの蒸留をして、さらに過学習をしている可能性があります。

        過学習は特性として慣れれば扱いやすいかもしれませんが、一方では特定の画風や作者に対してのあらぬ嫌疑をかけられる可能性があります。

        倫理的なキュレーションはされていない可能性

        過学習と並んで、倫理的なキュレーションがされていない可能性を感じます。OpenAIや Stability AIといったAI基盤モデルの先駆者たちはデータセットの素性や倫理的な精査選別を行っています。このような作業を「curation」(キュレーション)、それを行う人を「キュレーター」といいます。
        例えばOpenAIは「アライメント」や「キュレーション」に多大なコストを払っており、人間によって倫理的な調教を行っています。

        https://note.com/o_ob/n/n68bd7db03162

        画像生成モデルにおけるキュレーションの状態をテストすることは非常に簡単です。「NSFW」や裸体、子供や人種差別、大統領などを生成させればすぐに分かりますが、AICU mediaの紙面ではふさわしくないので、割愛します。

        念の為「miku」だけSeed=39で生成してみます。

        画像

        みっくみくです。念の為、Google画像検索をしてみましたが、一致する画像はありませんでした。

        画像

        学習元のデータセットやオプトアウトといった手続きがないと新たな炎上や訴訟になる可能性があることは否定できません。
        ※いずれにしても生成側に責任があることは変わりません。

        性能評価におけるベンチマーク対象が恣意的

        いまいちどBFL提供の性能評価を確認してみます。

        画像

        まず評価対象のトップにある「SD3 Ultra」ですが、ちょっと恣意的かもしれません。まず「SD3 Ultra」という名前のモデルは存在しません。Stability AIで「Ultra」と呼ばれているモデルは「Stable Image Ultra」であって「Stable Diffusion 3」でも「SD3 Ultra」でもありません。

        Made from the most advanced models, including Stable Diffusion 3, Ultra offers the best of the Stable Diffusion ecosystem.
        Stable Diffusion 3 を含む最も高度なモデルから作成された Ultraは、Stable Diffusionエコシステムの最高峰です。

        Ultraが最高峰であるとすると、Stable Diffusion 3 シリーズで公開されているモデルの最高モデルは「Stable Diffusion 3 Large」でパラメーター数は8B、つまり推定80億パラメータ。「Stable Diffusion 3 Medium」は2B、20億パラメータです。「Ultra」はこれらの Stable Diffusion 3を含んだAPIサービスとなります。

        https://stability.ai/news/stable-diffusion-3

        単に最大パラメータサイズを売りにすると、120億vs80億で、「FLUX.1のほうが強そう」ですが、「同じパラメータ数のサービスとして評価すると、FLUX.1が劣後する可能性」すらあります。LLMを使った言語系サービスに例えれば「必要な課題への必要な回答」を「高い精度」で「低い費用」で利用できるためのモデルを考えてリリースする必要があり、必ずしも「辞書の大きさ」つまりパラメータ数が多いだけではなく「その最適化」、それ以外の変数やそもそも課題設定なども、求める性能を得るためには同じくらい重要です。これらを最適化するための機械学習の手法、ハイパーパラメータの最適化なども多くの技術があります。

        このような課題や品質ををどう捉えているか、といった視点でもう一度リリースを見直してみると、Visual Quality, Prompt Following, Size/Aspect Variability, Typography, Output Diversity…といったレーダーチャートで表現をしています。Stable Diffusion 3 Ultraと比較して、「画質」はほぼ同等です。
        その他の要素では「出力の多様性」、「サイズ・アスペクト比変動性」、「タイポグラフィ(文字)」は差が大きいようです。
        多様性については評価手法が確立しているとはいい難いです。AICUではStability AI APIのCoreAPIが提供している17スタイルの評価を上位モデルと比較して1800枚程度の同一プロンプト、同一シードの画像で互換性評価を実施していますが、前述の通り『過学習の影響』は使い手が判断するしかないのが現状です。ファインチューニング手法が確立するのを待つしかないでしょうか。

        タイポグラフィ

        文字を打つ能力はStable Diffusion 3 Ultraよりは劣後するという表現になっており、[pro],[dev],[Schnell]で大きく差がつく要素になっていますが、実際には[dev]でもアルファベットはしっかりかけるようです。

        画像

        日本語や漢字は苦手なようですが、今後はこの手の文字、特に日本語・中国語・韓国語(CJK)などの東アジア言語が主戦場になるのかもしれませんね。…といったところで実験していたら✂が出てきました。先にUnicodeでの絵文字の実装を狙っているのかもしれません。

        画像

        以上、FLUX.1 [dev]の実力についてのハンズオンレビューでした。

        次は動画…[SOTA]が登場!?

        画像

        次はすべての人のための Text-to-Video「SOTA」へ

        本日「FLUX.1」 Text to Imageモデル・スイートをリリースしました。強力なクリエイティブ機能を備えたこれらのモデルは、競争力のあるジェネレーティブ Text-to-Videoシステムの強力な基盤となります。私たちのビデオモデルは、高精細でかつてないスピードでの正確な作成と編集を可能にします。私たちは、ジェネレーティブ・メディアの未来を開拓し続けることを約束します。

        今後の画像生成AIにおける新しい常識がアップデートされるのでしょうか。期待して見守りたいと思います。

        この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!

        https://note.com/aicu/ X(Twitter)@AICUai

        ✨️本記事は Yas@BizDev支援のエンジニア さんの寄稿をベースにAICU AIDX Labおよび編集部にて大幅に加筆・検証したものです。ご寄稿いただきありがとうございました。
        ✨️初稿から評価面を大幅に加筆しています(2024年8月6日)

        メンバーシップ向けボーナス・コンテンツ

        Google Colabで動くノートブックを公開しています。

        この記事の続きはこちらから https://note.com/aicu/n/n750140124c01

        Originally published at https://note.com on Aug 5, 2024.