xAIが「Grok」で画像生成モデル「Aurora」をリリース。もう使えるの？実験で証明しつつ最近の高品質画像生成を日本語で比較してみた！

旧Twitterなどを運営する X Corp.グループの xAI社 (x.ai) は2024年12月9日、Grok の機能をアップデートし、𝕏 プラットフォームで利用可能な、コードネーム「Aurora」と呼ばれる新しい自己回帰画像生成モデルを同社の対話型AIサービス「Grok」に搭載しました。

https://x.ai/blog/grok-image-generation-release

「Aurora」は、テキストと画像データを交互に配置したデータから次のトークンを予測するようにトレーニングされた、自己回帰型の Mixture-of-Experts ネットワークになっているとのこと。何十億ものインターネット上の例でモデルをトレーニングしたため、世界を深く理解しています。その結果、写真のようにリアルなレンダリングとテキストによる指示への正確な追従に優れているだけでなく、テキスト以外にも、マルチモーダル入力のネイティブサポートも備えている設計であり、ユーザーが提供した画像からインスピレーションを得たり、直接編集したりできます。

Grok の新しい機能は、一部の国で 𝕏 プラットフォームで利用できるようになり、1 週間以内にすべてのユーザーに展開される予定とのことです。

画像生成

Grok は、他の画像生成モデルが苦労するいくつかの分野で高品質の画像を生成できるようになりました。実世界のエンティティ(実体)、テキスト、ロゴの正確な視覚的詳細をレンダリングし、人間のリアルなポートレートを作成できます。

＜画像のサンプルについては文末で紹介します＞

エンティティ生成

プロンプト: オーロラの下のサイバートラック（Cybertruck under an aurora）

[Grok、Imagen 3、Flux.1 Pro、Ideogram 2.0、DALL-E 3 の生成結果比較]

まだ発売されて間もないTesla社の「Cybertruck」ですが、Grokにより見事にオーロラの下で生成されています。Google Deepmindの「Imagen 3」とIdegoramによる「Ideogram 2.0」は、かろうじてそれらしいトラックを生成していますが、「Flux.1 Pro」は従来型のトレーラー、「Dall-E 3」に至っては「生成できません」という表示になっています。

アーティスティックなテキスト

プロンプト：「Grok」と綴る銀河の星（Stars in a galaxy spelling “Grok”）

同様に、星として描けているのは Grok, Imagen 3, Ideogram 2.0であり、Dall-E 3とFlux.1 Proはイラスト調になっています。

ミーム生成

プロンプト：Anime Pepe

「Pepe」とはMatt Furie氏による世界的なインターネットミームです。

https://en.wikipedia.org/wiki/Pepe_the_Frog

非常に抽象的で難しいお題だと思います。Flux.1 Proにとっては難しかったようです。

リアルなポートレート

プロンプト：濡れた虹色の髪とネオンブルーのレインコートを着た男性が、激しい雨の中、街の通りに立っています（A man with wet rainbow hair and a neon blue raincoat standing in heavy rain on the city street）

著名人

プロンプト：イーロン・マスクが xAI ジャケットを着て、背景にアメリカ国旗を掲げている（Elon Musk wearing an xAI jacket with a USA flag in the background）

Imagen 3、Dall-E 3にとっては苦手なお題かもしれませんね。Grokのヒゲの描写が素晴らしいです。

画像編集

Grokの新しい画像生成モデルは、画像を入力として受け取ることができるようです。この機能は、今後 𝕏 プラットフォームのユーザーにリリースされる予定とのこと。

プロンプト: 猫をアニメスタイルにする（Make the cat anime style）

プロンプト：カウボーイハットを追加する（Add a cowboy hat）

プロンプト：金髪にする（Make him blonde）

プロンプト：雪模様にする（Make it snowy）

AICU編集部による日本語での画像生成実験

公式リリースだけで記事を書いてはAICUらしくありませんので、手を動かして評価してみます。あえて日本語でプロンプトを与えてみます。

Grok2(内部は不明)

※「Grok 2 new」と表記されていますが、Auroraであるかどうかは現時点では判定が難しい状態です。

プロンプト：メタル調の画像がほしい「MASTER GUIDE」

たしかに日本語で一発でこのクオリティが生成できるのは素晴らしいですね。右下に「GROK」のロゴが入ります。

プロンプトを英語にしてみました。

ボイラープレートというよりは、モダンな感じになってしまった感じはあります。
日本語の文字生成も試してみます。

Ideogram 2.0

回数制限は多いのですが、実は無料で使えるサービスとして Ideogram 2.0は優秀であるといえます。

日本語プロンプト：メタル調の画像がほしい「MASTER GUIDE」

Imagen 3

Imagen 3はGeminiのインタフェースから利用できます。

https://gemini.google.com

日本語でもきちんと生成できているのは印象的です。
英語のプロンプトにしてみます。

Flux1.1 pro ultra

Flux.1.1 pro ultraをFal経由で実験しています
https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra

プロンプト：メタル調の「MASTER GUIDE」ボイラープレート（銘板）

プロンプト：metallic boiler plate of “MASTER GUIDE”

錆などの表現はできていますが、文字のフォントそのものの表現は、他のモデルに比べると見劣りし始めているかもしれません。

Dall-E 3

ChatGPT 4o(有料版)にて生成してみます。

プロンプト「画像の作成:メタル調の「MASTER GUIDE」ボイラープレート（銘板）」

英語のほうが確実のようです。

よく見ると文字に間違いがありますね。

2024年12月時点の総合評価

上記の実験を「文字描写力」「日本語解釈」それから「真贋性情報」を加えて星取表で表現してみました。

エンティティの生成能力や表現能力や、アニメなどの画風での表現力では差を評価しづらい点もありますので、あくまで文字描写力と日本語ユーザーとしての日本語解釈（日本語を描写できるモデルはこの中では存在していません）として評価すると、総合評価ではたしかにGrok2(Aurora)が高い評価となります。特に「Flux1.1 pro ultra」やStability AIの「Stable Diffusion 3.5」などもありますが、その他のモデルは「無料で使用できる」という視点で、あくまでホビーやカジュアルユーザーがテキストチャットで対話的に画像生成を使いたい、という視点で評価しています。

実はxAIはFluxを開発するblack forest labs.と提携関係あり「FLUX.1 now on Grok 2.0」というアナウンスを8月14日に行っていました。

Welcome to the forest @xai https://t.co/lkXq6O0eQu pic.twitter.com/h7rqSmI6wA
— Black Forest Labs (@bfl_ml) August 14, 2024

つまり、これまでの（現在も）Grok2の能力は Black Forest Labs. (BFL) の Fluxによる提供である可能性がありますが、今回リリースされた「Aurora」の能力は「新しい自己回帰画像生成モデル（a new autoregressive image generation model）」と呼んでいますので、内部でFluxの改善版を利用している可能性もあります。

現状のGrok2がAuroraを使っているのかどうか、という意味では、上記の実験からFluxには日本語解釈能力が著しく劣るため、「現在のGrok2はAuroraになっている」と確認できたと言ってもよいでしょう。

BFLのビジネスモデルについてはよくわからない部分もありますが、今後のxAIとの関係やAuroraの展開によっては、プロ用とxAIなどB2B経由のコンシューマ用に分かれていくような可能性もあるのかもしれませんね。このあたりはビッグテック同士の「仁義なき戦い」なのでしょうか。

真贋性情報があるのは Dall-E 3 と Imagen 2のみ

今回の調査で並列して、C2PAによる真贋性を確認しました。
ダウンロードした画像に埋め込み情報があるかどうかを確認しています。
https://contentcredentials.org/verify

実際のところ、AdobeやOpenAI、Stability AI、Microsoft、AWS、Googleなどが参加しているC2PAで真贋性情報を埋め込んでいるモデルは DALL-E 3以外はないようです。

C2PAの運営委員会メンバー
https://c2pa.org/membership/

ImagenはGoogle Deepmindが開発した真贋性判定技術（画像合成判定技術）「SynthID」を使って判定可能でした。スマホアプリの「Googleレンズ」を使って「この画像について」を選択すると「Google AIによって生成」と表示されます。

※Tadashi Honjoさんご指摘いただきありがとうございました

AndroidのChromeであれば検出できますよ！

Googleレンズから「この画像について」を選択すると画像の説明の中に「GoogleAIによって生成」という表示が追加されます。 pic.twitter.com/7i72aZ5Rb3
— Tadashi Honjo🏪AIリテールテック研究所 (@AutoIntelliMode) December 10, 2024

なお、総合的な画像生成判定を行いたい場合はHiveが提供する「AI生成コンテンツ検出ツール」がオススメです。

https://hivemoderation.com/ai-generated-content-detection

AI生成であることを総合的に判定し、どのモデルが使用されたかも含めて推論します。

以上、2024年を総括するに相応しい、テキスト画像生成のビッグテック同士の戦いをまとめさせていただきました。

なお、とき同じくして、ついにOpenAIから世界シミュレーターとしての動画生成モデル「Sora」がリリースされたようです。

https://openai.com/sora

今後、Stability AIの新作モデルや中国からのプレイヤーの参戦が楽しみですね！

Stability AI APIを学ぶなら、こちらがおすすめ！
「超入門：Stable Diffusionではじめる画像生成AI」
生成AIクリエイティブ AICU
https://j.aicu.ai/coloso1