Computex 2024 基調講演 Stability AI のCEO/CTOが語る Stable Diffusion 3 は「自然の進化」

Computex 2024 基調講演 Stability AI のCEO/CTOが語る Stable Diffusion 3 は「自然の進化」
Computex Taipei 2024のオープニングキーノートにて、Stability AI 共同CEOの Christian Laforte氏(@chrlaf) が Stable Diffusion 3 Medium (SD3M)を6月12日にオープンリリースすると発表しました。 Stable Diffusion 3 は「自然の進化」と語るStability AI クリスチャン・ラフォート氏の講演を入手しましたので要約翻訳でお送りします。

■Stability AI クリスチャン・ラフォート氏の講演を入手

AICU media は講演動画を入手しましたので要約翻訳でお送りします

AMDの基調講演(Dr. Lisa Su, Chair and CEO, AMD)

https://www.computextaipei2024.com.tw/en/index.aspx#keynote1

司会者:皆さん、本日は、AI開発者と密接に連携しているAMDのMI300 (AMD Instinct™ MI300 Series Accelerators)についてお話しします。それでは、Stable Diffusion の画期的なオープンアクセスAIモデルで知られる Stability AI のCTO兼共同CEO、クリスチャン・ラフォートさんをお迎えしましょう。こんにちは、クリスチャンさん。お元気ですか?

クリスチャン:こんにちは。元気です。この場に立てることを光栄に思います。Stability AI の仲間たちを代表してここにいます。

司会者:今日はStability AIの多くの革新についてお話しいただきますね。まずは、これらのAIモデルがどのようにして可能性の境界を押し広げているのか、教えていただけますか?

クリスチャン:もちろんです。私たちは、あらゆる業界で生産性の飛躍的な向上を目の当たりにしています。特に、私たちがモデルとソースコードを無料で公開したことで、多くの開発者や研究者が新しい発見を驚異的な速度で行い、新しいアプリケーションを作り上げました。例えば、古い家族写真の修正や品質向上、あるいはもう見たくない人を写真から削除することが、今や誰でも数秒でできるようになりました。同様に、生産性の向上は画像だけでなく、言語、コーディング、音楽、音声、3Dといった他の研究分野でも見られます。これらを組み合わせることで、映画制作やビデオゲームの生産性を少なくとも10倍に引き上げることを目指しています。

司会者:それは素晴らしいですね。さて、今日は何か大きなニュースがあると伺っていますが。

クリスチャン:はい、Stable Diffusion 3のリリースが間もなくです(the weight/wait fot Stable Diffusion 3 is almost over..!)。

コミュニティの皆さんの忍耐と理解に感謝しています。品質と安全性を向上させるために多大な努力を注ぎました。本日、6月12日にStable Diffusion 3のミディアムモデルを皆さんにダウンロードいただけるようリリースすることを発表します。

(会場から拍手)

クリスチャン:多くの努力がこのモデルに注がれました。私たちは、コミュニティがこのモデルをどのように活用するのか、とても楽しみにしています。技術的でない方々にはわかりにくいかもしれませんが、かつては研究の最前線がこうしたモデル、例えば Stable Diffusion のようなものに繋がっていました。これはまさに自然な進化のようなもので、様々な新しい方法で組み合わさっています。これをオープンに公開することで、何百万人もの人々が最適な組み合わせ方を発見し、新しいユースケースを解放するのを手助けしてくれます。SD3ミディアムは、これまでにない視覚品質を実現したSD3の最適化バージョンであり、コミュニティが自分たちの特定のニーズに合わせて改善することができます。これにより、次の生成AIのフロンティアを発見する手助けになります。このモデルはもちろんMI300上で非常に高速に動作し、発表されたばかりのRyzen AI搭載のラップトップでも動作するほどコンパクトです。こちらがStable Diffusion 3で生成した画像です。台湾の夜市を描写するようにチャレンジしました。

司会者:とても素晴らしいですね。

クリスチャン:細かく見ると完全なフォトリアリスティックではないかもしれませんが、テキストプロンプトのさまざまな要素をよく捉えていると思います。特に、この長いテキストプロンプトを実際に入力するよりもはるかに速く生成されたことを考えると、特に印象的です。歩いている通行人、石でできた通り、夜間の雰囲気などが捉えられています。

クリスチャン:SD3は、マルチモーダルディフュージョントランスフォーマーアーキテクチャを使用しており、視覚コンセプトとテキストプロンプトを以前のモデルよりもはるかに優れた方法で理解します。シンプルなプロンプトにも対応しているので、これを使いこなすための専門知識は必要ありませんが、より複雑なプロンプトにも対応し、そのすべての要素をうまく組み合わせることができます。SD3は、あらゆる種類の芸術スタイルやフォトリアリズムに優れています。

ここに実際に非常に難しい例があります。これは、1年以内にリリースした前のバージョンであるStable Diffusion XL (SDXL) との比較です。この例は特に難しいのですが、なぜなら、手を描くことがこれらのモデルにとって非常に難しいからです。また、ギターの弦やフレットのような繰り返しのパターンも含まれています。これらはすべて、モデルが理解し正確に描写するのが非常に難しいものです。SD3がギターの形や手のようなより現実的なディテールを生成したことに注目してください。細かく見ると、いくつかの不完全な点があるかもしれませんが、前世代に比べて大きな改善です。

司会者:本当にすごいですね。MI300 GPUについての印象はどうですか?

クリスチャン:素晴らしいです。MI300の192GBのメモリはまさにゲームチェンジャーです。新しいモデルを解放する方法として、より多くのメモリを持つことが非常に重要です。これが、より大きなモデルをより早く、より効率的にトレーニングするのに役立つのです。具体例を挙げると、AMDとの協力でクリエイティブアップスケーラ機能を開発しました。これは、1メガピクセル未満の古い写真を取り込み、解像度を大幅に向上させ、品質も同時に向上させる機能です。Nvidia H100で30メガピクセルを達成した時も嬉しかったのですが、MI300Xにコードを移植したところ、ほとんど努力なしで100メガピクセルに達しました。コンテンツクリエイターは常により多くのピクセルを求めているので、これは大きな違いを生みます。実現するためにほとんど努力が必要なかったことも大きなステップアップです。研究者やエンジニアは、AMDとStankのGPUが提供する素晴らしいメモリ容量と帯域幅の利点を気に入ることでしょう。

司会者:それは驚異的です。AMDとの今後の協力についてはどう考えていますか?

クリスチャン:AMDとのさらに密接な協力を通じて、新しい最先端のビデオモデルを開発し、全世界に公開したいと考えています。これにはより多くのメモリとコンピュートパワーが必要です。AMDのチームと密接に協力して、これを実現したいと考えています。

司会者:素晴らしいですね。今日はお話いただき、ありがとうございました。

✨️本記事が面白かったら、ぜひシェアをよろしくお願いいたします!

社内Slack等のシェアでも歓迎です。

また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

✨️AICU Inc.は Stability AI 公式パートナーです。

様々なアプリ開発のご相談も承っております!サービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

https://corp.aicu.ai/ja/stability-ai-membership

生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携 https://prtimes.jp/main/html/rd/p/000000007.000133647.html