タグ: self-hosting

  • Computex 2024 基調講演 Stability AI のCEO/CTOが語る Stable Diffusion 3 は「自然の進化」

    Computex 2024 基調講演 Stability AI のCEO/CTOが語る Stable Diffusion 3 は「自然の進化」

    ■Stability AI クリスチャン・ラフォート氏の講演を入手

    AICU media は講演動画を入手しましたので要約翻訳でお送りします

    AMDの基調講演(Dr. Lisa Su, Chair and CEO, AMD)

    https://www.computextaipei2024.com.tw/en/index.aspx#keynote1

    司会者:皆さん、本日は、AI開発者と密接に連携しているAMDのMI300 (AMD Instinct™ MI300 Series Accelerators)についてお話しします。それでは、Stable Diffusion の画期的なオープンアクセスAIモデルで知られる Stability AI のCTO兼共同CEO、クリスチャン・ラフォートさんをお迎えしましょう。こんにちは、クリスチャンさん。お元気ですか?

    クリスチャン:こんにちは。元気です。この場に立てることを光栄に思います。Stability AI の仲間たちを代表してここにいます。

    司会者:今日はStability AIの多くの革新についてお話しいただきますね。まずは、これらのAIモデルがどのようにして可能性の境界を押し広げているのか、教えていただけますか?

    クリスチャン:もちろんです。私たちは、あらゆる業界で生産性の飛躍的な向上を目の当たりにしています。特に、私たちがモデルとソースコードを無料で公開したことで、多くの開発者や研究者が新しい発見を驚異的な速度で行い、新しいアプリケーションを作り上げました。例えば、古い家族写真の修正や品質向上、あるいはもう見たくない人を写真から削除することが、今や誰でも数秒でできるようになりました。同様に、生産性の向上は画像だけでなく、言語、コーディング、音楽、音声、3Dといった他の研究分野でも見られます。これらを組み合わせることで、映画制作やビデオゲームの生産性を少なくとも10倍に引き上げることを目指しています。

    司会者:それは素晴らしいですね。さて、今日は何か大きなニュースがあると伺っていますが。

    クリスチャン:はい、Stable Diffusion 3のリリースが間もなくです(the weight/wait fot Stable Diffusion 3 is almost over..!)。

    コミュニティの皆さんの忍耐と理解に感謝しています。品質と安全性を向上させるために多大な努力を注ぎました。本日、6月12日にStable Diffusion 3のミディアムモデルを皆さんにダウンロードいただけるようリリースすることを発表します。

    (会場から拍手)

    クリスチャン:多くの努力がこのモデルに注がれました。私たちは、コミュニティがこのモデルをどのように活用するのか、とても楽しみにしています。技術的でない方々にはわかりにくいかもしれませんが、かつては研究の最前線がこうしたモデル、例えば Stable Diffusion のようなものに繋がっていました。これはまさに自然な進化のようなもので、様々な新しい方法で組み合わさっています。これをオープンに公開することで、何百万人もの人々が最適な組み合わせ方を発見し、新しいユースケースを解放するのを手助けしてくれます。SD3ミディアムは、これまでにない視覚品質を実現したSD3の最適化バージョンであり、コミュニティが自分たちの特定のニーズに合わせて改善することができます。これにより、次の生成AIのフロンティアを発見する手助けになります。このモデルはもちろんMI300上で非常に高速に動作し、発表されたばかりのRyzen AI搭載のラップトップでも動作するほどコンパクトです。こちらがStable Diffusion 3で生成した画像です。台湾の夜市を描写するようにチャレンジしました。

    司会者:とても素晴らしいですね。

    クリスチャン:細かく見ると完全なフォトリアリスティックではないかもしれませんが、テキストプロンプトのさまざまな要素をよく捉えていると思います。特に、この長いテキストプロンプトを実際に入力するよりもはるかに速く生成されたことを考えると、特に印象的です。歩いている通行人、石でできた通り、夜間の雰囲気などが捉えられています。

    クリスチャン:SD3は、マルチモーダルディフュージョントランスフォーマーアーキテクチャを使用しており、視覚コンセプトとテキストプロンプトを以前のモデルよりもはるかに優れた方法で理解します。シンプルなプロンプトにも対応しているので、これを使いこなすための専門知識は必要ありませんが、より複雑なプロンプトにも対応し、そのすべての要素をうまく組み合わせることができます。SD3は、あらゆる種類の芸術スタイルやフォトリアリズムに優れています。

    ここに実際に非常に難しい例があります。これは、1年以内にリリースした前のバージョンであるStable Diffusion XL (SDXL) との比較です。この例は特に難しいのですが、なぜなら、手を描くことがこれらのモデルにとって非常に難しいからです。また、ギターの弦やフレットのような繰り返しのパターンも含まれています。これらはすべて、モデルが理解し正確に描写するのが非常に難しいものです。SD3がギターの形や手のようなより現実的なディテールを生成したことに注目してください。細かく見ると、いくつかの不完全な点があるかもしれませんが、前世代に比べて大きな改善です。

    司会者:本当にすごいですね。MI300 GPUについての印象はどうですか?

    クリスチャン:素晴らしいです。MI300の192GBのメモリはまさにゲームチェンジャーです。新しいモデルを解放する方法として、より多くのメモリを持つことが非常に重要です。これが、より大きなモデルをより早く、より効率的にトレーニングするのに役立つのです。具体例を挙げると、AMDとの協力でクリエイティブアップスケーラ機能を開発しました。これは、1メガピクセル未満の古い写真を取り込み、解像度を大幅に向上させ、品質も同時に向上させる機能です。Nvidia H100で30メガピクセルを達成した時も嬉しかったのですが、MI300Xにコードを移植したところ、ほとんど努力なしで100メガピクセルに達しました。コンテンツクリエイターは常により多くのピクセルを求めているので、これは大きな違いを生みます。実現するためにほとんど努力が必要なかったことも大きなステップアップです。研究者やエンジニアは、AMDとStankのGPUが提供する素晴らしいメモリ容量と帯域幅の利点を気に入ることでしょう。

    司会者:それは驚異的です。AMDとの今後の協力についてはどう考えていますか?

    クリスチャン:AMDとのさらに密接な協力を通じて、新しい最先端のビデオモデルを開発し、全世界に公開したいと考えています。これにはより多くのメモリとコンピュートパワーが必要です。AMDのチームと密接に協力して、これを実現したいと考えています。

    司会者:素晴らしいですね。今日はお話いただき、ありがとうございました。

    ✨️本記事が面白かったら、ぜひシェアをよろしくお願いいたします!

    社内Slack等のシェアでも歓迎です。

    また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

    ✨️AICU Inc.は Stability AI 公式パートナーです。

    様々なアプリ開発のご相談も承っております!サービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

    https://corp.aicu.ai/ja/stability-ai-membership

    生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携 https://prtimes.jp/main/html/rd/p/000000007.000133647.html

  • Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    Computex Taipei 2024のオープニングキーノートにて、Stability AI 共同CEOの Christian Laforte氏(@chrlaf) がStable Diffusion 3 Medium を6月12日にオープンリリースすると発表しました。

    <Stability AIの公式メールニュースからの翻訳>

    「Stable Diffusion 3 Medium」が登場します!6月12日(水)より、Hugging Faceでweights をダウンロードできるようになります。SD3 Mediumは、20億のパラメータを持つSD3モデルで、これまでのモデルが苦手としていた分野で特に優れた性能を発揮するように設計されています。主な特徴は以下の通りです:

    フォトリアリズム: 手や顔によく見られるアーチファクトを克服し、複雑なワークフローを必要とせずに高品質の画像を提供します。

    タイポグラフィ: タイポグラフィにおいて強固な結果を達成し、大規模な最新モデルを凌駕します。

    パフォーマンス: 最適化されたサイズと効率性により、コンシューマー・システムとエンタープライズ・ワークロードの両方に最適です。

    ファインチューニング: 小さなデータセットから微妙なディテールを吸収できるため、カスタマイズや創造性に最適です。

    SD3 Mediumのweightsとコードは、非商用目的にのみご利用いただけます。Stable Diffusion 3の商用利用を目的としたセルフホスティングライセンスのご相談は、以下のフォームにご記入ください。弊社のチームがすぐにご連絡いたします。

    Sign Up to the Stable Diffusion 3 Weights List

    https://stability.ai/stablediffusion3

    追伸:それまで待てないという方は、当社のフレンドリーなチャットボットStable Assistant、DiscordのStable Artisan、またはAPIから、当社の最も高性能なテキスト画像変換モデルの3日間無料トライアルにアクセスできます。

    Stable LM2 12B は、Stable Assistant を強力にサポートします。Stable Assistant は、当社の最も先進的な言語モデルであり、その強力なテキスト生成機能でコンテンツを強化します。 

    Stable Artisanは、Discordエコシステム内のStability AI Platform API上の製品を利用する、楽しいマルチモーダル生成AI Discordボットです。このボットは、Stable Diffusion Discordサーバーにアクセスして、他のコミュニティと一緒に画像を生成・編集することができます。

    <公式発信ここまで>

    「weightsの公開」にはどんな意味があるのか

    つまり、「weightsをダウンロードできるようになる」というということの意味は、「AIモデルをダウンロードできるようになる」というとして理解してよいと考えます。

    ただしリリースに記載のある通り、AIモデルをダウンロードして使用できるのは非商用目的であり、商用利用する場合は要相談となる点には注意が必要です。

    画像生成AI解説用語集

    📖用語「weights」

    「weights」とは「AIモデル」にあたります。

    #SD黄色本「画像生成AI Stable Diffusionスタートガイド」p.27の解説によると……

    「コンピューターの中では、「ノード」と呼ばれる単位がニューロンの役割をしていて、これらが「重み」(weights)でつながっており、「バイアス」(bias)は入力が0の時、出力にどれだけ値を上乗せするかを意味します。この大量の「重みとバイアス」のセットこそがそのネットワークの「モデル」であり、この調整を入力刺激と出力結果を評価していくことでモデルを学習させることになります。」

    機械学習における「weights & biases」はモデルの学習結果そのものであり、Stable Diffusion以降のAI画像生成AIにおいては safetensorsファイルのことを意味する事が多いでしょう。

    なお英語的には「weights」であって「weight」ではないのでAICU media編集部ではカタカナで「ウェイト」と表記することは限定的とします。

    📖用語「アーチファクト」artifacts 

    アーチファクト(artifacts)という語は、ラテン語で「人工物」を表すars、artisと「作られたもの」を表すfactumの組み合わせで「人工的に作られたもの」を意味します。人為的または技術的な影響によって発生する産物または現象を指します。画像生成AIにおいては「自然物」に対して「人造物」と解釈することができます。

    📖用語「セルフホスティング」self-hosting

    AIモデル提供企業自身による演算基盤や環境をAPI経由で提供するのではなく、weightsをオープンに配布し、ダウンロードして独自の演算環境やアプリケーション、ツールやAPIサーバーに実装して利用すること。ブラックボックス化や長期サポートが保証されないモデル提供企業のAPI経由に対して、内部動作の透明化や最適化、コミュニティのサポートなどの利点がある。