カテゴリー: Stability AI

  • Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    Computex Taipei 2024のオープニングキーノートにて、Stability AI 共同CEOの Christian Laforte氏(@chrlaf) がStable Diffusion 3 Medium を6月12日にオープンリリースすると発表しました。

    <Stability AIの公式メールニュースからの翻訳>

    「Stable Diffusion 3 Medium」が登場します!6月12日(水)より、Hugging Faceでweights をダウンロードできるようになります。SD3 Mediumは、20億のパラメータを持つSD3モデルで、これまでのモデルが苦手としていた分野で特に優れた性能を発揮するように設計されています。主な特徴は以下の通りです:

    フォトリアリズム: 手や顔によく見られるアーチファクトを克服し、複雑なワークフローを必要とせずに高品質の画像を提供します。

    タイポグラフィ: タイポグラフィにおいて強固な結果を達成し、大規模な最新モデルを凌駕します。

    パフォーマンス: 最適化されたサイズと効率性により、コンシューマー・システムとエンタープライズ・ワークロードの両方に最適です。

    ファインチューニング: 小さなデータセットから微妙なディテールを吸収できるため、カスタマイズや創造性に最適です。

    SD3 Mediumのweightsとコードは、非商用目的にのみご利用いただけます。Stable Diffusion 3の商用利用を目的としたセルフホスティングライセンスのご相談は、以下のフォームにご記入ください。弊社のチームがすぐにご連絡いたします。

    Sign Up to the Stable Diffusion 3 Weights List

    https://stability.ai/stablediffusion3

    追伸:それまで待てないという方は、当社のフレンドリーなチャットボットStable Assistant、DiscordのStable Artisan、またはAPIから、当社の最も高性能なテキスト画像変換モデルの3日間無料トライアルにアクセスできます。

    Stable LM2 12B は、Stable Assistant を強力にサポートします。Stable Assistant は、当社の最も先進的な言語モデルであり、その強力なテキスト生成機能でコンテンツを強化します。 

    Stable Artisanは、Discordエコシステム内のStability AI Platform API上の製品を利用する、楽しいマルチモーダル生成AI Discordボットです。このボットは、Stable Diffusion Discordサーバーにアクセスして、他のコミュニティと一緒に画像を生成・編集することができます。

    <公式発信ここまで>

    「weightsの公開」にはどんな意味があるのか

    つまり、「weightsをダウンロードできるようになる」というということの意味は、「AIモデルをダウンロードできるようになる」というとして理解してよいと考えます。

    ただしリリースに記載のある通り、AIモデルをダウンロードして使用できるのは非商用目的であり、商用利用する場合は要相談となる点には注意が必要です。

    画像生成AI解説用語集

    📖用語「weights」

    「weights」とは「AIモデル」にあたります。

    #SD黄色本「画像生成AI Stable Diffusionスタートガイド」p.27の解説によると……

    「コンピューターの中では、「ノード」と呼ばれる単位がニューロンの役割をしていて、これらが「重み」(weights)でつながっており、「バイアス」(bias)は入力が0の時、出力にどれだけ値を上乗せするかを意味します。この大量の「重みとバイアス」のセットこそがそのネットワークの「モデル」であり、この調整を入力刺激と出力結果を評価していくことでモデルを学習させることになります。」

    機械学習における「weights & biases」はモデルの学習結果そのものであり、Stable Diffusion以降のAI画像生成AIにおいては safetensorsファイルのことを意味する事が多いでしょう。

    なお英語的には「weights」であって「weight」ではないのでAICU media編集部ではカタカナで「ウェイト」と表記することは限定的とします。

    📖用語「アーチファクト」artifacts 

    アーチファクト(artifacts)という語は、ラテン語で「人工物」を表すars、artisと「作られたもの」を表すfactumの組み合わせで「人工的に作られたもの」を意味します。人為的または技術的な影響によって発生する産物または現象を指します。画像生成AIにおいては「自然物」に対して「人造物」と解釈することができます。

    📖用語「セルフホスティング」self-hosting

    AIモデル提供企業自身による演算基盤や環境をAPI経由で提供するのではなく、weightsをオープンに配布し、ダウンロードして独自の演算環境やアプリケーション、ツールやAPIサーバーに実装して利用すること。ブラックボックス化や長期サポートが保証されないモデル提供企業のAPI経由に対して、内部動作の透明化や最適化、コミュニティのサポートなどの利点がある。

  • #10分で学べるAI Google Slidesでバリエーション広告を大量生成

    #10分で学べるAI Google Slidesでバリエーション広告を大量生成

    「ようこそ!アイキュー部」-1話

    「AIでクリエイティブなビジネスをする!」をテーマに学内起業コンテストにエントリー提案をして「アイキュー部」を設立したKotoちゃん。

    今日は知り合いの不動産会社から依頼された案件に取り組んでいます。

    Koto「あ~あ、新築分譲マンションのバリエーション広告を作ってくれ……って頼まれたんだけど、今日はもう帰らないと…ルゥくん、あと頼むわね!」

    ★バリエーション広告:さまざまな対象者に向けて制作する多様性のある広告

    ルゥ「Koto先輩!?待ってください、何やってるんですか?」
    Koto「え……?アイキュー部で受けたバイトなんですが何か問題でも?」
    ルゥ「そうなんだ……って!なんで手で作ってるんですか?『AIでクリエイティブなビジネスする』ってのがこの部活なんですよね??」
    Koto「私は『アートイラスト・キュレーション部』の略のつもりで「AICU部」って書いたつもりなんだけど……審査員の先生にウケが良かったのでついそのまま……」
    ルゥ「押し切られちゃったんですか!?」
    Koto「こうやって部室も案件もらえたし、いいじゃない。しっかり稼ぎましょ」

    ルゥ「まあ……そうですね、で、これは何なんですか?」

    Koto「わからないの?『マンションポエム』よ!!」
    ルゥ「『上質が佇む(たたずむ)至高の邸宅』……なんだかよくわからないけどこれがあるだけでリッチな感じしますね」
    Koto「『これをできるだけ多くのバリエーションを作ってこい』というのがクライアントから出された課題よ」
    ルゥ「たしかにAI画像生成でできなくもなさそうだけど……これをいくらで受けたんですか?」
    Koto「ああ!もう帰らないと門限が!じゃあ私が家につくまでに、そのAI画像生成とやらで、最低15パターンをGoogle Slidesに作っておいてね!」
    ルゥ「ひぃ」

    ――どうしよう、突然、大量の広告ビジュアルの生成を頼まれちゃった。画像生成しようにもGPUもないしな…。

    あ、でもこんな時は… Stability AI の Stable Image CoreGoogle Apps Scripts が使えるかも!

    ……とおもったら、即実行。こんな感じに出来上がってました!

    ▼「ようこそ!アイキュー部」-1話(後編)はこの技術解説の続きにあります▼

    やってみよう

    Stability AI が提供する Stability AI Developer Platform のイメージサービス のうちのひとつ「Stable Image Core」 のAPIを使って、GPUいらず、たった3分程度で商用利用できるバリエーション広告(さまざまな対象者に向けて制作する多様性のある広告)画像を様々なスタイル画像で生成してみましょう。今回はGoogle Slidesだけ、ノーコードで利用できるツールとして提供します。

    Stability AI のプラットフォーム APIキーの入手

    まず、このプログラムで画像生成をするには Stability AI のプラットフォームを利用するAPIキーが必要です。持ってない人はここにアクセスしてAPIキーを取得するか、管理者殿にお願いしてキーを発行してもらってください。

    https://platform.stability.ai/account/keys

    生成できない場合は支払い設定(https://platform.stability.ai/account/credits)を確認してください。

    Copy ❏ したら「sk-….」で始まるAPIキーをクリップボードにコピーできます。このAPIキーが流出すると勝手に使われてしまいますので管理はお気をつけて。

    次のステップに進みます。

    Google Slides コピーして自分のDriveに

    このリンクでコピーして使える Google Slidesを配布しています。
    お使いのGoogleアカウントでアクセスしてください。

    https://j.aicu.ai/SAIAD

    こんな画面のGoogle Slidesが表示されます。このあと自分のDriveにコピーしていきます。

    ファイル⇢「コピーを作成」⇢「プレゼンテーション全体」を実行します。

    「ドキュメントをコピー」のダイアログが表示されますので、そのまま「コピーを作成」ボタンを押してください。

    初回起動でAPIキーを設定

    まず最初に、APIキーを設定します。

    スライドの上に以下のようなダイアログが表示されます。コピーした直後に表示されるはずです。

    [S.] Stability AI Platform API Key Required

    このツールでは、画像を生成するために Stability AI プラットフォームの APIキー が必要です。
    お持ちでない場合は、https://platform.stability.ai/account/keys でAPIキーを取得してください。

    This program requires a Stability.ai API key to generate images.
    If you do not have one, please visit https://platform.stability.ai/account/keys to obtain an API key.

    と表示されますので、冒頭で取得した「sk-」で始まる51文字のAPIキーを貼り付けてOKを押してください。

    もし、コピー直後のダイアログで設定しそびれた人は、メニューの[AI Image Generator]⇢[Set API key]を実行することで設定できます。

    スクリプト実行権限の設定

    次に、APIキーの動作確認とスクリプト実行権限の許可を行います。メニューの3番目「Generate Images」を選んでみてください。

    「認証が必要です」というダイアログが表示されるはずです。

    スクリプト実行権限を許可していきます。

    現在お使いのGmailアドレスが表示されているはずです。

    スクリプト実行権限を許可するアカウントを選びましょう。保存先ドライブを選択する意味もありますので、実験目的であれば、まずは個人をおすすめします。

    アカウントを選択すると、今度は 「⚠️ このアプリは Google で確認されていません」という警告が表示されます。危険なアプリではありませんので左下の「詳細」を押して行きます。

    最後に「AICU-AdGenerator(安全ではないページ)に移動」を押して、各サービスへの許可を設定していきます。

    許可ボタンを押すことでドライブへの閲覧、書き込み権限、スライドの編集、外部サービス(Stability AIのAPI)へのアクセスを許可します。編集履歴などはお使いのGmailアカウントで実行したことが記録されますし、知らないうちに実行するような処理にはなっておりませんのでご安心ください。

    権限の設定が終わったら、再度メニューの3番目「Generate Images」を選んでみてください。

    「スクリプトを実行しています」が表示され、画像の生成がはじまります。

    3分程度で、「画像の生成が完了しました。フォルダを確認してください」が表示されるはずです。

    Google Driveのマイドライブ直下「AICU-Stability-AdGenerator https://j.aicu.ai/SAIAD のコピー」というフォルダに以下のような画像が生成されていれば成功です!

    これは同じプロンプトに対して、 異なるスタイルが15種類適用された画像になります。

    Google Slides自動生成とキャッチコピーの配置

    これで終わり!でもいいと思ったのですが、クライアントの要求は画像の生成だけでなく、「マンションポエム」と呼ばれるキャッチコピーも含まれるような気がしたので、もうひと押しGoogle Slidesで頑張ってみます。

    Kotoさんが作っていたスライドにあったキャッチコピー「上質が佇む至高の邸宅。」とスタイルを第1ページに設定してあります。こちらは自由に編集していただいて構いません。

    これで準備は完了です!

    下の[Prompt=]に生成したいもの,
    [NP=] に見たくないものを英語で入れて
    メニューの3番目の[AI Image Generator]⇢[Add Slides by all styles] を選んでみてください。

    「スクリプトを実行しています」と表示されます。

    この後の結果が出るまでは、数分かかります。無事に生成されるとこのように15枚のスライドがキャッチコピー付きで生成されます。左下のスライド一覧表示にしてみましょう。

    初期状態では「Prompt=urban tokyo bayfront skyline residences ad luxury super rich visual」(プロンプト=東京ベイフロントのスカイライン・レジデンス広告の豪華なスーパー・リッチ・ビジュアル)となっているので、このまま何度でも「Add Slides by all styles」を実行すれば15枚づつ、東京湾ベイエリアの高級そうな住居の画像が生成されます。第1ページにある「Prompt=」と「NP=」を変えるだけなので、例えばこんなプロンプトにしてみます

    Prompt=Paris urban apartment  パリの都会のアパルトマン
    NP=Nsfw, worst quality
      (ネガティヴ・プロンプト)職場にふさわしくない、悪いクオリティ

    Stability AIの Stable Image Core API に実装されている多様なスタイルのおかげで、自然なバリエーション広告を生成できています。ネガティヴ・プロンプトのおかげもあってか、あまり出来の悪いスライドはありませんが、不要なスライドやキャッチコピーの修正を行って完成です。

    このSlidesに追加してある「AI Image Generator」メニューから実行できる機能の詳細は以下のとおりです。

    ・ Set API Key:Stability AI のAPIキーを設定します。

    ・Add Slides by all styles:タイトル(1枚目のスライド)で「Prompt=」で与えられたプロンプトと「NP=」で与えられたネガティブプロンプト(英語)から Stability AIの Stable Image Core API を使用して15種類のスタイル適用済み画像をGPU不要で画像を生成し、1枚生成されるごとに、スライドの画面全体に表示されるように背景画像として配置しています。追加された各スライドのタイトルとメモに 使用したstyleとプロンプトを設定しています。

    ・Generate Images:タイトル(1枚目のスライド)で与えられたプロンプトから、スライドのファイル名と同じ名前のディレクトリにすべてのスタイルの‪2,040 x 1,152‬pixelsの画像を15スタイル生成します。

    ・Save All Slides:PDF がDriveに保存されます。Google Slidesの[ファイル]⇢[ダウンロード]で保存でも構いません。

    ・15スタイルの生成は3分程度で51credit (80円ぐらい)です。

    ※安全のため、他人とシェアするときは Set API Keyを使って有効ではないAPIキーを設定しておくことをおすすめします。
    ※本ツールのソースコードが気になる方は Google Slides上でスクリプトエディタをご参照ください。このコードの著作権はAICU Inc. が保有しています。この記事で公開されているツールの使用における損害等についてAICU Inc.は責任を負いません。
    ※実際の広告等への利用など Stable Diffusionの商用利用に関するご質問は sai@aicu.ai までお問い合わせください。

    技術解説「Slidesだけでも画像生成できる」

    Google SlidesをコピーしてAPIキーを貼り付けるだけで様々なスタイルの画像を生成をすることができました!

    AICU media では今後も話題の Stable Diffusion 3.0 やStable Image Core を用いた記事を発信していく予定です。面白かったらぜひフォロー、いいねをお願いします!

    次回予告

    さてその後のアイキュー部のDiscordでのやり取りです

    ルゥ「Koto先輩~、Google Slides作っておきましたよ~」
    Koto「わあ!すごいのができたね!!早速クライアントに提出してくる!」

    (…しばらく後…)

    Koto「ルゥくんゴメェン!今回のクライアントは『Google Slides禁止!』だそうです!!」
    ルゥ「うええええええええ!先に聞いてきてくださいよ!!」

    せっかくルゥくんが頑張って作ったGoogle Slidesですが、別のアプローチを探さねばならないようです。

    #10分で学べるAI いかがでしたでしょうか?ご感想は X@AICUai までいただけると幸いです。

    続きはこちら

    漫画「ようこそアイキュー部」はこちらに続きます!

    ▼ようこそ!アイキュー部 第1話 https://note.com/aicu/n/ne878b6d68004

    ▼AICUマガジン5月号 https://j.aicu.ai/Mag2405

  • Stability AI、日本語大規模言語モデル「Japanese Stable LM 2 1.6B」を発表。Google Colabのシークレット機能で短いコードを書いてみよう!

    Stability AI、日本語大規模言語モデル「Japanese Stable LM 2 1.6B」を発表。Google Colabのシークレット機能で短いコードを書いてみよう!


    2024年5月9日(日本時間)、Stability AIから新たな日本語大規模言語モデル「Japanese Stable LM 2 1.6B」がリリースされました。

    モデルのサイズも小さく性能も高いLLMです。比較的シンプルな環境で動作しそうです。今回の記事は特殊な環境が不要なGoogle Colabで、最新のサンプルを、非常に短いコードで実験できることを確認したので紹介していきます。

    まずは Stability AI 公式リリースから

    https://ja.stability.ai/blog/japanese-stable-lm-2-16b

    🎉日本語特化の言語モデル「Japanese Stable LM 2 1.6B」をリリースしました🎉

    Japanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日本語の小型言語モデルです。
    こちらのモデルはStability AI メンバーシップにご加入いただくことで商用利用が可能です。

    詳細はこちら💁‍♀️… pic.twitter.com/b35t2Il4lm

    – Stability AI Japan (@StabilityAI_JP) May 9, 2024

    • Japanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日本語の小型言語モデルです。
    • JSLM2 1.6Bのモデルサイズを16億パラメータという少量にすることによって、利用するために必要なハードウェアを小規模に抑えることが可能であり、より多くの開発者が生成AIのエコシステムに参加できるようにします。
    • ベースモデルとしてJapanese Stable LM 2 Base 1.6Bと、指示応答学習(Instruction tuning)済みのJapanese Stable LM 2 Instruct 1.6Bを提供します。両モデルとも Stability AI メンバーシップ で商用利用が可能です。また、どちらのモデルもHugging Faceからダウンロードすることができます。

    Stability AI Japanは16億パラメータで学習した日本語の言語モデルJapanese Stable LM 2 1.6B(JSLM2 1.6B)の ベースモデル指示応答学習済みモデルをリリースしました。ベースモデルの学習ではWikipediaやCulturaX等の言語データを利用、指示応答学習では jasterIchikara-Instruction 、Ultra Orca Boros v1の日本語訳等、商用データおよび公開データを利用しました。今回のJSLM2 1.6Bでは言語モデリングにおける最新のアルゴリズムを活用し、適度なハードウェアリソースで迅速な実験を繰り返すことを可能にし、スピードと性能を両立しました。

    性能評価

    Nejumiリーダーボードを用いて、他の小規模パラメータのモデルと比較したJSLM2 1.6Bの性能は以下のとおりです。今回は llm-leaderboard(の社内Fork)のcommit c46e165 を用いています。

    (サイズが)16億パラメータという小型モデルでありながら、40億パラメータ以下のモデルのスコアよりも高いスコアを達成し、70億パラメータのモデルに近いスコアを獲得しています。

    高性能な小型言語モデルをリリースすることで、言語モデル開発の敷居を下げ、より高速に実験を反復することを可能にします。なお、少ないパラメータ数の小型モデルであるため、より規模の大きいモデルで発生しうるハルシネーションや間違いをおかす可能性があります。アプリケーションでのご利用の際には適切な対策を取るようご注意下さい。JSLM2 1.6Bのリリースを通じて、日本語LLMのさらなる開発と発展に貢献できると幸いです。

    商用利用について

    JSLM2 1.6Bは Stability AI メンバーシップで提供するモデルのひとつです。商用でご利用したい場合は、 Stability AIメンバーシップページから登録し、セルフホストしてください。

    Stability AI の最新情報は 公式XInstagram をチェックしてください。

    (以上、公式リリース情報終わり)

    Google Colabで実際に使ってみる

    それでは早速Google Colabで体験していきましょう。
    基本は 公式のサンプルコードに従って、Google Driveで新規作成→Google Colab Notebookで構築していきます。
    (完動品のコードへのリンクはこの記事の最後に紹介します)
    Google ColabはGPUや搭載メモリサイズなどを気にしなくて良いので気軽に学習環境として試すことができます。

    以下は公式のサンプルコードです。

    import torch
    from transformers import AutoTokenizer, AutoModelForCausalLM

    model_name = "stabilityai/japanese-stablelm-2-instruct-1_6b"
    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

    # The next line may need to be modified depending on the environment
    model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True,
    device_map="auto",
    trust_remote_code=True,
    )

    prompt = [
    {"role": "system", "content": "あなたは役立つアシスタントです。"},
    {"role": "user", "content": "「情けは人のためならず」ということわざの意味を小学生でも分かるように教えてください。"},
    ]
    inputs = tokenizer.apply_chat_template(
    prompt,
    add_generation_prompt=True,
    return_tensors="pt",
    ).to(model.device)

    # this is for reproducibility.
    # feel free to change to get different result
    seed = 23
    torch.manual_seed(seed)

    tokens = model.generate(
    inputs,
    max_new_tokens=128,
    temperature=0.99,
    top_p=0.95,
    do_sample=True,
    )

    out = tokenizer.decode(tokens[0], skip_special_tokens=False)
    print(out)


    リポジトリへの利用申請

    まずは下準備として、HuggingFaceでアカウント作成し、 モデルカード からStability AIリポジトリへの利用申請、以下の質問に答えましょう。

    大事なポイントは最後のメールニュースの受信のためのメールアドレスを入れることですね。

    ✨️なお AICU は Stability AI 商用メンバーです✨️

    利用申請が承認されていると、上のフォームは表示されず、「Gated model」と表示されます。

    Google Colabのシークレット機能

    Google ColabとHuggingFaceに最近実装された機能なのですが、左側の「シークレット」から「HF_TOKEN」という環境変数を指定します。

    環境変数、ファイルパス、またはキーを保存することにより、コードを構成することができます。ここに保存される値は非公開であり、ユーザ自身と選択したノートブックにのみ表示されます

    「+新しいシークレットを追加」を押します

    並行して、HuggingFaceの「Settings」>「Access Tokens」でトークンを作りましょう。
    https://huggingface.co/settings/tokens

    「Colab-HF_TOKEN」という名前をつけて、権限は「WRITE」をONにします(READだけでも動きますが、 HuggingFace推奨はWRITE)。
    取得したユーザーアクセストークン(hf_で始まる文字列)を「HF_TOKEN」の「値」に貼り付けます。
    「ノートブックからのアクセス」をONにします。

    これで
    token = userdata.get(‘HF_TOKEN’)
    と書くだけで、HuggingFaceのトークンが参照できます。

    もちろん、Pythonスクリプトに直書きしたいひとは
    token=”(あなたのHugginFaceトークン)”
    もしくは
    !huggingface-cli login — token $token 
    でも動くと思います!

    スクリプトを起動

    https://j.aicu.ai/JSLM2B16B

    コードはこちらです

    吾輩は猫である、名前は…
    Setting `pad_token_id` to `eos_token_id`:100257 for open-end generation.
    吾輩は猫である、名前は…まだない。 そもそも「名前を付ける必要があるのか?」 それを考えるのに、10歳を目前にしている吾輩である。 しかし、他の猫達との差別化という意味では、あった方が良いとも思うし、なんせ名前があるという安心感から、猫は猫らしく、自由気ままにやりたい

    Colabは動作環境を選べるのですが、CPUでの実行だとでだいたい1分以下で生成されます。

    吾輩は猫である、名前は…名無しである。 名前はない。 何故なら、吾輩は名前を言いたくないのだ。 それを、そのことを知っている奴らが「名無し」と呼ぶのである。 そいつらを、「名付き」の奴らと呼ぼう。 吾輩が名無しと呼ばれるのは「何も持っていないから」である。 何も持っていないから、それ

    吾輩は猫である、名前は… といえるほど、名前が思い浮かばないのは、私だけでしょうか? そうは言っても、「猫じゃらし」は、その場によって名前のバリエーションがたくさんありますよね。 そういう「猫じゃらし」が持つ、イメージとか、意外な性格とか、飼い猫のネコじゃらしの場合を

    吾輩は猫である、名前は…まだないのである。 ここは、吾輩が住み慣れた部屋、何も特徴のないところだ。 場所は不確かだが、とにかく部屋だけはここになって、ずっとこの部屋で暮らしているのだ。 なんでこんなことを言っているかというと、吾輩の部屋が消えて、別…

    続いてT4 GPUで実行してみました。
    4–5秒で以下のテキストが生成されました。

    途中で、Do you wish to run the custom code? [y/N] が表示されたら、y を押してEnterキーで入力してください(環境によるようです)。

    GPUのメモリ(GPU RAM / VRAM)は7.7GBと、標準的なゲーミングPC2搭載されている8GB以下でも動きそうです。

    Setting `pad_token_id` to `eos_token_id`:100257 for open-end generation.というワーニングが表示されますが、これは このあたりの 情報を見ながら実際の設定を作っていくと良さそうです。

    GUIでチャットボットを試したい方は Instruct版を試してみよう!

    時同じくして、アドボケーター仲間のDELLさんが Japanese Stable LM 2 Instruct 1.6B の Google Colab版コードを公開してくれています。

    Gradioインタフェースで日本語チャットを楽しめます!

    まとめ

    以上、Stability AIが公開した最新の日本語大規模言語モデル「Japanese Stable LM 2 1.6B」をGoogle Colabのシークレット機能で短いコードを書いてみました。Google Colabでの環境も今回のシークレット機能の他にもTransoformersが標準搭載になったりしていますので、いきなりローカル環境で試すよりも良いことがいっぱいありそうですね!

    AICU mediaでは日本語LLMについての実験的な話題も増やしていきたいと思います。ぜひフィードバックやシェア、X(Twitter)でのコメントなどいただければ幸いです。
    腕だめしをしたいライターさんや学生インターンも引き続き募集中です。


    Originally published at https://note.com on May 9, 2024.

  • Stability AI が Discordで利用できる多機能メディア生成サービス「Stable Artisan」をリリース!早速試してみた

    Stability AI が Discordで利用できる多機能メディア生成サービス「Stable Artisan」をリリース!早速試してみた


    Stability AI が Discordで利用できる多機能メディア生成サービス「Stable Artisan」をリリース!早速試してみた

    Stable Artisanとは? Discord内で高品質の画像や動画を生成・編集できるDiscordボットです。Stable Diffusion 3、Stable Video Diffusion、Stable Image Coreのパワーを活用しています。

    登録・利用はこちら https://stability.ai/stable-artisan

    メディア生成に加え、Stable Artisanには、検索と置換、背景の削除、クリエイティブ・アップスケール、アウトペインティングなど、作品を編集するためのツールが用意されています。

    使い方は簡単、/dreamコマンドで。

    まず、 https://stability.ai/stable-artisan でアカウントを作成し、artisan-1、artisan-2、artisan-3、artisan-4、artisan-5 のいずれかのチャンネルにアクセスして、/dream を使って制作を始めてください

    チャンネルの中で、入力できるチャンネルを探してください。
    (たとえば artisan-2 が利用できました)

    スラッシュコマンド「/dream」と入力すると、こんな感じにオプションが表示されます。
    ・プロンプト
    ・ネガティブプロンプト
    ・縦横比
    ・モデル(コアモデルとSD3が選べます)
    ・シード指定
    ・画像生成枚数
    不要な要素は省略して構いません!

    気になる料金は

    スラッシュコマンド「/credits」で確認できます。

    今月は 1/200 のクレジットが残っています。 Stability Artisan 機能のクレジットレート: 
    Image Core 3 SD3 6.5 Creative Upscale 25 Search & Replace 4 Outpaint 4 Remove Background 2 Sketch Control 3 Structure Control 3 Video 20
     Info クレジットは、成功した個々の生成ごとに計算されます。 たとえば、/image を使用して 2 つの画像を取得した場合、2x 3、つまり合計 6 クレジットを使用します。 これはまた、生成に失敗した場合(エラーや自動フィルタリングなどによる)、失敗した生成分のクレジットが返金されることを意味します。

    Platform APIサービスの詳細については、こちらをご覧ください: https://platform.stability.ai/docs/getting-started/stable-image

    もし行き詰まったら、Artisanチャンネルで/helpを使えば、Stable Artisanの使い方についてより詳しいヘルプが得られます

    関連:Stable Assistantと間違えないように…

    4月にリリースされたStable Assistantと間違えないようにしましょう。

    間違って登録したプランをキャンセルするには?

    ウェブサイト(https://assistant.stability.ai/login)からアカウントにログインし、メールアドレスの頭文字が表示されている右上のボタンをクリックします。 次に、”Manage Subscription “をクリックし、右上の “Cancel plan “をクリックします。 “プランのキャンセル “をクリックしてキャンセルを確定します。

    利用規定

    利用規約はこちら https://stability.ai/terms-of-use

    それでは、良い作品作りを!
    https://youtu.be/MWfb30kWqTM


    Originally published at https://note.com on May 9, 2024.

  • AI動画生成の大きな一歩 StabilityAIが「SVD Image-to-Video」を公開

    AI動画生成の大きな一歩 StabilityAIが「SVD Image-to-Video」を公開

    2023年11月21日、StabilityAI社は画像から動画を生成する技術「Stable Video Diffusion」(SVD)を公開しました。
    研究者の方はGitHubリポジトリで公開されたコードを試すことができます。ローカルでモデルを実行するために必要なウェイトは、HuggingFaceで公開されています(注意:40GBのVRAMが必要です)。
    さらにStable Video Diffusion (SVD) を使って画像から動画へウェブインタフェースも近日公開予定とのこと。キャンセル待ちリストが公開されています。

    stable-video-diffusion公式アナウンス

    https://stability.ai/news/stable-video-diffusion-open-ai-video-model

    日本語アナウンス

    https://ja.stability.ai/blog/stable-video-diffusion

    https://youtu.be/G7mihAy691g

    ウェイティングリスト

    https://stability.ai/contact

    研究論文

    「Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets」(21 Nov ,2023)
    安定した映像拡散: 潜在的映像拡散モデルの大規模データセットへの拡張

    高解像度で最先端のテキストから動画、画像から動画生成のための潜在動画拡散モデル、Stable Video Diffusionを紹介する。近年、2次元画像合成のために学習された潜在拡散モデルは、時間レイヤーを挿入し、小規模で高品質なビデオデータセット上で微調整することで、生成的なビデオモデルへと変化している。しかし、文献に記載されている学習方法は様々であり、ビデオデータをキュレーションするための統一的な戦略について、この分野はまだ合意されていない。本論文では、動画LDMの学習を成功させるための3つの異なる段階を特定し、テキストから画像への事前学習、動画の事前学習、高品質動画の微調整の評価を行った。

    Translated from the original paper

    Github: https://github.com/Stability-AI/generative-models

    HuggingFace

    https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

    Stable Video Diffusion Image-to-Video モデルカードより

    Stable Video Diffusion (SVD) Image-to-Video は、静止画像を条件フレームとして取り込み、そこから動画を生成する拡散モデルです。

    モデル詳細

    (SVD)Image-to-Videoは、画像コンディショニングから短いビデオクリップを生成するようにトレーニングされた潜在拡散モデルです。このモデルは、 SVD Image-to-Video[14フレーム]から微調整された、同じサイズのコンテキスト・フレームが与えられたときに、解像度576×1024の25フレームを生成するように訓練されています。また、広く使われている f8-デコーダを時間的整合性のために微調整した。便宜上、標準的な フレーム単位のデコーダのモデル も提供されています。

    研究目的であれば、Generative-modelsのGithubリポジトリリポジトリ: https://github.com/Stability-AI/generative-models

    最も一般的な拡散フレームワーク(学習と推論の両方)が実装されています。
    論文: https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

    評価

    https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

    比較チャートは、GEN-2やPikaLabsに対するSVD-Image-to-Videoのユーザー嗜好を評価したものです。SVD-Image-to-Videoは、ビデオの品質という点で、人間に好まれています。ユーザー調査の詳細については、研究論文を参照してください。

    用途:直接利用

    このモデルは研究目的でのみ使用されます。想定される研究分野や課題は以下の通りです。

    ・生成モデルの研究
    ・有害なコンテンツを生成する可能性のあるモデルの安全な展開
    ・生成モデルの限界とバイアスの調査と理解
    ・芸術作品の生成と、デザインやその他の芸術的プロセスにおける使用
    ・教育的または創造的なツールへの応用

    除外される用途を以下に示します
    使用の範囲外
    このモデルは、人物や出来事の事実または真実の表現となるように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。またこのモデルをStability AI の 利用規定 に違反するような方法で使用しないでください。

    制限とバイアス

    制限事項
    生成される動画はかなり短く(4秒未満)、モデルは完全なフォトリアリズムを達成しません。
    ・モデルは動きのないビデオや、非常に遅いカメラパンを生成することがあります。
    ・モデルはテキストで制御することができません。
    ・モデルは読みやすいテキスト(legible text)をレンダリングできません。
    ・顔や人物全般が適切に生成されないことがあります。
    ・モデルの自動エンコード部分は非可逆です。

    推奨事項
    このモデルは研究目的のみを意図しています。

    モデルを使い始めるには
    https://github.com/Stability-AI/generative-models をチェックしてください。

    最新の進歩を取り入れたモデルのアップデートに意欲的に取り組み、皆さんのフィードバックを取り入れるよう努力していますが、現段階では、このモデルは実世界や商業的な応用を意図したものではないことを強調しておきます。安全性と品質に関する皆様の洞察とフィードバックは、最終的な商業リリースに向けてこのモデルを改良する上で極めて重要です。

    StabilityAI社のリリースメッセージより翻訳

    AICU media のコメント

    StableDiffusionを2022年8月に公開してから14カ月。ついにStabilityAIがAI動画生成の大きな一歩となる「SVD Image-to-Video」をオープンに公開しました。画像を入力すると動画が生成されるDiffusionモデルのようです。フレーム間の安定性も高いようです。論文も30ページの超大作なので今後のこの分野における革新の一歩になることは間違いありません。今後も注目していきます。

    Originally published at https://note.com on November 22, 2023.

  • Stability Matrixが最新版 v2.6.1にアップデート

    Stability Matrixが最新版 v2.6.1にアップデート

    2023年11月17日「Automatci1111」や「Fooocus」、「ComfyUI」を代表とするStable Diffusion WebUI各種が簡単なインストーラーでセットアップできちゃう「Stability Matrix」が最新版 v2.6.1にアップデートされました。

    https://github.com/LykosAI/StabilityMatrix/releases/tag/v2.6.1

    v2.6.0以前から大きな変更点

    v.2.5.x以前のユーザは新規インストールをしたほうがいいかもしれません。

    11月10日にリリースされたStability Matrixがv2.6.0に!IntelのオンボードGPUでも動く可能性が出てきました。

    https://note.com/o_ob/n/nd5ec2fd34ad9

    大きなニュースとしては、追加学習のプロジェクトとして評価の高い「kohya_ss」のパッケージ追加されました。

    Kohya’s GUI とは

    LoRAを生成するためのGUIで、日本人のKohyaさんが開発しています。

    https://github.com/bmaltais/kohya_ss

    このリポジトリは、主にKohyaさんが開発したStable Diffusionでの機械学習のためのWindowsに特化したGradio GUIを提供しています。GUIで学習パラメータを設定し、モデルを学習するために必要なCLIコマンドを生成して実行することができます。

    LoRAとは

    画像生成やLLMにおける追加学習のことで、StableDiffusionの場合は、自分の画風を学習させたり、キャラクターや背景を安定させたりといった使い道があります。ちょうどこちらの書籍で解説しています

    https://techbookfest.org/product/guM26Wz45JGPzhkaHFVzZj

    まだバグがいっぱいありそうですが、その後、短い期間でStability Matrixが最新版 v2.6.1にアップデートされたということになります。

    https://github.com/LykosAI/StabilityMatrix/releases/tag/v2.6.1

    リリースノートによると

    ・NVIDIA GPUユーザーは、InvokeAIパッケージでCUDA 12.1を使用するように更新され、パフォーマンスが若干向上。アップデートは、パッケージの次回更新時または新規インストール時に行われます。
    注:CUDA 12.1は、Maxwell(GTX 900シリーズ)以降のGPUでのみ利用可能です。

    ・バグ修正
    レート制限を防ぐため、GitHubへのコール量を削減
    起動時にレート制限がクラッシュし、アプリが起動できなくなる問題を修正

    インストール時の不具合はこちらで修正された可能性がありますね。
    Stability MatrixによるWebUIのパッケージ管理は非常に便利なので、今後もアップデートを見守っていきたいと思います。

    Originally published at https://note.com on November 20, 2023.