カテゴリー: World

  • 【まだ間に合う!!】賞金400万円超えのAI映像コンテストに投稿してみた #projectOdyssey

    【まだ間に合う!!】賞金400万円超えのAI映像コンテストに投稿してみた #projectOdyssey

    こんにちは!AIクリエイターの ぽんず(@ponzponz15)です。

    AICU media編集部さんに教わったのですが、実はいま世界では、賞金総額28,000ドル(約437万円!)もかけて行われているAI映像制作コンテスト「PROJECT ODYSSEY(プロジェクト・オデッセイ)」が開催されているので投稿した実録です。みなさんも投稿頑張ってみてください!

    https://www.projectodyssey.ai

    参考記事:国際AI映像制作コンペ「オデッセイ」開催 #projectodyssey

    https://note.com/aicu/n/n53b3aab4879b

    CivitaiThinkDiffusionElevenLabsRealdreamsといった、AI業界の人なら誰でも知ってるような企業が主催している、まさに世界規模のコンテスト。

    作品提出締め切りは 2024年7月17日 PM3:59 (July 16th at 11:59PM PT)とあります。まだ間に合います。

    それでは「PROJECT ODYSSEY(プロジェクト・オデッセイ)」に応募していきましょう。自分は投稿が終わったので、これから一人でも多くの方に知ってもらおうと思い、この記事を作成しました。

    私自身、使用したことのないサイト(CivitAI)だったので応募に少し苦労しました。皆様がアカウント登録から応募までスムーズに進めるように画像付きで解説しましたので、ぜひ最後まで読んでみてください。

    世界のAI映像界を牽引する企業が注目!

    まず、「PROJECT ODYSSEY」ですが、AI映像業界を牽引するmorph、F3F、LensGo、DomoAI、DeepMakeなど、そうそうたる企業が協賛しています。

    3Dアニメーション、ミュージックビデオ、技術紹介などAIを使った映像表現の可能性を追求する作品を募集中です。

    コンテストの詳細はこちら
    公式X(Twitter)アカウント

    私も滑り込みで応募しました

    以前、AICU様の記事でご紹介した「アルパカおにぎり」の動画を応募しました。SNSを見ていてもこういった不思議な表現はあまり見かけなかったので、もしかしたらチャンスがあるかも?作品の詳細はこちらの記事をご覧ください!

    https://note.com/embed/notes/n7ebe0ac1afb3

    一般の投票期間もありますので、よければ応援よろしくお願いします。

    【簡単】「PROJECT ODYSSEY」応募方法解説

    1. アカウント登録

    まずは「PROJECT ODYSSEY」の公式ウェブサイトにアクセスして、アカウントを作成しましょう。 https://www.projectodyssey.ai/

    画面右上の”Sign Up”ボタンをクリックし、必要情報を入力して登録を進めてください。

    メールアドレスや主要なSNSリンクなどを入力します。その後、上記のHow to Submitから応募に入ります。

    Go to Collectionを選択すると Project Odysseyのページへ移動します。

    こちらの画面、右上の➕ボタンを押して 応募を開始しましょう。

    2. 作品をアップロード

    アカウント登録が完了したら、いよいよ作品のアップロードです。

    “作品をアップロード”ボタンをクリックし、アップロード。さらに以下の情報を入力します。

    作品情報に加えて、いくつかの情報を記入する必要があります。

    • タイトル
    • 説明文
    • 使用したAIツール
    • タグ
    • カテゴリー選択

    これらの質問への回答は、審査員が作品を評価する上で重要な参考資料となります。

    3. 公開

    すべての入力が終わったら、内容を確認し、右上の”submit”ボタンをクリック!

    こちらの画面が出れば応募完了です。

    私も応募したよ! 一緒にAI映像コンテストで世界に飛び出そう

    Project Odyssey AI Film Competitionの締め切りは7月17日午後3時59分(日本時間)となります。
    賞金総額28,000ドル(約437万円!)、応募すれば可能性はあります!

    AIを活用した映像制作は、日進月歩で進化を続けています。
    このコンテストは、作り手にとって自身の作品を世界に発信し、評価を受ける貴重な機会になります。
    この経験が、これからの創作活動の糧になると感じています。

    そして、この記事を読んでいるあなたも、ぜひ「Project Odyssey」に挑戦してみてください!応募するだけでドキドキします。


    締め切りが迫っているので、少しでも気になった方は、ぜひ応募ページを見てみてくださいね!

    https://www.projectodyssey.ai

    みんなでAI映像制作の世界を盛り上げていきましょう!

    生成AIクリエイティブのご相談は AICU Visual Communication事業部までどうぞ

    https://corp.aicu.ai/visual

    書籍「画像生成AI Stable Diffusionスタートガイド」も人気です

    この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!

    https://note.com/aicu/   X(Twitter)@AICUai

  • DiffSynth StudioとDiffutoon:拡散モデルによる高分解能・編集可能なトゥーンシェーダー

    DiffSynth StudioとDiffutoon:拡散モデルによる高分解能・編集可能なトゥーンシェーダー

    Diffutoon(ディフュトゥーン)は素晴らしいトゥーンシェーディングアプローチで、アニメスタイルのフォトリアリスティックなビデオを変換することを目的としています。非常に高い解像度と高速なモーションを扱うことができます。ソースコードはDiffSynth-Studioで公開されており、技術レポートも公開されています。

    Diffutoon: the Next Generation of Toon Shading

    論文やコード自体は5ヶ月前に公開されていましたが、この分野のハッカーであるCamenduru氏が紹介したことで突然注目されました。

    美しい動画の一覧はこちらにファイルがあります

    https://github.com/ECNU-CILAB/DiffutoonProjectPage/tree/main/videos

    大本の文献はこちら

    Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models

    和訳版

    Diffutoon:拡散モデルによる高分解能編集可能なToon陰影【JST・京大機械翻訳】

    注目すべきは DiffSynth Studio

    DiffSynth Studio は Diffusion エンジンです。Text Encoder、UNet、VAE などのアーキテクチャを再構築し、オープンソースコミュニティのモデルとの互換性を維持しながら、計算性能を向上させています。多くの興味深い機能を提供しています。

    modelscope/DiffSynth-Studio: Enjoy the magic of Diffusion models!

    インストールにはPython, Conda環境が必要で、以下の技術によって構成されています。

  • Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

    Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

    Stable Diffusion 3 Mediumがリリースされ、画像生成AIの最先端である「Stable Diffusion」にも新しい時代がやってきました。
    Stability AIのご協力のもと1,800枚の画像を生成して比較検証実験を行いました。
    このレポートがみなさまのお役に立てれば幸いです。
    Google Photo https://j.aicu.ai/SD3GP

    Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)

    実験前の注目点

    実験前の注目点を整理すると、新しいアルゴリズム、公開されたweightsの特性、オープンソース開発者による取り組みなど、しばらく話題が絶えないAICU media編集部ですが、最近のAICU AIDX Labリサーチ担当が注目しているのは「公式API」、「Stability AI提供の開発者プラットフォームがなかなかすごい!」という点です。
    https://platform.stability.ai/

    画像

    Stability AI – Developer Platformplatform.stability.ai

    Generate APIに新モデル「Ultra」登場

    画像
    • Stable Image Ultra [New!]
    • Stable Image Core
    • Stable Diffusion 3 Large
    • Stable Diffusion 3 Large Turbo
    • Stable Diffusion 3 Medium
    • SDXL 1.0, SD 1.6

    正直、たくさんあって、どれがどう違うのか、良くわかりませんよね!

    ✨️編集部ではアドボケイターやコミュニティのご協力で、すでに2つの記事でユーザーレビューを紹介させていただいております。

    ❏全世界最高峰・最上位の画像生成AI (Stable Diffusion 3 8B+) が凄すぎた件
    https://note.com/aicu/n/n56ae423b222a

    ❏2024年6月現在、世界最高峰の画像生成AI「Stable Diffusion 3 8B+」を試す https://note.com/aicu/n/n21db0870eb40

    実験方法

    今回は、ユーザーさんの印象的なアートの評価とは別に、最新の3つのモデルの性能や特性を定性的に評価するアプローチを取ってみたいと思います。

    各モデルの公称特性

    • Stable Image Ultra 1メガピクセル生成(以下、Ultra)
    • Stable Image Core 1.5メガピクセル生成(以下、Core)
    • Stable Diffusion 3 Large 80億パラメータモデル(以下SD3L)
    • Stable Diffusion 3 Medium 20億パラメータモデル(以下、SD3M)

    最も高度なテキストから画像への生成サービスであるStable Image Ultraは、これまでにない迅速な理解で最高品質の画像を作成します。Ultraは、タイポグラフィ、複雑な構図、ダイナミックな照明、鮮やかな色合い、芸術作品の全体的なまとまりや構成に優れています。Stable Diffusion 3を含む最先端のモデルから作られたUltraは、Stable Diffusionのエコシステムの最高峰を提供します。
    生成される画像の解像度は1メガピクセルです。デフォルトの解像度は1024×1024です。

    Stable Diffusion 3モデル:
    SD3 Medium – 20億パラメータモデル
    SD3 Large – 80億パラメータモデル
    SD3 Large Turbo – 推論時間を短縮した80億パラメータモデル
    このAPIはFireworks AIによって提供されています。
    プロンプトによる生成:一般にtext-to-imageと呼ばれるこのモードは、テキストのみから画像を生成します。必須パラメータはパラメータはプロンプトだけですが、aspect_ratio パラメータもサポートしており、生成される画像の縦横比を制御することができます。
    model – 使用するモデル(SD3 Medium、SD3 Large、SD3 Large Turbo)。
    output_format – 出力画像のフォーマット。
    seed – 生成に使う乱数シード。
    negative_prompt – 出力画像に表示したくないキーワード.
    出力:生成される画像の解像度は1MPです。デフォルトの解像度は1024×1024です。

    Stable Image Core は、テキストから画像への変換を行う当社の主要サービスです。迅速なエンジニアリングは必要ありません!スタイル、シーン、またはキャラクターをリクエストしてみてください。生成される画像の解像度は1.5メガピクセルです。

    Stability Image Coreの入力パラメータはスタイルを受け付けます。他のAPIにくらべて柔軟性や制御性が高いインタフェースを有しているといえます。

    比較的難度が高い、指や視線、文字描画などを含む共通プロンプトを使って、各モデルで各スタイルを横断的に生成させることで、どのような特徴があるか、評価していきます。

    生成画像の公開

    上記のAPI{Ultra, Core, SD3L, SD3M}の4種+SD3Mのスタイル指定方式の違いでモデルとしては5モデル、各18スタイル、各20セットで画像生成を合計1800枚ほど行いましたのでまずは共有します。
    https://j.aicu.ai/SD3GP

    画像
    1800枚の最初の4枚です

    与えたプロンプト

    それぞれの画像のファイル名を見ることで生成する際に使用した情報を知ることができます。

    ベースとなった共通プロンプト:
    {style*} best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad

    {スタイル*}最高品質、アートステーションのトレンド、視聴者を見て、1人の女の子が[AICU]と書かれたパネルを持って、Vサイン、渋谷の交差点で。

    スタイルには以下の17スタイル+無属性(normal/指定せず)を加えています。

    {“”(normal), analog-film, cinematic, neon-punk, origami, modeling-compound, 3d-model, low-poly, isometric, enhance, anime, line-art, digital-art, fantasy-art, comic-book}

    スタイルについて

    この「17スタイル」とは、SDXLにおいてAPIで指定できる画風のことです。
    Clipdropでは画像生成時にプロンプトとともにオプションとして設定できます。
    https://clipdrop.co/text-to-image

    Clipdrop – Text to imageA Leap Forward in AI Image Generationclipdrop.co

    画像

    SD3系でもプロンプトによるスタイルの指定は有効なケースと、そうではなく、シード依存になるケースがあることが予備調査によってわかりましたので、今回の調査ではスタイルの制御性についても評価対象にしておきます。

    APIエンドポイント

    使用したAPI Endpointsは以下のとおりです。
    https://api.stability.ai/v2beta/stable-image/generate/ultra
    https://api.stability.ai/v2beta/stable-image/generate/core
    https://api.stability.ai/v2beta/stable-image/generate/sd3

    生成コスト

    生成コストは以下のようになります。高価な順に
    Ultra(8credits) x 18 styles x 20 sets = 360 pieces, 2880credits = $28.8
    SD3L(6.5credits) x 18 styles x 20 sets = 360 pieces, 2340credits = $23.4
    SD3M(3.5credits) x 18 styles x 20 sets = 360 pieces, 1260credits = $12.6
    Core(3credits) x 18 styles x 20 sets x 2 types = 720 pieces 2160 credits = $21.6
    合計 $86.40 USD = 13,632円
    ✨️Stability AI, Jerry Chiさま、実験へのご協力ありがとうございます✨️

    いずれも失敗した結果に対して課金されることはありません。

    生成方法

    Windows上でバッチファイルを作ることで生成できます。
    サンプルはこちらで公開・解説しています。

    #10分で学べるAI
    ❏バッチファイルでバリエーション広告を生成しよう(2)解説編
    https://ja.aicu.ai/saiimgbat-detail/

    #10分で学べるAI バッチファイルでバリエーション広告を生成しよう(2)解説編 – つくる人をつくる AICU Inc.ja.aicu.ai

    今回は最終的に動画を作ることになりましたので、もし同じ実験を追従される方がいらっしゃいましたら、生成時間の測定、連番ファイルでの生成やデータベースとの連動なんかも考えてみるとその後の活用がしやすいのかなと思いました。特に生成時間はローカルGPUや Google Colabでの生成と比較しても非常に高速で、数秒です。これ自身が価値あると考えます。

    映像制作目的では、Google Apps Script + Google Slidesでのバリエーション広告での活用事例などもご参考にいただければ幸いです。AICU AIDX Labとしては、カスタマイズ依頼も歓迎です。

    Google Slidesでバリエーション広告を大量生成
    https://ja.aicu.ai/aicu-saiad/

    #10分で学べるAI Google Slidesでバリエーション広告を大量生成 – つくる人をつくる AICU Inc.ja.aicu.ai

    結果の確認方法

    All shots available on Google Photo https://j.aicu.ai/SD3GP

    詳細はファイル名に埋め込まれています。
    シード値(APIで指定、乱数はバッチファイルで生成したもの): 1-32768
    モデル(ファイル名の末尾):”U”=Ultra, “Ca”=Core(プロンプトで指定), “Cb”=Core(APIで指定), “3L”=3-Large, “3M”=3-Medium

    Core のみAPI側で指定できるので
    [Ca]プロンプトで指定した場合
    [Cb]APIで指定した場合

    画像
    画像

    この画像の場合には、ファイル名が
    analog-film style, best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad_14117_1_Ca.png となっています。

    つまり、CoreAPIに対して、APIではなく「analog-film style」というプロンプトを設定して共通プロンプトを設定しています。シードは14117。
    Vサインはしていないのですが、指は5本、渋谷らしく日本人的な女性で、非常に自然な絵になっているという評価ができます(CoreAPIには文字を描く能力はない)。

    Google Photoは同じ顔についても検索することができます。
    例えばこちらの画像、

    画像

    modeling-compound style, best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad_9240_5_Ca.png 
    こちらもCa、つまりCoreAPIでプロンプト指定によって生成されています。CoreAPIには文字を描く能力はないはずですが、胸には「ACU」の文字が確認できます。指は本数は5本できちんとVサインをしていますが、掌と親指がちょっと怪しげな結果です。しかしこのぐらいであればPhotoshopや image to image で修正できる可能性は高いと考えます。

    画像

    気に入った画像は気軽に★や♥、コメントなど頂ければ幸いです。
    興味深い結果が多くありますので継続的な評価結果の共有、それから X@AICUai でもフォトコンテストを開催してみたいと思います。

    Google Photo https://j.aicu.ai/SD3GP

    動画版

    Stable Image Ultra API – Quality Testing
    https://youtu.be/4Z0gtKPA1Jk

    Stable Diffusion 3 Large API – Quality Testing
    https://youtu.be/5XIvuQq2W0I

    Stable Diffusion 3 Medium API – Quality Testing
    https://youtu.be/ajjG52YKego

    やってみてわかったこと・今後について

    APIを使って多様な絵を作る技術

    広告やマーケティング、Eコマース、プロダクトデザインといった分野において、従来のMidJourneyやNijiJourneyによる画像の探求をAPIやバッチファイル、Google Apps Script+Google Slidesを使った大量画像生成を使って比較検討、従来手法では不可能なレベルの人間+AIの革新的なワークフローを構築することができる可能性があります。
    例えば今回の実験も1800枚という人間には処理しがたい量の画像を生成して分類処理していますが、スクリプトによる制御がされている状態なので、動画生成や検討する上では見積もり可能な時間で作業ができています。今回の実験も、2回目以降であれば、より自動化が進むと考えます。

    定性的な評価に向けたアプローチ

    今回の実験方法で、プロンプト、ネガティブプロンプトを固定し、スタイルを制御する複数の方法、アナトミーの破綻、NSFW率、プロンプトとAPIによるスタイル指定の制御率、シード値の優位性、構図、ポーズ、指の制御性、StepやSeed、サンプラーについても調査可能と考えます。

    例えばこの動画や静止画データセットを使って、統計的な手法でのプロンプト制御性や、スタイル指定、手・指・掌、文字の描画能力といった評価が可能になると考えます。AICU AIDX Labでも、この画像データセットをChatGPT-4VやGoogle Vision AIによって評価判定する定量的手法についても取り組んでみております。今のところ、評価結果が安定しないので、いったん人間による判定を中心に実施しています。

    モデル間の評価(作業者の印象ベース)

    Coreのよいところ
    ・APIでのスタイル指定(プロンプトでの指定は無視される)
    ・構図やポーズはプロンプトで指定
    ・生成が速い
    ・コストが最も安い(3credit)

    SD3Mのよいところ
    ・文字が描ける
    ・応答速度が速い
    ・クラシックなSD1.x系クオリティプロンプトが有効(素の状態では画質の劣化感がある)
    ・構図やポーズはプロンプトの指定を強くききがち(CFGが高い印象)
    ・コストが安い(3.5credit)

    SD3Lの良いところ
    ・空間文字か描ける
    ・プロンプトでのスタイル指定が有効
    ・コストはフラッグシップモデルとして理解(6.5credit)

    Ultraのよいところ
    ・光や影の品質、肌の質感などの品質が高い
    ・プロンプトでのスタイル指定が有効
    ・構図やポーズはプロンプトで指定できる(シードによって無視されることもある)
    ・得意なスタイルがある
    ・SD3LとUltraの比較結果がほしい

    SD3LとUlta、SD3Mの比較動画

    https://youtube.com/watch?v=vk0iTE52RcQ%3Frel%3D0

    左上がSD3L、右上がUlta、左下がSD3LとUltraの合成、右下が3Mです。
    https://www.youtube.com/watch?v=vk0iTE52RcQ

    画像

    シードとプロンプトが同じ場合、SD3LとUltraは非常に近い結果を出すようです。Ultraのほうが描写力特に、空間、肌、ホクロなどの描きこみが増す傾向にあります。スタイルはNeon-Punkが比較的良い印象ですが、他のスタイルも魅力的です。

    ✨️このデータセットを使った評価に興味がある方は X@AICUai までご連絡ください。

    ✨️Stability AI のソリューションについてのご相談は sai@aicu.ai まで頂ければ幸いです。

  • Stable Diffusion 3 Mediumリリース

    Stable Diffusion 3 Mediumリリース

    日本時間2024年6月12日午後10時ごろ、ついに Stable Diffusion 3のオープンな最新モデル「Stable Diffusion 3 Medium」のweightsがリリースされました。公式リリースを中心にお送りします。

    Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表 — Stability AI Japan

    最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表

    • Stable Diffusion 3 Medium は、Stability AI の最も先進的なテキストから画像を生成するオープンモデルで、20億のパラメータから構成されています。
    • このモデルはサイズが小さいため、個人向けシステムや企業向けGPUで動作させるのに最適です。
    • このモデルは、現在、オープンな非商用ライセンスと低コストのクリエイターライセンスの下で利用可能です。大規模な商用利用のライセンスの詳細についてお問い合わせください。
    • このモデルを手軽に利用するには、 Stability Platform のAPI を利用するか、Stable Assistant や、 Discord 上の Stable Artisan からもご利用いただけます。

    Stable Diffusion 3 シリーズの最新かつ最も高度なテキストから画像へのAIモデルである Stable Diffusion 3 Medium を発表できることを嬉しく思います。Stable Diffusion 3 Medium は、生成AIの進化における重要なマイルストーンであり、このパワフルなテクノロジーを民主化するというStability AI のコミットメントを継続するものです。

    SD3 Medium の特徴

    SD3 Medium は、SD3の20億パラメーターモデルで、いくつかの特筆すべき特徴を備えています。

    • フォトリアリズム: 手や顔によく見られる不自然さを克服し、複雑なワークフローを必要とせずに高品質の画像を提供します。
    • プロンプトの忠実さ: 空間的関係、構成要素、動作、スタイルを含む複雑なプロンプトを理解します。
    • テキスト生成: Diffusion Transformer architecture により、ノイズやスペルミスのないテキスト生成において、これまでにない結果を達成します。
    • リソース効率: 低いVRAMフットプリントにより、標準的なコンシューマー向けGPUでパフォーマンスを低下させることなく実行することができます。
    • ファインチューニング: 小さなデータセットから微妙なディテールを理解することができ、カスタマイズに最適です。
    画像

    NVIDIA とのコラボレーション

    NVIDIAとコラボレーションし、NVIDIA® RTX™ GPUとTensorRT™を活用することで、Stable Diffusion 3 Medium を含むすべてのStable Diffusion モデルのパフォーマンスを強化しました。TensorRT で最適化されたバージョンは、クラス最高のパフォーマンスを提供し、パフォーマンスが50%向上します。

    TensorRT に最適化された Stable Diffusion 3 Medium にご期待ください。

    AMD とのコラボレーション

    最新のAPU、コンシューマー向けGPU、MI-300XエンタープライズGPUなど、さまざまなAMDデバイス向けにSD3 Medium の推論を最適化しています。

    オープンでアクセスしやすいモデル

    オープンな生成AIへの Stability AI のコミットメントは揺るぎません。Stable Diffusion 3 Medium は無償の非商用ライセンスでリリースされ、Hugging Face を通じて入手可能です。アーティスト、デザイナー、開発者、AI愛好家の皆さまは新しいクリエイターライセンスをご利用ください。

    大規模な商用利用については、お問い合わせください。
    ⭐︎AICUはStability AIの公式パートナーです sai@aicu.ai ⭐︎

    HuggingFaceのモデルカードで詳細情報が公開されています

    モデルの種類: MMDiTテキスト画像生成モデル
    モデルの説明: テキストプロンプトに基づいて画像を生成するために使用できるモデルです。マルチモーダル拡散変換器(Multimodal Diffusion Transformer)(https://arxiv.org/abs/2403.03206)であり、3つの固定された事前学習済みテキストエンコーダ(OpenCLIP-ViT/G、CLIP-ViT/L、T5-xxl)を使用します。

    画像
    画像

    APIとアプリケーションでStable Diffusion 3を試してみる

    オープンリリースと同時に、Stable Diffusion 3 Medium を API でご利用いただけるようになりました。Stable Diffusion 3 のモデルをベースにした様々な強力な画像サービスが、Stable Assistant や、Stable Artisan 経由の Discord でお試しいただけます。まずは3日間の無料トライアルをお試しください。

    利用方法

    • Stable Diffusion 3 Medium を ダウンロード: 非商用利用目的で Hugging Face からダウンロードする。
    • 商用利用: Contact us からお問い合わせください。
    • アプリケーション: Stable Assistant と Stable Artisan からもご利用いただけます。
    • FAQ: その他は FAQs をご確認ください。

    安全性

    Stability AI は、安全で責任あるAIの実践を信じています。これは、悪意ある者による Stable Diffusion 3 Medium の悪用を防ぐために、合理的な手段を講じ、それを継続することを意味します。安全性は、モデルのトレーニングを開始した時点から始まり、テスト、評価、デプロイを通して継続します。Stability AI は、このモデルの広範な内部および外部テストを実施し、危害を防止するための数多くのセーフガードを開発し、実施してきました。

    研究者、専門家、そしてコミュニティと継続的に協力することで、モデルを改善し続けながら、誠実にさらなる革新を進めていきます。Stability AI の安全性へのアプローチについての詳細は、 Stable Safety をご参照ください。

    ライセンス

    Stable Diffusion 3 Mediumは、Stability Non-Commercial Research Community Licenseの下でリリースされています。
    Stability AI は、コミュニティが Stable Diffusion 3 を活用することを奨励すると同時に、AIをオープンでアクセス可能な状態に保つというミッションのもと、新しいクリエーターランセンスを導入しました。プロのアーティスト、デザイナー、開発者、AI愛好家の皆様には、クリエーターライセンスを利用して、Stable Diffusion を使った開発を始めることをおすすめします。

    大規模な商用ユーザーや企業の方は、ご連絡いただき、エンタープライズライセンスを取得してください。これにより、Stability AI の利用ガイドラインを遵守しながら、皆さまがモデルの可能性を最大限に活用できるようになります。

    Stability AIより:今後の展開

    皆さまからのフィードバックに基づき、Stable Diffusion 3 Medium を継続的に改善し、機能を拡張し、パフォーマンスを向上させる予定です。Stability AI の目標は、AI生成アートにおける創造性の新たな基準を設定し、Stable Diffusion 3 Medium をプロと趣味利用の方の双方に不可欠なツールにすることです。

    皆さんが新しいモデルを使ってどのような作品を創作されるかを楽しみにしていますし、皆さんからのフィードバックを楽しみにしています。共に、生成AIの未来を形作って行けたらと思っています。

    公式ツイート動画より

    画像
    画像
    画像
    画像
    画像
    画像
    画像
  • JETROから世界のAIコミュニティへ – AiSalon Tokyo June 2024 登壇資料を公開

    JETROから世界のAIコミュニティへ – AiSalon Tokyo June 2024 登壇資料を公開

    AiSalonとは?

    AiSalonは、AI技術に情熱を持つプロフェッショナルたちが一堂に会し、ネットワーキングと協力を促進するための世界的コミュニティです。世界中の各地の地域支部の分散型グローバル コミュニティで運営されています。

    画像

    Tokyo AI(TAI) について
    東京支部はすでに30登壇者191人のコミュニティに成長しています。

    画像

    独立行政法人日本貿易振興機構(ジェトロ)とは
    ジェトロ(Japan External Trade Organization: JETRO)は貿易・投資促進と開発途上国研究を通じ、日本の経済・社会の更なる発展に貢献する国の機関です。70カ所を超える海外事務所があり、イノベーション創出、輸出や中堅・中小企業等の海外展開を支援しています。 https://www.jetro.go.jp/jetro/

    世界を舞台に日本で活動するAIスタートアップのピッチ

    今回の「AiSalon Tokyo」は、JETRO(ジェトロ)を会場にAICUの白井暁彦CEOをはじめとするスタートアップ8社の企業が登壇し、それぞれの最新の技術、サービス、プロジェクトについて5分で紹介しました。本記事では登壇各社の資料や写真を紹介します。

    イベントのハイライト

    • 各社ピッチ: 各企業が独自のAI技術を5分間のピッチ披露しました。参加者は最新の技術に触れ、その可能性に驚きを隠せないといった表情をしていました。
    • ネットワーキングセッション: イベント後半には、自由に交流できる時間が設けられ、登壇者と参加者同士で自由に交流が行われました。
    • AICUの特色が光る: 「つくる人をつくる」をビジョンにするAICUの白井CEOが、クリエイティブAIの現在と未来について熱く語り、参加者や他の登壇社から「尖ったピッチだった!」とフィードバックをいただきました。
    画像

    登壇者一覧とスライドへのリンク

    JETRO (加賀 悠介氏)

    画像

    資料: AIST3_00_JETRO.pdf

    SOXAI( 渡邉達彦 、創業者兼CEO): SOXAI RINGは日本製の指輪型ウェアラブルデバイスで、睡眠、ストレス、活動の質など日常生活の健康状態をモニタリングすることができます。

    画像

    資料: AIST3_01_SOXAI.pdf

    Jurin AI ( Rise Ooi、 創業者兼CEO): 樹林AIは、タスク管理や文書作成など物件管理で必要になる仕事を自動化する不動産管理サービスです。

    StreamPod( オクタビオ・カノ 、創業者兼プラットフォーム・エンジニア): StreamPodは、マルチテナント管理プラットフォーム内にパッケージ化されたマルチモーダルLLMを統合することができるプラットフォームサービスです。StreamPodでは、マルチメディアのための幅広いAPIセットを提供します。

    画像

    資料: AIST3_03_StreamPod.pdf

    Zeteoh( ヤン・ル・ギリー 、共同創設者兼CEO): 従来の屋内位置情報システムはビーコンを使用しますが、技術的な複雑さ、制限、メンテナンスの必要性からビジネスに不満を抱かせる可能性があります。ZeteohはウェアラブルデバイスとAIを組み合わせ、ビーコンを使わないロケーションソリューションを提供しています。

    画像

    資料: AIST3_04_zeteoh.pdf

    AICU Inc.(白井暁彦CEO): AICU Inc.は、クリエイティブAI時代の「つくる人をつくる」をビジョンに掲げるクリエイティブAIメディア事業について紹介しました。

    画像


    資料: AIST3_05_AICU.pdf
    SpeakerDeck [AICU Vision「生成AI時代に つくる人をつくる」Creating people who create]

    画像
    AICU Vision 「生成AI時代に つくる人をつくる」 Creating people who create

    Somhako(ソマンナ・アイヤッパ、創業者兼CEO): SomhakoはAIを活用した人材管理プラットフォームで、データ主導の重要な洞察に基づいて効率的に人材を採用・管理するよう設計されています。

    画像

    資料: AIST3_06_Somhako.pdf

    RightsTech(佐々木繁取締役): HIMEPAはインターネット上の性犯罪やリベンジポルノを検知するサービスです。ダークウェブやソーシャルメディアをクロールし、AIを使って動画や画像を分析・報告します。また、弁護士との連携により、対象となる動画や画像の削除をワンクリックで依頼できます。

    画像

    資料: AIST3_07_RightsTech.pdf

    AWL(フランシスコ・レンテリア取締役): AWLは、AIとディープラーニングをベースとした動画解析のマーケットリーダーであり、小売業を中心とした広範な企業顧客にリアルタイムの洞察とインテリジェントデータを提供しております。

    画像

    資料: AIST3_08_AWL.pdf

    ピッチの後には懇親会が開催されました

    「つくる人をつくる」というビジョンで終始一貫ハイスピードに語られたAICUのピッチは他の登壇とは明らかに違う!という反応を多々いただきました。

    書籍「画像生成AI Stable Diffusionスタートガイド」についても「こんないい本があるの!知らなかった」という方々に書籍の魅力をとどけることが出来ました。海外版の需要もありそうですね。

    画像

    AiSalon Tokyo、続きはdiscordで…

    画像

    まとめ

    以上、「つくる人をつくる」をビジョンとするAICUにジョインをした
    はねごろう がお伝えしました。

    今回はイベントレポートからのデビューとなりましたが、今後は他の分野の記事でも皆様に喜んでいただけるものをお届けできるよう努めていきたいと思います。

    また当日の取材は全て英語でのコミュニケーションとなりましたが、イベント後の交流会でご挨拶させていただいた方々には、ITやヘルスケア・投資家だけでなく、映像・VFX・ゲーム業界の方々などと交流させていただき、大変刺激的かつ貴重な経験を積むことができました。

    今後も読者の皆様にむけて、ディープなイベント取材を実施していきたいと思います!


    この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!
    https://note.com/aicu/   X(Twitter)@AICUai

  • 国際AI映像制作コンペ「オデッセイ」開催 #ProjectOdyssey

    国際AI映像制作コンペ「オデッセイ」開催 #ProjectOdyssey

    第1回 AI映像制作コンペティション「プロジェクト・オデッセイ」が開催されます!

    2024年6月17日から7月15日まで、3Dアニメーション、ミュージック・ビデオ、技術紹介などの動画に挑戦する作品を募集します。
    参加申し込みはこちら:http://projectodyssey.ai

    プロジェクト・オデッセイのX(Twitter)はこちら:X@Project0dyssey 

    コンペの目的

    プロジェクト・オデッセイは、AIと映画業界のクリエイター、コミュニティ、企業を結びつけることを目的としています。2024年6月17日から7月15日まで、AI映画制作の限界に挑戦し、あなたの壮大な作品をコミュニティにシェアして、プロフェッショナルな審査委員会を驚かせて賞金とクレジット総額28,000ドル(参考:日本円で437万円)を獲得してください!

    主催者/プレミアスポンサー/スポンサー

    Civitaiをはじめとする主催者、プレミアスポンサー、スポンサー企業が興味深いです。

    画像

    募集カテゴリー

    募集カテゴリーは4部門です。

    3Dアニメーション部門

    AI映像制作ワークフローを使って3Dアニメーションでキャラクターと背景をユニークなスタイルでアニメーション化する部門です。

    オープンフォーマット部門

    ストーリー性のある短編、実験的なアート、視覚化された詩、映画の予告編、スペック広告など、まったく別のものを作りたいですか?オープンフォーマット部門は、すべてをカバーします!

    ミュージックビデオ部門

    あなたが制作した、またはAI音楽ツールで制作したオリジナル曲を使って、AIミュージックビデオまたはビジュアライザーを制作してください。

    舞台裏動画部門

    AIコミュニティの素晴らしさの一端は、オープンソースで共有され、学ぶ機会を与えている点でもあります。「Behind-The-Scenes(ビハインド・ザ・シーン;舞台裏)カテゴリーでは、クリエイターとしてのあなた自身にスポットライトを当て、3Dアニメーション、ミュージックビデオ、またはオープンフォーマットで提出した作品に費やしたテクニック、ツール、努力を紹介する部門になります。

    参加者には無料トライアルやスポンサーツールの早期利用が予定されているそうです。
    サインアップはこちらから https://www.projectodyssey.ai/signup-form

    審査委員会

    スポンサーしているAI動画生成系のツールを中心に多様な審査員がリストされています。

    エリック・ソロリオ:AI映像作家、VFXアーティスト
    マット・ウルフ:AI映像作家、FutureTools.io創設者
    セバスチャン・カムフ:AI教育者
    タイラー・ベルナベ:AI映像作家、Civitaiソーシャル戦略・コンテンツマーケティング責任者
    ジャスティン・ハックニー:AI映像作家、ElevenLabsクリエイティブ・ディレクター、Realdreams創設者
    クリスティ・ラウ:デジタルアーティスト、Realdreams代表
    リング・ヒヤシンス:AI映像作家、Morph Studio代表
    フローレス・リアルトーク:ミュージシャン、ラッパー、起業家
    ジョイワイン:AIフィルムメーカー、LensGo代表
    ブライアン・ライオン:オープンソースAIのエキスパート、DeepMake CTO
    ニコライ・クレンケ:Neural Frames創業者兼CEO
    レイチェル・ジョイ・ヴィクター:FBRC.ai共同創設者
    マックス・ラッシャー:AIインフルエンサー、Artificial Inspiration創設者アーロン・シストス:AI映画制作ベンチャーキャピタリスト
    Nitta ココ:iKHOR Labs CEO

    続報を待て!

    日本国内のAI動画生成作家も素晴らしいですが、このように複数のスタートアップ企業や、クリエイターが支援する国際コンペティションの機会はなかなかあることではありません。

    https://corp.aicu.ai/visual

    AICU – AI Creators Union Demo Reel 2024 Summer

    ルール、賞金、応募の詳細は6月17日に発表されるそうです。
    「つくる人をつくる」AICU mediaでは引き続きレポートしていきます。

    ★プロジェクト・オデッセイ事務局へのお問い合わせは hello@projectodyssey.ai  まで 英語でご連絡ください。

  • AiSalon Tokyo-June2024にAICUが登壇

    AiSalon Tokyo-June2024にAICUが登壇

    2024年6月12日に東京で開催されるAiSalonイベントに参加しませんか?AiSalonは、AIに特化した創業者、構築者、投資家、企業パートナーによる、そしてそのためのグローバル・コミュニティです。

    Lumaにて受付中 https://lu.ma/r9xncgw1?tk=YAsFmH

    月に一度、日本に進出しているスタートアップ企業が、他の創業者、パートナー、投資家に向けて、現在取り組んでいるプロダクトを紹介するライトニングトークを行う対面形式のイベントです。

    デモを希望される方は、応募時にお知らせください!注:今すぐ、または今後の月例AiSalonイベントでデモをしたい場合は、イリヤ・クルヤチン(ilya@tokyoai.jp またはLinkedIn)に確認してください!

    どのイベントでもAIスタートアップのデモが行われ、ファウンダーは貴重なフィードバックを得たり、関係を築くことができます。投資家やVCがAiSalonを訪れ、最新の東京のAIとMLスタートアップエコシステムイノベーションを見学します。

    AiSalonはBlitzscaling VenturesのGPであるJeffrey Abbottによって立ち上げられ、東京支部のJETRO後援を通じてTokyo AI (TAI)と提携することになりました。DEEPCOREは飲食のサポートをしており、東京AIのエコシステムには欠かせない存在です。

    アジェンダ

    18:00 開場
    18:30 今月のAI(10分)
    Tokyo AIのイリヤ・クルヤチンより、この1ヶ月でAI界で何が起こったかをご紹介します。
    19:00 スタートアップデモスピーカー(各4-5分):
    SOXAI渡邉達彦、創業者兼CEO): SOXAI RINGは日本製の指輪型ウェアラブルデバイスで、睡眠、ストレス、活動の質など日常生活の健康状態をモニタリングすることができます。

    Jurin AI (Rise Ooi, 創業者兼CEO): 樹林AIは、現代に相応しい、優れた不動産管理ソフトウェアです。

    StreamPodオクタビオ・カノ、創業者兼プラットフォーム・エンジニア): StreamPodは、マルチテナント管理プラットフォーム内にパッケージ化されたマルチモーダルLLMを統合します。このプラットフォームは、マルチメディアワークフローのための幅広いAPIセットを提供します。

    Zeteohヤン・ル・ギリー、共同創設者兼CEO): 従来の屋内位置情報システムはビーコンを使用しますが、技術的な複雑さ、制限、メンテナンスの必要性からビジネスに不満を抱かせる可能性があります。ZeteohはウェアラブルデバイスとAIを組み合わせ、ビーコンを使わないロケーションソリューションを提供します。これにより、企業は障壁なくこのシステムの恩恵を受けることができます。

    AICU Inc.(創業者兼CEO 白井暁彦): AICU Inc.は、クリエイティブAI時代の「つくる人をつくる」をビジョンに掲げるクリエイティブAIニュースメディアです。

    スタートアップ6:未定

    21:00まで、スタートアップのデモブースとオープンネットワーキングを行います。

    場所
    日本, 〒107-6006 東京都港区赤坂1丁目12番32号 アーク森ビル総合案内7階

    エレベーターで7階までお越しください!

    グローバルAiSalonについて

    AiSalonは、AIに特化した創業者、構築者、投資家、企業パートナーによる、AIに特化した創業者、構築者、投資家、企業パートナーのためのグローバルコミュニティです。

    ジェトロ(JETRO)について

    ジェトロは、対日直接投資と日本と世界のビジネス・パートナーシップを促進する政府関連機関です。

    ジェトロウェブサイト:https://www.jetro.go.jp/en/invest/

    ジェトロLinkedInページ

    https://www.linkedin.com/company/jetro-japanexternaltradeorganization

    https://www.linkedin.com/company/jetro-collaborate-and-invest-japan

    https://www.linkedin.com/company/jetro-global-connection

    東京AI(TAI)について

    TAIは、東京に活気と結束力のあるAIエコシステムを育成することを使命とする、構築者、エンジニア、投資家のコミュニティです。

    TAI Discord: https://discord.gg/a7UUvZpvvj

    TAI LinkedIn: https://www.linkedin.com/company/tokyoai/

    DEEPCOREについて

    DEEPCOREは東京を拠点とするAIに特化したインキュベーターであり、テクノロジーで世界を変えようとする起業家を支援するVCです。プレシードからシリーズAまで投資。

    DEEPCOREウェブサイト:https://deepcore.jp/en-home

    KERNEL by DEEPCOREは、テクノロジーで世界を変えたい人のためのコミュニティです。プレアントレプレナー(スタートアップに関わる前)でもサポートが受けられます。

    個人向け:https://kernel.deepcore.jp/en/

    チーム/企業向け:https://bit.ly/kernel-plus

    会場: 〒107-6006 東京都港区赤坂1丁目12番32号 アーク森ビル総合案内7階

  • Computex 2024 基調講演 Stability AI のCEO/CTOが語る Stable Diffusion 3 は「自然の進化」

    Computex 2024 基調講演 Stability AI のCEO/CTOが語る Stable Diffusion 3 は「自然の進化」

    ■Stability AI クリスチャン・ラフォート氏の講演を入手

    AICU media は講演動画を入手しましたので要約翻訳でお送りします

    AMDの基調講演(Dr. Lisa Su, Chair and CEO, AMD)

    https://www.computextaipei2024.com.tw/en/index.aspx#keynote1

    司会者:皆さん、本日は、AI開発者と密接に連携しているAMDのMI300 (AMD Instinct™ MI300 Series Accelerators)についてお話しします。それでは、Stable Diffusion の画期的なオープンアクセスAIモデルで知られる Stability AI のCTO兼共同CEO、クリスチャン・ラフォートさんをお迎えしましょう。こんにちは、クリスチャンさん。お元気ですか?

    クリスチャン:こんにちは。元気です。この場に立てることを光栄に思います。Stability AI の仲間たちを代表してここにいます。

    司会者:今日はStability AIの多くの革新についてお話しいただきますね。まずは、これらのAIモデルがどのようにして可能性の境界を押し広げているのか、教えていただけますか?

    クリスチャン:もちろんです。私たちは、あらゆる業界で生産性の飛躍的な向上を目の当たりにしています。特に、私たちがモデルとソースコードを無料で公開したことで、多くの開発者や研究者が新しい発見を驚異的な速度で行い、新しいアプリケーションを作り上げました。例えば、古い家族写真の修正や品質向上、あるいはもう見たくない人を写真から削除することが、今や誰でも数秒でできるようになりました。同様に、生産性の向上は画像だけでなく、言語、コーディング、音楽、音声、3Dといった他の研究分野でも見られます。これらを組み合わせることで、映画制作やビデオゲームの生産性を少なくとも10倍に引き上げることを目指しています。

    司会者:それは素晴らしいですね。さて、今日は何か大きなニュースがあると伺っていますが。

    クリスチャン:はい、Stable Diffusion 3のリリースが間もなくです(the weight/wait fot Stable Diffusion 3 is almost over..!)。

    コミュニティの皆さんの忍耐と理解に感謝しています。品質と安全性を向上させるために多大な努力を注ぎました。本日、6月12日にStable Diffusion 3のミディアムモデルを皆さんにダウンロードいただけるようリリースすることを発表します。

    (会場から拍手)

    クリスチャン:多くの努力がこのモデルに注がれました。私たちは、コミュニティがこのモデルをどのように活用するのか、とても楽しみにしています。技術的でない方々にはわかりにくいかもしれませんが、かつては研究の最前線がこうしたモデル、例えば Stable Diffusion のようなものに繋がっていました。これはまさに自然な進化のようなもので、様々な新しい方法で組み合わさっています。これをオープンに公開することで、何百万人もの人々が最適な組み合わせ方を発見し、新しいユースケースを解放するのを手助けしてくれます。SD3ミディアムは、これまでにない視覚品質を実現したSD3の最適化バージョンであり、コミュニティが自分たちの特定のニーズに合わせて改善することができます。これにより、次の生成AIのフロンティアを発見する手助けになります。このモデルはもちろんMI300上で非常に高速に動作し、発表されたばかりのRyzen AI搭載のラップトップでも動作するほどコンパクトです。こちらがStable Diffusion 3で生成した画像です。台湾の夜市を描写するようにチャレンジしました。

    司会者:とても素晴らしいですね。

    クリスチャン:細かく見ると完全なフォトリアリスティックではないかもしれませんが、テキストプロンプトのさまざまな要素をよく捉えていると思います。特に、この長いテキストプロンプトを実際に入力するよりもはるかに速く生成されたことを考えると、特に印象的です。歩いている通行人、石でできた通り、夜間の雰囲気などが捉えられています。

    クリスチャン:SD3は、マルチモーダルディフュージョントランスフォーマーアーキテクチャを使用しており、視覚コンセプトとテキストプロンプトを以前のモデルよりもはるかに優れた方法で理解します。シンプルなプロンプトにも対応しているので、これを使いこなすための専門知識は必要ありませんが、より複雑なプロンプトにも対応し、そのすべての要素をうまく組み合わせることができます。SD3は、あらゆる種類の芸術スタイルやフォトリアリズムに優れています。

    ここに実際に非常に難しい例があります。これは、1年以内にリリースした前のバージョンであるStable Diffusion XL (SDXL) との比較です。この例は特に難しいのですが、なぜなら、手を描くことがこれらのモデルにとって非常に難しいからです。また、ギターの弦やフレットのような繰り返しのパターンも含まれています。これらはすべて、モデルが理解し正確に描写するのが非常に難しいものです。SD3がギターの形や手のようなより現実的なディテールを生成したことに注目してください。細かく見ると、いくつかの不完全な点があるかもしれませんが、前世代に比べて大きな改善です。

    司会者:本当にすごいですね。MI300 GPUについての印象はどうですか?

    クリスチャン:素晴らしいです。MI300の192GBのメモリはまさにゲームチェンジャーです。新しいモデルを解放する方法として、より多くのメモリを持つことが非常に重要です。これが、より大きなモデルをより早く、より効率的にトレーニングするのに役立つのです。具体例を挙げると、AMDとの協力でクリエイティブアップスケーラ機能を開発しました。これは、1メガピクセル未満の古い写真を取り込み、解像度を大幅に向上させ、品質も同時に向上させる機能です。Nvidia H100で30メガピクセルを達成した時も嬉しかったのですが、MI300Xにコードを移植したところ、ほとんど努力なしで100メガピクセルに達しました。コンテンツクリエイターは常により多くのピクセルを求めているので、これは大きな違いを生みます。実現するためにほとんど努力が必要なかったことも大きなステップアップです。研究者やエンジニアは、AMDとStankのGPUが提供する素晴らしいメモリ容量と帯域幅の利点を気に入ることでしょう。

    司会者:それは驚異的です。AMDとの今後の協力についてはどう考えていますか?

    クリスチャン:AMDとのさらに密接な協力を通じて、新しい最先端のビデオモデルを開発し、全世界に公開したいと考えています。これにはより多くのメモリとコンピュートパワーが必要です。AMDのチームと密接に協力して、これを実現したいと考えています。

    司会者:素晴らしいですね。今日はお話いただき、ありがとうございました。

    ✨️本記事が面白かったら、ぜひシェアをよろしくお願いいたします!

    社内Slack等のシェアでも歓迎です。

    また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

    ✨️AICU Inc.は Stability AI 公式パートナーです。

    様々なアプリ開発のご相談も承っております!サービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

    https://corp.aicu.ai/ja/stability-ai-membership

    生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携 https://prtimes.jp/main/html/rd/p/000000007.000133647.html