つくる人をつくる AICU Inc.

カテゴリー: World

【まだ間に合う!!】賞金400万円超えのAI映像コンテストに投稿してみた #projectOdyssey
こんにちは！AIクリエイターのぽんず(@ponzponz15)です。

AICU media編集部さんに教わったのですが、実はいま世界では、賞金総額28,000ドル(約437万円！)もかけて行われているAI映像制作コンテスト「PROJECT ODYSSEY(プロジェクト・オデッセイ)」が開催されているので投稿した実録です。みなさんも投稿頑張ってみてください！

https://www.projectodyssey.ai

参考記事：国際AI映像制作コンペ「オデッセイ」開催 #projectodyssey

https://note.com/aicu/n/n53b3aab4879b

Civitai、ThinkDiffusion、ElevenLabs、Realdreamsといった、AI業界の人なら誰でも知ってるような企業が主催している、まさに世界規模のコンテスト。

作品提出締め切りは 2024年7月17日 PM3:59 (July 16th at 11:59PM PT)とあります。まだ間に合います。

それでは「PROJECT ODYSSEY(プロジェクト・オデッセイ)」に応募していきましょう。自分は投稿が終わったので、これから一人でも多くの方に知ってもらおうと思い、この記事を作成しました。

私自身、使用したことのないサイト(CivitAI)だったので応募に少し苦労しました。皆様がアカウント登録から応募までスムーズに進めるように画像付きで解説しましたので、ぜひ最後まで読んでみてください。

世界のAI映像界を牽引する企業が注目！

まず、「PROJECT ODYSSEY」ですが、AI映像業界を牽引するmorph、F3F、LensGo、DomoAI、DeepMakeなど、そうそうたる企業が協賛しています。

3Dアニメーション、ミュージックビデオ、技術紹介などAIを使った映像表現の可能性を追求する作品を募集中です。

コンテストの詳細はこちら
 公式X(Twitter)アカウント

私も滑り込みで応募しました

以前、AICU様の記事でご紹介した「アルパカおにぎり」の動画を応募しました。SNSを見ていてもこういった不思議な表現はあまり見かけなかったので、もしかしたらチャンスがあるかも？作品の詳細はこちらの記事をご覧ください！

意外とこういうのが先かもしれませんなあ

🦙アルパカおにぎり-水谷園#Gen3 #Gen3alpha #RunwayGen3 #suno #pika pic.twitter.com/GfkBnhoYa5
— ぽんず🐕 AIクリエイター (@ponzponz15) July 2, 2024

https://note.com/embed/notes/n7ebe0ac1afb3

一般の投票期間もありますので、よければ応援よろしくお願いします。

【簡単！】「PROJECT ODYSSEY」応募方法解説

１. アカウント登録

まずは「PROJECT ODYSSEY」の公式ウェブサイトにアクセスして、アカウントを作成しましょう。 https://www.projectodyssey.ai/

画面右上の”Sign Up”ボタンをクリックし、必要情報を入力して登録を進めてください。

メールアドレスや主要なSNSリンクなどを入力します。その後、上記のHow to Submitから応募に入ります。

Go to Collectionを選択すると Project Odysseyのページへ移動します。

こちらの画面、右上の➕ボタンを押して応募を開始しましょう。

２. 作品をアップロード

アカウント登録が完了したら、いよいよ作品のアップロードです。

“作品をアップロード”ボタンをクリックし、アップロード。さらに以下の情報を入力します。

作品情報に加えて、いくつかの情報を記入する必要があります。
- タイトル
- 説明文
- 使用したAIツール
- タグ
- カテゴリー選択
これらの質問への回答は、審査員が作品を評価する上で重要な参考資料となります。

3. 公開

すべての入力が終わったら、内容を確認し、右上の”submit”ボタンをクリック！

こちらの画面が出れば応募完了です。

私も応募したよ！一緒にAI映像コンテストで世界に飛び出そう

Project Odyssey AI Film Competitionの締め切りは7月17日午後3時59分（日本時間）となります。
賞金総額28,000ドル(約437万円！)、応募すれば可能性はあります！

AIを活用した映像制作は、日進月歩で進化を続けています。
このコンテストは、作り手にとって自身の作品を世界に発信し、評価を受ける貴重な機会になります。
この経験が、これからの創作活動の糧になると感じています。

そして、この記事を読んでいるあなたも、ぜひ「Project Odyssey」に挑戦してみてください！応募するだけでドキドキします。

締め切りが迫っているので、少しでも気になった方は、ぜひ応募ページを見てみてくださいね！

https://www.projectodyssey.ai

みんなでAI映像制作の世界を盛り上げていきましょう！

生成AIクリエイティブのご相談は AICU Visual Communication事業部までどうぞ

https://corp.aicu.ai/visual

書籍「画像生成AI Stable Diffusionスタートガイド」も人気です

書籍[画像生成AI Stable Diffusionスタートガイド]

この記事に「いいね！」と思ったら、いいねとフォロー、おすすめをお願いします！

https://note.com/aicu/ X(Twitter)@AICUai
2024-07-11
DiffSynth StudioとDiffutoon:拡散モデルによる高分解能・編集可能なトゥーンシェーダー
Diffutoon(ディフュトゥーン)は素晴らしいトゥーンシェーディングアプローチで、アニメスタイルのフォトリアリスティックなビデオを変換することを目的としています。非常に高い解像度と高速なモーションを扱うことができます。ソースコードはDiffSynth-Studioで公開されており、技術レポートも公開されています。

Diffutoon: the Next Generation of Toon Shading

論文やコード自体は5ヶ月前に公開されていましたが、この分野のハッカーであるCamenduru氏が紹介したことで突然注目されました。

💃 Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models 🕺 Jupyter Notebook 🥳

Thanks to Zhongjie Duan ❤ Chengyu Wang ❤ Cen Chen ❤ Weining Qian ❤ Jun Huang ❤

🌐page: https://t.co/uRMSRkOT6V
📄paper: https://t.co/nyKz8EpCMP
🧬code: https://t.co/2UgUFi556Q… pic.twitter.com/hGrup2Itqw
— camenduru (@camenduru) June 23, 2024

💃 Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models 🕺 Jupyter Notebook 🥳
byu/camenduru inStableDiffusion

美しい動画の一覧はこちらにファイルがあります

https://github.com/ECNU-CILAB/DiffutoonProjectPage/tree/main/videos

大本の文献はこちら

Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models

和訳版

Diffutoon:拡散モデルによる高分解能編集可能なToon陰影【JST・京大機械翻訳】

注目すべきは DiffSynth Studio

DiffSynth Studio は Diffusion エンジンです。Text Encoder、UNet、VAE などのアーキテクチャを再構築し、オープンソースコミュニティのモデルとの互換性を維持しながら、計算性能を向上させています。多くの興味深い機能を提供しています。

modelscope/DiffSynth-Studio: Enjoy the magic of Diffusion models!

インストールにはPython, Conda環境が必要で、以下の技術によって構成されています。
2024-06-24
Stable Diffusionの公式API、1,800枚の画像を生成して比較検証してみた(動画あり)
Stable Diffusion 3 Mediumがリリースされ、画像生成AIの最先端である「Stable Diffusion」にも新しい時代がやってきました。
Stability AIのご協力のもと1,800枚の画像を生成して比較検証実験を行いました。
このレポートがみなさまのお役に立てれば幸いです。
Google Photo https://j.aicu.ai/SD3GP

実験前の注目点

実験前の注目点を整理すると、新しいアルゴリズム、公開されたweightsの特性、オープンソース開発者による取り組みなど、しばらく話題が絶えないAICU media編集部ですが、最近のAICU AIDX Labリサーチ担当が注目しているのは「公式API」、「Stability AI提供の開発者プラットフォームがなかなかすごい！」という点です。
https://platform.stability.ai/

Stability AI – Developer Platformplatform.stability.ai

Generate APIに新モデル「Ultra」登場
- Stable Image Ultra [New!]
- Stable Image Core
- Stable Diffusion 3 Large
- Stable Diffusion 3 Large Turbo
- Stable Diffusion 3 Medium
- SDXL 1.0, SD 1.6
正直、たくさんあって、どれがどう違うのか、良くわかりませんよね！

✨️編集部ではアドボケイターやコミュニティのご協力で、すでに2つの記事でユーザーレビューを紹介させていただいております。

❏全世界最高峰･最上位の画像生成AI (Stable Diffusion 3 8B+) が凄すぎた件
https://note.com/aicu/n/n56ae423b222a

❏2024年6月現在、世界最高峰の画像生成AI「Stable Diffusion 3 8B+」を試す https://note.com/aicu/n/n21db0870eb40

実験方法

今回は、ユーザーさんの印象的なアートの評価とは別に、最新の3つのモデルの性能や特性を定性的に評価するアプローチを取ってみたいと思います。

各モデルの公称特性
- Stable Image Ultra　1メガピクセル生成（以下、Ultra）
- Stable Image Core　1.5メガピクセル生成（以下、Core）
- Stable Diffusion 3 Large　80億パラメータモデル（以下SD3L）
- Stable Diffusion 3 Medium　20億パラメータモデル（以下、SD3M）
最も高度なテキストから画像への生成サービスであるStable Image Ultraは、これまでにない迅速な理解で最高品質の画像を作成します。Ultraは、タイポグラフィ、複雑な構図、ダイナミックな照明、鮮やかな色合い、芸術作品の全体的なまとまりや構成に優れています。Stable Diffusion 3を含む最先端のモデルから作られたUltraは、Stable Diffusionのエコシステムの最高峰を提供します。
生成される画像の解像度は1メガピクセルです。デフォルトの解像度は1024×1024です。

Stable Diffusion 3モデル：
SD3 Medium – 20億パラメータモデル
SD3 Large – 80億パラメータモデル
SD3 Large Turbo – 推論時間を短縮した80億パラメータモデル
このAPIはFireworks AIによって提供されています。
プロンプトによる生成：一般にtext-to-imageと呼ばれるこのモードは、テキストのみから画像を生成します。必須パラメータはパラメータはプロンプトだけですが、aspect_ratio パラメータもサポートしており、生成される画像の縦横比を制御することができます。
model – 使用するモデル（SD3 Medium、SD3 Large、SD3 Large Turbo）。
output_format – 出力画像のフォーマット。
seed – 生成に使う乱数シード。
negative_prompt – 出力画像に表示したくないキーワード．
出力：生成される画像の解像度は1MPです。デフォルトの解像度は1024×1024です。

Stable Image Core は、テキストから画像への変換を行う当社の主要サービスです。迅速なエンジニアリングは必要ありません！スタイル、シーン、またはキャラクターをリクエストしてみてください。生成される画像の解像度は1.5メガピクセルです。

Stability Image Coreの入力パラメータはスタイルを受け付けます。他のAPIにくらべて柔軟性や制御性が高いインタフェースを有しているといえます。

比較的難度が高い、指や視線、文字描画などを含む共通プロンプトを使って、各モデルで各スタイルを横断的に生成させることで、どのような特徴があるか、評価していきます。

生成画像の公開

上記のAPI｛Ultra, Core, SD3L, SD3M｝の4種＋SD3Mのスタイル指定方式の違いでモデルとしては5モデル、各18スタイル、各20セットで画像生成を合計1800枚ほど行いましたのでまずは共有します。
https://j.aicu.ai/SD3GP

1800枚の最初の4枚です

与えたプロンプト

それぞれの画像のファイル名を見ることで生成する際に使用した情報を知ることができます。

ベースとなった共通プロンプト：
{style*} best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad

{スタイル*}最高品質、アートステーションのトレンド、視聴者を見て、1人の女の子が[AICU]と書かれたパネルを持って、Vサイン、渋谷の交差点で。

スタイルには以下の17スタイル＋無属性(normal/指定せず)を加えています。

{“”(normal), analog-film, cinematic, neon-punk, origami, modeling-compound, 3d-model, low-poly, isometric, enhance, anime, line-art, digital-art, fantasy-art, comic-book}

スタイルについて

この「17スタイル」とは、SDXLにおいてAPIで指定できる画風のことです。
Clipdropでは画像生成時にプロンプトとともにオプションとして設定できます。
https://clipdrop.co/text-to-image

Clipdrop – Text to imageA Leap Forward in AI Image Generationclipdrop.co

SD3系でもプロンプトによるスタイルの指定は有効なケースと、そうではなく、シード依存になるケースがあることが予備調査によってわかりましたので、今回の調査ではスタイルの制御性についても評価対象にしておきます。

APIエンドポイント

使用したAPI Endpointsは以下のとおりです。
https://api.stability.ai/v2beta/stable-image/generate/ultra
https://api.stability.ai/v2beta/stable-image/generate/core
https://api.stability.ai/v2beta/stable-image/generate/sd3

生成コスト

生成コストは以下のようになります。高価な順に
Ultra(8credits) x 18 styles x 20 sets = 360 pieces, 2880credits = $28.8
SD3L(6.5credits) x 18 styles x 20 sets = 360 pieces, 2340credits = $23.4
SD3M(3.5credits) x 18 styles x 20 sets = 360 pieces, 1260credits = $12.6
Core(3credits) x 18 styles x 20 sets x 2 types = 720 pieces 2160 credits = $21.6
合計 $86.40 USD = 13,632円
✨️Stability AI, Jerry Chiさま、実験へのご協力ありがとうございます✨️

いずれも失敗した結果に対して課金されることはありません。

生成方法

Windows上でバッチファイルを作ることで生成できます。
サンプルはこちらで公開・解説しています。

#10分で学べるAI
❏バッチファイルでバリエーション広告を生成しよう(2)解説編
https://ja.aicu.ai/saiimgbat-detail/

#10分で学べるAI バッチファイルでバリエーション広告を生成しよう(2)解説編 – つくる人をつくる AICU Inc.ja.aicu.ai

今回は最終的に動画を作ることになりましたので、もし同じ実験を追従される方がいらっしゃいましたら、生成時間の測定、連番ファイルでの生成やデータベースとの連動なんかも考えてみるとその後の活用がしやすいのかなと思いました。特に生成時間はローカルGPUや Google Colabでの生成と比較しても非常に高速で、数秒です。これ自身が価値あると考えます。

映像制作目的では、Google Apps Script + Google Slidesでのバリエーション広告での活用事例などもご参考にいただければ幸いです。AICU AIDX Labとしては、カスタマイズ依頼も歓迎です。

❏Google Slidesでバリエーション広告を大量生成
https://ja.aicu.ai/aicu-saiad/

#10分で学べるAI Google Slidesでバリエーション広告を大量生成 – つくる人をつくる AICU Inc.ja.aicu.ai

結果の確認方法

All shots available on Google Photo https://j.aicu.ai/SD3GP

詳細はファイル名に埋め込まれています。
シード値(APIで指定、乱数はバッチファイルで生成したもの): 1-32768
モデル(ファイル名の末尾):”U”=Ultra, “Ca”=Core(プロンプトで指定), “Cb”=Core(APIで指定), “3L”=3-Large, “3M”=3-Medium

Core のみAPI側で指定できるので
[Ca]プロンプトで指定した場合
[Cb]APIで指定した場合

この画像の場合には、ファイル名が
analog-film style, best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad_14117_1_Ca.png となっています。

つまり、CoreAPIに対して、APIではなく「analog-film style」というプロンプトを設定して共通プロンプトを設定しています。シードは14117。
Vサインはしていないのですが、指は5本、渋谷らしく日本人的な女性で、非常に自然な絵になっているという評価ができます（CoreAPIには文字を描く能力はない）。

Google Photoは同じ顔についても検索することができます。
例えばこちらの画像、

modeling-compound style, best quality, trending on art station, looking at viewer, 1girl has a panel which is written [AICU], V-sign , in Shibuya crossroad_9240_5_Ca.png
こちらもCa、つまりCoreAPIでプロンプト指定によって生成されています。CoreAPIには文字を描く能力はないはずですが、胸には「ACU」の文字が確認できます。指は本数は5本できちんとVサインをしていますが、掌と親指がちょっと怪しげな結果です。しかしこのぐらいであればPhotoshopや image to image で修正できる可能性は高いと考えます。

気に入った画像は気軽に★や♥、コメントなど頂ければ幸いです。
興味深い結果が多くありますので継続的な評価結果の共有、それから X@AICUai でもフォトコンテストを開催してみたいと思います。

Google Photo https://j.aicu.ai/SD3GP

動画版

Stable Image Ultra API – Quality Testing
https://youtu.be/4Z0gtKPA1Jk

Stable Diffusion 3 Large API – Quality Testing
https://youtu.be/5XIvuQq2W0I

Stable Diffusion 3 Medium API – Quality Testing
https://youtu.be/ajjG52YKego

やってみてわかったこと・今後について

APIを使って多様な絵を作る技術

広告やマーケティング、Eコマース、プロダクトデザインといった分野において、従来のMidJourneyやNijiJourneyによる画像の探求をAPIやバッチファイル、Google Apps Script＋Google Slidesを使った大量画像生成を使って比較検討、従来手法では不可能なレベルの人間＋AIの革新的なワークフローを構築することができる可能性があります。
例えば今回の実験も1800枚という人間には処理しがたい量の画像を生成して分類処理していますが、スクリプトによる制御がされている状態なので、動画生成や検討する上では見積もり可能な時間で作業ができています。今回の実験も、2回目以降であれば、より自動化が進むと考えます。

定性的な評価に向けたアプローチ

今回の実験方法で、プロンプト、ネガティブプロンプトを固定し、スタイルを制御する複数の方法、アナトミーの破綻、NSFW率、プロンプトとAPIによるスタイル指定の制御率、シード値の優位性、構図、ポーズ、指の制御性、StepやSeed、サンプラーについても調査可能と考えます。

例えばこの動画や静止画データセットを使って、統計的な手法でのプロンプト制御性や、スタイル指定、手・指・掌、文字の描画能力といった評価が可能になると考えます。AICU AIDX Labでも、この画像データセットをChatGPT-4VやGoogle Vision AIによって評価判定する定量的手法についても取り組んでみております。今のところ、評価結果が安定しないので、いったん人間による判定を中心に実施しています。

モデル間の評価（作業者の印象ベース）

Coreのよいところ
・APIでのスタイル指定（プロンプトでの指定は無視される）
・構図やポーズはプロンプトで指定
・生成が速い
・コストが最も安い（3credit）

SD3Mのよいところ
・文字が描ける
・応答速度が速い
・クラシックなSD1.x系クオリティプロンプトが有効（素の状態では画質の劣化感がある）
・構図やポーズはプロンプトの指定を強くききがち（CFGが高い印象）
・コストが安い（3.5credit）

SD3Lの良いところ
・空間文字か描ける
・プロンプトでのスタイル指定が有効
・コストはフラッグシップモデルとして理解（6.5credit）

Ultraのよいところ
・光や影の品質、肌の質感などの品質が高い
・プロンプトでのスタイル指定が有効
・構図やポーズはプロンプトで指定できる（シードによって無視されることもある）
・得意なスタイルがある
・SD3LとUltraの比較結果がほしい

SD3LとUlta、SD3Mの比較動画

https://youtube.com/watch?v=vk0iTE52RcQ%3Frel%3D0

左上がSD3L、右上がUlta、左下がSD3LとUltraの合成、右下が3Mです。
https://www.youtube.com/watch?v=vk0iTE52RcQ

シードとプロンプトが同じ場合、SD3LとUltraは非常に近い結果を出すようです。Ultraのほうが描写力特に、空間、肌、ホクロなどの描きこみが増す傾向にあります。スタイルはNeon-Punkが比較的良い印象ですが、他のスタイルも魅力的です。

✨️このデータセットを使った評価に興味がある方は X@AICUai までご連絡ください。

✨️Stability AI のソリューションについてのご相談は sai@aicu.ai まで頂ければ幸いです。
2024-06-18
Stable Diffusion 3 Mediumリリース
日本時間2024年6月12日午後10時ごろ、ついに Stable Diffusion 3のオープンな最新モデル「Stable Diffusion 3 Medium」のweightsがリリースされました。公式リリースを中心にお送りします。

Stable Diffusion 3 シリーズの最新かつ最も洗練されたモデルである Stable Diffusion 3 Medium をご紹介します。

このリリースは、生成 AI の進化における大きなマイルストーンであり、オープンな生成AIに対する私たちの取り組みを継続するものです。

詳細は、こちらをご覧ください。… pic.twitter.com/01ZoA9UW8p
— Stability AI Japan (@StabilityAI_JP) June 12, 2024

Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何？

最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表 — Stability AI Japan

最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表
- Stable Diffusion 3 Medium は、Stability AI の最も先進的なテキストから画像を生成するオープンモデルで、20億のパラメータから構成されています。
- このモデルはサイズが小さいため、個人向けシステムや企業向けGPUで動作させるのに最適です。
- このモデルは、現在、オープンな非商用ライセンスと低コストのクリエイターライセンスの下で利用可能です。大規模な商用利用のライセンスの詳細についてお問い合わせください。
- このモデルを手軽に利用するには、 Stability Platform のAPI を利用するか、Stable Assistant や、 Discord 上の Stable Artisan からもご利用いただけます。
Stable Diffusion 3 シリーズの最新かつ最も高度なテキストから画像へのAIモデルである Stable Diffusion 3 Medium を発表できることを嬉しく思います。Stable Diffusion 3 Medium は、生成AIの進化における重要なマイルストーンであり、このパワフルなテクノロジーを民主化するというStability AI のコミットメントを継続するものです。

SD3 Medium の特徴

SD3 Medium は、SD3の20億パラメーターモデルで、いくつかの特筆すべき特徴を備えています。
- フォトリアリズム: 手や顔によく見られる不自然さを克服し、複雑なワークフローを必要とせずに高品質の画像を提供します。
- プロンプトの忠実さ: 空間的関係、構成要素、動作、スタイルを含む複雑なプロンプトを理解します。
- テキスト生成: Diffusion Transformer architecture により、ノイズやスペルミスのないテキスト生成において、これまでにない結果を達成します。
- リソース効率: 低いVRAMフットプリントにより、標準的なコンシューマー向けGPUでパフォーマンスを低下させることなく実行することができます。
- ファインチューニング: 小さなデータセットから微妙なディテールを理解することができ、カスタマイズに最適です。
NVIDIA とのコラボレーション

NVIDIAとコラボレーションし、NVIDIA® RTX™ GPUとTensorRT™を活用することで、Stable Diffusion 3 Medium を含むすべてのStable Diffusion モデルのパフォーマンスを強化しました。TensorRT で最適化されたバージョンは、クラス最高のパフォーマンスを提供し、パフォーマンスが50%向上します。

TensorRT に最適化された Stable Diffusion 3 Medium にご期待ください。

AMD とのコラボレーション

最新のAPU、コンシューマー向けGPU、MI-300XエンタープライズGPUなど、さまざまなAMDデバイス向けにSD3 Medium の推論を最適化しています。

オープンでアクセスしやすいモデル

オープンな生成AIへの Stability AI のコミットメントは揺るぎません。Stable Diffusion 3 Medium は無償の非商用ライセンスでリリースされ、Hugging Face を通じて入手可能です。アーティスト、デザイナー、開発者、AI愛好家の皆さまは新しいクリエイターライセンスをご利用ください。

大規模な商用利用については、お問い合わせください。
⭐︎AICUはStability AIの公式パートナーです sai@aicu.ai ⭐︎

HuggingFaceのモデルカードで詳細情報が公開されています

モデルの種類： MMDiTテキスト画像生成モデル
モデルの説明：テキストプロンプトに基づいて画像を生成するために使用できるモデルです。マルチモーダル拡散変換器（Multimodal Diffusion Transformer）（https://arxiv.org/abs/2403.03206）であり、3つの固定された事前学習済みテキストエンコーダ（OpenCLIP-ViT/G、CLIP-ViT/L、T5-xxl）を使用します。

APIとアプリケーションでStable Diffusion 3を試してみる

オープンリリースと同時に、Stable Diffusion 3 Medium を API でご利用いただけるようになりました。Stable Diffusion 3 のモデルをベースにした様々な強力な画像サービスが、Stable Assistant や、Stable Artisan 経由の Discord でお試しいただけます。まずは3日間の無料トライアルをお試しください。

利用方法
- Stable Diffusion 3 Medium をダウンロード: 非商用利用目的で Hugging Face からダウンロードする。
- 商用利用: Contact us からお問い合わせください。
- アプリケーション: Stable Assistant と Stable Artisan からもご利用いただけます。
- FAQ: その他は FAQs をご確認ください。
安全性

Stability AI は、安全で責任あるAIの実践を信じています。これは、悪意ある者による Stable Diffusion 3 Medium の悪用を防ぐために、合理的な手段を講じ、それを継続することを意味します。安全性は、モデルのトレーニングを開始した時点から始まり、テスト、評価、デプロイを通して継続します。Stability AI は、このモデルの広範な内部および外部テストを実施し、危害を防止するための数多くのセーフガードを開発し、実施してきました。

研究者、専門家、そしてコミュニティと継続的に協力することで、モデルを改善し続けながら、誠実にさらなる革新を進めていきます。Stability AI の安全性へのアプローチについての詳細は、 Stable Safety をご参照ください。

ライセンス

Stable Diffusion 3 Mediumは、Stability Non-Commercial Research Community Licenseの下でリリースされています。
Stability AI は、コミュニティが Stable Diffusion 3 を活用することを奨励すると同時に、AIをオープンでアクセス可能な状態に保つというミッションのもと、新しいクリエーターランセンスを導入しました。プロのアーティスト、デザイナー、開発者、AI愛好家の皆様には、クリエーターライセンスを利用して、Stable Diffusion を使った開発を始めることをおすすめします。

大規模な商用ユーザーや企業の方は、ご連絡いただき、エンタープライズライセンスを取得してください。これにより、Stability AI の利用ガイドラインを遵守しながら、皆さまがモデルの可能性を最大限に活用できるようになります。

Stability AIより：今後の展開

皆さまからのフィードバックに基づき、Stable Diffusion 3 Medium を継続的に改善し、機能を拡張し、パフォーマンスを向上させる予定です。Stability AI の目標は、AI生成アートにおける創造性の新たな基準を設定し、Stable Diffusion 3 Medium をプロと趣味利用の方の双方に不可欠なツールにすることです。

皆さんが新しいモデルを使ってどのような作品を創作されるかを楽しみにしていますし、皆さんからのフィードバックを楽しみにしています。共に、生成AIの未来を形作って行けたらと思っています。

公式ツイート動画より
2024-06-15
JETROから世界のAIコミュニティへ – AiSalon Tokyo June 2024 登壇資料を公開
AiSalonとは？

AiSalonは、AI技術に情熱を持つプロフェッショナルたちが一堂に会し、ネットワーキングと協力を促進するための世界的コミュニティです。世界中の各地の地域支部の分散型グローバルコミュニティで運営されています。

Tokyo AI(TAI) について
東京支部はすでに30登壇者191人のコミュニティに成長しています。

独立行政法人日本貿易振興機構（ジェトロ）とは
ジェトロ(Japan External Trade Organization: JETRO)は貿易・投資促進と開発途上国研究を通じ、日本の経済・社会の更なる発展に貢献する国の機関です。70カ所を超える海外事務所があり、イノベーション創出、輸出や中堅・中小企業等の海外展開を支援しています。 https://www.jetro.go.jp/jetro/

世界を舞台に日本で活動するAIスタートアップのピッチ

今回の「AiSalon Tokyo」は、JETRO（ジェトロ）を会場にAICUの白井暁彦CEOをはじめとするスタートアップ8社の企業が登壇し、それぞれの最新の技術、サービス、プロジェクトについて5分で紹介しました。本記事では登壇各社の資料や写真を紹介します。

イベントのハイライト
- 各社ピッチ: 各企業が独自のAI技術を5分間のピッチ披露しました。参加者は最新の技術に触れ、その可能性に驚きを隠せないといった表情をしていました。
- ネットワーキングセッション: イベント後半には、自由に交流できる時間が設けられ、登壇者と参加者同士で自由に交流が行われました。
- AICUの特色が光る: 「つくる人をつくる」をビジョンにするAICUの白井CEOが、クリエイティブAIの現在と未来について熱く語り、参加者や他の登壇社から「尖ったピッチだった！」とフィードバックをいただきました。
登壇者一覧とスライドへのリンク

JETRO　（加賀悠介氏）

資料： AIST3_00_JETRO.pdf

SOXAI（渡邉達彦、創業者兼CEO）： SOXAI RINGは日本製の指輪型ウェアラブルデバイスで、睡眠、ストレス、活動の質など日常生活の健康状態をモニタリングすることができます。

資料： AIST3_01_SOXAI.pdf

Jurin AI ( Rise Ooi、創業者兼CEO)：樹林AIは、タスク管理や文書作成など物件管理で必要になる仕事を自動化する不動産管理サービスです。

StreamPod（オクタビオ・カノ、創業者兼プラットフォーム・エンジニア）： StreamPodは、マルチテナント管理プラットフォーム内にパッケージ化されたマルチモーダルLLMを統合することができるプラットフォームサービスです。StreamPodでは、マルチメディアのための幅広いAPIセットを提供します。

資料： AIST3_03_StreamPod.pdf

Zeteoh（ヤン・ル・ギリー、共同創設者兼CEO）：従来の屋内位置情報システムはビーコンを使用しますが、技術的な複雑さ、制限、メンテナンスの必要性からビジネスに不満を抱かせる可能性があります。ZeteohはウェアラブルデバイスとAIを組み合わせ、ビーコンを使わないロケーションソリューションを提供しています。

資料： AIST3_04_zeteoh.pdf

AICU Inc.（白井暁彦CEO）： AICU Inc.は、クリエイティブAI時代の「つくる人をつくる」をビジョンに掲げるクリエイティブAIメディア事業について紹介しました。

資料： AIST3_05_AICU.pdf
SpeakerDeck [AICU Vision「生成AI時代につくる人をつくる」Creating people who create]

AICU Vision 「生成AI時代につくる人をつくる」 Creating people who create

Somhako（ソマンナ・アイヤッパ、創業者兼CEO）： SomhakoはAIを活用した人材管理プラットフォームで、データ主導の重要な洞察に基づいて効率的に人材を採用・管理するよう設計されています。

資料： AIST3_06_Somhako.pdf

RightsTech（佐々木繁取締役）： HIMEPAはインターネット上の性犯罪やリベンジポルノを検知するサービスです。ダークウェブやソーシャルメディアをクロールし、AIを使って動画や画像を分析・報告します。また、弁護士との連携により、対象となる動画や画像の削除をワンクリックで依頼できます。

資料： AIST3_07_RightsTech.pdf

AWL（フランシスコ・レンテリア取締役）： AWLは、AIとディープラーニングをベースとした動画解析のマーケットリーダーであり、小売業を中心とした広範な企業顧客にリアルタイムの洞察とインテリジェントデータを提供しております。

資料： AIST3_08_AWL.pdf

ピッチの後には懇親会が開催されました

「つくる人をつくる」というビジョンで終始一貫ハイスピードに語られたAICUのピッチは他の登壇とは明らかに違う！という反応を多々いただきました。

書籍「画像生成AI Stable Diffusionスタートガイド」についても「こんないい本があるの！知らなかった」という方々に書籍の魅力をとどけることが出来ました。海外版の需要もありそうですね。

AiSalon Tokyo、続きはdiscordで…

まとめ

以上、「つくる人をつくる」をビジョンとするAICUにジョインをした
はねごろうがお伝えしました。

今回はイベントレポートからのデビューとなりましたが、今後は他の分野の記事でも皆様に喜んでいただけるものをお届けできるよう努めていきたいと思います。

また当日の取材は全て英語でのコミュニケーションとなりましたが、イベント後の交流会でご挨拶させていただいた方々には、ITやヘルスケア・投資家だけでなく、映像・VFX・ゲーム業界の方々などと交流させていただき、大変刺激的かつ貴重な経験を積むことができました。

今後も読者の皆様にむけて、ディープなイベント取材を実施していきたいと思います！

この記事に「いいね！」と思ったら、いいねとフォロー、おすすめをお願いします！
https://note.com/aicu/ X(Twitter)@AICUai
2024-06-15
国際AI映像制作コンペ「オデッセイ」開催 #ProjectOdyssey

第1回 AI映像制作コンペティション「プロジェクト・オデッセイ」が開催されます！

2024年6月17日から7月15日まで、3Dアニメーション、ミュージック・ビデオ、技術紹介などの動画に挑戦する作品を募集します。
参加申し込みはこちら：http://projectodyssey.ai

プロジェクト・オデッセイのX(Twitter)はこちら：X@Project0dyssey

コンペの目的

プロジェクト・オデッセイは、AIと映画業界のクリエイター、コミュニティ、企業を結びつけることを目的としています。2024年6月17日から7月15日まで、AI映画制作の限界に挑戦し、あなたの壮大な作品をコミュニティにシェアして、プロフェッショナルな審査委員会を驚かせて賞金とクレジット総額28,000ドル（参考：日本円で437万円）を獲得してください！

主催者/プレミアスポンサー/スポンサー

Civitaiをはじめとする主催者、プレミアスポンサー、スポンサー企業が興味深いです。

Announcing the 1st Project Odyssey AI Filmmaking Competition!

From June 17th to July 15th, we are excited to challenge the community to make next-level 3D Animations, Music Videos, Narrative Shorts, and more. Sign up at: https://t.co/o5ZBfkMUV0 #projectodyssey pic.twitter.com/e0CHGePAXd
— ProjectOdyssey.ai (@Project0dyssey) June 10, 2024

募集カテゴリー

募集カテゴリーは４部門です。

3Dアニメーション部門

AI映像制作ワークフローを使って3Dアニメーションでキャラクターと背景をユニークなスタイルでアニメーション化する部門です。

オープンフォーマット部門

ストーリー性のある短編、実験的なアート、視覚化された詩、映画の予告編、スペック広告など、まったく別のものを作りたいですか？オープンフォーマット部門は、すべてをカバーします！

ミュージックビデオ部門

あなたが制作した、またはAI音楽ツールで制作したオリジナル曲を使って、AIミュージックビデオまたはビジュアライザーを制作してください。

舞台裏動画部門

AIコミュニティの素晴らしさの一端は、オープンソースで共有され、学ぶ機会を与えている点でもあります。「Behind-The-Scenes（ビハインド・ザ・シーン；舞台裏）カテゴリーでは、クリエイターとしてのあなた自身にスポットライトを当て、3Dアニメーション、ミュージックビデオ、またはオープンフォーマットで提出した作品に費やしたテクニック、ツール、努力を紹介する部門になります。

参加者には無料トライアルやスポンサーツールの早期利用が予定されているそうです。
サインアップはこちらから　https://www.projectodyssey.ai/signup-form

審査委員会

スポンサーしているAI動画生成系のツールを中心に多様な審査員がリストされています。

エリック・ソロリオ：AI映像作家、VFXアーティスト
マット・ウルフ：AI映像作家、FutureTools.io創設者
セバスチャン・カムフ：AI教育者
タイラー・ベルナベ：AI映像作家、Civitaiソーシャル戦略・コンテンツマーケティング責任者
ジャスティン・ハックニー：AI映像作家、ElevenLabsクリエイティブ・ディレクター、Realdreams創設者
クリスティ・ラウ：デジタルアーティスト、Realdreams代表
リング・ヒヤシンス：AI映像作家、Morph Studio代表
フローレス・リアルトーク：ミュージシャン、ラッパー、起業家
ジョイワイン：AIフィルムメーカー、LensGo代表
ブライアン・ライオン：オープンソースAIのエキスパート、DeepMake CTO
ニコライ・クレンケ：Neural Frames創業者兼CEO
レイチェル・ジョイ・ヴィクター：FBRC.ai共同創設者
マックス・ラッシャー：AIインフルエンサー、Artificial Inspiration創設者アーロン・シストス：AI映画制作ベンチャーキャピタリスト
Nitta ココ：iKHOR Labs CEO

続報を待て！

日本国内のAI動画生成作家も素晴らしいですが、このように複数のスタートアップ企業や、クリエイターが支援する国際コンペティションの機会はなかなかあることではありません。

https://corp.aicu.ai/visual

AICU – AI Creators Union Demo Reel 2024 Summer

ルール、賞金、応募の詳細は6月17日に発表されるそうです。
「つくる人をつくる」AICU mediaでは引き続きレポートしていきます。

★プロジェクト・オデッセイ事務局へのお問い合わせは hello@projectodyssey.ai まで英語でご連絡ください。

2024-06-15
AiSalon Tokyo-June2024にAICUが登壇
2024年6月12日に東京で開催されるAiSalonイベントに参加しませんか？AiSalonは、AIに特化した創業者、構築者、投資家、企業パートナーによる、そしてそのためのグローバル・コミュニティです。

Lumaにて受付中 https://lu.ma/r9xncgw1?tk=YAsFmH

月に一度、日本に進出しているスタートアップ企業が、他の創業者、パートナー、投資家に向けて、現在取り組んでいるプロダクトを紹介するライトニングトークを行う対面形式のイベントです。

デモを希望される方は、応募時にお知らせください！注：今すぐ、または今後の月例AiSalonイベントでデモをしたい場合は、イリヤ・クルヤチン（ilya@tokyoai.jp またはLinkedIn）に確認してください！

どのイベントでもAIスタートアップのデモが行われ、ファウンダーは貴重なフィードバックを得たり、関係を築くことができます。投資家やVCがAiSalonを訪れ、最新の東京のAIとMLスタートアップエコシステムイノベーションを見学します。

AiSalonはBlitzscaling VenturesのGPであるJeffrey Abbottによって立ち上げられ、東京支部のJETRO後援を通じてTokyo AI (TAI)と提携することになりました。DEEPCOREは飲食のサポートをしており、東京AIのエコシステムには欠かせない存在です。

アジェンダ

18:00 開場
18:30 今月のAI（10分）
Tokyo AIのイリヤ・クルヤチンより、この1ヶ月でAI界で何が起こったかをご紹介します。
19:00 スタートアップデモスピーカー（各4-5分）：
SOXAI（渡邉達彦、創業者兼CEO）： SOXAI RINGは日本製の指輪型ウェアラブルデバイスで、睡眠、ストレス、活動の質など日常生活の健康状態をモニタリングすることができます。

Jurin AI (Rise Ooi, 創業者兼CEO)：樹林AIは、現代に相応しい、優れた不動産管理ソフトウェアです。

StreamPod（オクタビオ・カノ、創業者兼プラットフォーム・エンジニア）： StreamPodは、マルチテナント管理プラットフォーム内にパッケージ化されたマルチモーダルLLMを統合します。このプラットフォームは、マルチメディアワークフローのための幅広いAPIセットを提供します。

Zeteoh（ヤン・ル・ギリー、共同創設者兼CEO）：従来の屋内位置情報システムはビーコンを使用しますが、技術的な複雑さ、制限、メンテナンスの必要性からビジネスに不満を抱かせる可能性があります。ZeteohはウェアラブルデバイスとAIを組み合わせ、ビーコンを使わないロケーションソリューションを提供します。これにより、企業は障壁なくこのシステムの恩恵を受けることができます。

AICU Inc.（創業者兼CEO 白井暁彦）： AICU Inc.は、クリエイティブAI時代の「つくる人をつくる」をビジョンに掲げるクリエイティブAIニュースメディアです。

スタートアップ6：未定

21:00まで、スタートアップのデモブースとオープンネットワーキングを行います。

場所
日本, 〒107-6006 東京都港区赤坂1丁目12番32号アーク森ビル総合案内7階

エレベーターで7階までお越しください！

グローバルAiSalonについて

AiSalonは、AIに特化した創業者、構築者、投資家、企業パートナーによる、AIに特化した創業者、構築者、投資家、企業パートナーのためのグローバルコミュニティです。
- AiSalonプラットフォーム開発者 Simplex
- AiSalonのデザインとブランディング Kemeny AI Studio
- AiSalonウェブサイト: www.aisalon.ai
- AiSalon Lumaカレンダー: www.lu.ma/aisalon
- AiSalon LinkedInページ: https://www.linkedin.com/company/aisalon-ai/
ジェトロ(JETRO)について

ジェトロは、対日直接投資と日本と世界のビジネス・パートナーシップを促進する政府関連機関です。

ジェトロウェブサイト：https://www.jetro.go.jp/en/invest/

ジェトロLinkedInページ

https://www.linkedin.com/company/jetro-japanexternaltradeorganization

https://www.linkedin.com/company/jetro-collaborate-and-invest-japan

https://www.linkedin.com/company/jetro-global-connection

東京AI（TAI）について

TAIは、東京に活気と結束力のあるAIエコシステムを育成することを使命とする、構築者、エンジニア、投資家のコミュニティです。

TAI Discord: https://discord.gg/a7UUvZpvvj

TAI LinkedIn: https://www.linkedin.com/company/tokyoai/

DEEPCOREについて

DEEPCOREは東京を拠点とするAIに特化したインキュベーターであり、テクノロジーで世界を変えようとする起業家を支援するVCです。プレシードからシリーズAまで投資。

DEEPCOREウェブサイト：https://deepcore.jp/en-home

KERNEL by DEEPCOREは、テクノロジーで世界を変えたい人のためのコミュニティです。プレアントレプレナー（スタートアップに関わる前）でもサポートが受けられます。

個人向け：https://kernel.deepcore.jp/en/

チーム/企業向け：https://bit.ly/kernel-plus

会場：〒107-6006 東京都港区赤坂1丁目12番32号アーク森ビル総合案内7階
2024-06-05
Computex 2024 基調講演 Stability AI のCEO/CTOが語る Stable Diffusion 3 は「自然の進化」

■Stability AI クリスチャン・ラフォート氏の講演を入手

AICU media は講演動画を入手しましたので要約翻訳でお送りします

AMDの基調講演（Dr. Lisa Su, Chair and CEO, AMD）

https://www.computextaipei2024.com.tw/en/index.aspx#keynote1

司会者：皆さん、本日は、AI開発者と密接に連携しているAMDのMI300 （AMD Instinct™ MI300 Series Accelerators）についてお話しします。それでは、Stable Diffusion の画期的なオープンアクセスAIモデルで知られる Stability AI のCTO兼共同CEO、クリスチャン・ラフォートさんをお迎えしましょう。こんにちは、クリスチャンさん。お元気ですか？

クリスチャン：こんにちは。元気です。この場に立てることを光栄に思います。Stability AI の仲間たちを代表してここにいます。

司会者：今日はStability AIの多くの革新についてお話しいただきますね。まずは、これらのAIモデルがどのようにして可能性の境界を押し広げているのか、教えていただけますか？

クリスチャン：もちろんです。私たちは、あらゆる業界で生産性の飛躍的な向上を目の当たりにしています。特に、私たちがモデルとソースコードを無料で公開したことで、多くの開発者や研究者が新しい発見を驚異的な速度で行い、新しいアプリケーションを作り上げました。例えば、古い家族写真の修正や品質向上、あるいはもう見たくない人を写真から削除することが、今や誰でも数秒でできるようになりました。同様に、生産性の向上は画像だけでなく、言語、コーディング、音楽、音声、3Dといった他の研究分野でも見られます。これらを組み合わせることで、映画制作やビデオゲームの生産性を少なくとも10倍に引き上げることを目指しています。

司会者：それは素晴らしいですね。さて、今日は何か大きなニュースがあると伺っていますが。

クリスチャン：はい、Stable Diffusion 3のリリースが間もなくです（the weight/wait fot Stable Diffusion 3 is almost over..!）。

コミュニティの皆さんの忍耐と理解に感謝しています。品質と安全性を向上させるために多大な努力を注ぎました。本日、6月12日にStable Diffusion 3のミディアムモデルを皆さんにダウンロードいただけるようリリースすることを発表します。

（会場から拍手）

クリスチャン：多くの努力がこのモデルに注がれました。私たちは、コミュニティがこのモデルをどのように活用するのか、とても楽しみにしています。技術的でない方々にはわかりにくいかもしれませんが、かつては研究の最前線がこうしたモデル、例えば Stable Diffusion のようなものに繋がっていました。これはまさに自然な進化のようなもので、様々な新しい方法で組み合わさっています。これをオープンに公開することで、何百万人もの人々が最適な組み合わせ方を発見し、新しいユースケースを解放するのを手助けしてくれます。SD3ミディアムは、これまでにない視覚品質を実現したSD3の最適化バージョンであり、コミュニティが自分たちの特定のニーズに合わせて改善することができます。これにより、次の生成AIのフロンティアを発見する手助けになります。このモデルはもちろんMI300上で非常に高速に動作し、発表されたばかりのRyzen AI搭載のラップトップでも動作するほどコンパクトです。こちらがStable Diffusion 3で生成した画像です。台湾の夜市を描写するようにチャレンジしました。

司会者：とても素晴らしいですね。

クリスチャン：細かく見ると完全なフォトリアリスティックではないかもしれませんが、テキストプロンプトのさまざまな要素をよく捉えていると思います。特に、この長いテキストプロンプトを実際に入力するよりもはるかに速く生成されたことを考えると、特に印象的です。歩いている通行人、石でできた通り、夜間の雰囲気などが捉えられています。

クリスチャン：SD3は、マルチモーダルディフュージョントランスフォーマーアーキテクチャを使用しており、視覚コンセプトとテキストプロンプトを以前のモデルよりもはるかに優れた方法で理解します。シンプルなプロンプトにも対応しているので、これを使いこなすための専門知識は必要ありませんが、より複雑なプロンプトにも対応し、そのすべての要素をうまく組み合わせることができます。SD3は、あらゆる種類の芸術スタイルやフォトリアリズムに優れています。

ここに実際に非常に難しい例があります。これは、1年以内にリリースした前のバージョンであるStable Diffusion XL (SDXL) との比較です。この例は特に難しいのですが、なぜなら、手を描くことがこれらのモデルにとって非常に難しいからです。また、ギターの弦やフレットのような繰り返しのパターンも含まれています。これらはすべて、モデルが理解し正確に描写するのが非常に難しいものです。SD3がギターの形や手のようなより現実的なディテールを生成したことに注目してください。細かく見ると、いくつかの不完全な点があるかもしれませんが、前世代に比べて大きな改善です。

司会者：本当にすごいですね。MI300 GPUについての印象はどうですか？

クリスチャン：素晴らしいです。MI300の192GBのメモリはまさにゲームチェンジャーです。新しいモデルを解放する方法として、より多くのメモリを持つことが非常に重要です。これが、より大きなモデルをより早く、より効率的にトレーニングするのに役立つのです。具体例を挙げると、AMDとの協力でクリエイティブアップスケーラ機能を開発しました。これは、1メガピクセル未満の古い写真を取り込み、解像度を大幅に向上させ、品質も同時に向上させる機能です。Nvidia H100で30メガピクセルを達成した時も嬉しかったのですが、MI300Xにコードを移植したところ、ほとんど努力なしで100メガピクセルに達しました。コンテンツクリエイターは常により多くのピクセルを求めているので、これは大きな違いを生みます。実現するためにほとんど努力が必要なかったことも大きなステップアップです。研究者やエンジニアは、AMDとStankのGPUが提供する素晴らしいメモリ容量と帯域幅の利点を気に入ることでしょう。

司会者：それは驚異的です。AMDとの今後の協力についてはどう考えていますか？

クリスチャン：AMDとのさらに密接な協力を通じて、新しい最先端のビデオモデルを開発し、全世界に公開したいと考えています。これにはより多くのメモリとコンピュートパワーが必要です。AMDのチームと密接に協力して、これを実現したいと考えています。

司会者：素晴らしいですね。今日はお話いただき、ありがとうございました。

Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何？

✨️本記事が面白かったら、ぜひシェアをよろしくお願いいたします！

社内Slack等のシェアでも歓迎です。

また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

✨️AICU Inc.は Stability AI 公式パートナーです。

様々なアプリ開発のご相談も承っております！サービスに導入したい、使いこなせる社員をパッと育成したい！そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

https://corp.aicu.ai/ja/stability-ai-membership

生成AI時代に「つくる人をつくる」AICU社、生成AIリーディング企業「Stability AI」と戦略提携 https://prtimes.jp/main/html/rd/p/000000007.000133647.html

2024-06-04