投稿者: media

  • 【招待コードつき】世界で最もわかりやすい「CREATE.xyz」 のはじめ方!創業者によるサービス名の読み方についてのメッセージも

    【招待コードつき】世界で最もわかりやすい「CREATE.xyz」 のはじめ方!創業者によるサービス名の読み方についてのメッセージも

    2024年7月18日、Create.XYZ のミートアップ第二弾が渋谷・Trunk(hotel)で開催されました。創業者のドゥルヴさん (@dhruvtruth) をはじめとする開発者首脳陣が直接、ランチボックスを囲みながら、ディープな質問や今後のストラテジーの共有をしました。

    画像

    前回の記事で「CREATE.xyz」に興味を持った人もはじめてみたくなったと思います。

    ■プロンプトからサイトが作れる!?話題の「Create.xyz」を使ってみた!

    ■Text to AppなAI開発ツール「CREATE.xyz」首脳陣が渋谷でミートアップを開催 #CreateTokyo

    画像

    会場の方からでてきたアイディアをその場でゲームに!

    会場はランチボックスを囲みながら和やかな雰囲気で実施されました。
    2名の英日翻訳者が参加し、Create.XYZの概要と、デモが始まりました。

    画像
    画像

    ドゥルヴさんの提案で、会場からのゲームのアイディアをいただいて、そのアイディアをその場でゲームにするというデモが行われました。

    実際にやってみた!「10をつくるゲーム」

    AICU media編集部もその場で手を動かして見ます!

    まず「Create.XYZ」にログインします。パスワードは不要です。
    登録したメールアドレス宛にマジックリングが届きますのでそちらをクリックしてください。

    画像

    新規プロジェクトを作ります。
    右上の「New Project」ボタンを押します。
    以後は📁の括りでプロジェクトが表示されます。

    画像

    プロジェクト名に「New Game」と名前をつけました。

    画像

    「New Page」で新規ページを作ります

    画像

    白紙のページが作られたら右側の「Prompt」にプロンプトを打ちます。

    画像

    会場のプロジェクターで見た感じはこんなプロンプトでした。

    画像

    Make me a game where you have to make
    10 using number 1 to 9
    You can only use each number once
    You can use any operation you want to add up to 10 (additions, subtraction, multiplication, division)
    Make it look funky
    Show a you win when the user gets it

    日本語訳するとこんな感じです。

    1から9までの数字を使って10を作るゲームを作ってください
    各数字は一度しか使えません
    10までの足し算に好きな演算を使うことができます
    (足し算、引き算、掛け算、割り算)
    ファンキーに見えるようにしてください
    ユーザーがそれを得たら勝ちと表示します。

    ちなみにプロンプトは日本語でも動作します。

    プロンプトを設定したら下の「Generate」を押します。

    画像

    左側のCREATEのアイコンの下に「Building…」という表示が出ます。
    これはプロンプトから React(動的なWebサイトを記述する言語)のコードが生成されている状態で、暫く待ちましょう(数十秒~1分程度)。

    画像

    「Up to date」と表示されたら、その右にある「Demo」を押すと……もう遊べます!

    画像

    ゲームとしては、数字ボタンを1つ押して、その後に「+/-/x/÷」を押して、数字ボタンを1つ押して…最後に「Calculate」ボタンを押すと判定!という結果になることが多いです。

    デザインやボタンの名前などは気に入らない場合はプロンプトを書き直したり、「Demo」→「Build」に切り替えてデザインを変更することもできます。上手くいかないときは「🔃」を押してリトライしましょう。コードの動作や見た目を変えたいときは「Generate」を押して再度やり直しましょう。Generateした場合は毎回生成されるものは異なります。

    画像

    画面の要素をクリックすると、右下にその部品に該当するプロンプトが表示されます。

    画像

    React用語でUIの部品はコンポーネントというのですが、「Convert to component」というボタンで部品化することができます(…が今回のデモでは触らなくていいです!)。

    画像

    本当にあっという間です!

    画像

    Google Maps や Stable Diffusionを使う

    次のデモは本日の会場となった「Trunk Hotel」でのイベントWebサイトを作るというデモになりました。

    先程と同じく新規プロジェクトを作り、与えたプロンプトは以下のようなものです。

    make me an event page for the Trunk Hotel
    It should have a map Google Maps
    The address is Address: 5 Chome-31, Jingumae, Shibuya City, Tokyo 150-0001
    Add sections:
    • Testimonials
    • Influencer cards
    • Benefits of using Create
    • A sign up form to register

    トランクホテルのイベントページを作ってください地図があるべきです Google Maps 住所は住所です: 150-0001 東京都渋谷区神宮前5丁目31番地追加セクション:
    – お客様の声
    – インフルエンサーカード
    – クリエイトを利用するメリット
    – 登録フォーム

    “Google Maps”のところがアドオン(Add-ons)です。
    プロンプト窓右上の「Add-ons」か
    /(スラッシュ)でGoogle Mapsアドオンを探します。

    画像

    “Google”とタイプすると表示されます。他にも多様なアドオンがありますね。

    画像

    紫色で「Google Maps」が表示されたら、そのアドオンに続いて住所の文字列をつなぎます。

    画像

    これで「Generate」、本当にこれだけです!

    画像

    タイトル、イベントの開催地へのGoogle Maps、

    画像

    おすすめ情報(お客様の声/Testimonials)、インフルエンサー、

    画像

    Createを使う利点、そして登録フォームです。

    画像

    続いて、プロンプトを以下のように書き足しました。

    画像

    Use this screenshot of the Trunk Hotel’s design as inspiration for how it should look. Don’t copy the content, just try to match the design whare it makes sense:

    トランクホテルのデザインのスクリーンショットを参考にしてください。内容はコピーせず、意味のあるところだけデザインに合わせるようにしてください:

    どこかお気に入りのサイトで、
    Windows+Shift+Sでスクリーンショットを撮ってきてください!
    実際のTrunk Hotelはこんな感じのおしゃれなWebサイトです。

    https://catstreet.trunk-hotel.com

    画像

    プロンプトに加えて…Ctrl+Vでスクリーンショットを貼り付けてみます。

    画像

    貼り付けたら「Generate」します。

    画像

    1回目の生成…

    画像
    画像

    他にも「パックマンみたいなゲームを作って」とプロンプトに書けばそれらしいものを作ってくれるよ!というところで質疑応答になりました。

    プロ用のサイトを作るには?

    イベントサイトの例ではこのあと「Publish」ボタンを押すことで、サイトを公開できます。
    例えば「demo-trunk-hotel-event-240718」として「Claim URL and continue」(URLを申請して続ける)を押してみます。

    画像
    画像

    公開対象にするページが表示されるのでボタンをONにして、アクセスするルート(URLの下)この場合は「/」を確認して「Publish changes」を押します。

    画像
    https://demo-trunk-hotel-event-240718.created.app

    https://demo-trunk-hotel-event-240718.created.app

    出来上がりです!

    画像

    このURLは有料アカウントなら独自ドメインにすることができます。

    https://www.create.xyz/pricing

    月額19ドルのプロアカウントならエクスポート(外部出力)ができます。無料版でも20プロジェクトは作れます。

    画像

    【Pro招待コードをいただきました!】
    CREATETOKYO
    こちらを使うと1ヶ月無料でProが使えるそうです。

    View Code して Download Project

    中央上部に「View Code」というボタンがあります。Generate中に押すと、実際のReactのコードが生成されているのを確認することができるボタンですが、この下に(プロアカウントだと)
    ・ Embed Project (プロジェクトの埋込)
    ・Download Project
    ・Copy code
    という3つのボタンが表示されています。ここでは「Download Project」を押してみます。

    画像

    createxyz-project.zipというファイルがダウンロードされるので、展開すると、以下のようなファイルが生成されています。

    画像

    これは ReactJSのコード…ではなく Next.JSのプロジェクトのようです。ReactJSはMeta(旧Facebook)が2011年から社内用に開発していたライブラリを2013年に一般に公開したもので、Next.js はVercel が作った オープンソースの JavaScript のフレームワークで、React babel と Webpack をベースにし、React コンポーネントとサーバーサイドレンダリング (SSR) のために使えるソリューションを提供しています。Next.js は静的エクスポート、プレビューモード、プリレンダリング、より高速なコンパイル、自動ビルドサイズの最適化などの多くの開発者向けの効率化機能を備えています。
    このプロジェクトで 12ファイル 11.9 KB (12,208 バイト) という小ささです。

    AICU の GitHub に公開してみました!

    https://cdn.iframe.ly/EFCH8ZT?v=1&app=1

    Vercelでデプロイしてみました!

    ※ここから先はVercelです。
    自分の管理ドメインで「Add New…」→「Project」

    画像

    Import Git Repositoryで上記の(自分のドメインで管理している)リポジトリを選択します。

    画像

    特に設定する環境変数はなさそうですのでそのまま「Deploy」します。

    画像

    数十秒のビルドの後に、完成!

    画像

    一発デプロイ…!?と見てみましたが、慌てすぎでした。

    Google MapsのAPIが設定されていませんね!

    画像

    Error: AuthFailure
    A problem with your API key prevents the map from rendering correctly. Please make sure the value of the APIProvider.apiKey prop is correct. Check the error-message in the console for further details.
    エラー AuthFailure
    API キーに問題があるため、マップが正しくレンダリングされません。APIProvider.apiKey propの値が正しいことを確認してください。詳細については、コンソールのエラーメッセージを確認してください。

    README.md をしっかり読んでみます。

    このプロジェクトは[create.xyz](https://create.xyz/)から生成されました。
    ReactとTailwindCSSで構築された[Next.js](https://nextjs.org/)プロジェクトです。
    ## はじめに
    まず、開発用サーバーを起動します:
    bash
    npm run dev
    # または
    yarn dev
    # または
    pnpm dev
    # または
    bun dev
    “`
    http://localhost:3000](http://localhost:3000)をブラウザで開くと結果が表示されます。
    src`にあるコードを編集することができます。あなたがファイルを編集すると、ページは自動的に更新されます。
    もっと詳しく知りたい方は、以下のリソースをご覧ください:
    – React Documentation](https://react.dev/) – Reactについて学びましょう。
    – TailwindCSSドキュメント](https://tailwindcss.com/) – TailwindCSSについて。
    – [Next.js Documentation](https://nextjs.org/docs) – Next.jsの機能とAPIについて。
    – [Learn Next.js](https://nextjs.org/learn) – インタラクティブなNext.jsのチュートリアルです。
    ## 環境変数
    Next.jsには、[環境変数](https://nextjs.org/docs/app/building-your-application/configuring/environment-variables)を読み込むためのビルトインサポートがあります。
    .env.localからprocess.envに読み込むことができます。.env.local`ファイルをプロジェクトのルートフォルダに作成し、以下の環境変数を設定します。
    “env
    next_public_google_maps_api_key=my_api_key
    “`

    (READMEの日本語訳)

    地図を表示するためのGoogle MapsのAPI設定がありません。
    このあたりの設定はGoogle Maps APIのNextJSでの使い方解説を観ていただけるとよいのですが、この辺の設定も含めてあっという間にプロトタイピングが作れてしまうCreate.XYZはすごいです!

    https://create-demo-trunk-hotel.vercel.app/

    欲を言えば今回のサンプルのようにNextJSのサーバーサイドの処理がないのであれば、GitHub Actionsが選択肢にあると良いな!

    Stable Diffusionアドオンについて

    Add-onsには「Stable Diffusion」があります。

    画像

    以下のようなプロンプトで画像生成サイトを作ることができます。

    画像

    Create an image generation website using Stable Diffusion V3 1girl, looking at viewer, animation
    User can input Prompt, negative prompt

    “Generate” button can send request to Stable diffusion.

    https://demo-trunk-hotel-event-240718.created.app/sd

    画像

    Create.XYZの Stable DiffusionはCREATE社のオウンホスティグでベースモデルはSDXLだそうです。Create.XYZのユーザは無料で利用できますが、生成はBuildモード・Demoモードのときは動的に生成されますが、パブリッシュ語は動作はしないようです(Integrationがない)。
    でもデザインさえ決まれば 最新の Stable Diffusion Ultraを使ったサイトなども開発できるかもですね!

    https://ja.aicu.ai/sd3api1800/

    画像

    https://demo-trunk-hotel-event-240718.created.app/sd

    今後の戦略について

    質問(意訳):CREATEはB2B向けなのか、コンシューマ向けなのか?基盤モデルを持っている企業やビッグテックの企業とどういう棲み分けをしているのか。

    ドゥルヴさん:顧客満足度、「ユーザの使用感」を第一に考えており、使用した結果、使いやすかったら口コミで広がっていくと考えているのでこれが一番の推進力になると考える。これが時期に大企業に浸透していくと考えている。
    他にも機能を持っている会社は居るが「アプリを作るならここが一番、まちがいない」という位置づけ、状態を作ろうとしている。
    先程の「基盤モデル」についての質問もあったが、基盤モデルをもつ企業は競合であり友達である。各モデルが良くなっていくと、我々のモデルも良くなる。最終的にはユーザが細かいことを考えなくても良くなるという方向を考えている。ビッグテックの会社に対するストラテジーとしては、全くコーディングをしたことがない新規の顧客に対しての市場を拡げている。顧客は「自分たちが思い描いたものを100%のもの」ではなく「使いやすいもの」を選ぶと考えている。ホストされた技術を使うと信じている。何よりも大事なのは「顧客に満足していただく」、それが口コミで拡がるということが大事だと考えています。

    交流も!

    ランチはパエリアでした!お弁当で食べる新鮮感覚。

    画像

    AICU media編集長の しらいはかせ(@o_ob)がインタビューを実施しました。

    しらいはかせ:CREATEはなんて読むの?クリエイト?
    ドゥルヴさん: CREATEは現在多くのユーザが居るが、その半数以上は日本からのアクセスです。我々のサービス名は「CREATE」ですが、これは検索性もよいわけではないし、日本人のユーザさんたちは「Create.XYZ」と呼んでくれているので、我々も「クリエイト・イクスワイズィー」と呼んで良いのではないかと考えます。

    しらいはかせ:これめっちゃ技術的な質問なんだけど、プロンプトが長くなったらどうすればいいの?
    ドゥルヴさん:コンポーネント機能を使えばいい。プロンプトが長くなると制御性が下がってくる。コンポーネンツ機能は長くなった部品を分割して小さなパーツに分ける。UIコンポーネント、Functionsをロックして大きなページで扱うことができる。新しいコンポーネントの設計では名前はコンポーネントだが、いかなるエレメントもクリックできて、デザインタブでコンポーネントに変換できる。コードと高レベルのページを行き来して設計できる。

    Stable Diffusionの本があるなら、Create.XYZの本もすぐ出るね!

    画像

    Thanks Dhruv san, have a good stay in Japan!

    https://note.com/o_ob/n/n2fc9c059a8d5

    Originally published at  https://note.com on July 18, 2024.

  • 描画工程を推論する「Paints-Undo」、Google Colabで実際に動作させてみた

    日本時間で2024年7月10日、スタンフォード大学の博士課程の学生である「Fooocus」や「Omost」「Style2Paint」の開発者Lvmin Zhang さん(GitHubアカウント: lllyasviel)らの研究グループが、興味深い研究成果を発表しました。Google Colabで試せる実験コードも紹介します。

    https://note.com/aicu/n/n8990c841e373

    圧巻のデモ

    ぜひこちらのデモサイトで結果を観てください

    https://lllyasviel.github.io/pages/paints_undo

    この Web ページのすべての入力画像は AI によって生成されたものであることに注意してください。それらの「グラウンド・トゥルース」つまり「正解の描画プロセス」は存在しません。画像生成によって生成された1枚の画像をベースに「それが描かれたであろう工程」を、まるでイラストレーターの作業配信動画(タイムラプス)のように生成しています。

    画像

    美少女イラスト以外の分野での実験。

    画像
    画像

    ラフスケッチの生成

    画像

    異なる描画工程の再現

    画像
    画像
    画像

    失敗例

    画像

    以下、公式READMEの翻訳を中心に、解説を補完しながらお送りします。
    https://github.com/lllyasviel/Paints-UNDO
    実際に動作させた例は最後に紹介します。

    画像

    Paints-Undo:デジタルペイントにおける描画動作のベースモデル

    Paints-Undoは、将来のAIモデルが人間のアーティストの真のニーズに沿うことができるように、人間の描画動作のベースモデルを提供することを目的としたプロジェクトです。

    「Paints-Undo」という名前は、モデルの出力がデジタルペイントソフトで「元に戻す」ボタン(通常はCtrl+Z)を何度も押したときのように見えることに由来しています。

    Paints-Undoは、画像を入力として受け取り、その画像の描画シーケンスを出力するモデル群です。このモデルは、スケッチ、インク入れ、着色、シェーディング、変形、左右反転、カラーカーブ調整、レイヤーの表示・非表示の変更、さらには描画プロセス中の全体的なアイデアの変更など、人間のあらゆる行動を表現します。

    利用方法

    PaintsUndoは、以下の方法でローカルにデプロイできます。
    condaのインストールと10GB以上のVRAMが必要です。

    git clone https://github.com/lllyasviel/Paints-UNDO.git
    cd Paints-UNDO
    conda create -n paints_undo python=3.10
    conda activate paints_undo
    pip install xformers
    pip install -r requirements.txt
    python gradio_app.py    

    推論は、Nvidia 4090および3090TIの24GB VRAMでテストされています。16GB VRAMでも動作する可能性がありますが、8GBでは動作しません。私の推定では、極度の最適化(重みのオフロードやスライスアテンションを含む)を行った場合、理論上の最小VRAM要件は約10〜12.5GBです。

    設定にもよりますが、1つの画像を処理するのに約5〜10分かかります。一般的な結果として、解像度320×512、512×320、384×448、または448×384で、FPS 4、25秒のビデオが得られます。

    処理時間は、ほとんどの場合、HuggingFace Spaceのほとんどのタスク/クォータよりも大幅に長いため、HuggingFaceサーバーに不要な負担をかけないように、HuggingFace Spaceにデプロイすることはお勧めしません。

    必要な計算デバイスがなく、それでもオンラインソリューションが必要な場合は、Colabノートブックがリリースされるのを待つという選択肢があります(ただし、Colabの無料枠で動作するかどうかはわかりません)。

    モデルに関する注意事項

    現在、 paints_undo_single_frame と paints_undo_multi_frame の2つのモデルをリリースしています。それぞれをシングルフレームモデル、マルチフレームモデルと呼ぶことにします。

    シングルフレームモデルは、1つの画像と操作ステップを入力として受け取り、1つの画像を出力します。1つのアートワークは常に1000の人間の操作で作成できると仮定し(たとえば、1つのブラシストロークが1つの操作、操作ステップは0から999までの整数)。第0番は完成した最終アートワーク、第999番は真っ白なキャンバスに最初に描かれたブラシストロークとします。このモデルは、「元に戻す(Undo/Ctrl+Z)」モデルと理解することができます。最終的な画像を入力し、「Ctrl+Z」を何回押したいかを示すと、モデルはそれらの「Ctrl+Z」が押された後の「シミュレートされた」スクリーンショットを表示します。操作ステップが100の場合、この画像に対して100回「Ctrl+Z」をシミュレートして、100回目の「Ctrl+Z」後の外観を取得することを意味します。

    マルチフレームモデルは、2つの画像を入力として受け取り、2つの入力画像間の16の中間フレームを出力します。結果はシングルフレームモデルよりもはるかに一貫性がありますが、はるかに遅く、「創造性」が低く、16フレームに制限されています。

    このリポジトリでは、デフォルトの方法ではこれらを一緒に使用します。最初にシングルフレームモデルを5〜7回推論して5〜7つの「キーフレーム」を取得し、次にマルチフレームモデルを使用してそれらのキーフレームを「補間」して、実際に比較的長いビデオを生成します。

    理論的には、このシステムはさまざまな方法で使用でき、無限に長いビデオを作成することもできますが、実際には最終フレーム数が約100〜500の場合に良好な結果が得られます。

    モデルアーキテクチャ (paints_undo_single_frame)

    このモデルは、異なるベータスケジューラ、クリップスキップ、および前述の操作ステップ条件でトレーニングされたSD1.5の変更されたアーキテクチャです。具体的には、このモデルは、次のベータを使用してトレーニングされています。

          betas = torch.linspace(0.00085, 0.020, 1000, dtype=torch.float64)
        

    比較のために、元のSD1.5は、次のベータを使用してトレーニングされています。

          betas = torch.linspace(0.00085 ** 0.5, 0.012 ** 0.5, 1000, dtype=torch.float64) ** 2
        

    終わりのベータと削除された正方形の違いに気付くでしょう。このスケジューラの選択は、内部ユーザー調査に基づいています。

    テキストエンコーダCLIP ViT-L / 14の最後のレイヤーは完全に削除されます。 操作ステップ条件は、SDXLの追加の埋め込みと同様の方法でレイヤーの埋め込みに追加されます。

    また、このモデルの唯一の目的は既存の画像を処理することであるため、このモデルは、他の拡張なしでWD14 Taggerと厳密に整合性が取れています。入力画像を処理してプロンプトを取得するには、常にWD14 Tagger(このリポジトリにあるもの)を使用する必要があります。そうしないと、結果に欠陥が生じる可能性があります。人間が書いたプロンプトはテストされていません。

    画像

    モデルアーキテクチャ (paints_undo_multi_frame)

    このモデルは、VideoCrafterファミリーから再開することでトレーニングされますが、元のCrafterのlvdmは使用されず、すべてのトレーニング/推論コードは完全にゼロから実装されています。(ちなみに、コードは最新のDiffusersに基づいています。)初期の重みはVideoCrafterから再開されますが、ニューラルネットワークのトポロジーは大幅に変更されており、ネットワークの動作は広範なトレーニングの後、元のCrafterとは大きく異なります。

    全体的なアーキテクチャは、3D-UNet、VAE、CLIP、CLIP-Vision、Image Projectionの5つのコンポーネントを持つCrafterのようなものです。

    • VAE:VAEは、ToonCrafterから抽出されたのと同じアニメVAEです。Craftersに優れたアニメの時間的VAEを提供してくれたToonCrafterに感謝します。
    • 3D-UNet:3D-UNetは、アテンションモジュールのリビジョンを含むCraftersのlvdmから変更されています。コードのいくつかのマイナーな変更以外に、主な変更点は、UNetがトレーニングされ、空間的自己注意レイヤーで時間ウィンドウをサポートするようになったことです。 diffusers_vdm.attention.CrossAttention.temporal_window_for_spatial_self_attentionおよびtemporal_window_typeのコードを変更して、3つのタイプのアテンションウィンドウをアクティブ化できます。
      • “prv”モード:各フレームの空間的自己注意は、前のフレームの空間的コンテキスト全体にも注意を払います。最初のフレームは自分自身だけに注意を払います。
      • “first”モード:各フレームの空間的自己注意は、シーケンス全体の最初のフレームの空間的コンテキスト全体にも注意を払います。最初のフレームは自分自身だけに注意を払います。
      • “roll”モード:各フレームの空間的自己注意は、torch.rollの順序に基づいて、前後のフレームの空間的コンテキスト全体にも注意を払います。
    • CLIP:SD2.1のCLIP。
    • CLIP-Vision:位置埋め込みを補間することで、任意のアスペクト比をサポートするClip Vision(ViT / H)の実装。線形補間、ニアレストネイバー、および回転位置エンコーディング(RoPE)を試した後、最終的な選択はニアレストネイバーです。これは、画像を224×224にサイズ変更または中央トリミングするCrafterメソッドとは異なることに注意してください。
    • Image Projection:2つのフレームを入力として受け取り、各フレームに16の画像埋め込みを出力する小さなトランスフォーマーの実装。これは、1つの画像のみを使用するCrafterメソッドとは異なることに注意してください。

    免責事項

    このプロジェクトは、人間の描画動作のベースモデルを開発し、将来のAIシステムが人間のアーティストの真のニーズをより適切に満たせるようにすることを目的としています。ユーザーはこのツールを使用してコンテンツを自由に作成できますが、地域の法律を遵守し、責任を持って使用する必要があります。ユーザーは、虚偽の情報を生成したり、対立を扇動したりするためにツールを使用してはなりません。開発者は、ユーザーによる misuseの可能性について、いかなる責任も負いません。

    実際に動作させてみた

    ✨️Google Colabで動作するコードは社会的影響を鑑みて、当面は文末にてメンバーシップのみの公開とさせていただきます✨️

    gradio_app.pyの最終行を以下のように変更してください
    #block.queue().launch(server_name=’0.0.0.0′)

    block.queue().launch(server_name=’0.0.0.0′, share=True)

    チュートリアル

    Gradioインターフェースに入ったら:

    ステップ0:画像をアップロードするか、ページの下部にある[作例画像]をクリックします。

    画像

    ステップ1:「ステップ1」というタイトルのUIで、[プロンプトの生成]をクリックして、グローバルプロンプトを取得します。

    画像

    ステップ2:「ステップ2」というタイトルのUIで、[キーフレームの生成]をクリックします。左側でシードやその他のパラメータを変更できます。

    画像

    ステップ3:「ステップ3」というタイトルのUIで、[ビデオの生成]をクリックします。左側でシードやその他のパラメータを変更できます。

    オリジナル画像でやってみた

    AICU所属のイラストレーター・犬沢某さんに素材をご提供いただきました。

    画像
    画像
    画像
    画像
    画像
    画像

    動画はこちらです

    犬沢某さん「なんだか最初のほう、悩みながら描いてるのがそれらしくていいですね・・・」

    描画工程を推論する技術は、様々なクリエイティブ工程に役立つツールが生み出せる可能性があります。
    オープンな技術として公開していただいた lllyasvielさん、Paints-Undo Teamに感謝です。

    https://github.com/lllyasviel/Paints-UNDO

    Google Colabで condaをインストールし、Paints-UNDOを利用するnotebook

    社会的影響を鑑み、当面はメンバーシップのみの提供とさせていただきます
    くれぐれも悪用禁止でお願いいたします。
    フェイク動画や、素手で描かれるイラストレーターさんのお気持ちを害するような使い方は誰にとっても利がありません。

    原作の免責事項(disclaimer)を再掲しておきます

    このプロジェクトは、人間の描画動作のベースモデルを開発し、将来のAIシステムが人間のアーティストの真のニーズをより適切に満たせるようにすることを目的としています。ユーザーはこのツールを使用してコンテンツを自由に作成できますが、地域の法律を遵守し、責任を持って使用する必要があります。ユーザーは、虚偽の情報を生成したり、対立を扇動したりするためにツールを使用してはなりません。開発者は、ユーザーによる misuseの可能性について、いかなる責任も負いません。

    この記事の続きはこちらから https://note.com/aicu/n/n7e654dcf405c

    Originally published at https://note.com on July 9, 2024.

  • GoogleforJapan AIで広がる、これからの働き方・学び・創作 — イベントレポート

    GoogleforJapan AIで広がる、これからの働き方・学び・創作 — イベントレポート

    2024年6月19日、渋谷ストリーム グーグルオフィスにて「Google for Japan」が開催されました。

    「AI の力で解き放とう、日本の可能性」 というテーマで完全招待制で実施されたこのイベントは、加速度的に進歩する AI に代表される最新のテクノロジーを、日本の人々、経済、そして社会全体に大きな恩恵をもたらすGoogle および日本のパートナーとともに、大胆でありながらも責任ある AI の発展と活用によって日本の皆様に貢献することを目指して開催されています。

    2022年の Google For Japan ハイライト映像

    AICU media 編集部はメディアとしてご招待いただきましたので、会場より可能な限りで、 X@AICUai およびこの記事のライブ更新で現地レポートをお送りします。

    はしゃぐ編集長・しらいはかせ

    #GoogleForJapan

    当日の発信はこちらのハッシュタグが推奨されているようです

    AI で広がる、これからの働き方・学び・創作

    スピーカー

    深津 貴之 氏(株式会社THE GUILD 代表取締役)
    けんすう(古川 健介)氏(アル株式会社 代表取締役)
    ハヤカワ五味 氏(株式会社ウツワ 代表取締役)
    シェイン グウ(Google DeepMind リサーチサイエンティスト)

    https://deepmind.google/technologies/gemini/project-astra

    編集長のメモより

    /https://x.com/o_ob/status/1803343998071017495?s=46&t=jgQwk-8DSR4rWrfqK70Ylw

    スペシャルセッションよかった!

    シェイングウ: ロングコンテキストとマルチモーダル。録画データそのままいける

    ハヤカワ五味: なんだかGeminiってすごい「体力」ある感じしますよね、途切れないというか…

    シェイン: 我々は「ジェミナイ・ナマケナイ」って言ってます

    深津さん: 会議をどうやったら建設的にできるか、とか

    シェインさん: サトシ・ナカモトのメールを5年分分析して、この人は日本人?みたいな分析とかも。

    深津: 言語モデルどんどん頭良くなっていくので、お作法は減っていくはず。「僕の下手な命令、を聴いて」というプロアクティブ
    手法とか、「質問考えて」、「もっと積極的になってください」とか。

    五味:プッシュ型ですね

    深津: AIがプロンプト考えてください、僕が実行します、とか。

    五味: 期待していて、ほしいっ!ていうのがとにかくGoogleのサービスとの融合。Googleドライブとか10年ぐらい放置してると大変なことになっていて、Geminiで私のドライブを全部整理して動かせるってなったら良いですね。割と社会不適合なので😉早く実現して欲しいのがGoogle Maps。移動時間の計算ができないんで〜!

    シェイン: スーさんいまいったこと全部まとめといて😄音声とか動画とかリアルとかそれを全て理解してるGeminiを作りたい。日本の弱みで言うとやっぱりその英語。海外とのコミニケーション。日本人と英語を話す人がロスレスで会話できる。難しい問題、文化的な違いとか、個人的な内容を、日本語の表現の細かさ英語の世界に伝えていく。

    <最後に皆さんに一言メッセージ>

    深津: 100年に1度のお祭り騒ぎなので、そのエンジニアリングあるいはITのお仕事してて「30年後位に触っとけよかったな〜!この祭りに乗っとけよかったなぁ」って後悔するぐらいなら、せっかくのお祭りだから今みんなでひたすら遊ぶと1番楽しいんじゃないですかね

    けんすう: 近いんですけれども、やっぱり「うまく使いこなそう」と緊張しちゃう人が多いので、なんか「1人の人間とコミュニケーション取る」みたいな感じで考えた方がいいかなぁと思ってます。部下とかができたらめっちゃ仲良くなることが大事だったりするじゃないですか。仲良くなるためにいろいろコミニケーションするっていうのやればいいかなぁと思ってます。僕Geminiで質問してどうしても答えてくれなかったの、でも10分ぐらい励まし続けたらやってくれたんですよ😃

    五味: Geminiが出た瞬間に使った私のそのポストまだ残ってるけど、見ると「むかつく😡」みたいなみたいなポスト。イノベーターの方々って早すぎで、改めてアドバンスを使ってみると結構違うのでなんかぜひもう一回触っていただきたいってのはありますね。

    シェイン: 明治維新以降の急激な変化を楽しんでいる日本。これから数年間、激変します。これからの加速的変化の日本を欧米に届けていく。

    以上、ライブ要約につき間違ってたらごめんなさい!🙇‍♀️

    #GoogleForJapan
    #GoogleGemini

    その他の講演

    AIを活用したGoogle製品とサービスを体験

    あたらしい取り組みも!

    Google Gemini公式note!

    https://note.com/google_gemini/

    https://note.com/google_gemini/n/n386f5a0b21f0

    https://note.com/google_gemini/n/n83767655a098

    https://note.com/google_gemini/n/n51d9f3b97470

    https://note.com/google_gemini/n/n6ddd01ef6fde

    まとめ

    media編集部のはねごろうです。
    今回はGoogle for JAPANという素晴らしい機会に参加が出来て
    今後Geminiが更に進化していくだろう期待と刺激を頂くことが出来ました。

    編集長・しらいはかせ:

    個人的にもGeminiの底力に期待です。グローバルなアプリ開発コンテストの内容から見ても、本気具合を感じます。

    https://note.com/o_ob/n/n9f773828a176

    シェイン・グウさん、Geminiチームのみなさん、ご招待いただきありがとうございました!
    これからもGeminiのバグや不具合を見つけたら素早くレポートしていきたいと思います!

    Originally published at https://note.com on June 19, 2024.

  • [速報]AICU CEO白井が「ChatGPTとStable Diffusion丸わかりナイト」に登壇いたしました

    [速報]AICU CEO白井が「ChatGPTとStable Diffusion丸わかりナイト」に登壇いたしました

    2024年5月30日(木)に、デジタルハリウッド大学本校にて開催された「ChatGPTとStable Diffusion丸わかりナイト」に弊社CEO白井暁彦(@o_ob/しらいはかせ)が登壇いたしました!

    https://ai-maruwakari-night.peatix.com/

    デジタルハリウッド大学大学院教授の橋本大也先生、特任教授の弊社CEO白井暁彦が、近日それぞれ発売した書籍に関する講演、トークイベントを実施しました。

    『頭がいい人のChatGPT&Copilotの使い方』(橋本大也教授著)
    『画像生成AI Stable Diffusionスタートガイド』(AICU media (著), 白井 暁彦 (著))

    ChatGPTとStable Diffusionを中心に、文章、画像、音楽、動画の生成AIの面白さ、可能性について熱く語られ、本を読んだ人も読んでいない人も、学生も社会人も、生成AIの最新事情をアップデートできるイベントとなりました。

    書籍執筆に使われた蔵出し資料の数々!

    参加された方の感想
    「2時間びっしり濃い内容すぎて、消化しきれませんでした・・・」
    「楽しかった!」
    「頭のいい人…じゃなくて…頭のおかしい人の情報量…」

    本人曰く「40分強の講演に実に244枚のスライドがあるんだ」とのこと

    https://note.com/o_ob/n/n930c390b6dfa

    1分あたり6.1枚、だいたい10秒1枚という計算なんですね!(慣れた)

    終了後のサイン会でも沢山の方が購入されました。

    購入された方のご感想
    「実はKindle版も購入していたのですが、これはリアル本であったほうがいい!&先生のサイン付き✨ということでゲットできて良かったです😊」

    ご参加・ご購入ありがとうございました。

    詳細のレポートをお楽しみに!

    Originally published at https://note.com on May 30, 2024.

  • Stable Diffusionの仕組み(入門編)

    Stable Diffusionの仕組み(入門編)

    Stable Diffusionの仕組みについてご存知ですか?
    プロンプトを入れると画像が生成される…その内部を説明できるとかっこいいですよね。
    こちらの講演で使用したスライドを白井CEOから頂いたので一部公開いたします。

    https://note.com/aicu/n/n8d4575bcf026

    画像生成AIの誕生と変遷(2)画像生成技術の歴史年表

    https://note.com/o_ob/n/n971483495ef3

    画像生成AIの誕生と変遷(4) 画像生成AIの2014–2024におきたパラダイムシフト

    https://note.com/o_ob/n/n3c1d8523cf68

    Stable Diffusionの仕組み(入門編)

    CLIPとは画像とテキストの関係だけを学んでいます。
    CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

    https://github.com/openai/CLIP

    実はネガティブプロンプトはStable Diffusionが公開されてからAUTOMATIC111で生まれました。

    https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Negative-prompt

    ネガティブプロンプトは、正プロンプトと同じ仕組みでCLIPを持ち、サンプラーが条件付き逆拡散をする際にUNETの左側に入ります。
    画像のLatent Space化はちょうどZIP圧縮のような超圧縮で、フロート列が並んでいるweight&biasです。VAEを使うことで画像に展開できます。

    ImageToImageやControlNetも、基本的にはLatent SpaceでUNETの左側に入ります。

    UNetについて補足

    UNETは元々は医用画像のセグメンテーションタスクのために想定されたが、多くの画像2-画像タスクに再利用されている。畳み込みエンコーダ(ダウンサンプリング)とデコーダ(アップサンプリング)を持つ。

    マルチスケール、マルチ抽象レベルで変調を学習。

    ReLU(Rectified Linear Unit)のことで、max(0, x)のような実装をする。Convolution層ではこの活性化関数を使うことが多い。

    https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

    https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/

    画像生成AI Stable Diffusion スタートガイドより。

    https://j.aicu.ai/SBXL

    https://j.aicu.ai/SBXL

    Originally published at https://note.com on May 30, 2024.

  • AICU マガジン5月号アップデート!

    AICU マガジン5月号アップデート!

    AICU media 編集部の知山ことねです。
    わかるAIを届ける、AICU マガジン5月号はもうお読みいただけましたか?特集の「次世代まんが制作術」が魅力の一冊となっております!

    4月号に引き続き、今回も大幅アップデートを行いました。主にキャラ LoRA 制作が、現時点での保存版とも呼べる程の詳細な解説になっています。

    この記事ではマガジンの紹介と、更新箇所のお知らせをします。パワーアップした AICU マガジン5月号をぜひお読みください!
    購入はこちら https://j.aicu.ai/Mag2405

    https://note.com/aicu/n/n61476a3fc852

    https://j.aicu.ai/Mag2405

    AICUマガジン5月号 目次(最新版)

    2024年5月29日時点での最新の目次です。

    画像生成 AI で漫画を描こう!
    この記事で必要なもの
    漫画制作ステップ① アイビスペイントでコマを作ろう
    キャンバスを用意する
    コマを配置しよう
    漫画制作ステップ② ネーム(下書き)を描こう
    漫画制作ステップ③ 画像を生成しよう
    キャラクターを生成しよう
    背景を生成しよう
    漫画制作ステップ④ 生成した画像を漫画に編集しよう
    漫画制作ステップ⑤ フキダシを配置しよう
    漫画制作ステップ⑥ 手描き文字を追加する
    完成!

    [キャラLoRA学習ガイド]デルタもんLoRAで学ぶLoRA制作!←Updated!
    (1) データセットを用意しよう
    データセットとは?
    データセット作りのコツ
    (2) Google Colaboratory で学習しよう
    Colab notebook の用意
    データセットの展開
    学習の設定
    (3) 生成した LoRA を回収しよう
    生成してみよう!

    りんりん倫理
    Q1. 生成 AI は著作権違反なの?
    Q2.「無断学習禁止」って何?
    Q3. 生成 AI に関する法律はどこで調べればいいの?

    編集コラム:生成AIクリエイターに必要なのは「自在性」
    ようこそ!アイキュー部
    今月の12星座占い

    アップデート!「キャラLoRA制作ガイド」

    今回アップデートしたのは、特集2つ目の「キャラLoRA制作ガイド」です。
    第1版では、5月に行われたキャラLoRA制作ワークショップ( https://ja.aicu.ai/event20240516/ )の予習として、キャラLoRA用データセットの作り方をデルタもんの画像を用いて解説しました。
    第2版となる今回は、データセットの作り方のみならず、学習に必要な Colab notebook の配布、使い方解説、学習時のモデルやパラメータ調整など、キャラLoRA制作に必要な情報を全て盛り込みました!

    また、AICU 特製のデルタもんデータセットの配布も行っています。
    期間限定で、ワークショップ「デルタもんLoRAを作ろう!」の録画も公開しています。
    AICU のワークショップが気になる方や、実際の操作画面をチェックしたい方は要チェックです。

    また漫画の解説では、動画を追加するなど、さらにわかりやすくなる工夫を凝らしました。

    マガジンを読むと、こんなことができるようになります!

    他にもアップデートにより、全体的に様々な補足情報が追加され、より親切でわかりやすいマガジンになりました。
    もう第1版を読んでくださった方は、まためくってみて、新たな学びや発見を見つけてください。
    まだ読んでいらっしゃらない方は、この機会にぜひ読んでみてくださいね!Kindle Unlimited で無料で読むことができます。

    https://j.aicu.ai/Mag2405

    次回のアップデート・次号リリースをお楽しみに!
    AICU media をフォローして最新記事をお見逃しなく。記事のいいねとおすすめもお待ちしております!

    Originally published at https://note.com on May 29, 2024.

  • 技術書典16 現地取材レポート!生成AIクリエイティブ分野で才能と知見あふれる良書にたくさん出会いました

    技術書典16 現地取材レポート!生成AIクリエイティブ分野で才能と知見あふれる良書にたくさん出会いました

    つくる人をつくる AICU media 編集長のしらいはかせです
    5月25日~6月9日まで開催されている技術書典16のオフライン開催が2024年5月26日(日) 池袋サンシャインシティ 展示ホールD(文化会館ビル2F)にて開催されました!

    https://techbookfest.org

    AICU media 編集部の予習「これ欲しい!」紹介に引き続き、生成AI時代のクリエイティブ「つくる人をつくる」に響きそうな書籍を中心に現地取材を実施いたしましたのでご笑納ください。実際の電子書籍版の購入ページへのリンク入りです!

    https://note.com/aicu/n/n2a9db1c201cd

    Kareshi クリエイトChatGPTを使ったパーソナルアシスタント入門

    鐸羊舎さんは乙女たちが集まるChatGPTサークルです。

    https://techbookfest.org/product/bvtk62SRg6ZMLG4jrhsCbA?productVariantID=4w8dEgBMZJdJtvqk9sNae3

    「技術で乙女たちが暴れる本」というキャッチが良いですね~

    https://techbookfest.org/product/bvtk62SRg6ZMLG4jrhsCbA?productVariantID=4w8dEgBMZJdJtvqk9sNae3

    ボカロ曲の歌詞をあやつるリリックアプリを作ってみよう!

    リリックアプリってご存知ですか?
    歌詞を操って素敵な動画やインタラクティブアプリをつくリます。
    産業技術総合研究所が公開している「 TextAlive」を使って
    初音ミク「マジカルミライ2024」プログラミングコンテストに参加してみよう!いままさに作品募集中です。

    過去のコンテストで素敵な作品を作ってきた方々による執筆です!

    https://techbookfest.org/product/55JgGbUVTCFeqbJJBPzNrQ?productVariantID=1sufWYp3z75KZ3dJn1pidA

    自分で作るAIキャラ
    第1部 ローカルLLM編
    第2部 キャラを動かす編
    第3部 キャラを動かすアプリ編

    「生成AIなんでも展示会」で展示されていたローカルLLMによるAITuberの書籍が三部作で出展されていました。

    https://techbookfest.org/organization/9WZss3wdiPrtQnG3fzp1Mz

    https://note.com/aicu/n/n760a70ca107f

    厳選した学習データセットを用いて独自に学習したモデルを利用する高精度アニメ顔検出技術をオープンソースで公開されています。

    https://github.com/animede/anime_face_detection

    https://note.com/ai_meg/n/n3cbc258dfa3e

    https://techbookfest.org/product/wqVjqb94yu7kQFz6NzVuZS?productVariantID=q40JhNMd97StTffAakggE

    .AITuberといえばこちらの書籍も人気でした

    https://techbookfest.org/product/gq3Rq6rpmpx6TRSW3A4XbR?productVariantID=mEpLiF1Fbt3VeeWcjaY5Fm

    サブスタ備忘録 どシンプルに3Dを塗るだけの本

    Adobe Substance 3Dを3Dイラストに使う本です!

    佐久間蒼野さんはVRoid本でもめちゃ有名なクリエイターさんです

    https://hub.vroid.com/characters/8434922524123136421/models/1831594513660928826

    https://techbookfest.org/product/rsbUjHsBAysnikkATDwPZE?productVariantID=iBvAz4Wtqm4wzU9UWURspY

    Adobe Substance 3Dといえばリアル系の3Dツールだと思われていますが、アバター制作に便利な使い方があるんですね!しかもSteamでインストールするそうです。

    https://store.steampowered.com/app/2718190/Substance_3D_Painter_2024

    QRコードを編む

    サーバーサイドエンジニアの @megusunu さんによるQRコードを色々と編んでみた実験書です!

    編み物でもQRコードは認識されるんです!こちらの画像ではARが実現しています。

    御本人許可有り

    買って読んでみるとかなりガチな内容でした!

    目を1ラインにしても読めなくないけど…といった実験を繰り返されています。

    その他の書籍

    LLMのファインチューニング、ChatGPT使いこなし、データアナリスト、AITuberの分野はとても多かった印象です。
    印象が強くて人気だったサークルは、人造肉、データアナリストをテーマにしたカードゲーム、IoT関連などなど…。

    まとめ

    写真を見てお気づきかもしれないですが、従来の技術書典のガチなオジサマ層の参加者に加えて、カジュアルな方々、ファミリー、女声のみなさんがとても多かった印象です。これは同人イベントとしては大変重要なポイントで、今後も成長感じますね。

    技術書典16はオンラインで5月25日~6月9日まで開催されています。

    このようなイベントのレポートに興味がある方はこちらもオススメ

    https://ja.aicu.ai/category/events/

    この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!

    Originally published at https://note.com on May 26, 2024.

  • 東大のHCI研究:Stable Diffusionを用いた写真内の情報秘匿技術

    東大のHCI研究:Stable Diffusionを用いた写真内の情報秘匿技術

    東京大学より 2024年5月14日に発信されたプレスリリースが興味深い画像生成AIに関する研究でしたので紹介いたします。
    コンピュータ・ヒューマン・インタラクションのトップカンファレンス「CHI 2024」に「 Examining Human Perception of Generative Content Replacement in Image Privacy Protection 」というタイトルで採択されております。

    拡散モデルを用いた写真内の情報秘匿技術

    発表のポイント
    ◆ 生成AI を用いた画像の生成的コンテンツ置換(GCR)法を開発し、秘匿しつつ画像の見た目と内容の両方を維持する加工手法を開発しました。
    ◆ 新たに開発された手法では、画像の全体的な内容とプライバシーに関係しうる部分を特定した上で、拡散モデルを用いて代替画像を生成し、元の画像に適応させることで、プライバシーを守りつつ画像の視覚的魅力を保持する革新的なアプローチを提供します。
    ◆ 本手法は、SNS での画像共有、プレゼンテーション、ビジュアルデザインなど写真の視覚的美しさが重要な場面への応用が見込まれています。

    本研究が提案する画像秘匿手法GCRによる秘匿加工例

    概要

    東京大学大学院工学系研究科電気系工学専攻の矢谷浩司准教授らのグループは、生成AIを用いた画像の生成的コンテンツ置換(GCR)法を開発し、秘匿しつつ画像の見た目と内容の両方を維持する加工手法を開発しました。画像の秘匿化は、SNSの普及により重要性が増しています。従来の秘匿化手法にはモザイクやぼかしがありますが、これらの方法は手間がかかり、しばしば秘匿が不十分であるだけでなく、画像の見た目や統一感を損なう問題がありました。開発された手法は、画像全体とプライバシーに関連しうる部分の内容を表現するテキストを生成し、それらから拡散モデルにより代替画像を生成し、元の画像に配置することで、プライバシー保護と視覚的美しさのバランスを実現する画期的な方法となっています。SNSでの画像共有やプレゼンテーション、ビジュアルデザインへの応用が期待されます。また、将来的には動画への応用や、より使用しやすいインタフェースの開発も進められています。

    発表内容

    画像の秘匿化は、画像の中に含まれているプライバシーに関係する情報を保護するために、大変重要な編集方法です。近年では画像のごく一部の情報から、撮影者の場所や属性が漏洩することが度々発生していますが、SNSなどの急速な普及により、そのような危険性を十分に理解しないまま、画像が一般に公開されていることも数多くあります。秘匿化を実現する既存の編集方法としては、モザイクやぼかし、あるいは絵文字などを重ねる、などがありますが、多くの場合ではユーザが直接編集を施す必要があるため、多くの手間を要したり、秘匿が十分でなかったりすることがあります。またこのような秘匿加工を施すと、元の画像から比べて見た目の美しさや統一感を損なってしまうことがあり、SNSなどでの共有を目的とする場合には好ましくないこともあります。

    この研究では、生成AI技術を用いてプライバシーに関係する情報を現実的な類似の代替物でシームレスに置き換える生成的コンテンツ置換(Generative Content Replacement, GCR)法を構築しました(図1)。この方法では、ユーザが加工を行いたい画像をシステムにアップロードします。システムはアップロードされた画像に対してBLIP-2モデル(注1)を用い、画像全体の内容を表現するようなテキストを生成します。さらに、DIPA(注2)と呼ばれる矢谷研究室が構築したデータセットにより提供されているマスク情報を用いて、画像内のプライバシーに関連しうる部分を抽出し、その部分の内容を表現するようなテキストを生成します。この2つのテキストをもとに、Stable diffusion(現在はバージョン2.1を使用)(注3)して、画像内のプライバシーに関連しうる部分に類似した代替画像を生成し、元画像上に配置することで、コンテンツの置換を行います。これにより、もと画像にあったプライバシーに関連しうる情報は秘匿化されながらも、画像の見た目や内容を維持することが可能となります。

    図1:GCRの処理フロー

    ユーザがアップロードした画像に対して、画像全体とプライバシーに関連しうる部分のテキストを生成し、それを元に画像内のプライバシーに関連しうる部分に類似した代替画像を生成し、元画像上に配置することで、コンテンツの置換を行います。

    図2に示す通り、ぼかし、カートゥーニング(画像の一部を非現実的な程度に強調する方法)、色塗り、除去(画像内の物体等を消し去り、背景で置き換える)、GCRの5つを比較したユーザ実験の結果、GCRによる秘匿加工では、画像内で加工が行われた場所を見つけ出すことが最も難しかったことが確認されました。また、他の秘匿加工手法と比較して、加工後の視覚的な調和が最も保たれていることも確認されました。元画像が持つストーリー性の維持に関しては、GCRはカートゥーニングよりも劣ったものの、プライバシー保護の強さにおいてはGCRが秀でており、GCRによる秘匿加工が、プライバシー保護と画像の視覚的美しさを両立しうる手法であることが確認されました。そのほか、GCRによる秘匿加工の一例を図3に示します。

    図2:秘匿加工方法の比較

    左から、元画像、ぼかし、カートゥーニング、色塗り、除去、GCR。

    図3:GCRによる秘匿加工の一例

    (上)後ろにいる男性を置換している。左が元画像、右が加工後の画像。(下)前面にある車は維持しつつ、背景にある車やナンバープレートを置換している。左が元画像、右が加工後の画像。

    この研究成果は、画像のプライバシー保護と有用性の両方が求められる応用において、実用的な生成AIの応用例を示すものです。SNSでの画像共有のほか、プレゼンテーションやビジュアルデザインへの応用も期待されます。将来への展望として、研究室では、一般的なユーザがより簡単にGCRを使用できるインタフェースを構築しているほか、動画への応用を検討しています。

    本研究はMicrosoft Research Asia D-CORE Program、および株式会社メルカリ R4Dとインクルーシブ工学連携研究機構との共同研究である価値交換工学の成果の一部です。

    発表者・研究者等情報

    東京大学大学院工学系研究科電気系工学専攻

    矢谷 浩司 准教授

    論文情報

    雑誌名: Proccedings of the ACM Conference on Human Factors in Computing Systems(CHI 2024)

    題 名: Examining Human Perception of Generative Content Replacement in Image Privacy Protection

    著者名: Anran Xu*, Shitao Fang, Huan Yang, Simo Hosio, and Koji Yatani*

    用語解説

    (注1)BLIP-2

    与えられた画像から情報を抽出し、画像を説明するテキストを生成するマルチモーダル学習技術をベースに構築された人工知能技術。

    (注2)DIPA

    矢谷研究室で構築した画像内においてプライバシーに関連しうる物体にアノテーションを施したデータセット。

    (注3)Stable Diffusion

    拡散モデルと呼ばれる確率的プロセスを用い、テキストの記述に基づいて画像を生成する人工知能技術。

    プレスリリース本文: PDFファイル

    Examining Human Perception of Generative Content Replacement in Image Privacy Protection | Proceedings of the CHI Conference on Human Factors in Computing Systems https://dl.acm.org/doi/10.1145/3613904.3642103

    https://dl.acm.org/doi/10.1145/3613904.3642103

    [MIT Technology Review] 生成AIを用いて画像内の情報を秘匿するシステム、東大が開発

    https://www.technologyreview.jp/n/2024/05/17/336549/

    東京大学によるプレスリリース
    https://www.t.u-tokyo.ac.jp/press/pr2024-05-14-002

    Originally published at https://note.com on May 24, 2024.

  • 技術書典16 AICU media 編集部の「これ欲しい!」紹介

    技術書典16 AICU media 編集部の「これ欲しい!」紹介

    つくる人をつくる、AICU media の知山ことねです。

    皆さん、#SD黄色本 「画像生成AI Stable Diffusionスタートガイド」はもう読まれましたか?
    ご存じの通り、AICU が3月に発売開始したStable Diffusion の体系的な教科書を目指して書かれています。

    実は、この書籍は技術書典15(2023年11月11日~2023年11月26日)で、9食委員さん、CEOしらいはかせ・852話さんで出版された「自分のLoRAを愛でる本」が底本になっています。

    ▶「自分のLoRAを愛でる本」 作:9食委員・しらいはかせ・852話

    インターネットで新鮮なAIの情報を得るのも大切ですが、たまには出版された書籍「技術書」で体系的に技術を学ぶことも勉強には必要ですよね。

    そこでこの記事では「最新の技術書が生まれる場所」、2024年5月25日 (土) 〜2024年6月9日(日)までオンラインで開催中 、5月26日(日) 池袋サンシャインシティにてオフライン開催される技術書典16 に先行して、味わい深い技術書の世界を知山ことね視点で紹介します。

    技術書典とは?

    技術書典は、テックベース合同会社が主催する、技術書のオンリーイベントです。オンラインマーケットとオフライン会場の双方で、新しい技術に出会えるお祭りを開催しています。2016年から年に2回ほど開催されており、Webサイトに登録しているユーザーは約37,000人、同人誌を制作・販売している出展者は1,000サークルにのぼります。(出典: エンジニア版コミケ「 #技術書典 」が来場者1万人超えのイベントに成長した軌跡 | アンドエンジニア (and-engineer.com))

    おすすめの書籍紹介!

    技術書典16は、オンライン、オフライン双方で展開しており、現在出品予定の書籍はオンラインマーケットで確認することができます。

    技術書典16 :技術書のオンラインマーケット開催中
    ここからAICU media 編集部が「これ欲しい!」「読んでみたい!」と思った書籍をピックアップしてご紹介します。皆様もぜひ確認して、一緒にわくわくしましょう!

    AI編

    情報処理 特集別刷「AI はクリエータになれるか」(2023 年 7 月号)(情報処理学会)

    情報処理 特集別刷「AI はクリエータになれるか」(2023 年 7 月号):情報処理学会

    生成AIとは、機械学習により大量のデータを学習し、学習結果から類似性を保ったまったく新しい人工物を生成するAI技術を指す。これまでのAIで難しいとされてきた、デザイン、広告、映画、音楽、文学、作曲といったクリエイティブな領域での活用が期待されている。本特集ではホットな生成AIを各分野の専門家の方々に「AIはクリエータになれるか」という観点から解説いただいた。
    0.編集にあたって(袖美樹子・吉村 剛)
    1.生成AIは我々の創造力をどのように変えていくのか?(栗原 聡)
    2.AI俳句─AI一茶くん─(山下倫央)
    3.生成言語モデルは創作者になれるか(船越孝太郎・奥村 学)
    4.AI絵師─イラスト自動生成AIの功罪─(金森由博)
    5.ファウンデーションモデルのさまざまな分野・モダリティでのビジネス応用─IBMでの取り組みの例─(倉田岳人・吉田一星・武田征士)
    6.音楽AIは創造性を高める(浜中雅俊) 編集室

    様々な専門家の方が、「AIにこれはできるのか?」という視点で意見や事例をまとめています。クリエイターを目指すAICU mediaの読者にとっては気になる内容なのではないでしょうか。

    生成AIで絵本を作ろう ChatGPT Plus/Midjourneyで始めるクリエーター生活(橄欖石庵)

    生成AIで絵本を作ろう ChatGPT Plus/Midjourneyで始めるクリエーター生活:橄欖石庵

    本書は生成AIを活用して絵本を作成する方法について説明しています。 本書で学べること 本書を読むことで、次のことについて学習できます。
    * 生成AIの活用方法
    * 生成AIによる絵本のストーリー検討方法
    * 生成AIによる絵本のイラスト作成方法 本書の想定読者 本書は次の方を対象として執筆しております。
    * 生成AIを使って絵本のストーリーを考えたい方
    * 生成AIを使って絵本のイラストを描きたい方
    * 生成AIを使って絵本を作りたい方

    midjourneyで絵本を作る本とのこと。水彩画のような可愛い表紙、思わずジャケ買いしたくなりますね…!

    動画編集、画像認識で自動化してみる。(味噌とんトロ定食)

    動画編集、画像認識で自動化してみる。:味噌とんトロ定食
    そこの社会人YouTuber! 動画編集大変じゃないですか? 画像認識で自動化しちゃいませんか? 本書ではポケモンソード・シールドのバトルにおけるコマンド選択画面をカットしたもの、通称バトルビデオを作成することを目標とします。

    そこの社会人YouTuber!
    動画編集大変じゃないですか?
    画像認識で自動化しちゃいませんか?

    本書ではポケモンソード・シールドのバトルにおけるコマンド選択画面をカットしたもの、通称バトルビデオを作成することを目標とします。
    画像認識で可能な限り自動化を行います。

    本書は YouTuber に憧れて動画編集にチャレンジしてみたものの、あまりにも編集作業に時間が掛かってしまいこのままでは YouTuber を続けられないといった経緯から、編集作業の内のカット編集を自動化した方法や知見が記載されています。本書ではプログラミングや画像処理といった内容が出てきますが、未経験の方でも問題無いよう記載することを心掛けています。

    プログラミング初心者・未経験者にもやさしい動画処理でYoutuberとして動画を編集する本。
    読んだらきっとYoutuberを始めたくなりますね!

    Diffusion Models 入門(ジンギスカン同盟)

    Diffusion Models 入門:ジンギスカン同盟
    本書は、Diffusion Modelsについて解説した本です。Denoising Diffusion Probabilistic Modelsをもとに理論の説明と実装を行います。

    本書は、Diffusion Modelsについて解説した本です。Denoising Diffusion Probabilistic Modelsをもとに理論の説明と実装を行います。Diffusion Modelsに興味がある人、実装を通して理解したい人向けの本です。流行技術を触ってみたものの、その詳細まではキャッチアップの時間が取れないという方も多いと思い、日本語による理論解説と最低限の実装を提供しようと本書を執筆しました。本書内のソースコードはGithubから取得できます。本書を読むにはPythonの基礎知識、PyTorchの基礎知識、統計学の知識が必要となります。

    第2版では誤記の修正および2023年5月のGoogle Colaboratory環境でのソースコードの動作検証を行いました。

    Stable Diffusion の Diffusion Models について解説された書籍。画像生成AIのテクニカルな面に興味のある方は楽しめそう。

    ライトニングトークがうまくなる本(RPACommunity)

    ライトニングトークがうまくなる本:RPACommunity
    自動化大好きなコミュニティ主催メンバーが語るライトニングトークのコツ!イベント回数は300回以上、ライトニングトーク登壇者は数百人、見てきたライトニングトーク登壇は1,000回以上!そこで得たライトニングトーク知見を語る本です!

    自動化大好きなコミュニティ主催メンバーが語るライトニングトークのコツ!イベント回数は300回以上、ライトニングトーク登壇者は数百人、見てきたライトニングトーク登壇は1,000回以上!そこで得たライトニングトーク知見を語る本です!

    AIに直接関係は薄いかもしれませんが、AIのイベントで頻繁に目にするライトニングトーク、経験のある方や「応募してみたい…」と思った方は多いのではないでしょうか?
    ライトニングトークに特化したプレゼン技法書は技術書典ならではのものなので注目です!

    その他編

    筆者知山が個人的に「買いたいっ!」と思った本です。

    宇宙世紀の統計学マニュアル Mk-Ⅱ(ひのまる呉服店)

    宇宙世紀の統計学マニュアル Mk-Ⅱ:ひのまる呉服店
    統計学の基礎を、「機動戦士ガンダム」等のアニメ作品を題材に解説しました。…

    統計学の基礎を、「機動戦士ガンダム」等のアニメ作品を題材に解説しました。 平均値と標準偏差から始まって、管理図/変動係数/一様分布と正規分布/分散の加法性/2変数の相関/記述統計と推測統計/母集団と標本/点推定と区間推定/推定と検定/平均値の差の検定/二項分布/ポアソン分布/抜き取り検査/サンプリング方法等について解説しており、これ一冊で統計学の基礎を全て理解することが可能です。
    今、統計学を学習している高校生、大学生、ビジネスマン、あるいはかつて学習したけど挫折した方に、強くお勧めいたします。

    統計学をとことんガンダムに絡めて解説しています。
    文章にガンダムへの熱意が込められていて、読んでいて面白い!
    ガンダム好きな人はすらすら内容が入ってきそうです。

    軌道上補給・軌道上修理概覧2018(帝都高速度衛星通信団)

    軌道上補給・軌道上修理概覧2018:帝都高速度衛星通信団

    宇宙にいる人工衛星への補給や修理を行なう時代になりました。メカです!ロボです!合体です!

    宇宙にいる人工衛星への補給や修理を行なう時代になりました。メカです!ロボです!合体です!
    世界の人工衛星技術はいよいよ宇宙にいる衛星への補給や修理を行うところまで来ました。アメリカの先進的なプロジェクトの他に中国やイスラエルのプロジェクトなどを総括的に紹介しています。宇宙好きの方、メカ好きの方、合体好きの方にお勧めです。
    <項目の紹介>
    ・ はじめに
    ・目次
    ・ 軌道上補給
    ・軌道上修理について
    ・ 各国動向
    ・ スペースシステムズロラール
    ・ Restore-L
    ・ RSGS
    ・ ノースロップグラマン
    ・ MEV
    ・ MEP
    ・ MRV
    ・ 中国 OMEV
    ・ 英国 エフェクティブスペース

    紹介文の「メカです!ロボです!合体です!」の力強さが最高です。
    軌道上補給、着眼点が面白い…!

    あんまりAIに関係あるラインナップじゃなくてすみません、しかも旧刊が多かった…!

    AICU マガジンもよろしくお願いします!

    技術書典での学びと一緒に、Kindle で販売中の AICU マガジンもぜひご覧ください!

    5月号では AIを使用した漫画制作、4月号では Stable Diffusion のWeb UI、 AUTOMATIC1111 を大特集しています!

    AICU マガジン Vol.2 2024年5月号 次世代まんが制作術!
    AICU magazine Vol.1 2024年4月号

    この記事に「いいね!」と思ったら、ぜひいいねとnoteのフォローよろしくお願いします!

  • メンバーシップに新たなプランが誕生!報酬ありレポーター募集開始

    メンバーシップに新たなプランが誕生!報酬ありレポーター募集開始

    「つくる人をつくる」 AICU media の noteメンバーシップに、新たなプランが誕生しました。また、既存のプランもアップデートし、さらにAI時代のクリエイターを応援する取り組みとして改善を続けています。

    この記事では、新規追加・アップデート内容をお知らせします。

    <アップデート>AI用語集ライターに「レポーター報酬」追加

    現在の「 AI用語集ライター」プランでは、メンバーシップに加入している皆さんでAI用語集を作るプロジェクトを実施しています。AIに関する単語(現在投稿されている例: Stable Video Diffusion、 Stability Matrix など)を解説や論文とともに投稿していただくと、それが用語集に組み込まれていくというシステムです。
    ご投稿いただいた方には明確な基準に基づき報酬も支払われます。

    今回のアップデートでは、それに加え、オンラインイベントを中心にレポート活動を行える「 レポーター報酬制度 」を導入しました。

    以下は 「みんなでつくるAI用語集」プラン加入者の note の掲示板「AI用語集ライター」に掲示された概要 です。

    noteでのイベントレポート記事の取材をお願いできるオンラインレポーターさんを募集します。 例えば以下のようなオンラインイベントの記事起こしをお願いします。

    ■出来上がった記事の例 「生成AIなんでも展示会」運営レポート
    https://note.com/aicu/n/n44ad7b02f175

    【イベントアーカイブ記事の寄稿ガイドライン】
    ・謝礼:イベント終了から1日以内の納品で3000円相当の謝礼(Amazonギフト券を予定しています)以後、終了後24時間を超えるごとに500円の減少(翌日2500円、2日後2000円、3日後1500円、4日後1000円、5日後500円、以後は報酬をお支払いできません)

    ・メリット:オンライン・オフラインのイベント参加をレポートすると、謝礼がもらえます。ご自身のセルフブランディングにも有効です。

    ・「このイベントのレポ書きたいでます!」を宣言して、お使いのGoogle DocsのURLを、本掲示板([[AI用語集ライターONLY]イベントレポーター募集]( https://note.com/aicu/membership/boards )へお伝え下さい。

    ・主催者側へ確認や依頼が必要な場合は公開前に編集部から連絡を取ります。連絡先メールアドレス、氏名、依頼や確認したいことを伝える文も添えてください。

    ・イベント主催者のガイドラインとして『撮影・録音・SNS禁止』などが明記されている場合は取材対象にはなりません。

    ・寄稿として、基本的にはAICU編集部に著作権をお譲りいただく形になります。レビューやリライト、修正などは編集部で対応することになりますが、上記の例にあるようにライターとしての草稿をご提供いただいた方のお名前や記名記事を原稿にご記載いただいても構いません。

    ✨️「AICUのライターです」を名乗る条件については別途定めがあります(ライター契約にご同意いただく形になります)。本プランへの参加+レポーターとしてのクラスが上がった方々に個別に打診させていただきます。

    🚫「このイベントをレポートしたいのですが」というご相談も歓迎です。ですが、編集部としての判断と予算があってのご依頼になります。参加費の支出なども編集部としての判断に準じます。
    ご質問も歓迎です。

    https://note.com/aicu/membership/boards/61ab0aa9374e/posts/e7597507f835?from=self

    AICU media のイベントレポーターとして、オンラインイベントを中心にイベントを取材し、レポート記事を書いていただくという内容です。例えば、即日レポートを提出していただけると、謝礼として3000円分のアマゾンギフトカードをお支払いします。

    ご自身の実績づくりやブランディングにも有効です。レポーターとして活動してくださる方は、掲示板のコメント欄にご応募お願いいたします。質問も受け付けていますので、ぜひ、 こちらのスレッドでご相談ください。

    <新メンバーシップ>漫画制作のための画像生成AI

    新メンバーシップは、漫画クリエイターの方、また漫画クリエイターを目指す方に向けた、漫画制作をAIで応援するメンバーシップとなっています。

    プロフェッショナルな漫画製作のための画像生成AI技術や関連ツール活用技術に加えて、サンプルデータなどを[漫画製作メンバー特典マガジン]で提供します。

    また、 TwitterDMやDiscordでのAICUクリエイティブチームへの個別相談も可能 です。以下、プランに加入するとできることの詳細です。

    ・Discordでのご相談(申請)
    ・TwitterDMでのご相談
    ・メンバー限定の会員証が発行されます
    ・活動期間に応じたバッジを表示
    ・メンバー限定掲示板を閲覧できます
    ・メンバー特典記事を閲覧できます
    ・メンバー特典マガジンを閲覧できます

    AICU: AI Creators Union|AICU media

    生成AIクリエイターユニオン『AICU: AI Creators …

    note.com

    こちらのプランで購読することのできる記事の例としては、「 漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較! 」のように漫画制作の際に使用すべきツールを解説した記事や、

    漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!|AICU media

    4月に入り、X や kindle インディーズで AI で漫画を見かける機会が増えてきました。最近のイラスト系画像生成 AI では、漫画が流行の兆しを見せてきているようです。 参考:SD黄色本 書籍[画像生成AI Stable…

    note.com

    「 アイビスペイントで作る!Animagineでの漫画製作テクニック 」シリーズのように、既存の漫画の作り方を解説しつつ、そこにどう画像生成AIを組み込んでいくかの解説記事などを予定しています。

    アイビスペイントで作る!Animagineでの漫画製作テクニック(2)レイヤー編|AICU media

    前回の記事「アイビスペイントで作る!Animagineでの漫画製作テクニック(1)トーン調整」では、「AI…

    note.com

    ぜひこちらのリンクからご確認、ご加入ください。
    皆様のクリエイターとしてのキャリアを応援できることをお待ちしております。

    AICU: AI Creators Union|AICU media

    生成AIクリエイターユニオン『AICU: AI Creators …

    note.com

    すでにメンバーシップに加入してくださっている方はこの機会を生かし、AIクリエイターとしての腕をさらに磨いていただきたいと思います。まだメンバーシップに加入していない方も、この機会を逃さずに加入し、一緒にクリエイターとして高め合っていく仲間を見つけていただけると幸いです。

    また、わかるAIを届ける電子マガジン「AICU マガジン」でもクリエイターに向けたAIの最新情報や画像生成テクニック、イベント情報などを発信中です。Kindle Unlimited に加入されている方は無料ですので、ぜひご確認ください。

    Amazon.co.jp: AICU Media 編集部: Kindleストア

    Kindleストア の優れたセレクションでオンラインショッピング。

    j.aicu.ai

    読者さんのフィードバックも楽しみにしております!

    以上、AICU mediaからのお知らせでした。

    Originally published at https://note.com on May 23, 2024.