カテゴリー: 画像生成AI

画像生成AIの使い方や最新情報についてお届けします。

  • Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    Stability AI が Stable Diffusion 3 の weights を 2024年6月12日に公開予定…ところで画像生成AIにおける weights って何?

    Computex Taipei 2024のオープニングキーノートにて、Stability AI 共同CEOの Christian Laforte氏(@chrlaf) がStable Diffusion 3 Medium を6月12日にオープンリリースすると発表しました。

    <Stability AIの公式メールニュースからの翻訳>

    「Stable Diffusion 3 Medium」が登場します!6月12日(水)より、Hugging Faceでweights をダウンロードできるようになります。SD3 Mediumは、20億のパラメータを持つSD3モデルで、これまでのモデルが苦手としていた分野で特に優れた性能を発揮するように設計されています。主な特徴は以下の通りです:

    フォトリアリズム: 手や顔によく見られるアーチファクトを克服し、複雑なワークフローを必要とせずに高品質の画像を提供します。

    タイポグラフィ: タイポグラフィにおいて強固な結果を達成し、大規模な最新モデルを凌駕します。

    パフォーマンス: 最適化されたサイズと効率性により、コンシューマー・システムとエンタープライズ・ワークロードの両方に最適です。

    ファインチューニング: 小さなデータセットから微妙なディテールを吸収できるため、カスタマイズや創造性に最適です。

    SD3 Mediumのweightsとコードは、非商用目的にのみご利用いただけます。Stable Diffusion 3の商用利用を目的としたセルフホスティングライセンスのご相談は、以下のフォームにご記入ください。弊社のチームがすぐにご連絡いたします。

    Sign Up to the Stable Diffusion 3 Weights List

    https://stability.ai/stablediffusion3

    追伸:それまで待てないという方は、当社のフレンドリーなチャットボットStable Assistant、DiscordのStable Artisan、またはAPIから、当社の最も高性能なテキスト画像変換モデルの3日間無料トライアルにアクセスできます。

    Stable LM2 12B は、Stable Assistant を強力にサポートします。Stable Assistant は、当社の最も先進的な言語モデルであり、その強力なテキスト生成機能でコンテンツを強化します。 

    Stable Artisanは、Discordエコシステム内のStability AI Platform API上の製品を利用する、楽しいマルチモーダル生成AI Discordボットです。このボットは、Stable Diffusion Discordサーバーにアクセスして、他のコミュニティと一緒に画像を生成・編集することができます。

    <公式発信ここまで>

    「weightsの公開」にはどんな意味があるのか

    つまり、「weightsをダウンロードできるようになる」というということの意味は、「AIモデルをダウンロードできるようになる」というとして理解してよいと考えます。

    ただしリリースに記載のある通り、AIモデルをダウンロードして使用できるのは非商用目的であり、商用利用する場合は要相談となる点には注意が必要です。

    画像生成AI解説用語集

    📖用語「weights」

    「weights」とは「AIモデル」にあたります。

    #SD黄色本「画像生成AI Stable Diffusionスタートガイド」p.27の解説によると……

    「コンピューターの中では、「ノード」と呼ばれる単位がニューロンの役割をしていて、これらが「重み」(weights)でつながっており、「バイアス」(bias)は入力が0の時、出力にどれだけ値を上乗せするかを意味します。この大量の「重みとバイアス」のセットこそがそのネットワークの「モデル」であり、この調整を入力刺激と出力結果を評価していくことでモデルを学習させることになります。」

    機械学習における「weights & biases」はモデルの学習結果そのものであり、Stable Diffusion以降のAI画像生成AIにおいては safetensorsファイルのことを意味する事が多いでしょう。

    なお英語的には「weights」であって「weight」ではないのでAICU media編集部ではカタカナで「ウェイト」と表記することは限定的とします。

    📖用語「アーチファクト」artifacts 

    アーチファクト(artifacts)という語は、ラテン語で「人工物」を表すars、artisと「作られたもの」を表すfactumの組み合わせで「人工的に作られたもの」を意味します。人為的または技術的な影響によって発生する産物または現象を指します。画像生成AIにおいては「自然物」に対して「人造物」と解釈することができます。

    📖用語「セルフホスティング」self-hosting

    AIモデル提供企業自身による演算基盤や環境をAPI経由で提供するのではなく、weightsをオープンに配布し、ダウンロードして独自の演算環境やアプリケーション、ツールやAPIサーバーに実装して利用すること。ブラックボックス化や長期サポートが保証されないモデル提供企業のAPI経由に対して、内部動作の透明化や最適化、コミュニティのサポートなどの利点がある。

  • #10分で学べるAI Google Slidesでバリエーション広告を大量生成

    #10分で学べるAI Google Slidesでバリエーション広告を大量生成

    「ようこそ!アイキュー部」-1話

    「AIでクリエイティブなビジネスをする!」をテーマに学内起業コンテストにエントリー提案をして「アイキュー部」を設立したKotoちゃん。

    今日は知り合いの不動産会社から依頼された案件に取り組んでいます。

    Koto「あ~あ、新築分譲マンションのバリエーション広告を作ってくれ……って頼まれたんだけど、今日はもう帰らないと…ルゥくん、あと頼むわね!」

    ★バリエーション広告:さまざまな対象者に向けて制作する多様性のある広告

    ルゥ「Koto先輩!?待ってください、何やってるんですか?」
    Koto「え……?アイキュー部で受けたバイトなんですが何か問題でも?」
    ルゥ「そうなんだ……って!なんで手で作ってるんですか?『AIでクリエイティブなビジネスする』ってのがこの部活なんですよね??」
    Koto「私は『アートイラスト・キュレーション部』の略のつもりで「AICU部」って書いたつもりなんだけど……審査員の先生にウケが良かったのでついそのまま……」
    ルゥ「押し切られちゃったんですか!?」
    Koto「こうやって部室も案件もらえたし、いいじゃない。しっかり稼ぎましょ」

    ルゥ「まあ……そうですね、で、これは何なんですか?」

    Koto「わからないの?『マンションポエム』よ!!」
    ルゥ「『上質が佇む(たたずむ)至高の邸宅』……なんだかよくわからないけどこれがあるだけでリッチな感じしますね」
    Koto「『これをできるだけ多くのバリエーションを作ってこい』というのがクライアントから出された課題よ」
    ルゥ「たしかにAI画像生成でできなくもなさそうだけど……これをいくらで受けたんですか?」
    Koto「ああ!もう帰らないと門限が!じゃあ私が家につくまでに、そのAI画像生成とやらで、最低15パターンをGoogle Slidesに作っておいてね!」
    ルゥ「ひぃ」

    ――どうしよう、突然、大量の広告ビジュアルの生成を頼まれちゃった。画像生成しようにもGPUもないしな…。

    あ、でもこんな時は… Stability AI の Stable Image CoreGoogle Apps Scripts が使えるかも!

    ……とおもったら、即実行。こんな感じに出来上がってました!

    ▼「ようこそ!アイキュー部」-1話(後編)はこの技術解説の続きにあります▼

    やってみよう

    Stability AI が提供する Stability AI Developer Platform のイメージサービス のうちのひとつ「Stable Image Core」 のAPIを使って、GPUいらず、たった3分程度で商用利用できるバリエーション広告(さまざまな対象者に向けて制作する多様性のある広告)画像を様々なスタイル画像で生成してみましょう。今回はGoogle Slidesだけ、ノーコードで利用できるツールとして提供します。

    Stability AI のプラットフォーム APIキーの入手

    まず、このプログラムで画像生成をするには Stability AI のプラットフォームを利用するAPIキーが必要です。持ってない人はここにアクセスしてAPIキーを取得するか、管理者殿にお願いしてキーを発行してもらってください。

    https://platform.stability.ai/account/keys

    生成できない場合は支払い設定(https://platform.stability.ai/account/credits)を確認してください。

    Copy ❏ したら「sk-….」で始まるAPIキーをクリップボードにコピーできます。このAPIキーが流出すると勝手に使われてしまいますので管理はお気をつけて。

    次のステップに進みます。

    Google Slides コピーして自分のDriveに

    このリンクでコピーして使える Google Slidesを配布しています。
    お使いのGoogleアカウントでアクセスしてください。

    https://j.aicu.ai/SAIAD

    こんな画面のGoogle Slidesが表示されます。このあと自分のDriveにコピーしていきます。

    ファイル⇢「コピーを作成」⇢「プレゼンテーション全体」を実行します。

    「ドキュメントをコピー」のダイアログが表示されますので、そのまま「コピーを作成」ボタンを押してください。

    初回起動でAPIキーを設定

    まず最初に、APIキーを設定します。

    スライドの上に以下のようなダイアログが表示されます。コピーした直後に表示されるはずです。

    [S.] Stability AI Platform API Key Required

    このツールでは、画像を生成するために Stability AI プラットフォームの APIキー が必要です。
    お持ちでない場合は、https://platform.stability.ai/account/keys でAPIキーを取得してください。

    This program requires a Stability.ai API key to generate images.
    If you do not have one, please visit https://platform.stability.ai/account/keys to obtain an API key.

    と表示されますので、冒頭で取得した「sk-」で始まる51文字のAPIキーを貼り付けてOKを押してください。

    もし、コピー直後のダイアログで設定しそびれた人は、メニューの[AI Image Generator]⇢[Set API key]を実行することで設定できます。

    スクリプト実行権限の設定

    次に、APIキーの動作確認とスクリプト実行権限の許可を行います。メニューの3番目「Generate Images」を選んでみてください。

    「認証が必要です」というダイアログが表示されるはずです。

    スクリプト実行権限を許可していきます。

    現在お使いのGmailアドレスが表示されているはずです。

    スクリプト実行権限を許可するアカウントを選びましょう。保存先ドライブを選択する意味もありますので、実験目的であれば、まずは個人をおすすめします。

    アカウントを選択すると、今度は 「⚠️ このアプリは Google で確認されていません」という警告が表示されます。危険なアプリではありませんので左下の「詳細」を押して行きます。

    最後に「AICU-AdGenerator(安全ではないページ)に移動」を押して、各サービスへの許可を設定していきます。

    許可ボタンを押すことでドライブへの閲覧、書き込み権限、スライドの編集、外部サービス(Stability AIのAPI)へのアクセスを許可します。編集履歴などはお使いのGmailアカウントで実行したことが記録されますし、知らないうちに実行するような処理にはなっておりませんのでご安心ください。

    権限の設定が終わったら、再度メニューの3番目「Generate Images」を選んでみてください。

    「スクリプトを実行しています」が表示され、画像の生成がはじまります。

    3分程度で、「画像の生成が完了しました。フォルダを確認してください」が表示されるはずです。

    Google Driveのマイドライブ直下「AICU-Stability-AdGenerator https://j.aicu.ai/SAIAD のコピー」というフォルダに以下のような画像が生成されていれば成功です!

    これは同じプロンプトに対して、 異なるスタイルが15種類適用された画像になります。

    Google Slides自動生成とキャッチコピーの配置

    これで終わり!でもいいと思ったのですが、クライアントの要求は画像の生成だけでなく、「マンションポエム」と呼ばれるキャッチコピーも含まれるような気がしたので、もうひと押しGoogle Slidesで頑張ってみます。

    Kotoさんが作っていたスライドにあったキャッチコピー「上質が佇む至高の邸宅。」とスタイルを第1ページに設定してあります。こちらは自由に編集していただいて構いません。

    これで準備は完了です!

    下の[Prompt=]に生成したいもの,
    [NP=] に見たくないものを英語で入れて
    メニューの3番目の[AI Image Generator]⇢[Add Slides by all styles] を選んでみてください。

    「スクリプトを実行しています」と表示されます。

    この後の結果が出るまでは、数分かかります。無事に生成されるとこのように15枚のスライドがキャッチコピー付きで生成されます。左下のスライド一覧表示にしてみましょう。

    初期状態では「Prompt=urban tokyo bayfront skyline residences ad luxury super rich visual」(プロンプト=東京ベイフロントのスカイライン・レジデンス広告の豪華なスーパー・リッチ・ビジュアル)となっているので、このまま何度でも「Add Slides by all styles」を実行すれば15枚づつ、東京湾ベイエリアの高級そうな住居の画像が生成されます。第1ページにある「Prompt=」と「NP=」を変えるだけなので、例えばこんなプロンプトにしてみます

    Prompt=Paris urban apartment  パリの都会のアパルトマン
    NP=Nsfw, worst quality
      (ネガティヴ・プロンプト)職場にふさわしくない、悪いクオリティ

    Stability AIの Stable Image Core API に実装されている多様なスタイルのおかげで、自然なバリエーション広告を生成できています。ネガティヴ・プロンプトのおかげもあってか、あまり出来の悪いスライドはありませんが、不要なスライドやキャッチコピーの修正を行って完成です。

    このSlidesに追加してある「AI Image Generator」メニューから実行できる機能の詳細は以下のとおりです。

    ・ Set API Key:Stability AI のAPIキーを設定します。

    ・Add Slides by all styles:タイトル(1枚目のスライド)で「Prompt=」で与えられたプロンプトと「NP=」で与えられたネガティブプロンプト(英語)から Stability AIの Stable Image Core API を使用して15種類のスタイル適用済み画像をGPU不要で画像を生成し、1枚生成されるごとに、スライドの画面全体に表示されるように背景画像として配置しています。追加された各スライドのタイトルとメモに 使用したstyleとプロンプトを設定しています。

    ・Generate Images:タイトル(1枚目のスライド)で与えられたプロンプトから、スライドのファイル名と同じ名前のディレクトリにすべてのスタイルの‪2,040 x 1,152‬pixelsの画像を15スタイル生成します。

    ・Save All Slides:PDF がDriveに保存されます。Google Slidesの[ファイル]⇢[ダウンロード]で保存でも構いません。

    ・15スタイルの生成は3分程度で51credit (80円ぐらい)です。

    ※安全のため、他人とシェアするときは Set API Keyを使って有効ではないAPIキーを設定しておくことをおすすめします。
    ※本ツールのソースコードが気になる方は Google Slides上でスクリプトエディタをご参照ください。このコードの著作権はAICU Inc. が保有しています。この記事で公開されているツールの使用における損害等についてAICU Inc.は責任を負いません。
    ※実際の広告等への利用など Stable Diffusionの商用利用に関するご質問は sai@aicu.ai までお問い合わせください。

    技術解説「Slidesだけでも画像生成できる」

    Google SlidesをコピーしてAPIキーを貼り付けるだけで様々なスタイルの画像を生成をすることができました!

    AICU media では今後も話題の Stable Diffusion 3.0 やStable Image Core を用いた記事を発信していく予定です。面白かったらぜひフォロー、いいねをお願いします!

    次回予告

    さてその後のアイキュー部のDiscordでのやり取りです

    ルゥ「Koto先輩~、Google Slides作っておきましたよ~」
    Koto「わあ!すごいのができたね!!早速クライアントに提出してくる!」

    (…しばらく後…)

    Koto「ルゥくんゴメェン!今回のクライアントは『Google Slides禁止!』だそうです!!」
    ルゥ「うええええええええ!先に聞いてきてくださいよ!!」

    せっかくルゥくんが頑張って作ったGoogle Slidesですが、別のアプローチを探さねばならないようです。

    #10分で学べるAI いかがでしたでしょうか?ご感想は X@AICUai までいただけると幸いです。

    続きはこちら

    漫画「ようこそアイキュー部」はこちらに続きます!

    ▼ようこそ!アイキュー部 第1話 https://note.com/aicu/n/ne878b6d68004

    ▼AICUマガジン5月号 https://j.aicu.ai/Mag2405

  • 工場勤務のおじさんが書く:橋本大也教授と白井暁彦CEOが解説する生成AIの未来

    工場勤務のおじさんが書く:橋本大也教授と白井暁彦CEOが解説する生成AIの未来

    デジタルハリウッド大学の橋本大也教授と、デジタルハリウッド大学特命教授でもあるAICU Inc.の白井暁彦CEOが、それぞれのベストセラー書籍をもとに、ChatGPTやStable Diffusionなどの生成AIの最新動向を紹介しました。


    人気著者が語る生成AIの魅力を一挙レポート

    今回イベントレポートを書かせていただきます、AICU media のゲストライターです。工場のおじさんとしての目線でレポートしていきます!現地に参加できなかった読者に向けて、両著者の最新刊や #SD黄色本のサイン本即売会、交流の様子をお届けします。

    私は初めてデジタルハリウッド大学に行きましたが、とても高いビルの中にあり、「こんなところに大学があるんだ」とドキドキしました。(このイベントに参加するために、岡山からきました!)

    wikipediaより。このビルの3Fと4Fがデジタルハリウッド大学です!

    https://ja.wikipedia.org/wiki/%E3%83%87%E3%82%B8%E3%82%BF%E3%83%AB%E3%83%8F%E3%83%AA%E3%82%A6%E3%83%83%E3%83%89%E5%A4%A7%E5%AD%A6#

    AICU イベント告知記事→https://note.com/aicu/n/na27e9055f06f

    3階へ行き、会場の受付を済ませた後、中に入りました。

    (編集部:注)開演前に上映されていた動画
    #AICU – AI Creators Union Demo Reel 2024 Summer

    イベントの時間になり、スタートはデジタルハリウッド大学の杉山知之学長の動画から始まりました。

    イベントがはじまる

    写真:デジタルハリウッド大学の杉山知之学長の動画(AIの技術が入っているとは思えないくらい自然でしょ)

    これはAIで作られた杉山学長のアバターが、デジタルハリウッド大学の入学式で講演している動画です。
    ここで、杉山知之学長の発表で感じたことを率直に書きますね。

    この動画を見て、最近はAIが仕事を奪うなどネガティブなニュースが多いけれど、このような使い方は素晴らしいなと思いました。
    この動画、ただ学長が話をしているだけじゃんと思う人もいるかもしれません。
    しかし、杉山知之学長は2021年よりALSという難病のため、体を自由に動かせず、声も出せない状況です。

    AIを使って昔の声を再現し、AIの技術で表情を作り出すことで、まるで健康な時のように登壇している姿で動画の中で話をしていたのです。

    この姿を見て、体の不自由な人々に対してAIがどれだけのサポートを提供できるかを実感できたんですよね。
    AIが障害を持つ人々の生活をサポートする可能性を強く感じました。


    橋本大也先生の話 – ChatGPTで作業時間が3分の1に?

    続いて、今回のイベントのメインスピーカーの一人である橋本大也先生について紹介します。
    さくっと一言で言うと、『頭がいい人のChatGPT&Copilotの使い方』(橋本大也著)という本を書かれた先生です。
    本の表紙に、仕事時間を1/3に短縮できるって言葉が書いてありました。

    え、えっー!仕事時間を1/3に短縮。。。まじか!?

    そんな大きなことを書いてしまったら、めっちゃくちゃ叩かれてしまいそうと、ちょっと不安に思いました。みなさんも思いますよね?

    しかし、登壇内容を聞いていたら、めちゃくちゃ納得できました。

    橋本大也先生の話を書いたので読んでください。


    橋本大也先生の話で特に面白かった2点

    橋本先生の話は、主にAIで面白い映像を制作する方法にふれていました。

    写真:実際にAIで作った動画。スクリーンで見る大きな恐竜は大迫力!

    講演の序盤では、大画面に生成AIで作られた動画が流れていて、ワクワクする気持ちがおさえきれませんでした。

    橋本大也先生の話で特に面白かったことは2点あります。
    1点目は、実際に動画を作る工程を細かく説明してくれたことです。
    2点目は、数学的なグラフにアニメーションを加えるとアートになることです。

    これは1点目の話題で発表された、動画の製作工程の一部です。

    通常、完成形しか見ることがないAI動画の制作過程について、プロの目線から具体的なツールの使用方法を教えてくれました。

    橋本先生によるAI動画の手順の一例を紹介します。
    ChatGPTでストーリーを作り
    ②その段落ごとにRunwayを使って動画作成(日本語だと精度がよくないので英語に翻訳)
    Uidoで音楽生成(ストーリーをもとに)
    DIDでナレーションを追加
    ⑤動画を結合

    この作業をAIなしでやろうとすると、たぶん、1ヶ月から3ヶ月くらいかかる内容(私が、前に動画制作をしている人から聞いた情報です)を、なんと1時間ほどで作れるというのです。

    橋本先生の「仕事時間を1/3に短縮できる」という言葉は本当でした!

    2点目の、数学的なグラフにアニメーションを加えるとアートになるという話題です。

    普通のグラフはただ表示されるだけでは全く面白くありません。(面白いと思う人はすごくレベルが高いと思います)
    しかし、ChatGPTに「このグラフをアニメーションにしてください」と指示を与えてグラフのアニメーションをつくり、音楽を加えて編集することで、グラフの印象ががらっと180度くらい変わるのです。

    写真:この線グラフは、音楽に合わせて脈動しているところの写真。(一回、実際に体感してほしい。写真じゃ伝わらない。体感してみてください。)

    他にも、ドーナッツチャートに音楽を加えると、カラフルで楽しいアートになるんです。

    また、3次元サーフェスプロットに関しては、まるで新しい生物が誕生したかのような感覚になります。まるで新海で見たことがない生物を眺めている気持ちになるんです。これは実際に見たからこその感動でした。


    しらいはかせの話 – 「世界で最も[おもしろい]生成AIビジネスをつくるには」

    https://note.com/o_ob/n/n930c390b6dfa

    続いて、今回のイベントのメインスピーカーの一人であるしらいはかせについて紹介します。

    しらいはかせは、いろんなことができる方で、大ボリュームの発表でした。

    なので、しらいはかせをさくっと一言で説明すると
    画像生成AI Stable Diffusion スタートガイド」を書いた人です。

    写真:この本は、予約してすぐに買いました。個人的に、世界の生成AI画像をつくる教科書になるものだと思っています。

    有益な内容が多すぎる!
    正直、カルピスの原液一気飲みを3本くらいやった感じです。
    なので、情報量の濃さと多さに途中から頭がついていっていないのです笑

    実際の内容の1割ぐらいしか書き起こせなさそう。実際に発表を聞いた方ならわかってくれるはず!


    つくる人をつくる

    「つくる人をつくる」が生まれた理由には、しらい博士のこれまでの経験が濃縮されています。

    『綺麗なグラフィックでも、おもしろくない』

    印象的だったのは、「綺麗なグラフィックでも、おもしろくない」という言葉です。

    この言葉は非常に深い意味を持っており、しっかり理解するには深海3000メートルまで潜る覚悟が必要です。なので、ここでは簡単に説明します。

    例えば、非常に綺麗なグラフィックのAIアバターが全自動で会話をするアニメーションを作っても、見る人は3秒で飽きてしまいます。

    つまり、面白くないのです。

    ですが、そこに人の感情を反映させるような演出を人間が加えると、とても面白くなります。例えば、目線の動き、カメラのフレーミング、仕草などです。

    つまり、面白いものをつくるためには、人の演出が必要だということです。
    人がどこで面白いと感じ、感情が動くのかを考えながら手を加える必要があります。

    この点においては、現時点では人間の手による演出がAIを上回っているのかもしれません。



    人生のターニングポイント

    しらいはかせの人生には、2つのターニングポイントがあるそうです。

    1つ目は、「ゴキブリ」?
    2つ目は、子供たちの遊びの本質の探究

    「ゴキブリ」
    ゴキブリと聞くと驚くかもしれません。

    過去にしらいはかせが「ファンタスティック・ファントム・スリッパ」という作品を作った話です。

    写真:「ファントムスリッパー」。今でも最先端だと思う。そんな技術を1997年に、やっていたしらいはかせは、すごすぎる。

    この作品では、2匹のゴキブリの疑似体験が描かれています。1匹は感触を感じられ、もう1匹はただのグラフィックです。この疑似体験を通じて、リアルとバーチャルの境界を探りました。

    なぜこの疑似体験が海外で「アメージング」と言われ、大きな反響を呼んだのかを深く考えたことが、1つ目のターニングポイントだったそうです。


    子供たちの遊びの本質を探究したこと

    日本科学未来館 (旧)常設展示『アナグラのうた 〜消えた博士と残された装置〜』

    写真:「アナグラのうた」。自分が歩いたところを遡って、足跡をつくれるらしい。面白そう。この作品も10年以上も前に作られたそうです。

    「アナグラのうた」を通じて、子供たちの遊びの本質を探求しました。

    このプロジェクトでは、モーションキャプチャー技術を使って子供たちの遊びを可視化しました。子供たちが歩いたり、ダンスをしたりする際に足跡やマークが現れる仕組みを導入しました。

    (編集部注)

    ゲーム業界をやめて東京工業大学の博士学生に戻った頃から、子供たちが楽しそうに遊ぶ姿を観察し、博士論文を通して「遊ぶこと」の本質についてさらに深く考えるきっかけになったそうです。

    【博士論文】「床面提示型触覚エンタテイメントシステムの提案と開発 白井暁彦」

    https://akihiko.shirai.as/AkihikoSHIRAI-DoctorThesis2004.html





    『あそぶ』って言葉の意味っていろいろ。

    「あそぶ」という言葉には、実にたくさんの意味があります。

    写真:あそびの意味って、こんなに多い。

    例えば、

    遊ぶ(あそぶ)、(およぐ)、戯れる(たわむれる)、(もてあそぶ)、弄ぶ(たわむれる)
    このように、「あそぶ」という言葉には多くの意味が詰まっています。

    英語の「play」も同じように、多義的な意味を持っています。
    例えば、「play」はスポーツをする、楽器を演奏する、ゲームをするなど、さまざまな場面で使われます。これってすごく面白くないですか?

    つまり、「あそぶ」という言葉は、それを通じて私たちの好奇心を大いに刺激するもの。
    動作や使う人の思考や視点でも変わるって面白い。

    遊びながら新しいことを発見したり、楽しい経験を通じて学んだりすることは、まさに好奇心をくすぐる最高の方法ですよね。


    これからの人類に必要なこと

    これらの「つくる人をつくる」に繋がる話を聴いて、好奇心を持ち、情熱を持って生きることが、これからの人類にとって何よりも大切だと思いました。

    しらいはかせは、「情熱」と「ハルシネーション(幻覚)」という言葉を使っていました。

    ここからは、しらいはかせの言葉を使いながら、私なりに解釈したことを書きます。

    写真;昔のひとは、どうしてこの絵を描いたのだろう?そこに今求められている生きる秘密が隠されてそうです。

    個人的に解釈したのは、人間の存在意義を考えると、好奇心を持ち続け、情熱を持って生きることが、最もハッピーな人生を送る秘訣だということです。

    AIなどの技術がどんなに発展しても、人間が幸せに生きるためにはそれだけでは不十分です。目標を持ち、情熱を持って生きることが必要です。

    例えば、極端な話、定年退職してやることがない高齢者の方がいたとします。(極端な例の話ですよ。)
    無限に時間があるけどやることがない、これは地獄のような人生です。

    逆に、日々好奇心を持ち、情熱を持って生きると、毎日が楽しくなります。
    今日は絵を上手く描いて売ってみようという目標を持てるような毎日です。

    これによって色々学べるし、人生も楽しいものになります。私自身、本気で情熱がある方が良いと思っています。
    好奇心を持てるようになるためには、学ぶことが大切です。

    その学ぶ機会を無限に提供できるのが、「つくる人をつくる」ということなのだと思います。

    「つくる人をつくる」というのは、人間が持つ好奇心や情熱を育むことにあると考えています。これによって人生が充実し、ハッピーに生きることができるんですよね。

    Stable Diffusionの画像生成の話

    写真:Stable Diffusionの仕組み

    仕組みについての解説パートはこちらで資料が出ていました。

    ■Stable Diffusionの仕組み(入門編)

    https://note.com/aicu/n/n505b0dfb1a75

    最後に

    学べることと情報量がとても多く、おなかいっぱいになったイベントでした!

    他にも撮影不可の特別資料なども特別に公開されていましたが、現場にきた人だけの特権ということで、私からのレポートを終わらせてもらいますね。

    お読みくださりありがとうございました。

    イベント速報記事→https://ja.aicu.ai/talk20240530/

    前回のイベント「デルタもんLoRAを作ろう!」ワークショップレポートはこちら

    https://ja.aicu.ai/event20240516/

    デジタルハリウッド大学の動画より
    【公式60秒】デジタルハリウッド大学新CM『みんなを生きるな。自分を生きよう。2024』篇フルバージョン

    【関連】

    #SD黄色本 サイン本即売会も開催!生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

    この記事が面白いと思ったら、AICU media をフォローよろしくお願いいたします!

  • Stable Diffusionの仕組み(入門編)

    Stable Diffusionの仕組み(入門編)

    Stable Diffusionの仕組みについてご存知ですか?
    プロンプトを入れると画像が生成される…その内部を説明できるとかっこいいですよね。
    こちらの講演で使用したスライドを白井CEOから頂いたので一部公開いたします。

    https://note.com/aicu/n/n8d4575bcf026

    画像生成AIの誕生と変遷(2)画像生成技術の歴史年表

    https://note.com/o_ob/n/n971483495ef3

    画像生成AIの誕生と変遷(4) 画像生成AIの2014–2024におきたパラダイムシフト

    https://note.com/o_ob/n/n3c1d8523cf68

    Stable Diffusionの仕組み(入門編)

    CLIPとは画像とテキストの関係だけを学んでいます。
    CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

    https://github.com/openai/CLIP

    実はネガティブプロンプトはStable Diffusionが公開されてからAUTOMATIC111で生まれました。

    https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Negative-prompt

    ネガティブプロンプトは、正プロンプトと同じ仕組みでCLIPを持ち、サンプラーが条件付き逆拡散をする際にUNETの左側に入ります。
    画像のLatent Space化はちょうどZIP圧縮のような超圧縮で、フロート列が並んでいるweight&biasです。VAEを使うことで画像に展開できます。

    ImageToImageやControlNetも、基本的にはLatent SpaceでUNETの左側に入ります。

    UNetについて補足

    UNETは元々は医用画像のセグメンテーションタスクのために想定されたが、多くの画像2-画像タスクに再利用されている。畳み込みエンコーダ(ダウンサンプリング)とデコーダ(アップサンプリング)を持つ。

    マルチスケール、マルチ抽象レベルで変調を学習。

    ReLU(Rectified Linear Unit)のことで、max(0, x)のような実装をする。Convolution層ではこの活性化関数を使うことが多い。

    https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html

    https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/

    画像生成AI Stable Diffusion スタートガイドより。

    https://j.aicu.ai/SBXL

    https://j.aicu.ai/SBXL

    Originally published at https://note.com on May 30, 2024.

  • #SD黄色本 サイン本即売会も開催!生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

    #SD黄色本 サイン本即売会も開催!生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

    人気著者が語る生成AIの魅力

    デジタルハリウッド大学の橋本大也教授と、デジタルハリウッド大学特命教授でAICU media編集長でもある白井暁彦CEOが、それぞれのベストセラー書籍をもとに、ChatGPTやStable Diffusionなどの生成AIの最新動向を紹介します。また、イベントでは両著者の最新刊 #SD黄色本のサイン本即売会も実施されます。

    イベント詳細

    日時: 2024年5月30日(木)19:30~21:30(開場19:00)

    会場: デジタルハリウッド大学 駿河台ホール(東京都千代田区神田駿河台4-6 御茶ノ水ソラシティ アカデミア3階)

    参加費: 無料

    定員: 150名

    申込み: イベントページ

    https://ai-maruwakari-night.peatix.com

    登壇者プロフィール

    白井暁彦(Akihiko Shirai, PhD /しらいはかせ)

    エンタメ・メタバース技術の研究開発に関わる研究者、ホワイトハッカー作家、米国スタートアップ「AICU Inc.」「Hidden Pixel Technology Inc.」のCEO。東京工芸大学写真工学科卒、同画像工学専攻修了。キヤノン株式会社とグループの研究所より生まれた英国・Criterion Software にて世界初の産業用ゲームエンジン「RenderWare」の普及開発に参加、その後、東京工業大学知能システム科学専攻に復学。博士学位後、NHK エンジニアリングサービス・次世代コンテント研究室、フランスに渡りENSAM 客員研究員、国際公募展Laval Virtual ReVolution の立ち上げ、日本科学未来館科学コミュニケーター神奈川工科大学情報メディア学科准教授を経て、2018 年よりデジタルハリウッド大学 大学院客員教授 およびグリー株式会社GREE VR Studio Laboratory Director。

    スマートフォン向けメタバース「REALITY」を開発・運用するREALITY 株式会社の立ち上げを通して、Virtual YouTuber などXR ライブエンタメ技術のR&D、国際発信など、メタバースエンタテイメントの未来開発や知財創出を中心に、自らエンタテイメントのライブプレイヤーとして世界に向けた開発・発信活動方法論化しながら世界中のエンタテインメント技術業界に数百人の規模でクリエイターを育成している。2023年よりデジタルハリウッド大学発米国スタートアップ企業「AICU Inc.」CEO。生成AI時代に「つくる人をつくる」をビジョンに英語、日本語、フランス語、プログラミング言語などでオープンな作家活動を続けている。日本バーチャルリアリティ学会IVRC 実行委員会委員。芸術科学会副会長。

    著書に『WiiRemote プログラミング』(オーム社)、『白井博士の未来のゲームデザイン – エンターテインメントシステムの科学-』(ワークスコーポレーション)、『AIとコラボして神絵師になる 論文から読み解くStable Diffusion』(インプレスR&D)他。

    橋本大也(Daiya Hashimoto)

    デジタルハリウッド大学教授兼メディアライブラリー館長。多摩大学大学院客員教授。早稲田情報技術研究所取締役。ブンシン合同会社CEO。翻訳者。IT戦略コンサルタント。ビッグデータと人工知能の技術ベンチャー企業データセクション株式会社の創業者。同社を上場させた後、顧問に就任し、教育とITの領域でイノベーションを追求している。デジタルハリウッド大学大学院では「テクノロジー特論 Bデータ」、多摩大学経営大学院で「先端テクノロジー・マーケティングイノベーション」を教える。2024年1月デジタルハリウッドで生成AI教育プログラムを開発するブンシン合同会社CEOに就任し、生成AIの活用を教える「プロンプト・エンジニアリング・マスターコース」を創設し、自ら主任講師として教鞭をとっている。その他に、洋書を紹介するブログを運営しており、『WIRED』日本版などのメディアに書評を寄稿している。

    書籍の概要

    頭がいい人のChatGPT&Copilotの使い方』(橋本大也 著)

    • 人気のカテゴリー
      • 情報社会
      • メディアと社会
      • ナレッジマネジメント

    画像生成AI Stable Diffusionスタートガイド』(白井暁彦 著)

    • 人気のカテゴリー
      • デザイン
      • コンピュータサイエンス
      • 人工知能

    これらの書籍は大学のメディアライブラリ(図書館)にも配架されています。

    イベント参加のメリット

    このイベントに参加することで、生成AIの最新情報を直接学ぶことができます。また、デジタルハリウッド大学の専門家からの貴重なインサイトを得ることができ、ネットワーキングの機会も豊富です。さらに、#SD黄色本のサイン本を手に入れるチャンスもあります。

    まもなく定員の150名に到達します

    申込みは無料、イベントページへ。

    https://ai-maruwakari-night.peatix.com

    当日はAICU mediaのスタッフに会えるかも?

    書籍:画像生成AI Stable Diffusionスタートガイド

  • Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施

    Fooocus v2.4.0リリース & AICUによるColab無料版で動く日本語UI版も継続メンテナンス実施


    midJourneyや nijiJourneyスタイルのカンタン高画質なAI画像生成が行える「Fooocus」の最新版がリリースされました。AICU Inc.が原作そのままに Google Colab (無料版も可) を使って、旧来のv2.3.0も日本語UIで動くようにメンテナンスを実施したのでお知らせします。

    2024年3月24日にリリースされた v.2.3.0 からUI変更に加え、機能面が大きく追加されています。
    https://github.com/lllyasviel/Fooocus/releases/tag/v2.4.0

    https://github.com/lllyasviel/Fooocus/releases/

    v2.4.0動きました。Lightning速いですが、HyperSDはもっと高速です。
    Fooocus v2.4.0

    v2.4.0 最新版リリースノートより

    変更点
    feat: ミラーサイトからの huggingface ファイルのダウンロードをサポート。
    chore: インターポーザーを v3.1 から v4.0 に更新 by @mashb1t in #2717
    feat: ページをリロードせずに UI を再接続するボタンを追加 by @mashb1t in #2727
    feat: オプションのモデルVAE選択を追加 by @mashb1t in #2867
    feat: ランダムスタイルを選択 by @mashb1t in #2855
    feat: アニメを animaPencilXL_v100 から animaPencilXL_v310 に更新 by @mashb1t in #2454
    refactor: 再接続ボタンのラベル名を変更 by @mashb1t in #2893
    feat: 履歴ログに完全な生プロンプトを追加 by @docppp in #1920
    修正: 正しい border radius css プロパティを使用するようにしました by @khanvilkarvishvesh in #2845
    修正: HTMLヘッダでメタタグを閉じないようにした by @e52fa787 in #2740
    機能: uov 画像アップロード時に画像を自動的に記述 by @mashb1t in #1938
    nsfw 画像の検閲を設定とチェックボックスで追加 by @mashb1t in #958
    feat: 手順を揃えるスケジューラーを追加 by @mashb1t in #2905
    lora のインラインプロンプト参照をサポート by @cantor-set in #2323
    feat: sgm_uniform (lcmと同じ)に基づくtcdサンプラーと離散蒸留tcdスケジューラの追加 by @mashb1t in #2907
    feat: 4step LoRA に基づくパフォーマンス Hyper SD を追加 (@mashb1t 氏による) #2812
    修正: HyperSDテスト用に残っていたコードを削除しました。
    feature: nsfw 画像検閲のモデル管理を最適化 by @mashb1t in #2960
    feat: プログレスバーの改善 by @mashb1t in #2962
    feat: インラインローラの最適化 by @mashb1t in #2967
    feat: コードの所有者を @lllyasviel から @mashb1t に変更 by @mashb1t in #2948
    feat: 有効なインラインローラのみを使用し、サブフォルダをサポート by @mashb1t in #2968
    feature: イメージのサイズと比率を読み取り、推奨サイズを与える by @xhoxye in #2971
    feature: ghcr.io 用コンテナイメージのビルドとプッシュ、docker.md の更新、その他関連する修正 by @xynydev in #2805。
    利用可能なイメージを見る
    feat: 行末のデフォルト設定を調整 by @mashb1t in #2991
    feat: image size description の翻訳を追加しました。
    feat: ‘CFG Mimicking from TSNR’ の値をプリセットから読み込む by @Alexdnk in #2990
    feat: ブラシのカラーピッカーを追加 by @mashb1t in #2997
    feat: ほとんどの画像入力フィールドからラベルを削除 by @mashb1t in #2998
    feat: クリップスキップ処理を追加 by @mashb1t in #2999
    feat: UI設定をよりコンパクトに by @Alexdnk and @mashb1t in #2590

    HyperSDのサポート

    https://huggingface.co/ByteDance/Hyper-SD

    ByteDanceによる「Hyper-SD(効率的な画像合成のための軌跡分割整合モデル)」がサポートされました。

    論文 https://arxiv.org/abs/2404.13686

    サンプリングが4ステップという非常に短いステップで高品質な画像が生成されます。

    Google Colabでの起動

    #SD黄色本「画像生成AI Stable Diffusionスタートガイド」の p.13-18でも扱っているとおり、FooocusはGoogle Colabで動作可能です。具体的にはこのようなコードを書けば最新のFooocusを実行することができます。

    !pip install pygit2==1.12.2
    %cd /content
    !git clone https://github.com/lllyasviel/Fooocus.git
    %cd /content/Fooocus
    !python entry_with_update.py --share --always-high-vram
    

    Fooocus 日本語アニメ特化版 j.aicu.ai/FoooC の更新

    AICU Inc.が #SD黄色本 でリリースしたバージョン「Fooocus 日本語アニメ特化版 j.aicu.ai/FoooC」についてもメンテナンスを実施しました。

    原作そのままに Google Colab (無料版も可) を使って、日本語UIで動くようにしたものです。

    配布等は原作のライセンスに従います。

    https://github.com/lllyasviel/Fooocus/blob/main/fooocus_colab.ipynb

    超初心者向け使い方

    ランタイムを実行「▶」を押してしばらくお待ち下さい。 https://….gradio.com のURLが表示されたらそれをクリックして別タブで遊べます。最大72時間有効ですが、途中で切断されたり止まったり、エラーが出た場合は「■」(停止)をしてもう一度「▶」を押してください。

    起動オプション

    このスクリプトではGUIで操作できるスイッチにしてあります。

    このスクリプトでは Google Driveの マイドライブ直下「Fooocus-outputs」に保存されるようにしました。

    • target_drive_dir: /content/gdrive/MyDrive/Fooocus-outputs
    • use_japanese: UIに日本語が表示されます。
    • model_type: anime
    • fixed_version: バージョンを書籍「画像生成AI Stable Diffusion スタートガイド」で紹介した v2.3.1 (e2f9bcb) に固定して実行します

    無料版 Colab での動作について

    このColabはデフォルトでrefinerを無効にすることに注意してください。なぜならColab freeのリソースは比較的限られているからです(そして画像プロンプトのようないくつかの「大きな」機能はfree-tier Colabの切断を引き起こすかもしれません)。フリー版のColabでは、基本的なテキストから画像への変換が常に動作するようにしています。「Image Prompt/画像で指示」は 無料版 Google Colab T4 GPU では動作しない可能性があります。

    v2.3.1 (e2f9bcb) が動作しています。生成結果はGoogle Driveに生成されるので業務内システムへの活用も可能かもしれませんね。

    日本語化の部分もAICUが翻訳を行っています。カスタマイズや、より子供向けや企業内ワークショップの開発の案件はぜひAICU Inc.までご相談ください。

    https://corp.aicu.ai/ja/pricing

  • 技術書典16 現地取材レポート!生成AIクリエイティブ分野で才能と知見あふれる良書にたくさん出会いました

    技術書典16 現地取材レポート!生成AIクリエイティブ分野で才能と知見あふれる良書にたくさん出会いました

    つくる人をつくる AICU media 編集長のしらいはかせです
    5月25日~6月9日まで開催されている技術書典16のオフライン開催が2024年5月26日(日) 池袋サンシャインシティ 展示ホールD(文化会館ビル2F)にて開催されました!

    https://techbookfest.org

    AICU media 編集部の予習「これ欲しい!」紹介に引き続き、生成AI時代のクリエイティブ「つくる人をつくる」に響きそうな書籍を中心に現地取材を実施いたしましたのでご笑納ください。実際の電子書籍版の購入ページへのリンク入りです!

    https://note.com/aicu/n/n2a9db1c201cd

    Kareshi クリエイトChatGPTを使ったパーソナルアシスタント入門

    鐸羊舎さんは乙女たちが集まるChatGPTサークルです。

    https://techbookfest.org/product/bvtk62SRg6ZMLG4jrhsCbA?productVariantID=4w8dEgBMZJdJtvqk9sNae3

    「技術で乙女たちが暴れる本」というキャッチが良いですね~

    https://techbookfest.org/product/bvtk62SRg6ZMLG4jrhsCbA?productVariantID=4w8dEgBMZJdJtvqk9sNae3

    ボカロ曲の歌詞をあやつるリリックアプリを作ってみよう!

    リリックアプリってご存知ですか?
    歌詞を操って素敵な動画やインタラクティブアプリをつくリます。
    産業技術総合研究所が公開している「 TextAlive」を使って
    初音ミク「マジカルミライ2024」プログラミングコンテストに参加してみよう!いままさに作品募集中です。

    過去のコンテストで素敵な作品を作ってきた方々による執筆です!

    https://techbookfest.org/product/55JgGbUVTCFeqbJJBPzNrQ?productVariantID=1sufWYp3z75KZ3dJn1pidA

    自分で作るAIキャラ
    第1部 ローカルLLM編
    第2部 キャラを動かす編
    第3部 キャラを動かすアプリ編

    「生成AIなんでも展示会」で展示されていたローカルLLMによるAITuberの書籍が三部作で出展されていました。

    https://techbookfest.org/organization/9WZss3wdiPrtQnG3fzp1Mz

    https://note.com/aicu/n/n760a70ca107f

    厳選した学習データセットを用いて独自に学習したモデルを利用する高精度アニメ顔検出技術をオープンソースで公開されています。

    https://github.com/animede/anime_face_detection

    https://note.com/ai_meg/n/n3cbc258dfa3e

    https://techbookfest.org/product/wqVjqb94yu7kQFz6NzVuZS?productVariantID=q40JhNMd97StTffAakggE

    .AITuberといえばこちらの書籍も人気でした

    https://techbookfest.org/product/gq3Rq6rpmpx6TRSW3A4XbR?productVariantID=mEpLiF1Fbt3VeeWcjaY5Fm

    サブスタ備忘録 どシンプルに3Dを塗るだけの本

    Adobe Substance 3Dを3Dイラストに使う本です!

    佐久間蒼野さんはVRoid本でもめちゃ有名なクリエイターさんです

    https://hub.vroid.com/characters/8434922524123136421/models/1831594513660928826

    https://techbookfest.org/product/rsbUjHsBAysnikkATDwPZE?productVariantID=iBvAz4Wtqm4wzU9UWURspY

    Adobe Substance 3Dといえばリアル系の3Dツールだと思われていますが、アバター制作に便利な使い方があるんですね!しかもSteamでインストールするそうです。

    https://store.steampowered.com/app/2718190/Substance_3D_Painter_2024

    QRコードを編む

    サーバーサイドエンジニアの @megusunu さんによるQRコードを色々と編んでみた実験書です!

    編み物でもQRコードは認識されるんです!こちらの画像ではARが実現しています。

    御本人許可有り

    買って読んでみるとかなりガチな内容でした!

    目を1ラインにしても読めなくないけど…といった実験を繰り返されています。

    その他の書籍

    LLMのファインチューニング、ChatGPT使いこなし、データアナリスト、AITuberの分野はとても多かった印象です。
    印象が強くて人気だったサークルは、人造肉、データアナリストをテーマにしたカードゲーム、IoT関連などなど…。

    まとめ

    写真を見てお気づきかもしれないですが、従来の技術書典のガチなオジサマ層の参加者に加えて、カジュアルな方々、ファミリー、女声のみなさんがとても多かった印象です。これは同人イベントとしては大変重要なポイントで、今後も成長感じますね。

    技術書典16はオンラインで5月25日~6月9日まで開催されています。

    このようなイベントのレポートに興味がある方はこちらもオススメ

    https://ja.aicu.ai/category/events/

    この記事に「いいね!」と思ったら、いいねとフォロー、おすすめをお願いします!

    Originally published at https://note.com on May 26, 2024.

  • 東大のHCI研究:Stable Diffusionを用いた写真内の情報秘匿技術

    東大のHCI研究:Stable Diffusionを用いた写真内の情報秘匿技術

    東京大学より 2024年5月14日に発信されたプレスリリースが興味深い画像生成AIに関する研究でしたので紹介いたします。
    コンピュータ・ヒューマン・インタラクションのトップカンファレンス「CHI 2024」に「 Examining Human Perception of Generative Content Replacement in Image Privacy Protection 」というタイトルで採択されております。

    拡散モデルを用いた写真内の情報秘匿技術

    発表のポイント
    ◆ 生成AI を用いた画像の生成的コンテンツ置換(GCR)法を開発し、秘匿しつつ画像の見た目と内容の両方を維持する加工手法を開発しました。
    ◆ 新たに開発された手法では、画像の全体的な内容とプライバシーに関係しうる部分を特定した上で、拡散モデルを用いて代替画像を生成し、元の画像に適応させることで、プライバシーを守りつつ画像の視覚的魅力を保持する革新的なアプローチを提供します。
    ◆ 本手法は、SNS での画像共有、プレゼンテーション、ビジュアルデザインなど写真の視覚的美しさが重要な場面への応用が見込まれています。

    本研究が提案する画像秘匿手法GCRによる秘匿加工例

    概要

    東京大学大学院工学系研究科電気系工学専攻の矢谷浩司准教授らのグループは、生成AIを用いた画像の生成的コンテンツ置換(GCR)法を開発し、秘匿しつつ画像の見た目と内容の両方を維持する加工手法を開発しました。画像の秘匿化は、SNSの普及により重要性が増しています。従来の秘匿化手法にはモザイクやぼかしがありますが、これらの方法は手間がかかり、しばしば秘匿が不十分であるだけでなく、画像の見た目や統一感を損なう問題がありました。開発された手法は、画像全体とプライバシーに関連しうる部分の内容を表現するテキストを生成し、それらから拡散モデルにより代替画像を生成し、元の画像に配置することで、プライバシー保護と視覚的美しさのバランスを実現する画期的な方法となっています。SNSでの画像共有やプレゼンテーション、ビジュアルデザインへの応用が期待されます。また、将来的には動画への応用や、より使用しやすいインタフェースの開発も進められています。

    発表内容

    画像の秘匿化は、画像の中に含まれているプライバシーに関係する情報を保護するために、大変重要な編集方法です。近年では画像のごく一部の情報から、撮影者の場所や属性が漏洩することが度々発生していますが、SNSなどの急速な普及により、そのような危険性を十分に理解しないまま、画像が一般に公開されていることも数多くあります。秘匿化を実現する既存の編集方法としては、モザイクやぼかし、あるいは絵文字などを重ねる、などがありますが、多くの場合ではユーザが直接編集を施す必要があるため、多くの手間を要したり、秘匿が十分でなかったりすることがあります。またこのような秘匿加工を施すと、元の画像から比べて見た目の美しさや統一感を損なってしまうことがあり、SNSなどでの共有を目的とする場合には好ましくないこともあります。

    この研究では、生成AI技術を用いてプライバシーに関係する情報を現実的な類似の代替物でシームレスに置き換える生成的コンテンツ置換(Generative Content Replacement, GCR)法を構築しました(図1)。この方法では、ユーザが加工を行いたい画像をシステムにアップロードします。システムはアップロードされた画像に対してBLIP-2モデル(注1)を用い、画像全体の内容を表現するようなテキストを生成します。さらに、DIPA(注2)と呼ばれる矢谷研究室が構築したデータセットにより提供されているマスク情報を用いて、画像内のプライバシーに関連しうる部分を抽出し、その部分の内容を表現するようなテキストを生成します。この2つのテキストをもとに、Stable diffusion(現在はバージョン2.1を使用)(注3)して、画像内のプライバシーに関連しうる部分に類似した代替画像を生成し、元画像上に配置することで、コンテンツの置換を行います。これにより、もと画像にあったプライバシーに関連しうる情報は秘匿化されながらも、画像の見た目や内容を維持することが可能となります。

    図1:GCRの処理フロー

    ユーザがアップロードした画像に対して、画像全体とプライバシーに関連しうる部分のテキストを生成し、それを元に画像内のプライバシーに関連しうる部分に類似した代替画像を生成し、元画像上に配置することで、コンテンツの置換を行います。

    図2に示す通り、ぼかし、カートゥーニング(画像の一部を非現実的な程度に強調する方法)、色塗り、除去(画像内の物体等を消し去り、背景で置き換える)、GCRの5つを比較したユーザ実験の結果、GCRによる秘匿加工では、画像内で加工が行われた場所を見つけ出すことが最も難しかったことが確認されました。また、他の秘匿加工手法と比較して、加工後の視覚的な調和が最も保たれていることも確認されました。元画像が持つストーリー性の維持に関しては、GCRはカートゥーニングよりも劣ったものの、プライバシー保護の強さにおいてはGCRが秀でており、GCRによる秘匿加工が、プライバシー保護と画像の視覚的美しさを両立しうる手法であることが確認されました。そのほか、GCRによる秘匿加工の一例を図3に示します。

    図2:秘匿加工方法の比較

    左から、元画像、ぼかし、カートゥーニング、色塗り、除去、GCR。

    図3:GCRによる秘匿加工の一例

    (上)後ろにいる男性を置換している。左が元画像、右が加工後の画像。(下)前面にある車は維持しつつ、背景にある車やナンバープレートを置換している。左が元画像、右が加工後の画像。

    この研究成果は、画像のプライバシー保護と有用性の両方が求められる応用において、実用的な生成AIの応用例を示すものです。SNSでの画像共有のほか、プレゼンテーションやビジュアルデザインへの応用も期待されます。将来への展望として、研究室では、一般的なユーザがより簡単にGCRを使用できるインタフェースを構築しているほか、動画への応用を検討しています。

    本研究はMicrosoft Research Asia D-CORE Program、および株式会社メルカリ R4Dとインクルーシブ工学連携研究機構との共同研究である価値交換工学の成果の一部です。

    発表者・研究者等情報

    東京大学大学院工学系研究科電気系工学専攻

    矢谷 浩司 准教授

    論文情報

    雑誌名: Proccedings of the ACM Conference on Human Factors in Computing Systems(CHI 2024)

    題 名: Examining Human Perception of Generative Content Replacement in Image Privacy Protection

    著者名: Anran Xu*, Shitao Fang, Huan Yang, Simo Hosio, and Koji Yatani*

    用語解説

    (注1)BLIP-2

    与えられた画像から情報を抽出し、画像を説明するテキストを生成するマルチモーダル学習技術をベースに構築された人工知能技術。

    (注2)DIPA

    矢谷研究室で構築した画像内においてプライバシーに関連しうる物体にアノテーションを施したデータセット。

    (注3)Stable Diffusion

    拡散モデルと呼ばれる確率的プロセスを用い、テキストの記述に基づいて画像を生成する人工知能技術。

    プレスリリース本文: PDFファイル

    Examining Human Perception of Generative Content Replacement in Image Privacy Protection | Proceedings of the CHI Conference on Human Factors in Computing Systems https://dl.acm.org/doi/10.1145/3613904.3642103

    https://dl.acm.org/doi/10.1145/3613904.3642103

    [MIT Technology Review] 生成AIを用いて画像内の情報を秘匿するシステム、東大が開発

    https://www.technologyreview.jp/n/2024/05/17/336549/

    東京大学によるプレスリリース
    https://www.t.u-tokyo.ac.jp/press/pr2024-05-14-002

    Originally published at https://note.com on May 24, 2024.

  • Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

    Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

    「生成AI時代に つくる人をつくる」AICUの しらいはかせ です。
    ご高評いただいております「画像生成AI Stable Diffusion スタートガイド」
    (通称 #SD黄色本 )掲載の主要なプログラム(SBXL1SBXL2)につきまして、編集部が本日、Google ColabでのAUTOMATIC1111において不具合を発見いたしましたので、本日、解説とともに修正を実施いたしました。

    【現象1】SD1.5系でGradioURLが表示されない

    p47 【Start Stable-Diffusion】のセルを実行時 WARNING[XFORMERS]: xFormers can’t load C++/CUDA extensions. xFormers was built for: PyTorch 2.2.1+cu121 with CUDA 1201 (you have 2.3.0+cu121) Python 3.10.13 (you have 3.10.12) Please reinstall xformers というエラーが出てURLも表示されず完了しません。

    読者の方からも同様のご報告を頂いております(SBクリエイティブさんありがとうございます)。

    【現象2】起動には成功するが画像生成に失敗する

    「Generate」ボタンを押すと以下のようなエラー表示されます。

    AUTOMATIC1111側にはこちらのエラーが表示されています

    NotImplementedError: No operator found for `memory_efficient_attention_forward` with inputs:
    query : shape=(1, 4096, 1, 512) (torch.float32)
    key : shape=(1, 4096, 1, 512) (torch.float32)
    value : shape=(1, 4096, 1, 512) (torch.float32)
    attn_bias : <class 'NoneType'>
    p : 0.0
    `decoderF` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 128
    xFormers wasn't build with CUDA support
    attn_bias type is <class 'NoneType'>
    operator wasn't built - see `python -m xformers.info` for more info
    `flshattF@0.0.0` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 256
    xFormers wasn't build with CUDA support
    requires device with capability > (8, 0) but your GPU has capability (7, 5) (too old)
    dtype=torch.float32 (supported: {torch.bfloat16, torch.float16})
    operator wasn't built - see `python -m xformers.info` for more info
    `cutlassF` is not supported because:
    xFormers wasn't build with CUDA support
    operator wasn't built - see `python -m xformers.info` for more info
    `smallkF` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 32
    xFormers wasn't build with CUDA support
    operator wasn't built - see `python -m xformers.info` for more info
    unsupported embed per head: 512

    ChatGPTによるログと日本語解説はこちら

    https://chatgpt.com/share/41ae4cbb-74ce-4e72-8851-42d1698f8bf0

    なお、xFormersとは、Facebook Research (Meta)がオープンソースソフトウェアとして公開しているPyTorchベースのライブラリで、Transformersの研究を加速するために開発されたものです。xFormersは、NVIDIAのGPUでのみ動作します。NVIDIAのGPUを演算基盤として動作させるためのCUDAやそのビルド時のバージョンをしっかり管理する必要があります。
    https://github.com/facebookresearch/xformers

    【関連】PyTorchとCUDAバージョンエラーの警告について

    実はPyTorchとCUDAバージョンエラーの警告も出ています。

    PyTorch 2.2.1+cu121 with CUDA 1201 (you have 2.3.0+cu121)
    Python 3.10.13 (you have 3.10.12)

    AUTOMATIC1111のインストールマニュアルによると
    https://github.com/AUTOMATIC1111/stable-diffusion-webui

    Install Python 3.10.6 (Newer version of Python does not support torch), checking “Add Python to PATH”.
    Python 3.10.6をインストールし、”Add Python to PATH “をチェックする。

    とありますが、実際にGoogle Colab上でデフォルトで動作しているPythonは現在、Python 3.10.12です(!python — version で確認できます)。
    Python3.10.6が推奨なので、だいぶ後続のバージョンを使っていることになります。この問題はGoogle Colab上でのPythonのメジャーバージョンに関する問題で、関係はありますが、文末で解説します。

    AICU版の原作となったTheLastBenさんのリポジトリでも同様の問題がレポートされています。

    Xformers Google Colab ERROR · Issue #2836 · TheLastBen/fast-stable-diffusion

    Getting Error in the last cell during the launch: WARNING[XFORMERS]: xFormers can’t load C++/CUDA extensions. xFormers…

    github.com

    Google Colabが xformers や JAX といった関連ライブラリを更新してしまうことが問題の根幹でもありますので不具合報告を Google Colab 側にも入れておきます。

    Python and xformers version conflict · Issue #4590 · googlecolab/colabtools

    Describe the current behavior I’m Google Colab Pro+ user and using TheLastBen’s Automatic1111 (A1111) frequently…

    github.com

    【解決】とりいそぎの回避方法

    Start Stable-Diffusionの手前にセルを追加して、以下のコードを入れて実行してください。これで問題の xformersをアンインストールし、解決したバージョンの xformers を再インストールできます。

    #@markdown ### xformers の再インストール(v20240522)
    !python --version
    !yes | pip uninstall xformers
    !pip install xformers

    この「xformers 0.0.26.post1」がインストールされていれば、問題なく動作するはずです。

    【補足】Google ColabのPythonはいつまで現行のバージョン3.10.xなのか

    ところで、いい機会なので Google Colab上でのPythonはいつまで現行のバージョンなのか、調べてみました。実は2024年4月にPython自体のメジャーバージョンアップが予定されているようです。
    https://colab.google/articles/py3.10

    colab.google

    Colab Updated to Python 3.10 With the upgrade to Python 3.10, it brings Colab into alignment with the cadence of final…

    colab.google

    Python 3.10 へのアップグレードにより、Colab はPython バージョン最終的な定期的なバグ修正リリースペースに合わせられます。 Python の次のバージョン (3.11) は、2024 年 4 月に最終的な定期バグ修正リリースが予定されています。

    最終リリースとなる Python3.11.9 は2024年4月2日にリリースされているので、実はもういつ移行してもおかしくない時期なんですね…これはAUTOMATIC1111ユーザーにとってはたいへん重要なアップデートとなります。いきなり使えなくなるのは困るのでGoogle Colab上での切り替えも用意されると良いですね…。
    Google Colab上での賢い方法を期待しつつ、さいごにPythonのメジャーバージョンのロードマップをチェックしておきましょう。

    https://devguide.python.org/versions

    Status of Python versions

    The main branch is currently the future Python 3.13, and is the only branch that accepts new features. The latest…

    devguide.python.org

    Python3.10は2026年中、Python3.11は2027年に終了(end-of-life ; EOL)が宣言されています。

    AICU Inc.は生成AI時代のつくる人をつくるとともに、オープンソースソフトウェアや日本語コミュニティへの貢献を常に行っています。

    書籍なのに最新のオープンソースソフトウェアがアップデートされる、
    新感覚の画像生成AIの教科書「画像生成AI Stable Diffusion スタートガイド」の購入はこちらから! https://j.aicu.ai/SBXL

    書籍[画像生成AI Stable Diffusionスタートガイド] – つくる人をつくる AICU Inc.
    著者:AICU media、白井 暁彦 発売日:2024年3月29日(金) ISBN:978-4-8156-2456-9サイズ:B5判 ページ数:224定価:2,640円(本体2,400円+10%税) 画像生成AIの1つであるStable…

    ja.aicu.ai

    Originally published at https://note.com on May 22, 2024.

  • 日報を画像生成でバエさせる #10分で学べるAI

    日報を画像生成でバエさせる #10分で学べるAI

    新企画「#10分で学べるAI」

    「つくる人をつくる」AICU新人ライターのNaruです。初の原稿となる今回は、Stability AIが提供しているStable Diffusion 3 APIを用いた画像生成ついて、忙しいビジネスパーソンがめっちゃ使えそうなテクニックを #10分で学べるAI というシリーズで紹介していきたいと思います。

    今すぐ終業、でもバエる絵が見つからない…。

    「提案書や日報にバエる、インパクトがある画像がほしいな…」と思ったこと、ありませんか?でもライセンスフリーの画像検索では画像的にも著作権的に微妙…有料のストックフォトを日報に使うなんて予算がない…そんなあなたに送る、画像生成テクニックです。

    <設定>新入社員のSくん
    新人研修ももうすぐ終わり…毎日の日報もネタがつきてきました。今すぐスライドのトップページに16:9の画像を付け足して、BOSSに送りつけて帰宅したい…!でも検索しても検索してもバエる絵が見つからない…!

    ふと某ChatGPT 4oさんにお願いしてみました。
    「今日の日報に使える16:9のバエる画像がほしい」

    うーん、ちょっと、微妙すぎやしませんか。ここは日本ですし。

    ちなみに今日は飛び込み営業で、 日焼けした27歳の元気なスタートアップ企業の社長さんにお会いしました。というレポートしたいので、そんな感じの絵を作りたかったのです。

    そしてBOSSから注文が入りました。

    「今日の日付を入れて」

    いま16時30分ですよ?

    出来上がった画像がこれです。

    念の為、ソースコードへのリンクがあったので確認してみました。

    from PIL import Image, ImageDraw, ImageFont
    import matplotlib.font_manager as fm
    
    # Load the image
    image_path = "/mnt/data/A_vibrant,_eye-catching_image_for_a_daily_report,_.png"
    image = Image.open(image_path)
    
    # Define the date text
    date_text = "2024年5月20日"
    
    # Get a font
    # Using a default font as an example
    font_path = fm.findSystemFonts(fontpaths=None, fontext='ttf')[0]
    font = ImageFont.truetype(font_path, 40)
    
    # Initialize ImageDraw
    draw = ImageDraw.Draw(image)
    
    # Define the text position and color
    text_position = (image.width - 300, image.height - 70)
    text_color = (255, 255, 255)  # White color
    
    # Add the date text to the image
    draw.text(text_position, date_text, font=font, fill=text_color)
    
    # Save the edited image
    output_path = "/mnt/data/A_vibrant_image_with_date.png"
    image.save(output_path)
    
    output_path

    ちがう!僕がやりたいのはこういうことじゃない…!

    僕が作りたいのは、こういうインパクトがある絵です。

    ギラッギラです

    ギラッギラなカバーアートでぜひともBOSSに読んでもらいたい!
    ですが、
    必要な知識は AICU media の過去記事だけで十分でした。
    非エンジニアでも大丈夫、コーディングはゼロ、絵心もゼロです。
    さて作っていきましょう。

    必要なもの

    • Google Colab(無料アカウントでOK)
    • Stability AI のアカウント

    Stability AIのアカウントを持っていない人は https://platform.stability.ai/ にアクセスすると作成できます。

    右上からアカウントを作成できます

    セットアップしよう

    APIキーを取得する

    まずはGoogle Colabで呼び出すためのAPIキーを用意しましょう。

    https://platform.stability.ai/account/keys

    https://platform.stability.ai/account/keys にアクセスするとAPIの管理画面に行くことができます。

    ここでAPIキーを発行できます

    右上にあるCreate API Key というボタンを押すと新しくAPIキーが発行されます。
    なおAPIの呼び出しにはクレジットを使うので不足した人は適宜追加をしてください。

    クレジットはDreamStudioと共通です。10ドルは僕の時給よりも安いです。

    Colabでプログラムを実行する

    今回は実行に必要なPythonコードをアナタのために限定で用意しました。
    日本語解説付きです。

    https://colab.research.google.com/drive/1mc1iQyIDT7FTO74SWcGqqHItUr9nkIC8?usp=sharing

    GitHubは こちら ✨️現在はGitHubに バグ があるのでひと手間あります。

    このColabを開いたら、まずは「ドライブにコピー」のボタンを押してからはじめのコードを▶を押して実行しましょう。

    ドライブにコピーをお忘れなく
    これで必要なライブラリをインポートできます

    次のコードを実行して、取得したAPIキーを入力します。

    実行すると入力画面が現れます

    最後のコードで画像生成の機能を準備します。

    モデルをColab上に用意しないので非常に速いです

    これで画像を生成する準備ができました!


    実際に生成してみよう

    いよいよ画像の生成に取り掛かります。
    下にスクロールするとプロンプトの入力画面があるので[prompt]に生成したい画像を入力し、実行します。

    ここまで正しくできていれば ▶ を押すたびに画像が生成されます。

    文字までしっかりと生成されました!
    ※日本語はまだ書けないっぽいです。

    さて日報のカバーイラスト作っていきます

    ここまでの部分は何度でも再利用できます。
    今日の日報も明日の日報も今週末の日報も、これでイケるって寸法です。

    今日の飛び込み営業で体験した日焼けした27歳の元気なスタートアップ企業の社長さんというレポートにふさわしいカバーイラストを作りましょう。

    [Prompt]にプロンプトを入力しますが、英語で入力する必要があります。
    ここは大人しくDeepLを使いましょう、早く退勤しないとなので。

    https://www.deepl.com/ja/translator/l/ja/en-US

    日報の表紙イラスト、日焼けした27歳の元気な日本人社長のマンガ。右下に「5/20th」の文字。

    Cover illustration of the daily bulletin, a manga of a Japanese president tanned, energetic 27-year-old man, With the words “May/20th” in the lower right corner.

    prompt: Cover illustration of the daily bulletin, a manga of a Japanese president tanned, energetic 27-year-old man, With the words “May/20th” in the lower right corner.

    negative_prompt: NSFW

    aspect_ratio: 16:9

    output_format: png

    こんな感じに入力して▶を押します。

    気に入る画像になるまで、何度でも押しましょう。数秒で生成されます。
    SD3は実写も綺麗ですが、イラストレーションとか漫画も得意です。
    美少女っぽいのもめちゃ良いですが、オジサンが好きそうな絵も作れます。

    どやっ!

    どやっ!

    ちょうどイメージぴったりです!
    このカバーアートに続くレポートの本文にはもちろん、この若くて何か大きなことをしでかしそうな社長さんへの提案が記載されています。
    きっとBOSSも興味を持って読んでくれることでしょう!

    明日からはこの[Prompt]を書き換えるだけです!やったぜ

    10分でできましたか?

    今回はここで終わります。また次回もぜひ読んでください!

    なおStable Diffusion 3 APIの技術詳細についてはこちらで紹介しているのでぜひ読んでくださいね~。

    https://note.com/aicu/n/n838bf71a361f

    https://note.com/aicu/n/ne2fe8a0073b0


    ✨️以上のように業務で仕事でパッと使える画像生成を社内やサービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

    本記事が面白かったら、ぜひシェアをよろしくお願いいたします!
    社内Slack等のシェアでも歓迎です。
    また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

    AICU Inc.は Stability AI 公式パートナーです。
    様々なアプリ開発のご相談も承っております!

    https://corp.aicu.ai/ja/stability-ai

    https://corp.aicu.ai/ja/stability-ai-membership

    Originally published at https://note.com on May 20, 2024.