タグ: ともに生きる

  • 「CGWORLD vol.315」画像生成AIによる表紙メイキング、大公開。

    2024年10月10日発売、CGWORLD vol.315 (2024年11月号)の表紙の制作に、AICU代表・白井暁彦が画像生成AIによるアートを提供いたしました。
    本稿ではその制作の裏側、画像生成AIによる商業出版およびVFX技術の実際の進行とワークフローを紹介したいと思います。

    ★本件は白井個人への依頼制作であり、個人クリエイターとしての寄稿となります。

    デジタルハリウッド大学30周年おめでとうございます。

    https://amzn.to/4dKt3jP

      実は、画像生成は全てStable Diffusion,  Stability AI APIで行っています。

      クレジットをご記載いただきました。

      画像

      本稿ではその制作の裏側を紹介させていただきます。

      画像

      杉山知之学長によるコンセプト解説です。

      1994年年末のデジタルコミュニケーションの夜明けから30年、歴史的な様々なトピックがありましたが、その世界が暮れていきます。だから、夕日をバックに、新たな夜明けを見る方向に向かって座っています。新たな夜明けは、AIと暮らす世界、シンギュラリティ・エラの到来を告げます。表4にキャラクターを乗せるアイデアは白井暁彦先生からです。メタバースなど様々なデジタル空間にパラレルで生きる姿の象徴です。アバターを引き連れて、新たな世界へ行きます(杉山学長)

      ・画像生成AIサービス
      背景・人物:Stability AI API, 主に Stable Image Ultra、Google Colabでの独自開発システムにより生成

      ・プロンプト(一部抜粋)
      背景:hippy style, (photoreal:2), futuristic, orange toned urban sight scene, cyber worlds with a nature fusioned, skyscraper buildings. seed = 59.
      人物:cyberpunk-themed mechanical robotic guitar hero, with a headset, neon-lit circuit tattoos on face, glowing white lines, looking at viewer, smile, passionate 40 years old man, prosthetic hand, with artificial respirator, with a super detailed guitar, color scheme of orange, dramatic orange and white lightings, intense expression, super detailed mechanical design,

      プロンプトによるtext to imageだけではなく、様々な技術を駆使していますが、まずは画像生成以外の制作の裏側を可能な限りで紹介していきたいと思います。

      最新のVFX技術による実写撮影

      まず、この杉山学長は本物、御本人による撮影です。
      2021年にALSを発症された杉山知之先生は、現在、人工呼吸器と車椅子の上で学長業務を遂行されています。

      祝辞などは本人の人工合成ボイスで行われています。

      https://note.com/dhu/n/nb71507b6921a

      筋肉の自由が奪われたとしても、呼吸を奪われたとしても、CG・VFX技術により、3D高解像度アバターや人工合成ボイスによって、人々に礼をして、若き才能を称賛する姿は、勇気を与えます。そう、これはALSという難病だけではなく、我々高度長寿化社会を生きる人生そのものをみているのかもしれないのです。

      人は生きるうえでは、社会とコミュニケーションしていかねばなりません。
      その姿をいかに、楽しいものにしていくか、挑戦の日々が続きます。

      御本人による直接のディレクション

      まず本件は、杉山知之学長自身のFacebookメッセンジャーによるDMによって直接のディレクションが行われました。

      画像

      https://note.com/mojo_sugiyama

      依頼は2024年8月16日17:41に届いたメッセージからはじまりました。

      画像

      左が杉山学長、右が白井です。

      画像

      Google DriveでCGWORLDの表紙レイアウトが届きました。
      間に、だれも、仲介や介在はいません。

      その日のうちに作ったプロト

      画像

      代表的な1枚をお送りしていますが、DriveのURLには専用の画像生成システムから生成した高品質画像が100枚ほど収められています。

      画像

      杉山学長の公式写真をベースにスタイル学習を行い、さまざまなポーズ、衣装、表情、レイアウトのバリエーションを作っていきます。
      シードとプロンプトを固定して、再現性を高く探求しています。

      たとえば1つのファイルを紹介します。

      “S40_PP_neon-punk style….MF0.50.png”というファイル名に、シードや処理の系統、プロンプトの一部が埋め込まれています。

      画像

      Stability AI APIと公式のGoogle Colabノートブックがベースになっていますが、その中の最新APIのなかでも特に高品質な「Stable Image Ultra」と、その公式サンプルが使われています。

      https://platform.stability.ai

      公式サンプルの状態では、画像の保存やプロンプトの探求は難しいので、画像の生成やスタイル学習のサンプルを改造して、以下のような機能が追加されています。

      画像

      ・APIキーの自動参照(セキュリティ機能)
      ・Google Driveへの画像保存
      ・プロンプトの3分割
      ・シードとフィデリティの制御

      テキスト画像生成だけでは制御性の高い画像は作れません。また未来的な雰囲気、杉山先生のヒッピーカルチャー、ギターなど難度の高い要素も盛り込んでいきつつ、画風としても写実性とキャラクターイラスト風を交えていきます。

      画像
      画像
      画像

      今回、ALSである現実を、そのまま世間にさらしたいという気持ちがあり、車椅子に乗って喉にパイプを通している姿は写真で行きます。 しかし白井先生の生成した人物を見ると、市民全員が高度に発達したVision Proのようなデバイスを付ければ、それぞれの人物が観られたい姿に変容して、相手に見え、誰に観られるかによって姿が変わる世界が可能と感じます。

      (視線入力や呼気式入力装置で、こんなふうに長い文章を打つのがどんなに大変か…)と思いながら、返信していきます。

      画像

      ・デジハリ風オレンジ
      ・表4(裏表紙)にアバターが登場するのもあり
      ・未来の自然と調和した街
      ・現実かメタバースかわからない感じ

      画像

      (信じられてしまった……)

      これはとても大事なポイントではありました。
      人を信じる、作風を信じる、という信じ方はあるとおもいますが
      「感覚を信じる」という点で、バランス感覚や遊びの感覚、かっこよさなども委託されつつも、感覚への信頼・信用が相互にかかってくる感じです。

      遊びつつも、襟を正しつつ、世界観と品質と、心象風景の画像化、共有を繰り返していきます。

      最新のVFX技術による実写撮影

      初期の依頼から10日経過、日々の業務の中でもかなり忙しく制作をしている月末の土日のやり取りです。

      画像

      どうやら撮影手法が珍しいことになりそうです。

      画像

      こんな動画が届きました。

      横浜のスタジオWADAYAさんは、デジハリ卒業生による運営です。
      とてもポップで楽しい感じの動画が、撮影環境を見事に説明してくれていて助かりました!

      WADAYA Studio80 https://wadaya.info/

      ちょうどこの8月末はこんな出来事が並列していました

      https://www.bunka.go.jp/seisaku/chosakuken/aiandcopyright.html

      https://youtu.be/bD0Kp5PiP8o

      https://note.com/o_ob/n/ne4d9735ab5cb

      会社として編集長としての制作をバリバリこなしながらも、ちょこちょこ個人としての制作や発信も行っているところが読み取れましたら幸いです。

      本制作のワークフローと「裏側のキャラクター」について

      さて、いよいよ本制作のワークフローです。
      詳細を解説していきます。

      最終的な完成品、表4には印象的な未来都市の夕暮れ、そして小さな人物があしらわれています。

      画像

      これは、サイバネティクス技術を駆使して生き生きとエレキギターを演奏する未来の杉山学長アバターです。人工呼吸器、胸のジェネレーター、義手、顔のマスクなどは私の趣味です。

      画像

      このキャラクターにたどり着くまでのプロトタイプも紹介しておきます。

      美しい猫耳をもったビジュアル系ロックバンドのギタリスト。
      ギターのフレットが別次元になっているのですが、全体的に美しい。

      画像

      元気なお年寄り。これも美しいけどなにか違う。

      画像

      逆に若返らせてみたり、

      画像

      ハッスルさせてみたり。

      画像

      杉山学長の意思として「ALSである現実を、そのまま世間にさらしたいという気持ち」と、この美しくて元気なキャラクターたちは、何か方向性が違うことに気づきます。筋肉に指令を出す神経が難病により歩くことも呼吸すらもできなくなるという現実や、70歳という年輪、そして「市民全員が高度に発達したVision Proのようなデバイスを付ければ、それぞれの人物が観られたい姿に変容して、相手に見え、誰に観られるかによって姿が変わる世界が可能と感じます」というメタバースの30年という歴史を振り返って、私自身と杉山先生の30年を振り返ってみました。

      まず描くべきは、世界。

      未来都市のメタボリズム、自然との調和。そしてオレンジ。
      更に私の中での杉山先生に見え隠れする「ヒッピー文化」(私自身が60年代米国文化に憧れがあったのかもしれません)そういったものをまずはプロンプトにして世界を描いていきます。

      画像

      未来の御茶ノ水ソラシティを思い描いたり、

      画像
      画像

      自然との調和に重きをおいてみたり、何十枚も生成していきます。

      画像

      そうしてベースラインとして選択された1枚がこちらでした。

      画像
      画像
      「水没都市の夕日世界」(S59)

      これで描くべき世界が決まりました。
      作品名は『水没都市の夕日世界』(S59)です。
      「S59」とはシード番号です。同じモデル、同じシード、同じプロンプトで再現性があります。

      仮のレイアウトとトーンを出していきます。

      画像

      ちなみに白井は写真工学の出身であり、白黒写真は高校時代からの積み上げがあります。プロをたくさん輩出した有名な「写真部」に所属し、白黒写真のトーニングやレタッチは3年ほど積み上げがあり、写真作品でちょっとした賞をもらったり、街の現像店を任されるぐらいのスキルはありました。さらにそのバイト代で買ったMacとPhotoshop2.0、2.5、3.0のあたりでデジタルに移行して写真部の仲間からは「異端扱い」されます。それがちょうど30年前の21歳のときに経験した出来事です。漫画を描いたり、ミニコミ誌を作ったり、いまの画像生成AI時代の狂乱に似たようなムーブメントがデジタルクリエイションの世界に起きていました。
      大学4年生のとき、日本バーチャルリアリティ学会設立総会での基調講演で、「デジタルハリウッド構想」をホリプロ所属のバーチャルアイドル「伊達杏子 DK-96」や長野オリンピックでのボブスレーシミュレータなどとともに熱量込めてお話する数学出身の杉山先生との出会いでした。

      https://tachilab.org/jp/addendum/vrsj.html

      まさかその25年後に白井がそこで教鞭をとるとは考えてもいなかったのですが、運命とは不思議なものです。そう、まるで魅力的なバンドメンバーを引き入れていくボーカリストのような杉山先生やその仲間たちを描かねば。
      たとえ使われなくても、リアルだけど、美しすぎず、かつその世界で「わいわいしている」、楽しそうな、コンヴィヴィアリティ※があるキャラクターを描かねば……!

      ※「コンヴィヴィアリティ」については杉山知之先生執筆の「私のコンピュータ文化史 TOKYO1964 – TOKYO2020」という論文を引用しておきます。

      画像
      画像
      画像

      DNA “Entertainment. It’s Everything!”

      https://school.dhw.co.jp/about/dna.html

      創立から30年。
      開学のころからずっと変わらず伝えていることは『すべてをエンタテインメントにせよ!』ということ。
      受講生・卒業生だけでなく、講師・スタッフのモットーでもあります。
      卒業制作のクオリティはもちろん、1回の授業の組み立て方、就職活動のあり方、卒業後の仕事まで、すべてをエンタテインメントになるまで追求する文化がここにあります。
      「すべてをエンタテインメントにする!」という強い思い。それが世界中で活躍する9万人の卒業生に共通するDNAです。

      https://school.dhw.co.jp/about/dna.html

      画像
      画像

      ……と思う存分、遊んでいるように見えるかもしれませんが、実際には大真面目です。しかも激務のさなかです。神奈川県「ともいきメタバース講習会」という障がい者向けクリエイティブワークショップの開発などの現場指揮を行いながらの制作でした。
      全てをエンターテインメントにしないと、やってられないよ!!

      現場撮影用の画像

      さてWADAYAスタジオさんでのLEDディスプレイウォールスタジオでの撮影です。残念ながら白井はワークショップの開発があったので立会はできない日程なので、撮影現場に任せるための素材をお渡しして祈るしかありません。
      3000mm x 1686mmの高輝度高ピッチLEDウォールスタジオを背景に、

      画像

      ここに未来都市を配置して、杉山先生が車椅子でやってきます。

      画像

      専門のライティング担当さんもいらっしゃる。

      画像

      用意すべきはこのレイアウト案を示しつつ、レイヤーを分けた素材もわかりやすく提供する必要があります。しかもスマートに、Google DriveのURLだけでお渡ししたい。

      画像

      Stability AI APIのフル活用

      もともと商用利用できるプロフェッショナル向けAPIでもあるStability AI APIですが、具体的にはこんな使い方もあります。「背景除去」です。

      一見なんということはない「背景除去」なのですが、

      画像

      実はそんなことはありません。
      ウェービーヘアの銀髪は、マスクを切るのがとても大変です。

      画像

      ですが、このマスクは背景除去(Remove background)ですぐに生成できました。もはやPhotoshopよりもGoogle Colabのほうが便利なときもあるのです。

      画像

      さらに印刷原稿を想定して、高解像度化を行っていきます。
      こちらも Stability AIのUpscale機能を使って高解像度化、特にConservative(コンサバ=保守的)なアップスケールを行います。この際は、生成に使ったプロンプトを再利用します。

      hippy style, (photoreal:2), futuristic, orange toned urban sight scene, cyber worlds with a nature fusioned, skyscraper buildings,

      (photoreal:2)とは、Stability AI APIにおける強調構文です。

      画像

      この時点でも高解像度ですが「商業誌の表紙」という、最高品質印刷原稿を想定して、さらにAUTOMATIC1111の Extraを使って高解像度化していきます。

      BG02026-16448×9408.png (186.7MB) という強烈な解像度ですが、ご興味あるようでしたらダウンロードしてみてください。

      全てが終わったのは朝の5時ですね。
      Google DriveのURLをお届けして祈りました。

      画像

      商業誌の制作を「商業政策」と間違えて書くぐらいには疲れていたようですが、「クリエイティブのヤマ」を超えた清々しさが伝わったようでしたら幸いです。

      SD黄色本」で長年お世話になったAUTOMATIC1111の超解像化技術が、最後の最後の品質に貢献したことは特筆に値すると思います。

      全ての画像生成AIの貢献者、オープンソース開発者に感謝を述べさせてください。

      撮影の現場より

      後日談としてWADAYA Studioの和田圭介さんより写真とメッセージが届きましたので紹介させていただきます。

      画像
      画像
      画像
      画像
      画像

      特に問題は無いのですが、僕がデジタルハリウッドを卒業しているわけではなく、創立3年目に入社した、元スタッフです。 デジタルコンテンツについては、杉山先生の教えで、この道にたどり着いたので、杉山先生の教え子であることには間違いないと思います(笑) ある意味、スタッフも含め卒業なんででしょうね。 ありがたいことに退職した後も、杉山先生からはいろいろなご相談お声掛けをいただき、20周年の時は、メッセージ映像を撮影し、そして30周年でこのコラボレーションが実現しているのが、何とも感慨深いのです。 デジハリからいただいた、この3人の縁も含めて、それを活かして何かしていかなければいけないなと、再度えりを正しました。 これからが楽しみです!!

      WADAYA Studio 和田圭介さんより

      (テスト撮影のデータから)

      画像

      どう考えても「Entertainment, it’s everything!」なDNAが感じられる会社紹介ですね。今後もよろしくお願いいたします。

      さいごに:画像生成AIの過去と未来と人類のクリエイティビティの1ページによせて。

      以上、1998年からCGの世界、世界のCGを届け続けてきた「CGWORLD」さんの表紙、しかも日本のCG・デジタルクリエイター教育とともにあるデジタルハリウッドの30周年を記録する特集、さらにそれを最新のLEDディスプレイウォールによるインカメラVFXで撮影するための画像生成AIによる世界素材の提供…というクリエイター冥利に尽きる仕事の一部始終を個人ブログ形式でお送りさせていただきました。

      この30年、テクノロジー、デジタルツール、生成AIによって楽になったこともあります。しかし、クリエイターはその効率化によって生まれた時間を余暇に費やすのではなく、制作やクオリティ、そして「不可能を可能にする挑戦」に費やしていきます。その姿勢は30年経っても何も変わらないと思います。

      さらに、画像生成AIは、世界中の画像という画像を食べて育った化け物です。イラストやデザインだけではありません。写真出身の私にしてみれば、「写真表現とは何か」を常に突きつけられてきた30余年です。Stable DiffusionやStability AIのAPIに何か言いたいことがあるひとはたくさんいると思います。しかし世界中のクリエイティブをLatent Spaceに詰め込んで、高品質、かつ高速なAPIを提供し、新たな人類のクリエイティビティに挑戦させていただいて、さらに商業利用可能であるとなると、それはホビーでもなんでもなく、プロのクリエイターとして勝負せねばなりません。
      ローカルのGPUも、APIのクレジットも、糸目なく投じて、きちんとクリエイターとしてCGの歴史に爪痕を残す仕事ができたようであれば幸いです。

      なお、公開当初からのStable Diffusion、そしtStability AIのAPIの使い手としてはこの技術を伝承するために、毎日のように個人ブログやAICU mediaを通して解説を発信していることはお気づきかと存じます。

      さらに、こちらの動画教材としてはColosoからこちらのラーニングメディアで公開予定です。
      ■「超入門:Stable Diffusionではじめる画像生成AI」
      https://j.aicu.ai/AICUXColosoJP

      書籍「画像生成AI Stable Diffusion」(SD黄色本)もおかげさまで好調であり、まだまだお問い合わせやサポートなどを通して読者の皆様と交流させていただいております。

      今後、広告、グラフィックス、ゲーム、漫画やアニメといった分野に画像生成AIは一般的に使われるようになるでしょう。

      その時に、これらの作品は、枯れ葉や土壌のような存在になっている事でしょう。それでいいんだとおもいます。
      でも、クリエイティブAIの使い手として、大事なことは道具や、その使い方だけじゃないんです。
      「おもしろそうだな」「やってみよう」「すごいね」「かっこいいね」「おもしろいね」「もっとすごいものがつくれそう」「ぼくもやってみたよ」そういった「つくる人をつくる」という心に火を付ける活動そのものが、きちんと作品を通して他の人の心に伝わったか?それが大事なんです。

      そしてクリエイターの世界は真剣です。偉かろうが、社会的に立場があろうがなかろうが、上手であったり、美しかったりも大事ですが、それだけではなく、最終的なアウトプットにどれぐらいのピクセルが露出するのか、しないのかといった効率だけでなく、その世界とか、メッセージとか、コンテキストとか、モチベーションとか、恥ずかしがらずに馬鹿になってやり続けることが、とても大事だったりします。

      デジタルハリウッド30周年、「CGWORLD」26周年、おめでとうございます。今日、本誌が物理的に届きましたが、その重さ、厚さ、関わった人の多さとニオイに咽んでおります。今後とも、この分野の皆様のご健勝ご盛栄をお祈り申し上げますとともに、この個人ブログの筆を置きたいと存じます。

      謝辞:ご依頼いただいた杉山知之先生、クレジット、およびCGWORLD本誌に掲載できなかったメイキング公開へのご快諾、また本寄稿へ「CGWORLD」のロゴ利用などご許諾いただきましたCGWORLD編集部の藤井さま、ありがとうございました。
      Stable Diffusion開発チーム、Stability AI APIおよびStability AI Japanの皆様、特にご支援いただいたJerry Chiさん、ありがとうございました。この場をお借りして感謝の意を記させていただきます。

      Thank you to the all of Stable Diffusion development team, Stability AI API and Stability AI Japan, and especially to Jerry Chi for your support. I would like to take this opportunity to express my gratitude.

      AICU Inc. 代表・白井暁彦, Akihko SHIRAI, Ph.D (@o_ob)

      画像

      ▼デジタルハリウッド 創立30周年記念ページ

      https://www.dhw.co.jp/30th

      ▼杉山先生の音楽ブログ「Sound Scape of Mojo」
      画像生成によるカバーアートも見どころですね!

      https://note.com/mojo_sugiyama/n/n600cce7f4b69

      Originally published at https://note.com on Oct 9, 2024.