タグ: 研究

  • 先端研究が挑む「AI時代の創作」

    2024年10月3日、国の先端科学技術研究を紹介する国立研究開発法人 科学技術振興機構(JST)のYouTubeチャンネル「SCIENCE CHANNEL」において「AI時代の創作の世界 人の感性を支援するデジタル技術」として動画ニュースが配信されました。

    https://scienceportal.jst.go.jp/gateway/videonews/m230001010

    ▼AI時代の創作の世界 人の感性を支援するデジタル技術|Science Portal動画ニュース(2024年10月3日配信) – YouTube

    お気に入りのアニメやマンガ、音楽などを自分でも創作してみたいと思ったことがある人は多いはず。技術やセンスが必要とされるそうした創作活動を、コンピュータで手助けするツールが登場しつつあります。

    という軽い切り口で始まる「すべての人々向け」の動画ニュースですが、紹介されている技術は、日本を代表するこの分野の先端研究者です。

    ■出演・協力機関
    謝浩然(北陸先端科学技術大学院大学 創造社会デザイン研究領域 准教授)
    宮田一乘(北陸先端科学技術大学院大学 創造社会デザイン研究領域 教授)
    森勢将雅(明治大学 総合数理学部 専任教授)

    「アニフェイス・ドローイング」


    紹介された「アニフェイス・ドローイング(AniFace Drawing)」は、手書きのスケッチを、プロが描いたようなアニメ絵に仕上げるようにガイドしてくれるシステムです。

    画像

    線をひいていくと AIの予測に基づいて その線をコンピュータが整えてくれたり ガイドを表示してくれます。

    画像
    画像

    アニメ調の似顔絵が完成していきます。

    北陸先端科学技術大学院大学(JAIST)創造社会デザイン研究領域 謝浩然 准教授 @Jesusxie

    画像

     謝先生「今回の研究は、ひとつの絵を描いて、その描くプロセスひとつひとつをシミュレーションすることができます。そうすると 人間がどんな絵を描いているかを予測することができます。それをもとにして、完全な絵を予測することができます。こういうところは面白いところです。」

    画像

    このシステムは画像生成AIを下書き全体ではなく ユーザーの描いた一本一本の線に対して用います。線を「色」「形」「大きさ」などの特徴ごとに分解した上で、結果を出力する事を実現しました。こうすることで 一方的に結果を提示するのではなく、書き手が描きたかったような絵により近づけていくことができます。

    北陸先端科学技術大学院大学 創造社会デザイン研究領域 宮田一乘 教授 @kazmiyata

    画像

    宮田先生「今の生成系AIですと『入れたらすぐに、一瞬で出てくる』ので結局は自分の能力が全然拡張されてないわけですよね。ですのでコンピュータを使って『あくまで支援』として使ってあげて、『自分の力』というか『潜在能力』を引き出すようなことになれば良いかなと思っています」

    論文:AniFaceDrawing: Anime Portrait Exploration during Your Sketching
    Zhengyu Huang*, Haoran Xie*, Tsukasa Fukusato**, Kazunori Miyata* (JAIST*, Waseda University**) ACM SIGGRAPH 2023

    https://www.jaist.ac.jp/~xie/AniFaceDrawing.html

    この技術は 今まで絵が苦手で諦めていた人が、漫画やアニメの創作に取り組むきっかけになるかもしれません。

    コンピュータは声によっても創作の世界を広げてきました。合成音声です。

    明治大学 総合数理学部 森勢将雅 専任教授 @m_morise

    画像

    明治大学の森勢さんらもこの合成音声の技術を開発しています。
    人の声を分析し数理的な操作で三つの要素に 分解した上で再合成します。

    補足解説:森勢将雅先生は人工合成ボイス「No.7」の開発者さんでもあります。

    [YouTube] No.7と学ぶ信号処理

    ずんだもんとNo.7の楽しい雰囲気で、信号処理を中心とした大学数学を学べる番組を製作されております。

    さて、サイエンスチャンネルでのデモの様子、音声の高さや低さ、フラットにした合成の様子はこちら。

    なおサイエンスチャンネルの動画は「この技術はソースフィルターという数理モデルによるもので実はAIは使っていません 」という衝撃的な流れになっています。

    画像

    森勢先生「いかにきれいに分離させるかというところで、数学的な要素を頑張って作り込むことによって性能を上げていったという流れになります。人間の喋っている声をどのように加工するかでして、AIは関係なく 数学的に信号処理の分野としてやってきました。加工の際に劣化していたので劣化させないように人工知能でうまくフォローする技術を作っていきたいと考えています」

    AIとの連携も模索しながら 森勢さんがめざしているのは『より魅力的な声を作り出す技術』。その関心は どのような声に人は惹きつけられ  魅せられるのかという問いに広がっていきます。

    森勢先生「心理学と音声情報処理の連携・融合研究とでもいうんでしょうか そういったものをやりたいと思っています。『人間と同じ声を作る』というだけでしたら、もう今の技術でできちゃっていまして。となると次は『どんな 豊かな声 を作るか』とか『キャラクター性』とか、一つのコンテンツとして人間の声のコピーはできたけれども『それをより魅力的に見せる』そういったものを『どう広げていくか?』というところが今後出てくるのではないかと思っています。その一つとして 声をデザインするということに 着眼して研究をしています」

    AIと人間の共存、新たな表現の可能性に取り組む研究者たち

    AIが発展していく中で、創作活動がAIに取って代わられるのではないかと不安視する声も耳にするようになりました。しかし、今回の国の科学技術を推進する研究開発機構の動画によって紹介された技術は、AIが時々言われるような「人の創造性を奪う」とか「仕事を奪う」ではなく、人間の創造性を支援し、新たな表現の可能性を広げていくことをこの動画は社会に伝えています。

    謝辞:原作JST サイエンスポータル&サイエンスティーム

    お知らせ:AICUは先端学術研究を応援します

    ここでお知らせです、謝先生や宮田先生が挑戦する世界最大のCG/インタラクティブ技術のトップカンファレンス「SIGGRAPH」のアジア開催「SIGGRAPH ASIA 2024」が、2024年12月3日~6日に東京国際フォーラムで開催されます。東京での開催は3年ぶりになります。

    https://asia.siggraph.org/2024/ja/

    画像

    そしてAICUはオフィシャルプログラムスポンサーです。
    世界レベルのCG・インタラクティブ研究を共有する場を応援できることを誇りに思います。

    AICU media編集部もSIGGRAPH ASIA2024は全力で応援していきますが、プログラムスポンサーとしてAICU Inc.からの先行第1弾として、
    メンバーシップ会員向け「10%OFF登録コード」を配布いたします。

    SIGGRAPH ASIA 2024の当日フルアクセス(Full Access Supporter)は $1300、10月18日までの登録で、$950 – 10% ($95) = $855です。つまり当日登録価格から$445(約66,373円)割引です!他にも展示会と体験エリアのみの「Exhibit & Experience Access」は学生さんやビジネスの方にもオススメで、$20→$18となります。

    画像

    【メンバーシップ向け情報】(全プラン)

    AICUから10% OFFのオファーコードがございます。

    https://registration.asia.siggraph.org/terms_jpn.html

    最後のお会計のタイミングで、「SA24AICU10」入力することで、10%OFFとなります。なにか不具合がございましたら X@AICUai までDMもしくはDiscordにてお問い合わせください。
    招待コード https://j.aicu.ai/JoinDiscord

    Originally published at https://note.com on Oct 13, 2024.

  • シリコンバレーからみた生成AI — Stable Diffusionの重要性

    シリコンバレーからみた生成AI — Stable Diffusionの重要性

    AICUメディア事業部のKotoneです!
    最近LLMについての勉強を始めました。私が今力を入れている画像生成の根元にある技術なので、そもそもの基本的な考え方を知ることができ、とても興味深いです。

    さて、今回は当社CFOのKojiから、10月30日(月)から11月2日(木)にシリコンバレーで行われた「ODSC West(Open Data Science Conference)」というデータサイエンスのカンファレンスのレポートが届きました。
    Stable Diffusionに関するまとまった講演もあったとのことで、皆さんにご紹介したいと思います!


    10月30日(月)から11月2日(木)までODSC West(Open Data Science Conference)がシリコンバレーで実施されました。

    シリコンバレーでは生成AIがビジネスの中心と言ってよいほど、データサイエンスやAIに関するカンファレンスやミートアップはさまざまなものが開催されます。本カンファレンスは主に現場のエンジニア向けにフォーカスされており、ワークショップやチュートリアルが中心で、現場で開発に従事していると思われる若手エンジニアが多数参加していました。毎年この時期に開催されていますが、今回の特徴は、昨年夏から急激に盛り上がってきた生成AIについてのプレゼンやワークショップが多数行われたことでした。

    私自身これまでオンライン大学などでさまざまなAIやデータサイエンスの講義を受講してきましたが、生成AIに関してはこの1年の進歩が非常に早く,
    大学でのカリキュラムの整備がほとんど追いついてない状況です。一方、ODSCは、現場のシニアエンジニアがワークショップ形式で教えるスタイルが主体のため、最新の技術や手法を学ぶのに最も優れているカンファレンスの一つで、今年は特にとても楽しみにしていました。

    各人が自分のPCを動かしながら講演を聞いています

    今回のカンファレンスではStable Diffusionについてのプレゼンがありましたので、ご紹介したいと思います(但し、本件は初心者にも理解できるようにSandeep Singh氏による解説であり、Stability AI社の公式な見解に基づく講演内容ではないことをお含みおきください)。

    本件は、「Mastering Stable Diffusion」というテーマで、3つの講演内容で構成されていました。本レポートでは、1番目の「Embark on an Exciting Journey with Generative AI」についてご紹介したいと思います。
    プレゼンターは、Beans AI社におけるコンピュータビジョン部門の開発ヘッドであるSandeep Singh氏でした。なお、プレゼン資料の原稿はSandeepさんから直接いただいており、 ブログ記事で日本の読者向けにご紹介することも快諾を得ております。Sandeepさんありがとうございます!

    Stable Diffusion: A New Frontier for Text-to-Image Paradigm

    実際のスライド

    単にStable Diffusionの解説のみならず、生成AIの歴史から紐解いた内容で、とてもわかりやすく、興味深い内容でした。

    立ち見が多数出るほどの人気の内容でした。

    Stable Diffusionは、深層学習のテクニックを使って自動で画像を生成するものですが、単なる技術にとどまらず、知識、人間の興味、理解の探索などのシンフォニーである、というふうにSandeepさんは位置づけています。

    Stable Diffusionの技術の基盤となるDeep Learningですが、様々なコンセプトと技術があります。

    従来のAIは、データの分析から予測や意志決定を行うものですが、一方、生成AIは学習したパターンから何か新しいものを生み出すもので、従来型のAIを超えたものである、と位置づけています。そのためパラダイムシフトが生まれ、創造性を生む力を持つようになったということです。

    生成AIですが、テキスト(LLM、ChatGPT、GoogleBARD、Cohereなど)、画像・映像(Stable Diffusion、Dell-e2、Midjourneyなど)、音声(MusicLMなど)等があります。

    2014年あたりから生成AIのモデルが登場しはじめ、次第に複雑で高度なものに進化していきました。2020年以降、生成能力が人間を超えるものが登場し、専門家の間では話題となっておりました。さらには2022年には一般ユーザが簡単に利用できるレベルのものが登場し、世界中の注目を集めることになりました。

    画像生成の世界では、VAE、GAN、CLIP、GLIDEなどが次々と登場し、2022年夏頃にStableDiffusion、Dall-e2、Midjourney、Imagenなどが発表され、世間の認知度が一気に高まることになりました。

    Stable Diffusionの登場
    それでは、なぜStable Diffusionは注目すべきものなのでしょうか?それは、テキストからイメージを作ることができる驚異的な技術であることは言うまでもないことですが、Diffusion Model(拡散モデル)を使った世界初のオープンソースの技術であることです。元はと言えば、流体やガスの物理現象を応用したものです。同時期に登場したDalle2(OpenAI社)、Imagen(Google)なども類似の技術を使っているものと思われますが、残念ながら未公開です。

    Stable Diffusion: Why care?
    *Almost all Text-to-Image techniques are Inspired by This!
    *Poster Child of Text-to-Image Model.
    *First Open Source State of Art Diffusion Model.
    *Inspired by Physics of Fluids/Gases
    *Improved Image Reconstruction
    *Robustness to Variability, more resilient to changes in illumination, contrast
    *Enhanced Edge Preservation as in Image above.

    Stable Diffusionは何がすごいのか?

    • ほとんどのText-to-Imageテクニックはこれにインスパイアされている!
    • Text-to-Imageモデルの「わかりやすい姿」(Poster Child)
    • 初のオープンソースによる最先端の拡散モデル
    • 流体/気体の物理学にインスパイアされている
    • 画像再構成の改善
    • 変化に強く、照明やコントラストの変化に強い
    • エッジ保存を強化している

    2022年は、画像生成AIにとって驚異的な年となりました。OpenAIは4月にDalle2を発表し、5月にはGoogleがAmagenを、Midjorneyが7月に発表と、次々と高度なツールが発表されたのです。しかし、いずれも素晴らしいものではありましたが技術内容は未公開であったため、研究者やコミュニティによって評価を行うこと自体が困難でした。

    そして、2022年8月Stable Diffusionが登場しました。Stable Diffusionは世界初のオープンソースモデルであることから、多くの研究者や技術者から注目されました。単純で美しいコードによるDiffusionアプローチには、興奮が沸き起こりました。さらに重要なこととして、コモディティ化されたハードウエアで動かすことが可能、ということがわかり、世界中の多くの研究者や技術者、そして一般人までが一気に飛びついたのでした。

    ここから先の歴史についてはみなさんご存知のことも多いかと存じます。

    レポートは次回に続きます。


    生成AI(GenerativeAI)という言葉が世間で言われるようになったのはここ2、3年のことなので、2014年のAIというのは全く馴染みが無く、逆に新鮮に聞こえてしまいました。こうして振り返って見ると、とても短い期間に画像生成AIが広まっていったことが再確認できますね。

    Kotone&しらいはかせの感想

    Kotone:VAE、GAN、CLIPなどはStable Diffusionをさわっていると時々視界に入る単語ですね!
    はかせ:「 AIとコラボして神絵師になる 論文から読み解くStable Diffusion」で解説したつもりだったのですが、公開から1年、さらに俯瞰する時期が来ているかもしれませんね。
    Kotone:用語集助かります、整理して勉強していきたいと思います。
    はかせ:私は 東京工業大学 総合理工学研究科 知能システム科学 という専攻で博士を取得したのですが、当時は「知能システム」という分野は1970年代からサイバネティックス、ロボット・制御工学といった分野で研究されていました。もちろん2000年ごろにはすでに機械学習といった分野も存在し、研究室では強化学習、バックプロパゲーションなどをシミュレーションしたり、VRで体験できるようにしたり、ソフトウェアロボットにしたり、それを人間の脳から筋骨格系への信号と比較したり…といった研究です。制御となると目標とすべき正解やゴールがありますが、私の分野のようにエンタテインメント、アート、インタラクティブといった分野は定義も難しく、推論をするにも正解は何なのか、といったところで議論が終わる事が多かったです。

    講演は続きます。次回は Stable Diffusionの内部構造、仕組みについての解説になるそうです!

    Originally published at https://note.com on November 16, 2023.