年: 2024年

  • Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

    Google ColabでのAUTOMATIC1111 xformers関連の不具合と解決方法について(2024/5/22)

    「生成AI時代に つくる人をつくる」AICUの しらいはかせ です。
    ご高評いただいております「画像生成AI Stable Diffusion スタートガイド」
    (通称 #SD黄色本 )掲載の主要なプログラム(SBXL1SBXL2)につきまして、編集部が本日、Google ColabでのAUTOMATIC1111において不具合を発見いたしましたので、本日、解説とともに修正を実施いたしました。

    【現象1】SD1.5系でGradioURLが表示されない

    p47 【Start Stable-Diffusion】のセルを実行時 WARNING[XFORMERS]: xFormers can’t load C++/CUDA extensions. xFormers was built for: PyTorch 2.2.1+cu121 with CUDA 1201 (you have 2.3.0+cu121) Python 3.10.13 (you have 3.10.12) Please reinstall xformers というエラーが出てURLも表示されず完了しません。

    読者の方からも同様のご報告を頂いております(SBクリエイティブさんありがとうございます)。

    【現象2】起動には成功するが画像生成に失敗する

    「Generate」ボタンを押すと以下のようなエラー表示されます。

    AUTOMATIC1111側にはこちらのエラーが表示されています

    NotImplementedError: No operator found for `memory_efficient_attention_forward` with inputs:
    query : shape=(1, 4096, 1, 512) (torch.float32)
    key : shape=(1, 4096, 1, 512) (torch.float32)
    value : shape=(1, 4096, 1, 512) (torch.float32)
    attn_bias : <class 'NoneType'>
    p : 0.0
    `decoderF` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 128
    xFormers wasn't build with CUDA support
    attn_bias type is <class 'NoneType'>
    operator wasn't built - see `python -m xformers.info` for more info
    `flshattF@0.0.0` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 256
    xFormers wasn't build with CUDA support
    requires device with capability > (8, 0) but your GPU has capability (7, 5) (too old)
    dtype=torch.float32 (supported: {torch.bfloat16, torch.float16})
    operator wasn't built - see `python -m xformers.info` for more info
    `cutlassF` is not supported because:
    xFormers wasn't build with CUDA support
    operator wasn't built - see `python -m xformers.info` for more info
    `smallkF` is not supported because:
    max(query.shape[-1] != value.shape[-1]) > 32
    xFormers wasn't build with CUDA support
    operator wasn't built - see `python -m xformers.info` for more info
    unsupported embed per head: 512

    ChatGPTによるログと日本語解説はこちら

    https://chatgpt.com/share/41ae4cbb-74ce-4e72-8851-42d1698f8bf0

    なお、xFormersとは、Facebook Research (Meta)がオープンソースソフトウェアとして公開しているPyTorchベースのライブラリで、Transformersの研究を加速するために開発されたものです。xFormersは、NVIDIAのGPUでのみ動作します。NVIDIAのGPUを演算基盤として動作させるためのCUDAやそのビルド時のバージョンをしっかり管理する必要があります。
    https://github.com/facebookresearch/xformers

    【関連】PyTorchとCUDAバージョンエラーの警告について

    実はPyTorchとCUDAバージョンエラーの警告も出ています。

    PyTorch 2.2.1+cu121 with CUDA 1201 (you have 2.3.0+cu121)
    Python 3.10.13 (you have 3.10.12)

    AUTOMATIC1111のインストールマニュアルによると
    https://github.com/AUTOMATIC1111/stable-diffusion-webui

    Install Python 3.10.6 (Newer version of Python does not support torch), checking “Add Python to PATH”.
    Python 3.10.6をインストールし、”Add Python to PATH “をチェックする。

    とありますが、実際にGoogle Colab上でデフォルトで動作しているPythonは現在、Python 3.10.12です(!python — version で確認できます)。
    Python3.10.6が推奨なので、だいぶ後続のバージョンを使っていることになります。この問題はGoogle Colab上でのPythonのメジャーバージョンに関する問題で、関係はありますが、文末で解説します。

    AICU版の原作となったTheLastBenさんのリポジトリでも同様の問題がレポートされています。

    Xformers Google Colab ERROR · Issue #2836 · TheLastBen/fast-stable-diffusion

    Getting Error in the last cell during the launch: WARNING[XFORMERS]: xFormers can’t load C++/CUDA extensions. xFormers…

    github.com

    Google Colabが xformers や JAX といった関連ライブラリを更新してしまうことが問題の根幹でもありますので不具合報告を Google Colab 側にも入れておきます。

    Python and xformers version conflict · Issue #4590 · googlecolab/colabtools

    Describe the current behavior I’m Google Colab Pro+ user and using TheLastBen’s Automatic1111 (A1111) frequently…

    github.com

    【解決】とりいそぎの回避方法

    Start Stable-Diffusionの手前にセルを追加して、以下のコードを入れて実行してください。これで問題の xformersをアンインストールし、解決したバージョンの xformers を再インストールできます。

    #@markdown ### xformers の再インストール(v20240522)
    !python --version
    !yes | pip uninstall xformers
    !pip install xformers

    この「xformers 0.0.26.post1」がインストールされていれば、問題なく動作するはずです。

    【補足】Google ColabのPythonはいつまで現行のバージョン3.10.xなのか

    ところで、いい機会なので Google Colab上でのPythonはいつまで現行のバージョンなのか、調べてみました。実は2024年4月にPython自体のメジャーバージョンアップが予定されているようです。
    https://colab.google/articles/py3.10

    colab.google

    Colab Updated to Python 3.10 With the upgrade to Python 3.10, it brings Colab into alignment with the cadence of final…

    colab.google

    Python 3.10 へのアップグレードにより、Colab はPython バージョン最終的な定期的なバグ修正リリースペースに合わせられます。 Python の次のバージョン (3.11) は、2024 年 4 月に最終的な定期バグ修正リリースが予定されています。

    最終リリースとなる Python3.11.9 は2024年4月2日にリリースされているので、実はもういつ移行してもおかしくない時期なんですね…これはAUTOMATIC1111ユーザーにとってはたいへん重要なアップデートとなります。いきなり使えなくなるのは困るのでGoogle Colab上での切り替えも用意されると良いですね…。
    Google Colab上での賢い方法を期待しつつ、さいごにPythonのメジャーバージョンのロードマップをチェックしておきましょう。

    https://devguide.python.org/versions

    Status of Python versions

    The main branch is currently the future Python 3.13, and is the only branch that accepts new features. The latest…

    devguide.python.org

    Python3.10は2026年中、Python3.11は2027年に終了(end-of-life ; EOL)が宣言されています。

    AICU Inc.は生成AI時代のつくる人をつくるとともに、オープンソースソフトウェアや日本語コミュニティへの貢献を常に行っています。

    書籍なのに最新のオープンソースソフトウェアがアップデートされる、
    新感覚の画像生成AIの教科書「画像生成AI Stable Diffusion スタートガイド」の購入はこちらから! https://j.aicu.ai/SBXL

    書籍[画像生成AI Stable Diffusionスタートガイド] – つくる人をつくる AICU Inc.
    著者:AICU media、白井 暁彦 発売日:2024年3月29日(金) ISBN:978-4-8156-2456-9サイズ:B5判 ページ数:224定価:2,640円(本体2,400円+10%税) 画像生成AIの1つであるStable…

    ja.aicu.ai

    Originally published at https://note.com on May 22, 2024.

  • 最先端のWeb3と音楽生成AIのプレイヤーに会う「AI Beats Lounge Vol.1」イベント参加レポート

    最先端のWeb3と音楽生成AIのプレイヤーに会う「AI Beats Lounge Vol.1」イベント参加レポート

    2024年5月20日に開催されたAI Beats Lounge Vol.1 は、音楽とAIの融合をテーマにしたイベントです。音楽制作にAIを活用するツールや世界のアーティストの考え方について最前線の事例が紹介され、参加者が実際に体験できる魅力的なプログラムが満載でした。Web3とAIと音楽の交差点には才能あふれる女性プレイヤーもたくさんいらっしゃいました。現場よりレポートをお送りします。

    https://note.com/aicu/n/n83d8cb1f774b

    「AI Beats Lounge Vol.1」イベント概要

    • 日付と時間: 2024年5月20日 (月) 18:30–22:00
    • 場所: Crypto Lounge GOX, 新宿区, 東京
    • 詳細はLuMaにて https://lu.ma/btlxtu5q

    ゲストスピーカーによる音楽生成AI活用事例

    音楽とAIの最前線で活躍するゲストスピーカーによる活用事例の紹介。

    Shinya:パーソナルコンテンツのAI動画化

    Shinya / @clabon40: 会場であるGoxLoungeの関係者。T2WEB株式会社代表、音楽AIを活用した作曲に夢中な社会人。
    実はミュージシャンでもあるそうで、娘さんの幼稚園卒業、友達の新居引っ越し祝いなど、非常に身近なパーソナルコンテンツとSunoの活用事例3連発を紹介いただきました。

    ※撮影できる内容ではなかったので残念ながら割愛します

    実はこのイベントはAICUのイベントACT3がきっかけだったそうです!

    明日はAICU Creators Talk3 (ACT3) の開催です! 登壇者紹介・申し込みはいますぐ!|AICU media

    AICU 代表の白井暁彦 (@o_ob)です 明日はAICU Creators Talk3 (ACT3) の開催です! ついに明日、製品発表会です! 登壇やパートナークリエイターの方々が揃い、タイムテーブルが更新されました。…

    note.com

    MISOSHITA:何を最終版とするかは人が決める。完成を決める感性が大事。

    @Misositaworks: テクノロジー&カルチャーを探求するクリエーター

    MISOSHITA:何を最終版とするかは人が決める。完成を決める感性が大事。

    実演:ステム分離

    MISOSHITAさんのおすすめ動画とともに、11年ぶりにメジャーアップデートされた「LogicPro」のアップデートで実装されたAI機能を解説。

    AYAME:生成AIは「音楽のコラージュ」

    AYAME / @aym2m V系バンド「摩天楼オペラ」のキーボーディスト、京都情報大学院大学客員教授

    『AIに全部残して、おかしんでいこうかなとおもいます!』

    発表17分で未発表作品の披露が…!素敵です…!

    Jun Fukunaga: 人間の創造性や作曲能力の拡張。音楽業界でAI否定する人は少ない。

    Jun Fukunaga / @LadyCitizen69: 幅広いジャンルで活動するフリーランスライター・インタビュワー

    非常に深い示唆にとんだ、世界のアーティストの声をお届けします。

    Suno AIStable Audioudio

    良い結果を得るためには経験や知識が必要。

    人間の創造性や作曲能力の拡張。

    フランスのアーティスト「ジャスティス」のインタビューが印象的。
    マルセル・デュシャンの「泉」の例なども出てきました。

    Justice (band) – Wikipedia

    Justice is a French electronic music duo consisting of Gaspard Augé and Xavier de Rosnay. Justice is known for…

    en.wikipedia.org

    LLM開発の面白さ,ゼロから頂点までを一気に学んだ! #WandB |AICU media

    AICUメディアコミュニケーション事業部のKotoneです! 今回の記事では、Fully Connected Tokyo 2023というWeights and Biases社さん(ウェイツ・アンド・バイアスィズ…

    note.com

    音楽業界でAI否定する人は少ない。
    一方で「Stop Devaluing Music」、AIによってアーティストの価値を下げる行為に対する反対も起きている。

    200+ Artists Urge Tech Platforms: Stop Devaluing Music

    Click here to join the movement!

    artistrightsnow.medium.com

    参加型AI作曲体験

    参加者から1フレーズずつ歌詞をもらい、その場でAIを使って曲を作成します。これは参加者全員が楽曲制作のプロセスをリアルタイムで体験できる貴重な機会です。

    参加者AI作曲コンテスト

    Discordにて応募し、イベント当日に優勝者を発表します。優勝者にはAmazonギフト券3,000円分が贈られます。

    お題は「九九の歌」。
    様々な作品の中から1作品が選ばれました。他の作品もすごかった!

    MISOSHITA: 第一回コンテストはこちらのYTR-334Sさんの作品が大賞に決まりました!おめでとうございます。
    選考理由としては楽曲のクオリティが高く、九九の歌の既存イメージとは大きく違う新たな世界観を提示し、キャッチーさも同時に感じられる点です。

    名前:YTR-334S「九九 一の段のうた」
    作品について:シンフォニックメロディアスメタルに。

    九九 一の段のうた by @ytr334s | Suno

    symphonic melodious metal song. Listen and make your own with Suno.

    suno.com

    YTR-334Sさん

    YTR-334Sさんの受賞の言葉:
    ありがとうございます!SUNOいじってほんの数日でしたが、リアルイベントめっさ楽しかったです!!これからもAIと仲良くしていきたいです😊

    音楽AIのクリエイターさんたちは元気な女性たちでした

    YTR-334Sさんはじめとして、多くの元気な女性が目立つコミュニティでした。これからもSunoやStable Audioの使い手がどんどん増えていきそうですね。

    撮影許可いただきました。山形のお土産も頂いちゃいました!

    【AI Beats Lounge】音楽×AI専用コミュニティDiscord

    https://discord.com/invite/bYhHwgUEQT

    X.comでの感想戦

    Suno使ってみたくなりました

    AI×音楽のイベント AI beats lounge Vol.1 ありがとうございました! 参加者は決して多く無かったですが、一人一人の熱量がありかなりディープな最前線の内容ではあったのではないでしょうか。 何でもここから始まっていくというフェーズが1番面白いですね

    イベントで話された内容物凄く簡単にまとめると ・AI楽曲のプライベートミュージック活用の可能性 ・クリエイターはAI楽曲一発生成から一歩進んで複数AIツール活用して楽曲の編集/改変を試し始めてる ・技術は置き換え可能だが、センスや感性は現状ではAIで置き換えづらくより重視される方向

    https://x.com/o_ob/status/1792558479401738448

    https://x.com/clabon40/status/1792561212489945301

    Suno

    Suno is building a future where anyone can make great music.

    suno.com

    https://www.stableaudio.com

    生成AI作家による世界に向けた動画リールを開発

    AICU Inc.のプレスリリース(2024年3月21日 07時10分)生成AI作家による世界に向けた動画リールを開発

    prtimes.jp

    Originally published at https://note.com on May 21, 2024.

  • 日報を画像生成でバエさせる #10分で学べるAI

    日報を画像生成でバエさせる #10分で学べるAI

    新企画「#10分で学べるAI」

    「つくる人をつくる」AICU新人ライターのNaruです。初の原稿となる今回は、Stability AIが提供しているStable Diffusion 3 APIを用いた画像生成ついて、忙しいビジネスパーソンがめっちゃ使えそうなテクニックを #10分で学べるAI というシリーズで紹介していきたいと思います。

    今すぐ終業、でもバエる絵が見つからない…。

    「提案書や日報にバエる、インパクトがある画像がほしいな…」と思ったこと、ありませんか?でもライセンスフリーの画像検索では画像的にも著作権的に微妙…有料のストックフォトを日報に使うなんて予算がない…そんなあなたに送る、画像生成テクニックです。

    <設定>新入社員のSくん
    新人研修ももうすぐ終わり…毎日の日報もネタがつきてきました。今すぐスライドのトップページに16:9の画像を付け足して、BOSSに送りつけて帰宅したい…!でも検索しても検索してもバエる絵が見つからない…!

    ふと某ChatGPT 4oさんにお願いしてみました。
    「今日の日報に使える16:9のバエる画像がほしい」

    うーん、ちょっと、微妙すぎやしませんか。ここは日本ですし。

    ちなみに今日は飛び込み営業で、 日焼けした27歳の元気なスタートアップ企業の社長さんにお会いしました。というレポートしたいので、そんな感じの絵を作りたかったのです。

    そしてBOSSから注文が入りました。

    「今日の日付を入れて」

    いま16時30分ですよ?

    出来上がった画像がこれです。

    念の為、ソースコードへのリンクがあったので確認してみました。

    from PIL import Image, ImageDraw, ImageFont
    import matplotlib.font_manager as fm
    
    # Load the image
    image_path = "/mnt/data/A_vibrant,_eye-catching_image_for_a_daily_report,_.png"
    image = Image.open(image_path)
    
    # Define the date text
    date_text = "2024年5月20日"
    
    # Get a font
    # Using a default font as an example
    font_path = fm.findSystemFonts(fontpaths=None, fontext='ttf')[0]
    font = ImageFont.truetype(font_path, 40)
    
    # Initialize ImageDraw
    draw = ImageDraw.Draw(image)
    
    # Define the text position and color
    text_position = (image.width - 300, image.height - 70)
    text_color = (255, 255, 255)  # White color
    
    # Add the date text to the image
    draw.text(text_position, date_text, font=font, fill=text_color)
    
    # Save the edited image
    output_path = "/mnt/data/A_vibrant_image_with_date.png"
    image.save(output_path)
    
    output_path

    ちがう!僕がやりたいのはこういうことじゃない…!

    僕が作りたいのは、こういうインパクトがある絵です。

    ギラッギラです

    ギラッギラなカバーアートでぜひともBOSSに読んでもらいたい!
    ですが、
    必要な知識は AICU media の過去記事だけで十分でした。
    非エンジニアでも大丈夫、コーディングはゼロ、絵心もゼロです。
    さて作っていきましょう。

    必要なもの

    • Google Colab(無料アカウントでOK)
    • Stability AI のアカウント

    Stability AIのアカウントを持っていない人は https://platform.stability.ai/ にアクセスすると作成できます。

    右上からアカウントを作成できます

    セットアップしよう

    APIキーを取得する

    まずはGoogle Colabで呼び出すためのAPIキーを用意しましょう。

    https://platform.stability.ai/account/keys

    https://platform.stability.ai/account/keys にアクセスするとAPIの管理画面に行くことができます。

    ここでAPIキーを発行できます

    右上にあるCreate API Key というボタンを押すと新しくAPIキーが発行されます。
    なおAPIの呼び出しにはクレジットを使うので不足した人は適宜追加をしてください。

    クレジットはDreamStudioと共通です。10ドルは僕の時給よりも安いです。

    Colabでプログラムを実行する

    今回は実行に必要なPythonコードをアナタのために限定で用意しました。
    日本語解説付きです。

    https://colab.research.google.com/drive/1mc1iQyIDT7FTO74SWcGqqHItUr9nkIC8?usp=sharing

    GitHubは こちら ✨️現在はGitHubに バグ があるのでひと手間あります。

    このColabを開いたら、まずは「ドライブにコピー」のボタンを押してからはじめのコードを▶を押して実行しましょう。

    ドライブにコピーをお忘れなく
    これで必要なライブラリをインポートできます

    次のコードを実行して、取得したAPIキーを入力します。

    実行すると入力画面が現れます

    最後のコードで画像生成の機能を準備します。

    モデルをColab上に用意しないので非常に速いです

    これで画像を生成する準備ができました!


    実際に生成してみよう

    いよいよ画像の生成に取り掛かります。
    下にスクロールするとプロンプトの入力画面があるので[prompt]に生成したい画像を入力し、実行します。

    ここまで正しくできていれば ▶ を押すたびに画像が生成されます。

    文字までしっかりと生成されました!
    ※日本語はまだ書けないっぽいです。

    さて日報のカバーイラスト作っていきます

    ここまでの部分は何度でも再利用できます。
    今日の日報も明日の日報も今週末の日報も、これでイケるって寸法です。

    今日の飛び込み営業で体験した日焼けした27歳の元気なスタートアップ企業の社長さんというレポートにふさわしいカバーイラストを作りましょう。

    [Prompt]にプロンプトを入力しますが、英語で入力する必要があります。
    ここは大人しくDeepLを使いましょう、早く退勤しないとなので。

    https://www.deepl.com/ja/translator/l/ja/en-US

    日報の表紙イラスト、日焼けした27歳の元気な日本人社長のマンガ。右下に「5/20th」の文字。

    Cover illustration of the daily bulletin, a manga of a Japanese president tanned, energetic 27-year-old man, With the words “May/20th” in the lower right corner.

    prompt: Cover illustration of the daily bulletin, a manga of a Japanese president tanned, energetic 27-year-old man, With the words “May/20th” in the lower right corner.

    negative_prompt: NSFW

    aspect_ratio: 16:9

    output_format: png

    こんな感じに入力して▶を押します。

    気に入る画像になるまで、何度でも押しましょう。数秒で生成されます。
    SD3は実写も綺麗ですが、イラストレーションとか漫画も得意です。
    美少女っぽいのもめちゃ良いですが、オジサンが好きそうな絵も作れます。

    どやっ!

    どやっ!

    ちょうどイメージぴったりです!
    このカバーアートに続くレポートの本文にはもちろん、この若くて何か大きなことをしでかしそうな社長さんへの提案が記載されています。
    きっとBOSSも興味を持って読んでくれることでしょう!

    明日からはこの[Prompt]を書き換えるだけです!やったぜ

    10分でできましたか?

    今回はここで終わります。また次回もぜひ読んでください!

    なおStable Diffusion 3 APIの技術詳細についてはこちらで紹介しているのでぜひ読んでくださいね~。

    https://note.com/aicu/n/n838bf71a361f

    https://note.com/aicu/n/ne2fe8a0073b0


    ✨️以上のように業務で仕事でパッと使える画像生成を社内やサービスに導入したい、使いこなせる社員をパッと育成したい!そんな需要がございましたら sai@aicu.ai までどうぞご相談ください。

    本記事が面白かったら、ぜひシェアをよろしくお願いいたします!
    社内Slack等のシェアでも歓迎です。
    また「こんな記事欲しい」といったリクエストがございましたら X@AICUai までメンションやDMでいただければ幸いです。

    AICU Inc.は Stability AI 公式パートナーです。
    様々なアプリ開発のご相談も承っております!

    https://corp.aicu.ai/ja/stability-ai

    https://corp.aicu.ai/ja/stability-ai-membership

    Originally published at https://note.com on May 20, 2024.

  • 参加者とともに「音楽×AI」の活用法を考えるイベント「AI Beats Lounge Vol.1」開催!

    参加者とともに「音楽×AI」の活用法を考えるイベント「AI Beats Lounge Vol.1」開催!


    AI Beats Lounge Vol.1 は、音楽とAIの融合をテーマにした革新的なイベントです。音楽制作にAIを活用する最前線の事例を紹介し、参加者が実際に体験できる魅力的なプログラムが満載です。そして参加するとNFTがもらえる!?

    イベント詳細

    • 日付と時間: 2024年5月20日 (月) 18:30–22:00
    • 場所: Crypto Lounge GOX, 新宿区, 東京
    • 参加費: 2,500円 (税込) — ビールやお酒の飲み放題付き
    • チケット購入: Stripeで事前にお支払いください(GOXPRO会員は参加無料)
    • 本イベントの詳細はLuMaにて https://lu.ma/btlxtu5q

    プログラム内容

    1. セッション

    • 音楽とAIの最前線で活躍するゲストスピーカーによる活用事例の紹介。登壇者は以下の通りです:
    • Jun Fukunaga / @LadyCitizen69: 幅広いジャンルで活動するフリーランスライター・インタビュワー
    • Shinya / @clabon40: T2WEB株式会社代表、音楽AIを活用した作曲に夢中な社会人ミュージシャン
    • MISOSHITA / @Misositaworks: テクノロジー&カルチャーを探求するクリエーター
    • AYAME / @aym2m: V系バンド摩天楼オペラのキーボーディスト、京都情報大学院大学客員教授

    2. 参加型AI作曲体験

    • 参加者から1フレーズずつ歌詞をもらい、その場でAIを使って曲を作成します。これは参加者全員が楽曲制作のプロセスをリアルタイムで体験できる貴重な機会です。

    3. 参加者AI作曲コンテスト

    • Discordにて応募し、イベント当日に優勝者を発表します。優勝者にはAmazonギフト券3,000円分が贈られます。

    4. ネットワーキング

    • イベントの最後には参加者同士の交流を深めるネットワーキングタイムも用意されています。​

    【AI Beats Lounge】音楽×AI専用コミュニティ
    https://discord.com/invite/bYhHwgUEQT

    AI Beats Lounge Vol.1 · Luma
    🤖音楽×AI🤖「AI Beats Lounge」 前線コアユーザーによる活用事例を大公開 参加者とともに「音楽×AI」の活用法を考えるイベント 🎟️Ticket: 2,500円(税込) └🍺ビールやお酒 飲み放題付き 📅…lu.ma

    参加登録がおもしろい!

    歌詞1フレーズとプロンプトの指示、そしてウォレットアドレスを登録すると来場記念NFTがもらえるそうです。CryptoLoungeGOXらしい演出です!

    登壇者のツイートから

    イベントのレポートがここに追加されるかも…?

    AICUがGOXで開催した過去のイベントはこちら

    [3/13開催予定]AIクリエイターギルド@歌舞伎町GOX #AICU_ACT3
    AICU Creators Talk3 2024/3/3のイベント情報をお届けします。AIクリエイターギルド歌舞伎町GOX…corp.aicu.ai

    AICU Creators Talk 3 がCrypto Lounge GOX で開催されました! #AICU_ACT3|AICU media
    つくる人をつくる! AICU media の知山ことねです。 2024年3月13日(水)、第3回 AICU Creators Talk「AICU Creators Guild」を新宿歌舞伎町にある「Crypto Lounge…note.com


    Originally published at https://note.com on May 19, 2024.

  • 大人気のLoRA作成、みんなでデルタもんを機械学習しました!

    大人気のLoRA作成、みんなでデルタもんを機械学習しました!

    本日2024年5月15日、重版も決定した大人気の書籍書籍 「画像生成AI Stable Diffusion 公式スタートガイド」 公式ワークショップ「デルタもんLoRAを作ろう!」をオンラインにて開催しました。

    今回は AICU CEO のしらいはかせに加えスペシャルゲストもお呼びして、いつも以上に情報たっぷりなワークショップとなりました!この記事では、本ワークショップの参加レポートや参加者の声を紹介していきます。AICU のワークショップに興味のある方はぜひご覧ください。

    また6月にもワークショップを開催予定ですので、次回以降の開催については AICU の Techplay をフォローして通知をお待ちください!
    AICU Techplay → https://techplay.jp/community/AICU

    デルタもんLoRAを作ろう!

    今回の目標は「デルタもんLoRA」を作ることを通じて、皆さんがそれぞれ作りたいLoRAを作れるようになることでした。
    そこでスペシャルゲストとして、デルタもんを運営するBlendAI社のCEO、 小宮自由さん(@jiyu33) にお越しいただき、デルタもんについて語っていただきました。

    ワークショップには初心者の方も多数参加してくださったので、AUTOMATIC1111 を使用した画像生成のステップを復習し、LoRA の学習に移りました。

    BlendAI 社に提供していただいたデルタもんの画像を使用し、データセット(学習元画像)の収集方法を解説するところから始まりました。

    今回はBlendAI 社提供のデルタもんのデータセットに AICU が表情差分を追加した特製データセットを配布し、参加者の皆さんと一緒に学習を進めていきました。

    これをGoogle Colabを用いて学習し、LoRA を作成しました!

    LoRA を制作するうえでの細かいパラメータの調整や、LoRAに合わせて各種設定をどのように変更すれば良いのかなどが詳しく解説された、濃い90分間となりました!

    また質疑応答の時間では、Sampling method によって生成結果にどのような差が出るのかといったテクニカルな質問にも実演しながら答えていきました。

    加えてAIに関する倫理やマナー、法律も話題に上がり、しらいはかせと小宮さんによる興味深い意見交換が行われました。

    AIに関する倫理については、5月13日Kindleにて発売開始した「 AICU magazine 5月号 」の新連載「りんりん倫理」でも解説しております。

    参加者の声

    ワークショップにご参加いただいた参加者の皆様の感想です!

    【Stable Diffusion でデルタもん LoRA を作ろう!】に参加しました。

    率直に言って、参加するかしないかで、明らかに大きな差がつくと感じました。

    画像生成AIをやっているトップ中のトップが
    実際に画面を操作しながら、説明をしてくれるからです。

    今まで、よくわからなく技術を使っていました。… https://t.co/Whp0xwAbwQ

    – ダイチ (@LxGtUGtlRSh8yXW) May 15, 2024

    開催後のアンケートでも様々な感想を頂きました!

    “貴重な機会ありがとうございました。 短い時間で画像生成まで辿り着けました。 次回を楽しみにしています。”

    “とても楽しいワークショップでした。 画像生成や漫画のキャラクター をちょうど作っているところだったので、すごく参考になりました。次回も絶対参加したいと思います。”

    “ AI時代につくるひとをつくるの通り、作ることに対しての愛や思いやり、配慮が散りばめられており、非常に温かい会です 。2回目の参加でしたが、とても素敵な時間をありがとうございました!これからも応援しています!”

    “LLM のチューニングやRAGには昨年から持続的に興味をキープしていたのですが, 画像生成に関してもある種のカスタム化ができることを初めて知り,やる気がでてきました.”

    “本当にたのしかったです!教科書も読むんですが、なかなか手が動かないことがあります。こうやって講義をしていただけるだけで、 手を動かそうと思うし 、理解が深まります。”

    実際に手を動かすワークショップにすることや、温かい会にすることを常に意識して開催しているので、そういった想いが伝わって嬉しいです!
    また、SD黄色本へのメッセージもいただきました。

    “黄色本は 網羅的で非常に参考になりました。 ここから始めるのにぴったりです”

    “ フルカラーで、基本的な操作から、有名絵師さんのtipsなども載っていて、初心者が夢を持って読める本です!”

    参加してくださった皆様、ありがとうございました!

    今回のワークショップの内容は、5月13日Kindleにて発売開始した「 AICU magazine 5月号」でも紹介しております。
    現在データセットの収集方法についての詳しい解説を読むことができます。近日中にアップデートし、LoRAの作り方についてなどにも触れていくので、購読してお待ちください!
    Kindle Unlimited に加入している方は無料で読むことができます!

    また6月にもワークショップを開催予定ですので、次回以降の開催については AICU の Techplay をフォローして通知をお待ちください。
    SD黄色本はこちら→ https://j.aicu.ai/SBXL

     

    関連情報です
    ■「画像生成AI Stable Diffusion スタートガイド」アップデート情報 第6章 LoRA動作不具合改訂について
    https://note.com/aicu/n/n96f9e51041fa

    今回のワークショップの内容を収録した「AICUマガジン」はKindle Unlimitedにてご購読可能です
    Vol.1 2024年4月号 特集:A1111総おさらい!
    https://j.aicu.ai/Mag2404

    Vol2. 2024年5月号 特集:次世代まんが制作術!
    https://j.aicu.ai/Mag2405

    今回のワークショップの内容と、追加スライドをアップデートにて配信予定です。

    今後ともAICUをよろしくお願いいたします。

  • OpenAI — GPT-4oをリリース

    OpenAI — GPT-4oをリリース

    2024年5月13日に OpenAI は新しい生成aiモデルであるGPT-4oをリリースしました。
    公式リリースの翻訳をベースにわかりやすく詳細にお送りします。
    https://openai.com/index/hello-gpt-4o/

    新しくできるようになったこと

    • 音声と動画から返答できる音声モード
    • テキスト、推論、コーディングの改善
    • 応答速度の高速化
    • APIの低価格化
    • 無料ユーザ向けのツール

    GPT-4oの紹介

    GPT-4o (Omni) は、人間とコンピューターのより自然な対話に向けたメジャーアップデートです。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか 232 ミリ秒で応答でき、平均では 320 ミリ秒で、会話の中における人間の応答時間とほぼ同じです。英語のテキストおよびコードでは GPT-4 Turbo のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善され、API でははるかに高速で 50% 安価です。 GPT-4o は、既存のモデルと比較して、特に視覚と音声の理解に優れています。

    GPT-4oの機能について

    現在、GPT-4oは既存のどのモデルよりも、あなたが共有する画像を理解し、議論することに優れています。例えば、異なる言語で書かれたメニューの写真を撮影し、GPT-4oに話しかけて翻訳したり、料理の歴史や意義について学んだり、おすすめの料理を教えてもらったりできるようになりました。将来的には、より自然なリアルタイムの音声会話や、リアルタイムの動画でChatGPTと会話できるように改良される予定です。例えば、ChatGPTにスポーツの試合中継を見せることで、ルールを説明してもらうことができます。これらの新機能を備えた新しい音声モードが、今後数週間のうちにアルファ版としてリリースされる予定だそうです。

    GPT-4o 以前は、音声モードを使用して、平均 2.8 秒 (GPT-3.5) および 5.4 秒 (GPT-4) の遅延で ChatGPT と会話していました。これを実現するために音声モードは 3 つの個別のモデルのパイプラインを用いていました。1つ目で音声をテキストに変換し、2つ目でGPT-3.5 または GPT-4 にテキストを取り込んでテキストを出力し、3 番目でそのテキストを音声に変換しています。このプロセスはGPT-4 が多くの情報を失うことを意味します。GPT-4 は、音調、複数の話者、環境音を直接観察することができず、笑い声や歌を発声したり、感情を表現したりすることができませんでした。

    GPT-4o では、テキスト、ビジョン、オーディオにわたって単一の新しいモデルをエンドツーエンドでトレーニングしています。これはすべての入力と出力が同じニューラル ネットワークによって処理されることを意味します。 GPT-4o はこれらすべてのモダリティを組み合わせた最初のモデルであるため、このモデルで何ができるか、そしてその限界を探る上で、まだ表面をなぞったにすぎないと言えます。

    動画によるデモ

    GPT-4oの評価について

    Text Evaluation テキスト評価

    推論の改善 — GPT-4o は、0 ショットの COT MMLU (一般知識の質問) で 88.7% のハイスコアを記録しました。これらすべての評価は、評価ライブラリでおこないました。さらに、従来の5ショットのNo-CoT MMLUでは、GPT-4oが87.2%のハイスコアを更新しました。(注: ラマ3 400bはまだ訓練中です)

    Audio ASR performance 音声ASRの性能

    オーディオ ASR パフォーマンス — GPT-4o は、すべての言語において、特にリソースの少ない言語において、Whisper-v3 よりも音声認識パフォーマンスを大幅に向上させます。

    Audio translation performance 音声翻訳性能

    音声翻訳のパフォーマンス — GPT-4o は音声翻訳において新たな最先端を確立し、MLS ベンチマークで Whisper-v3 を上回ります。

    M3Exam Zero-Shot Results M3Examゼロショット結果

    M3Exam — M3Exam ベンチマークは、多言語と視覚の両方の評価であり、他の国の標準化されたテストからの多肢選択問題で構成されており、図や図表が含まれる場合もあります。このベンチマークでは、すべての言語にわたって GPT-4o が GPT-4 よりも強力です。 (スワヒリ語とジャワ語については、視力の質問が 5 つ以下しかないため、これらの言語の視力の結果は省略します。

    Vision understanding evals 視覚理解試験

    視覚理解の評価 — GPT-4o は視覚認識ベンチマークで最先端のパフォーマンスを達成します。すべてのビジョン評価は 0 ショットであり、MMMU、MathVista、および ChartQA は 0 ショット CoT (Zero Shot Chain of Thought) です。

    従来のベンチマークで測定されているように、GPT-4o はテキスト、推論、コーディング インテリジェンスに関して GPT-4 Turbo レベルのパフォーマンスを達成すると同時に、多言語、オーディオ、ビジョン機能に関して最高水準といえます。

    GPT-4oのトークンについて

    これらの 20 の言語は、新しいトークナイザーの代表例です。

    • グジャラート語 トークンが 4.4 分の 1 (145 個から 33 個に)
    • テルグ語 トークンが 3.5 分の 1 (159 個から 45個に)
    • タミル語のトークンが 3.3 分の 1 (116 個から 35 個に)
    • マラーティー語のトークンが 2.9 分の 1 (96 個から 33 個に)
    • ヒンディー語のトークンが 2.9 分の 1 (90 個から 31個に)
    • ウルドゥー語のトークンが 2.5 分の 1 (82 個から 33 個に)
    • アラビア語のトークンが 2.0 分の 1 (53 個から 26個に)
    • ペルシャ語 トークンが 1.9 分の 1 (61 個から 32 個に)
    • ロシア語のトークンが 1.7 分の 1 (39 個から 23個に)
    • 韓国語のトークンが 1.7 分の 1 (45 個から 27 個に)
    • ベトナム語のトークンが 1.5 分の 1 (46 個から 30 個に)
    • 中国語のトークンが 1.4 分の 1 (34 個から 24 個に)
    • 日本語のトークンが 1.4 分の 1 (37 個から 26 個に)
    • トルコ語のトークンが 1.3 分の 1 (39 個から 30 個に)
    • イタリア語のトークンが 1.2 分の 1 (34 個から 28 個に)
    • ドイツ語のトークンが 1.2 分の 1 (34 個から 29 個に)
    • スペイン語のトークンが 1.1 分の 1 (29 個から 26個に)
    • ポルトガル語のトークンが 1.1 分の 1 (30 個から 27 個に)
    • フランス語のトークンが 1.1 分の 1 (31 個から 28 個に)
    • 英語のトークンが 1.1 分の 1 (27 個から 24 個に)

    GPT-4oの安全性と制限事項について

    GPT-4o には、トレーニング データのフィルタリングやトレーニング後のモデルの動作の調整などの技術を通じて、モダリティ全体に安全性が組み込まれています。また、音声出力にガードレールを提供する新しい安全システムも作成しました。
    OpenAI は準備フレームワークに従って、また自主的な取り組みに沿ってGPT-4o を評価しました。サイバーセキュリティ、CBRN(化学、生物、放射線、核)、説得、モデルの自律性に関する評価では、GPT-4o はこれらのカテゴリのいずれにおいても中リスク以上のスコアを獲得していないことが示されています。この評価には、モデルのトレーニング プロセス全体を通じて一連の自動評価と人間による評価の実行が含まれます。モデルの機能をより適切に引き出すために、カスタムの微調整とプロンプトを使用して、モデルの安全性緩和前バージョンと安全性緩和後のバージョンの両方をテストしました。
    また社会心理学、偏見と公平性、誤った情報などの分野で 70 人以上の外部専門家と広範な外部レッドチーム を結成し、新たに追加された手法によって導入または増幅されるリスクを特定しました。OpenAI はこれらの学習を利用して、GPT-4o とのやり取りの安全性を向上させるための安全介入策を構築しました。新たなリスクが発見され次第、引き続き軽減していきます。

    訳注:レッドチームとはセキュリティにおける仮想の敵チームのこと。ブルーとレッドに分かれて、パープルチームが判定します。

    OpenAI は、GPT-4o のオーディオ モダリティがさまざまな新たなリスクを引き起こすことを認識しています。本日、テキストと画像の入力とテキスト出力を一般公開します。今後数週間から数か月かけて、技術インフラストラクチャ、トレーニング後の使いやすさ、他のモダリティをリリースするために必要な安全性に取り組んでいきます。たとえば、発売時には、オーディオ出力はプリセット音声の選択に制限され、既存の安全ポリシーに準拠します。
    今後のシステム カードで GPT-4o のモダリティの全範囲に対処するさらなる詳細を共有する予定です。モデルのテストと反復を通じて、モデルのすべてのモダリティに存在するいくつかの制限を観察しました。そのうちのいくつかを以下に示します。

    GPT-4oはいつ利用できるのか

    GPT-4o は、ディープラーニングの限界を押し上げるための最新のステップであり、今回は実用的な使いやすさの方向に向かっています。過去 2 年間、OpenAI はスタックのすべての層での効率向上に多大な努力を費やしてきました。この研究の最初の成果として、GPT-4 レベルのモデルをより広範囲に利用できるようにすることができました。 GPT-4o の機能は繰り返し展開されます。今日から”レッドチーム アクセス”が拡張されます。

    GPT-4o のテキストおよび画像機能は、ChatGPT で今日から展開され始めます。 GPT-4o は無料枠で利用できるほか、最大 5 倍のメッセージ制限を持つ Plus ユーザーも利用できるようにしています。今後数週間以内に、ChatGPT Plus 内でアルファ版の GPT-4o を使用した音声モードの新バージョンを公開する予定です。

    開発者は、API の GPT-4o にテキストおよびビジョン モデルとしてアクセスできるようになりました。 GPT-4o は、GPT-4 Turbo と比較して 2 倍高速で、価格は半分で、レート制限が 5 倍高くなります。今後数週間以内に、API の信頼できるパートナーの小グループに対して GPT-4o の新しいオーディオおよびビデオ機能のサポートを開始する予定です。

    利用方法

    ChatGPT Plusのユーザはすでに利用できます。

    左上のモデル選択で選べるようになります。

    ・最大 128,000トークン
    ・2023年10月までの知識
    API playgroundはこちらから利用できます。

    https://platform.openai.com/playground/chat?mode=chat&model=gpt-4o&models=gpt-4o

    旧来のモデルと比較することができます。

    GPT-4oのリリースとChatGPT無料ユーザーへのツール追加

    実は、今回の OpenAI からのリリースには、GPT-4o 以外にもChatGPT無料ユーザへのツール追加が発表されました。

    https://openai.com/index/spring-update

    https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free

    GPT-4oという最新のフラッグシップモデルを発表したことで、ChatGPTで無料で利用できる機能が増えました。

    高度なAIをより身近で便利なものにするため、GPT-4oの言語機能は品質とスピードの両面で向上しています。ChatGPTはまた、サインアップやログイン、ユーザー設定などで50以上の言語(新しいウィンドウで開きます)をサポートするようになりました。

    GPT-4oは、ChatGPT PlusとTeamユーザーへの提供を開始し、エンタープライズユーザーへの提供も間もなく開始します。また、本日よりChatGPT Freeの利用制限を開始します。Plusユーザーには無料ユーザーの最大5倍のメッセージ制限があり、TeamとEnterpriseユーザーにはさらに高い制限があります。

    より多くのインテリジェンスと高度なツールを無料で提供

    OpenAI のミッションには、先進的なAIツールをできるだけ多くの人々に提供することが含まれています。毎週、1億人以上の人々がChatGPTを利用しています。今後数週間で、ChatGPT無料ユーザーにより多くのインテリジェンスと高度なツールを提供し始めます。

    GPT-4oを使用すると、ChatGPTフリーユーザーは以下のような機能を利用できるようになります:

    ・GPT-4レベルのインテリジェンス
    ・モデルとウェブの両方から応答を取得
    ・データの分析とグラフの作成
    ・撮影した写真についてチャット
    ・ファイルをアップロードして、要約、執筆、分析を支援する

    GPTとGPTストアの発見と使用

    Memoryでより役立つ体験を構築する

    GPT-4oの利用状況や需要に応じて、無料ユーザーが送信できるメッセージ数に制限があります。上限に達すると、ChatGPTは自動的にGPT-3.5に切り替わり、ユーザーは会話を続けることができます。

    新しいデスクトップアプリでワークフローを効率化

    無料・有料ユーザーを問わず、コンピュータ上で行っているあらゆることにシームレスに統合できるように設計されたmacOS用の新しいChatGPTデスクトップアプリもリリースします。簡単なキーボードショートカット(Option + Space)で、即座にChatGPTに質問することができます。また、アプリ内で直接スクリーンショットを撮り、議論することもできます。

    https://videos.ctfassets.net/kftzwdyauwt9/52LopQbWMG9s9TMcd3sd2k/6ef859a25569c217211bdf175009ea73/Web_-_New_UI_Updates.mp4

    本日より、PlusユーザーはmacOSアプリを配布しています。また、今年後半にはWindows版もリリースする予定です。

    GPT-4oの新しいオーディオとビデオ機能は、将来登場する予定です。社内で新しいアイデアを出したいとき、面接の準備をしたいとき、話したいトピックがあるときなど、デスクトップアプリの右下にあるヘッドフォンアイコンをタップして音声会話を始めましょう。

    編集部注:実際にはまだAppStoreには配信されていないようです。
    こちらのコミュニティで経過をみることができます

    https://community.openai.com/t/chat-gpt-desktop-app-for-mac/744613

    Originally published at https://note.com on May 14, 2024.

  • Stability AI、日本語大規模言語モデル「Japanese Stable LM 2 1.6B」を発表。Google Colabのシークレット機能で短いコードを書いてみよう!

    Stability AI、日本語大規模言語モデル「Japanese Stable LM 2 1.6B」を発表。Google Colabのシークレット機能で短いコードを書いてみよう!


    2024年5月9日(日本時間)、Stability AIから新たな日本語大規模言語モデル「Japanese Stable LM 2 1.6B」がリリースされました。

    モデルのサイズも小さく性能も高いLLMです。比較的シンプルな環境で動作しそうです。今回の記事は特殊な環境が不要なGoogle Colabで、最新のサンプルを、非常に短いコードで実験できることを確認したので紹介していきます。

    まずは Stability AI 公式リリースから

    https://ja.stability.ai/blog/japanese-stable-lm-2-16b

    🎉日本語特化の言語モデル「Japanese Stable LM 2 1.6B」をリリースしました🎉

    Japanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日本語の小型言語モデルです。
    こちらのモデルはStability AI メンバーシップにご加入いただくことで商用利用が可能です。

    詳細はこちら💁‍♀️… pic.twitter.com/b35t2Il4lm

    – Stability AI Japan (@StabilityAI_JP) May 9, 2024

    • Japanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日本語の小型言語モデルです。
    • JSLM2 1.6Bのモデルサイズを16億パラメータという少量にすることによって、利用するために必要なハードウェアを小規模に抑えることが可能であり、より多くの開発者が生成AIのエコシステムに参加できるようにします。
    • ベースモデルとしてJapanese Stable LM 2 Base 1.6Bと、指示応答学習(Instruction tuning)済みのJapanese Stable LM 2 Instruct 1.6Bを提供します。両モデルとも Stability AI メンバーシップ で商用利用が可能です。また、どちらのモデルもHugging Faceからダウンロードすることができます。

    Stability AI Japanは16億パラメータで学習した日本語の言語モデルJapanese Stable LM 2 1.6B(JSLM2 1.6B)の ベースモデル指示応答学習済みモデルをリリースしました。ベースモデルの学習ではWikipediaやCulturaX等の言語データを利用、指示応答学習では jasterIchikara-Instruction 、Ultra Orca Boros v1の日本語訳等、商用データおよび公開データを利用しました。今回のJSLM2 1.6Bでは言語モデリングにおける最新のアルゴリズムを活用し、適度なハードウェアリソースで迅速な実験を繰り返すことを可能にし、スピードと性能を両立しました。

    性能評価

    Nejumiリーダーボードを用いて、他の小規模パラメータのモデルと比較したJSLM2 1.6Bの性能は以下のとおりです。今回は llm-leaderboard(の社内Fork)のcommit c46e165 を用いています。

    (サイズが)16億パラメータという小型モデルでありながら、40億パラメータ以下のモデルのスコアよりも高いスコアを達成し、70億パラメータのモデルに近いスコアを獲得しています。

    高性能な小型言語モデルをリリースすることで、言語モデル開発の敷居を下げ、より高速に実験を反復することを可能にします。なお、少ないパラメータ数の小型モデルであるため、より規模の大きいモデルで発生しうるハルシネーションや間違いをおかす可能性があります。アプリケーションでのご利用の際には適切な対策を取るようご注意下さい。JSLM2 1.6Bのリリースを通じて、日本語LLMのさらなる開発と発展に貢献できると幸いです。

    商用利用について

    JSLM2 1.6Bは Stability AI メンバーシップで提供するモデルのひとつです。商用でご利用したい場合は、 Stability AIメンバーシップページから登録し、セルフホストしてください。

    Stability AI の最新情報は 公式XInstagram をチェックしてください。

    (以上、公式リリース情報終わり)

    Google Colabで実際に使ってみる

    それでは早速Google Colabで体験していきましょう。
    基本は 公式のサンプルコードに従って、Google Driveで新規作成→Google Colab Notebookで構築していきます。
    (完動品のコードへのリンクはこの記事の最後に紹介します)
    Google ColabはGPUや搭載メモリサイズなどを気にしなくて良いので気軽に学習環境として試すことができます。

    以下は公式のサンプルコードです。

    import torch
    from transformers import AutoTokenizer, AutoModelForCausalLM

    model_name = "stabilityai/japanese-stablelm-2-instruct-1_6b"
    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

    # The next line may need to be modified depending on the environment
    model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True,
    device_map="auto",
    trust_remote_code=True,
    )

    prompt = [
    {"role": "system", "content": "あなたは役立つアシスタントです。"},
    {"role": "user", "content": "「情けは人のためならず」ということわざの意味を小学生でも分かるように教えてください。"},
    ]
    inputs = tokenizer.apply_chat_template(
    prompt,
    add_generation_prompt=True,
    return_tensors="pt",
    ).to(model.device)

    # this is for reproducibility.
    # feel free to change to get different result
    seed = 23
    torch.manual_seed(seed)

    tokens = model.generate(
    inputs,
    max_new_tokens=128,
    temperature=0.99,
    top_p=0.95,
    do_sample=True,
    )

    out = tokenizer.decode(tokens[0], skip_special_tokens=False)
    print(out)


    リポジトリへの利用申請

    まずは下準備として、HuggingFaceでアカウント作成し、 モデルカード からStability AIリポジトリへの利用申請、以下の質問に答えましょう。

    大事なポイントは最後のメールニュースの受信のためのメールアドレスを入れることですね。

    ✨️なお AICU は Stability AI 商用メンバーです✨️

    利用申請が承認されていると、上のフォームは表示されず、「Gated model」と表示されます。

    Google Colabのシークレット機能

    Google ColabとHuggingFaceに最近実装された機能なのですが、左側の「シークレット」から「HF_TOKEN」という環境変数を指定します。

    環境変数、ファイルパス、またはキーを保存することにより、コードを構成することができます。ここに保存される値は非公開であり、ユーザ自身と選択したノートブックにのみ表示されます

    「+新しいシークレットを追加」を押します

    並行して、HuggingFaceの「Settings」>「Access Tokens」でトークンを作りましょう。
    https://huggingface.co/settings/tokens

    「Colab-HF_TOKEN」という名前をつけて、権限は「WRITE」をONにします(READだけでも動きますが、 HuggingFace推奨はWRITE)。
    取得したユーザーアクセストークン(hf_で始まる文字列)を「HF_TOKEN」の「値」に貼り付けます。
    「ノートブックからのアクセス」をONにします。

    これで
    token = userdata.get(‘HF_TOKEN’)
    と書くだけで、HuggingFaceのトークンが参照できます。

    もちろん、Pythonスクリプトに直書きしたいひとは
    token=”(あなたのHugginFaceトークン)”
    もしくは
    !huggingface-cli login — token $token 
    でも動くと思います!

    スクリプトを起動

    https://j.aicu.ai/JSLM2B16B

    コードはこちらです

    吾輩は猫である、名前は…
    Setting `pad_token_id` to `eos_token_id`:100257 for open-end generation.
    吾輩は猫である、名前は…まだない。 そもそも「名前を付ける必要があるのか?」 それを考えるのに、10歳を目前にしている吾輩である。 しかし、他の猫達との差別化という意味では、あった方が良いとも思うし、なんせ名前があるという安心感から、猫は猫らしく、自由気ままにやりたい

    Colabは動作環境を選べるのですが、CPUでの実行だとでだいたい1分以下で生成されます。

    吾輩は猫である、名前は…名無しである。 名前はない。 何故なら、吾輩は名前を言いたくないのだ。 それを、そのことを知っている奴らが「名無し」と呼ぶのである。 そいつらを、「名付き」の奴らと呼ぼう。 吾輩が名無しと呼ばれるのは「何も持っていないから」である。 何も持っていないから、それ

    吾輩は猫である、名前は… といえるほど、名前が思い浮かばないのは、私だけでしょうか? そうは言っても、「猫じゃらし」は、その場によって名前のバリエーションがたくさんありますよね。 そういう「猫じゃらし」が持つ、イメージとか、意外な性格とか、飼い猫のネコじゃらしの場合を

    吾輩は猫である、名前は…まだないのである。 ここは、吾輩が住み慣れた部屋、何も特徴のないところだ。 場所は不確かだが、とにかく部屋だけはここになって、ずっとこの部屋で暮らしているのだ。 なんでこんなことを言っているかというと、吾輩の部屋が消えて、別…

    続いてT4 GPUで実行してみました。
    4–5秒で以下のテキストが生成されました。

    途中で、Do you wish to run the custom code? [y/N] が表示されたら、y を押してEnterキーで入力してください(環境によるようです)。

    GPUのメモリ(GPU RAM / VRAM)は7.7GBと、標準的なゲーミングPC2搭載されている8GB以下でも動きそうです。

    Setting `pad_token_id` to `eos_token_id`:100257 for open-end generation.というワーニングが表示されますが、これは このあたりの 情報を見ながら実際の設定を作っていくと良さそうです。

    GUIでチャットボットを試したい方は Instruct版を試してみよう!

    時同じくして、アドボケーター仲間のDELLさんが Japanese Stable LM 2 Instruct 1.6B の Google Colab版コードを公開してくれています。

    Gradioインタフェースで日本語チャットを楽しめます!

    まとめ

    以上、Stability AIが公開した最新の日本語大規模言語モデル「Japanese Stable LM 2 1.6B」をGoogle Colabのシークレット機能で短いコードを書いてみました。Google Colabでの環境も今回のシークレット機能の他にもTransoformersが標準搭載になったりしていますので、いきなりローカル環境で試すよりも良いことがいっぱいありそうですね!

    AICU mediaでは日本語LLMについての実験的な話題も増やしていきたいと思います。ぜひフィードバックやシェア、X(Twitter)でのコメントなどいただければ幸いです。
    腕だめしをしたいライターさんや学生インターンも引き続き募集中です。


    Originally published at https://note.com on May 9, 2024.

  • Stability AI が Discordで利用できる多機能メディア生成サービス「Stable Artisan」をリリース!早速試してみた

    Stability AI が Discordで利用できる多機能メディア生成サービス「Stable Artisan」をリリース!早速試してみた


    Stability AI が Discordで利用できる多機能メディア生成サービス「Stable Artisan」をリリース!早速試してみた

    Stable Artisanとは? Discord内で高品質の画像や動画を生成・編集できるDiscordボットです。Stable Diffusion 3、Stable Video Diffusion、Stable Image Coreのパワーを活用しています。

    登録・利用はこちら https://stability.ai/stable-artisan

    メディア生成に加え、Stable Artisanには、検索と置換、背景の削除、クリエイティブ・アップスケール、アウトペインティングなど、作品を編集するためのツールが用意されています。

    使い方は簡単、/dreamコマンドで。

    まず、 https://stability.ai/stable-artisan でアカウントを作成し、artisan-1、artisan-2、artisan-3、artisan-4、artisan-5 のいずれかのチャンネルにアクセスして、/dream を使って制作を始めてください

    チャンネルの中で、入力できるチャンネルを探してください。
    (たとえば artisan-2 が利用できました)

    スラッシュコマンド「/dream」と入力すると、こんな感じにオプションが表示されます。
    ・プロンプト
    ・ネガティブプロンプト
    ・縦横比
    ・モデル(コアモデルとSD3が選べます)
    ・シード指定
    ・画像生成枚数
    不要な要素は省略して構いません!

    気になる料金は

    スラッシュコマンド「/credits」で確認できます。

    今月は 1/200 のクレジットが残っています。 Stability Artisan 機能のクレジットレート: 
    Image Core 3 SD3 6.5 Creative Upscale 25 Search & Replace 4 Outpaint 4 Remove Background 2 Sketch Control 3 Structure Control 3 Video 20
     Info クレジットは、成功した個々の生成ごとに計算されます。 たとえば、/image を使用して 2 つの画像を取得した場合、2x 3、つまり合計 6 クレジットを使用します。 これはまた、生成に失敗した場合(エラーや自動フィルタリングなどによる)、失敗した生成分のクレジットが返金されることを意味します。

    Platform APIサービスの詳細については、こちらをご覧ください: https://platform.stability.ai/docs/getting-started/stable-image

    もし行き詰まったら、Artisanチャンネルで/helpを使えば、Stable Artisanの使い方についてより詳しいヘルプが得られます

    関連:Stable Assistantと間違えないように…

    4月にリリースされたStable Assistantと間違えないようにしましょう。

    間違って登録したプランをキャンセルするには?

    ウェブサイト(https://assistant.stability.ai/login)からアカウントにログインし、メールアドレスの頭文字が表示されている右上のボタンをクリックします。 次に、”Manage Subscription “をクリックし、右上の “Cancel plan “をクリックします。 “プランのキャンセル “をクリックしてキャンセルを確定します。

    利用規定

    利用規約はこちら https://stability.ai/terms-of-use

    それでは、良い作品作りを!
    https://youtu.be/MWfb30kWqTM


    Originally published at https://note.com on May 9, 2024.

  • 漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!

    漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!

    4月に入り、X や kindle インディーズで AI で漫画を見かける機会が増えてきました。最近のイラスト系画像生成 AI では、漫画が流行の兆しを見せてきているようです。

    参考:SD黄色本

    書籍[画像生成AI Stable Diffusionスタートガイド] – つくる人をつくる AICU Inc.ja.aicu.ai

    参考:人気AI漫画家・けいすけ氏の「マンガの作り方」

    Amazon.co.jp: AIとCanvaでできる!マンガの作り方 みんなのマンガ物語 eBook : けいすけ: Kindleストア

    そこで AICU media では、「AI で漫画を作ってみたいけど、どのモデルを使えばいいんだろう…」という方向けに、白黒漫画制作に適した Stable Diffusion のモデルを調査しました!

    Animagine 3.1

    まずはアニメ系 SDXL の主流モデルとなっている「Animagine」の最新バージョンである Animagine 3.1 でモノクロイラストを生成してみましょう。

    プロンプト「best quality , monochrome , lineart,1girl, bob cut, flat chest , short hair , school uniform, round_eyewear, hand on hip,looking at viewer,open mouth,white background」

    ネガティブプロンプト「worst quality, low quality,blush, lowres, bad anatomy, bad hands」

    画像
    画像
    カワイイ女子高生は腰に手を当てているだけでカワイイ

    プロンプト通りの要素が生成されていて、質も良いですね!
    インク溜まりのような表現と、影部分の塗りつぶしがかわいいです。

    Animagine 3.0

    試しにひとつ前のバージョンである Animagine 3.0 でも生成してみましょう。
    プロンプトは前回と同様です。

    画像
    画像

    皆さん、気が付きましたか?
    Animagine 3.0 で生成した方が、線がとても綺麗に生成されています!

    画像
    3.0(左)と3.1(右)

    線の解像度が全く違うことがわかります。
    Animagine を使用する場合は、最新バージョンの 3.1 よりもひとつ前の世代の 3.0 を使用するのが良さそうですね。

    Animagine の年代タグを試す

    ここまで Animagine のバージョンを変えて試してみましたが、Animagine というと特徴的なのは年代タグです。年代タグというのは、絵柄の古さを調節できるタグのことです。

    詳しい比較、解説はこちらで行っています。

    https://note.com/embed/notes/n70122ef250d9

    Animagine の年代タグは、Animagine 3.1 の方が効果が反映されやすい感覚がありましたが、漫画を制作するとなるとどの程度絵柄に影響が出るのでしょうか。

    まず、Animagine 3.1 の「oldest(最も古い)」と「newest(最も新しい)」を試してみます。

    プロンプト「best quality , monochrome, lineart, 1girl, school uniform, smile, looking at viewer,open mouth,white background, (年代タグ)」

    oldest (Animagine3.1)

    画像

    Animagine3.1の「oldest」は 「2005 to 2010」とあります。たしかにそういう雰囲気があります。
    シンプルな目や影の濃い鼻、等幅の髪の毛がモノクロにも落とし込まれていますね。

    newest (Animagine3.1)

    画像


    「newest」も、流行りの華やかですっきりとした雰囲気が出ています(2022 to 2023)。

    また年代タグを指定していない時よりも、線が綺麗に生成されているような印象を受けます。そういう特性があるのでしょうか。

    次に、Animagine 3.0 の「oldest」と「masterpiece」を試してみましょう。プロンプトは同じです。

    oldest (Animagine3.0)

    画像

    masterpiece (Animagine3.0)

    画像

    Animagine 3.1 と比較すると、やはり線はこちらの方が若干綺麗であるものの、絵柄の差があまり出ていませんね。Animagine 3.1 の方が「oldest」のインパクトがあります。

    結果発表!

    生成して比較した結果、

    単純に漫画のようなモノクロ画像を生成したい場合:Animagine 3.0
    絵柄を古くしたりなど、年代タグを使いたい場合:Animagine 3.1

    という結果になりました!

    場合によって使い分けるのが最も有効だという結果は予想していなかったので、とても面白い実験になりました。

    公式のモデルカードを調べてみると年代タグについては以下のように微妙に異なりました。

    Animagine 3.0 Year Modifier
    Year Tag Year Range
    newest 2022 to 2023
    late 2019 to 2021
    mid 2015 to 2018
    early 2011 to 2014
    oldest 2005 to 2010

    年号修飾子 また、特定の現代アニメやヴィンテージアニメのアートスタイルにより正確に結果を導くために、年号の範囲を再定義しました。このアップデートでは、現在と過去の時代との関連性に焦点を当て、範囲を簡素化しました。

    Year Tag Year Range
    newest 2021 to 2024
    recent 2018 to 2020
    mid 2015 to 2017
    early 2011 to 2014
    oldest 2005 to 2010

    おまけ

    プロンプトに「comic」を入れて生成すると、漫画っぽい画像が生成できます!画像生成AIあるあるの「文字風の線」も生成されます。興味のある方は試してみてください。

    画像
    上目遣いかわいい!
    画像
    ちょっとこわいけどかわいい

    生成した画像を加工すれば、漫画にも使えますね。

    アイビスペイントを使った漫画の描き方については、
    デジタルハリウッド大学大学院「クリエイティブAIラボ」が技術書典に同人誌としてまとめいらっしゃいますのでこちらもご参考まで。


    メタバースで(ともいき)漫画を描く:DHGS_CAIL デジハリ大学院「クリエイティブAIラボ」
    「メタバースで(ともいき)漫画を描く」 著者: しらいはかせ・Kotone・Itsuki・Lucas・傷だらけのキューティtechbookfest.org

    漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較! | AICU media @AICUai #note https://note.com/aicu/n/n393f2cebfc75


    #AI漫画 #AICU #つくる人をつくる #SD黄色本

    画像
    カワイイけど何言ってるかわからない!
  • AI の価値は「技術」にあらず?トークセッション「AIファースト時代の広告代理店のマネタイズ戦略を考える」#Web3BB

    AI の価値は「技術」にあらず?トークセッション「AIファースト時代の広告代理店のマネタイズ戦略を考える」#Web3BB

    2024年4月25日、26日に国立新美術館で開催された Web3 AIマーケティングBB(Beyond Borders)は、東京と米国シリコンバレーに法人をもつ Pivot Tokyo が主催・運営する、最先端テクノロジーとマーケティングの融合を探求するイベントです。

    Day1 のレポートはこちら

    Day2 に開催されたNVIDIA基調講演はこちら

    この記事では、Day2 の 11:00 ごろから行われたセッション、
    「AIファースト時代の広告代理店のマネタイズ戦略を考える」
    にて、AIファースト時代の広告代理店が実際にどのような試行錯誤をしているか、興味深い議論が交わされた様子をレポートしていきます。

    画像

    写真右から
    [モデレーター]  小山 隼司 (社長執行役員CEO, アドイノベーション株式会社)
    山田 翔(代表取締役, 株式会社アドウェイズ)
    柴山 大(Hakuhodo DY ONE / 博報堂テクノロジーズ執行役員)
    山内 大輔(代表取締役, 株式会社 ID Cruise)

    トークセッションは、以下のトピックに沿って進みました。

    画像

    トピック1: 正直、AI 活用フルで出来てますか?

    小山(アドイノベーション) – では、「正直、AI 活用フルで出来てますか?」のテーマから始めましょうか。
    私の会社ではまだまだ通常業務での AI フル活用はできていないと感じるのですが、お三方はいかがでしょうか?

    柴山(博報堂) – 博報堂では業務にかなり AI を組み込んでいます。
    検索連動型広告ってすごく量が多いじゃないですか。ビッグワードやミドルワードに対してそれぞれ広告を入れる。AI なしには運用できないですね。
    やっぱり人間が書いた方が情緒に溢れてるんですけど、クリック数が多いキャッチコピーはAIの方が良く知っているんです。
    カスタマージャーニーやペルソナも AI が企画しています。社内では年間 2000 ~ 3000 ペルソナが生み出されています。欠かせない存在ですね。

    小山 – では、業務効率もかなり上がっているんですね?

    柴山 – そうですね。暇になるわけではありませんが、ペルソナを作る際に、資料をみながら考える時間がかなり減りました。

    小山 – ありがとうございます。山田さん(アドウェイズ)はメディア事業も行われていますが、その点いかがですか?

    山田(アドウェイズ)– まだ横断した組織を作れておらず、AI のフル活用はできていないですね。
    それぞれの部署で AI は使用していて、ぺルソナ作りやブランディングには使用しています。業務の効率化、標準化は進みましたが、AI によって新たな価値が生まれるところまでには至っていません。現在は各部門の AI が得意な人を集めて、中央集権的に仕組みを作ろうとしています。

    小山 – ありがとうございます。山内さん(ID Cruise)は AI 開発を行っているので、やはり業務でも AI を活用されているんですか?

    山内(ID Cruise)– そうですね、コードを書く作業は ChatGPT を活用しています。エンジニアの業務削減にはなっていますが、活用できるかどうかはアイデア次第ですね。

    トピック2 : AI 時代の広告代理店の価値

    小山 – これから AI に強い代理店が必要になっていったり、効率化により1人で代理店が経営できる世界になるかもしれません。またデータの質も重視されるようになると思います。数年後まで見た時、代理店は何を求められるのでしょうか?

    山田 – 運用型広告はAIにとってかわられ、販売代理店などはしんどくなるのではないかと感じています。
    顧客のマーケットをどれだけ広げられるかが伸びるかどうかの分岐点なので、そこにどれだけ AI を活用できるかが勝負です。従来の広告代理店の、人数に頼った運営をできるだけ早く脱却しなくてはいけません。

    小山 – なるほど。柴山さんはどうですか?

    柴山 – AI はマーケターというよりオペレーターですよね。代理店の価値はマーケターを増やすことだと考えています。
    マーケターの教育は人間がやらなければいけないことで、大きなコストがかかる。その質を担保するのが代理店の役割になると思います。
    また、新しいメディアを横断的に運用、情報収集することは代理店の仕事ですね。
    これからの AI は集合知が加速するだろうことに注目が必要です。

    小山 – 難しいところですよね。データが少ない代理店はゲームや EC など専門分野に特化するしかなくなるとは思いつつ、クライアントの要望を見極めることも重要ですね。
    山内さんは開発者として問い合わせが多く来ると思いますが、どういった要望が多いのですか?

    山内 – そうですね、広告運用だけでなく、会社やクライアントを巻き込み売り上げを上げるための商流などをふまえて、売り上げ向上の手伝いを求められるようになりましたね。

    トピック3 : 広告主側のメリット、ニーズ

    小山 – 最近は「生成 AI で楽ができるのは代理店だけ」という意見を聞くことがあり、クライアントにが生成 AI でどのような利益を得られるのか説明が必要なシーンがあります。皆さんは業務に AI を使用することを顧客にどう説明していますか。

    山田 – 私は、AI がどこでどう使われているかは説明する必要がないと思っています。商品自体の価値が大切かと。
    ただ、「このデータは AI が分析しました」のように説得力をアピールすれば、気難しいお客さんの説得材料として有用ですね。

    トピック4 : AI 活性化による脅威

    小山 – Google が生成 AI を活用、制作しているなど、生成 AI によって代理店の仕事が脅かされる懸念があるのではないかと思います。皆さんは AI 活性化による脅威をどう捉えていますか?

    柴山 – ほとんどないんじゃないですかね。Google は広告のことを良く知っていますが、OpenAI は「いい広告」のデータを入手できない。
    僕は彼らのことをパートナーとして考えています。技術や自社の情報を組み合わせて新たな機会をつくれそうです。

    小山 – ありがとうございます。山田さんいかがですか?

    山田 – 広告プラットフォームはセルサイドなので、どう売るかという視点で AI を作ってきます。でも代理店はバイサイドなので、プラットフォームを横断してどう買うかという目線でものをつくります。なので全く違うものであることは生成 AI が活性化してもかわらないと思います。
    しかし少し前まで AI は使わなくても良かったのですが、今はもう「やらなくてはいけないもの」になりました。波に乗らないことが大きな脅威ですね。

    トピック5 : AI でのマネタイズ

    小山 – 自分は AI 単体でのマネタイズは難しいと思っていて、価値提供の仕方が大切だと思っています。皆様事例や考え方はありますか?

    柴山 – おっしゃる通り、 AI ツール単体で売るのは超劣等種なんですよね。OpenAI のおかげで安く全員キャッチアップできるので、ツール紹介は代理店としてはありえないです。
    しかし、ツールを使ったうえでどのような判断をするか、何を選択するか、AB テストのようなものはマネタイズできると思います。

    小山 – ありがとうございます。山内さんは開発したものを売っている立場からみていかがですか?

    山内 – AIツールの需要はありますね。また、依頼時に手数料の一部でバナーを制作するといった悪い慣習をなくしたいです。まだ課題が残りますね。

    小山 – ありがとうございます。アドウェイズさんは今後のマネタイズ戦略などありますか?

    山田 – 先ほども触れましたが、現在代理店用の内部システムを開発中で、プラットフォームの提供などを進めたいです。中身の一部が AI になるという形で価値を提供したいですね。

    小山 – ありがとうございました。まだまだお話したいところではありますが、時間が来てしまったので、今回のセッションは終了させていただきます。ありがとうございました。

    (拍手)

    取材後の AICU media の感想

    皆さんの意見が、「AI 技術自体ではなく、それをどう活用するかが価値で、マネタイズすべき箇所」というところで一致していたことが印象深かったです。すごい AI 技術を「すごい」で終わりにせず、セルサイド、バイサイドでみて、何に使用すると価値が生じるかを考え、売ることが AI 時代のマネタイズだと感じました。

    引き続き2日目の講演のレポートを行っていきます!

    Day1 のレポートはこちら

    Day2 に開催されたNVIDIA基調講演はこちら