タグ: ChatGPT

  • [5]ComfyUI カスタムノード徹底解説!機能とメリットを理解しよう

    こんにちわ、AICU media編集部です。
    「ComfyUI マスターガイド」第5回目になります。今回は、「カスタムノード」について、実際にインストールをした後の使い方と合わせて掘り下げていきたいと思います。

    前回はこちら シリーズ初回はこちら

      1. カスタムノードとは?

      カスタムノードとは、使う人が独自に機能を拡張することができる、ComfyUIの「拡張パーツ」のようなものです。まるでレゴブロックのように、様々なカスタムノードを組み合わせることができるので、自分だけのオリジナル作品を創造していくことできます。とても楽しそうですね!

      さて、カスタムノードがなぜあるのか。それは、使う人一人ひとりのニーズや創造性に合わせた柔軟な画像生成環境を提供するためです。標準機能だけでは実現できない、細かな調整や特殊効果、また最新のAI技術の導入などをカスタムノードでは行うことができます!

      初心者にとって、カスタムノードを理解することは、ComfyUIの可能性を最大限に引き出すための非常に重要な一歩となります。最初は難しく感じるかもしれませんが、この記事を通して、ぜひカスタムノードの基本的な知識を理解いただき、さらにComfyUIの世界をより深く探求するきっかけにしてみてください。

      2. カスタムノードの基礎知識

      カスタムノードとは何か

      カスタムノードは、ComfyUIの機能を拡張するためのユーザー定義のモジュールになります。料理で例えると、標準ノードが「基本的なレシピ」だとすれば、カスタムノードは「その人それぞれの独自のレシピ」と言えるでしょう。

      例えば、「野菜炒め」という料理を作る際に、野菜を切る、炒める、味付けをするといった基本的な手順は標準ノードでカバーできます。しかし、「特製ソースを使う」「隠し味を加える」といった独自の工夫は、カスタムノードで実現できます。

      画像

      カスタムノードの基本的な構造は、標準ノードと同様に、入力 → 処理 → 出力の流れで成り立っています。入力として画像やテキストなどのデータを受け取り、内部でPythonコードによって処理を行い、結果を出力します。

      例えば、「色調整ノード」であれば、入力として画像データを受け取り、明るさやコントラストなどを調整し、調整後の画像データを出力します。また、「プロンプト拡張ノード」であれば、入力として短いプロンプトを受け取り、それを詳細なプロンプトに拡張して出力します。

      カスタムノードとPythonの関係

      カスタムノードの内部処理は、Pythonというプログラミング言語で記述されています。Pythonは、その読みやすさと豊富なライブラリ、活発なコミュニティサポートによって、世界中で広く使われているプログラミング言語です。

      Pythonがカスタムノードに使用されている理由は、その柔軟性と拡張性の高さにあります。様々なライブラリを活用することで、画像処理、自然言語処理、機械学習など、多岐にわたる機能を簡単に実装できます。

      Pythonコードの基本構造は、入力の受け取り → 処理 → 出力の生成という流れです。カスタムノードでも、このPythonコードによって入力データを処理し、 望ましい出力を生成します。例えば、以下のようなコードでカスタムノードは作成されています。

      # カスタムノードの基本構造を示すサンプルコード
      
      # 1. 必要なライブラリをインポート
      import numpy as np
      from PIL import Image
      
      # 2. カスタムノードのクラスを定義
      class SimpleImageProcessor:
          # 3. 初期化メソッド
          def __init__(self):
              self.brightness_factor = 1.5
      
          # 4. 入力を受け取り、処理を行い、出力を生成するメソッド
          def process_image(self, input_image):
              # 入力画像をNumPy配列に変換
              img_array = np.array(input_image)
      
              # 画像の明るさを調整
              brightened_array = np.clip(img_array * self.brightness_factor, 0, 255).astype(np.uint8)
      
              # 処理結果を新しい画像として生成
              output_image = Image.fromarray(brightened_array)
      
              return output_image
      
      # 5. カスタムノードの使用例
      if __name__ == "__main__":
          # 入力画像を読み込む(実際のComfyUIでは自動的に提供されます)
          input_img = Image.open("input_image.jpg")
      
          # カスタムノードのインスタンスを作成
          processor = SimpleImageProcessor()
      
          # 画像を処理
          result_img = processor.process_image(input_img)
      
          # 結果を保存(実際のComfyUIでは自動的に次のノードに渡されます)
          result_img.save("output_image.jpg")
      
          print("画像処理が完了しました!")

      何が書いてあるかわからない?安心してください!Pythonコードを理解していなくても、カスタムノードを利用できます!ComfyUIは、ユーザーフレンドリーなインターフェースを提供しており、コードを直接操作することなく、カスタムノードの機能を活用できるのです。

      標準ノードとカスタムノードの違い

      標準ノードは、ComfyUIにデフォルトで搭載されている基本的な機能を提供するノードです。例えば、画像を読み込む「Load Image」や、プロンプトを入力する「CLIP Text Encode (Prompt)」などが挙げられます。これらのノードは、ComfyUIの基本的な操作を行うために必要不可欠です。

      しかし、標準ノードだけでは実現できない機能や、より高度な処理が必要になる場合もあります。そこで登場するのがカスタムノードです。カスタムノードでは、標準ノードではカバーできない機能を補完し、ComfyUIの機能を拡張することができます。

      例えば、複数の標準ノードを組み合わせて行っていた複雑な処理を、1つのカスタムノードにまとめることで、ワークフローを大幅に簡略化することもできます。また、最新のAIモデルを統合したカスタムノードを使用することで、より高品質な画像生成が可能となります。

      3. カスタムノードの重要性

      ComfyUIの柔軟性向上

      カスタムノードは、ComfyUIの柔軟性を飛躍的に向上させます。使う人は自分のニーズや好みに合わせて、様々な機能を追加し、ComfyUIを自分だけのツールへとカスタマイズすることができます。例えば、特定の画風や効果を簡単に適用できるカスタムノードを作成することで、自分だけのオリジナル作品を効率的に制作することも可能です。

      画像

      ユーザー体験の改善

      カスタムノードは、複雑な操作を簡略化しより直感的にComfyUIを使用できるようになります。また、視覚的にわかりやすいアイコンや名称を使用することで、ノードの機能を容易に理解し、スムーズなワークフローを実現できます。

      例えば、「efficiency-nodes-comfyui」というカスタムノードでは、モデルのロード(Load Checkpoint)、プロンプトの入力(CLIP Text Encode (Prompt))、空の潜在空間の作成(Empty Latent Image)などを1つのノードにまとめ、簡略化を実現しています。
      実際にインストールをしてみてみましょう。

      画像

      ワークエリア上でカチカチッとダブルクリックをして『efficient』と入力したら…出てきました!早速クリックをしてみます。

      画像

      補足です。空の潜在空間の作成(Empty Latent Image)とはいつもの text to imageな空の潜在空間では、画像のサイズや生成回数を記入しているノードのことです。

      画像

      通常の「Empty Latent Image」ノード
      ここではempty_latent_width, empty_latent_height, は 512, 512(SD1.5系)もしくは、1024, 1024 (SDXL系)、batch_size(生成回数) 1→15 など、用途に合わせて記入しましょう。

      画像生成プロセスの最適化

      カスタムノードは、画像生成プロセスの最適化にも貢献します。最適化されたアルゴリズムを使用することで、処理速度を向上させ、より短時間で高品質な画像を生成できます。また、高度なノイズ除去や詳細強化機能を追加することで、画像の品質をさらに向上させることができます。
      例えば、「ComfyUI_IPAdapter_plus」というカスタムノードでは、IP-Adapterという参照画像を基に画像生成を行える技術を簡単に使用することができるノードです。標準ノードでは実現が難しい技術をカスタムノードでサポートしています。

      画像

      コミュニティ駆動の革新

      カスタムノードは、ComfyUIコミュニティの活発な活動を促進し、革新的なアイデアを生み出す原動力となっています。使う人々が自由にアイデアを共有し、カスタムノードとして実装することで、多様なニーズに対応した機能が次々と誕生しています。特定の業界や用途に特化したカスタムノードも開発されており、ComfyUIの可能性は無限に広がっています。

      画像

      プログラミングの知識がなくても活用できる利点

      カスタムノードは、プログラミングの知識がなくても活用できるという大きな利点があります。ユーザーフレンドリーなインターフェース、コミュニティによるサポート、豊富な情報源など、初心者でも安心してカスタムノードを利用できる環境が整っています。最初は既存のカスタムノードを使用し、徐々に使い方を学び、最終的には自分でカスタムノードを開発する、といった段階的な学習も可能になってきます。

      画像

      4. まとめ

      カスタムノードは、ComfyUIの機能を拡張することで、ユーザー体験は格段と向上します。Pythonで記述されたこれらのモジュールは、ワークフローの効率化、高度な機能の追加、コミュニティ駆動の革新など、様々なメリットをもたらすことができます。

      Pythonとカスタムノードの関係を理解することで、ComfyUIの無限の可能性を最大限に引き出すことができます。初心者の方は、まずは既存のカスタムノードを試してみて、その機能や使い方を学んでみましょう!コミュニティのサポートや豊富な情報源を活用することで、徐々にカスタムノードに慣れていくことができます。

      今回は以上になります。
      どんどんComfyUIについて学ぶことが出来ているのではないでしょうか?この後のボーナストラックではお得なTipsを公開しております。次回も楽しくComfyUIを学べるような内容をご用意しておりますので是非楽しみにしていてください!

      画像生成AI「ComfyUI」マスターPlan

      画像

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。

      ✨️オトクなメンバーシップについての詳細はこちら


      この記事の続きはこちらから https://note.com/aicu/n/n5d5e6b0199b3

      Originally published at https://note.com on Aug 12, 2024.

    1. [4]ComfyUIカスタムノード導入ガイド! 初心者でも安心のステップバイステップ解説

      こんにちわ、AICU media編集部です。
      「ComfyUI マスターガイド」第4回目になります。今回は、ComfyUI Managerの基本的な使い方についてお届けしたいと思います。
      この先のComfyUIの使いこなしを学ぶ上で、必須となる「カスタムノード」と「モデル」の導入にあたり必須の知識を解説します!

      前回はこちら シリーズ初回はこちら

      ComfyUIを最大限に活用するための第一歩!

      ComfyUIの拡張機能は、画像生成の幅を広げるために必須なツールです!様々な効果や機能を追加することで、あなたのアイデアを形が更に広がっていきます。この記事では、基本となるカスタムノードモデルのインストール方法をステップバイステップで解説していきます。

      ComfyUI Managerへのアクセス

      • メニューバー下部の「Manager」ボタンをクリックします。
      画像
      • ComfyUI Managerのインターフェースが新しいウィンドウで開きます。
      画像

      カスタムノードのインストール

      • Manager画面の「Custom Nodes Manager」ボタンをクリックします。
      画像
      • 利用可能なカスタムノードのリストが表示されます。
      画像
      • インストールしたいノードの横にある「Install」ボタンをクリックします。

        ★このあとアンインストールまで試しますので何を選んでも構いません。
      画像
      • インストールが完了すると、ComfyUIの再起動を求められるので、下部の「Restart」ボタンを押下します。
      画像
      • 再起動が完了するまで待機します。再起動中は、”Reconnecting…”というメッセージが中央に表示され、完了すると、このメッセージが消えます。
      画像
      • 再度「Custom Nodes Manager」を開き、以下の画像のように表示が変わっていると、インストールが完了しています。
      画像

      このとき、『Restart Required』の表示から変わらないようでしたら、
      ブラウザから更新をしてみると解決するかもしれません。

      「使いたいけど、まだ入れてないノードがある!」そんな時は

      例えば、他の人が作成したワークフローを自身のComfyUI環境に読み込ませて使用する際に、自身の環境にインストールされていないカスタムノードが使用されている場合、以下の画像のようにノードにエラーが発生することがあります。これを解消するために、インストールされていないノードのみを表示し、インストールしてくれる機能がComfyUI Managerにはあります。

      画像
      • エラーのあるワークフローを表示している状態で、Manager画面の「Install Missing Custom Nodes」ボタンをクリックします。
      画像
      • インストールされていないカスタムノードの一覧が表示されます。ここから前項で解説したカスタムノードのインストールを実行することで、現在のワークフローに必要なカスタムノードのみをインストールできます。
      画像

      モデルのインストール

      カスタムノードのインストールについては以上となります。
      次は、モデルのインストールについて説明をしてまいります。
      モデルとは、Stable Diffusionでオリジナルの画像を生成するために必要な学習済みファイルのことを指しております。公開されている様々なモデルを利用することで、イラスト風や実写風など様々なテイストで画像を生成することができます。

      ここでは練習として「TAESD」をインストールしてみます。
      ★このあとアンインストールまで試しますので何を選んでも構いません。

      早速試してみましょう!

      • 「Models Manager」ボタンをクリックします。
      画像
      • 利用可能なモデルのリストが表示されます。
      画像
      • インストールしたいモデルの横にある「Install」ボタンをクリックします。
      画像
      • インストールが完了すると、Refreshを求められます。
      画像
      • メインメニューで「Refresh」ボタンをクリックします。
      画像
      • 再度「Models Manager」を開くと、「Install」にチェックが入っており、インストールができていることが確認できます。
      画像
      • インストールされたモデルは、「Save Path」で指定されているフォルダに格納されます。今回の例だと、”ComfyUI/models/vae_approx“フォルダに格納されます。
      画像

      不要なモデルはディスク節約のために削除しておきましょう。

      アップデートの実行

      • Manager画面には、3種類のアップデート方法が用意されています。それぞれのボタンを押下することで、アップデートが実行されます。
        • Update All: ComfyUI本体およびカスタムノードを最新の状態に更新します。
        • Update ComfyUI: ComfyUI本体のみを更新します。
        • Fetch Updates: カスタムノードのみを最新の状態に更新します。
      画像

      注意点

      • カスタムノードやモデルをインストールする前に、それらの機能や使用方法をよく理解することが重要です。
      • 大量のカスタムノードをインストールすると、ComfyUIの起動時間が長くなる可能性があります。
      • モデルのダウンロードには時間がかかる場合があります。特に大きなモデルの場合は注意が必要です。

      ComfyUI Managerを効果的に使用することで、ComfyUIの機能を大幅に拡張し、より創造的な画像生成が可能になります。初心者の方でも、このツールを使いこなすことで、高度な機能を簡単に利用できるようになるでしょう。

      【最新】
      こちらの記事もどうぞ。最先端のFLUX.1[dev]のComfyUIでの利用例です。

      ✨️オトクなメンバーシップについての詳細はこちら

      ゼロから学ぶ「ComfyUI」マガジン(単品販売)

      https://note.com/aicu/m/md2f2e57c0f3c

      今回の有料特典は、インストールをしたモデルを使用して、AICUで公開しているキャラクター『全力肯定彼氏君 LuC4』くんを生成したいと思います。是非皆さんも、こちらを参考に様々なモデル・カスタムノードを試してみて、是非Xなどで公開をしてみていただけると編集部一同喜びます!(その際は、  #AICU_LuC4  のハッシュタグを是非ご利用ください!)


      この記事の続きはこちらから https://note.com/aicu/n/n4295d336677e

      Originally published at https://note.com on Aug 9, 2024.

    2. 【初心者向け!】Runway Gen-3 Alphaでプロンプト自動生成して簡単動画制作

      【初心者向け!】Runway Gen-3 Alphaでプロンプト自動生成して簡単動画制作

      AICU mediaライター・ AIクリエイターのぽんず(@ponzponz15)です!
      今回紹介する記事は『プロンプトジェネレーター』というものを使用して、私が約一時間で作成したビデオ です

      最新の動画生成AIの『RunwayGen-3 Alpha』『プロンプトジェネレーター』を使用すれば、誰でも簡単に、映画のようなハイクオリティ動画を制作すことができます
      本来であれば、一ヶ月近くかけてクレジットを消費しながら動画生成のコツを掴むものですが、これがあればわずか数日で、初心者でもつかいこなすことができます。

      画像
      Runway Gen-3 でめっちゃ動画を作りまくっているイメージ

      [AICUが開発]初級者:広告企画から動画制作までのプロセス

      1. プロ級の映像表現が誰でも簡単に

      私ぽんずは、Runway Gen-3がリリースされたその日に95ドルを課金して、毎日200回以上動画生成している動画生成オタクですので、十分なご説明ができます。お任せください。
      最近は、このGen-3に夢中で新しい動画を沢山生成しています。そんな私が自信を持っておすすめするのが、今回のテーマである「プロンプト自動生成ジェネレーター」です。初心者の方はGPTsを使うことをお勧めしますが、そんなの知らないよって方でもこれを使用すれば問題ありません。

      2. 完全初心者でも大丈夫!準備するもの

      あなたも今日から映像クリエイターの仲間入りです。
      必要なのは以下の3つだけです。

      1. Runway Gen-3 Alphaアカウント: https://www.runwayml.com/ からアカウントを作成できます。課金が必要です。
      2. ChatGPTなどのAIサービス: https://chat.openai.com/ など、無料で使えるAIサービスを利用しましょう。(GeminiClaudeなど)
      3. ちょっとの勇気: 難しいことは何もありません。あとは、この記事を参考にしていただき、どんどんチャレンジしていくだけです!

      3. プロンプトって? – 映像表現のためのプロンプトとは

      プロンプトとは、AIへの指示のこと。例えば、これまでの画像生成AIでは「美しい女性」や「犬」と書くだけで、クオリティの高い画像が生成できましたよね。

      しかし、Runway Gen-3 Alphaでは、5秒から10秒間の動画が生成されるため、それだけでは不十分になります。それは動画が始まってからの1秒にもみたない部分の指示でしかありません。もちろん、それだけでも十分すごいのですが、使いこなすためには「カメラの動き」や「雰囲気」といった映像表現を伝えるための指示が必要になってきます。

      例えば、「夕焼けの海」というプロンプトだけでは、ただ夕焼けの海が映っているだけの動画になってしまいます。

      ①夕焼けの海 (AからBに移行)

      「夕焼けの海に沈む太陽をすごい速さですすむカメラで捉え、海の中にもぐっていく」といったように、具体的な指示が必要になります。

      4. なぜプロンプトジェネレーターが必要なの? – 動画のためのプロンプトは難しい

      動画のためのプロンプトには、カメラワークや専門用語など、少し難しい知識が必要になります。

      例えば、公式ガイドに記載されているのがこちらです。
      [camera movement]: [establishing scene]. [additional details]
      こういった構造でプロンプトを書くことが推奨されています。

      「カメラワーク」や「専門用語」は、最初は戸惑ってしまうかもしれません。

      でも、大丈夫。
      専門知識がなくても、誰でも簡単に、効果的なプロンプトを作成できます。

      画像

      Runwayの公式ガイドで学ぶのが最適です。

      https://help.runwayml.com/hc/en-us/articles/30586818553107-Gen-3-Alpha-Prompting-Guide

      このジェネレーターは、Runway公式が推奨するプロンプト構造や、カメラワークなどの知識を組み込んでいます。このジェネレーターは、あなたの動画生成の補助輪のようなもの。

      補助輪を付けて、自転車に乗る練習をするように、このジェネレーターを使って、動画生成AIに必要な用語を徐々に覚えていきましょう。
      ゆくゆくは覚えた方がいいこともありますしね。

      本来であれば1ヶ月近くかけてクレジットを消費しながら動画生成のコツを掴むものですが、これがあればわずか数日でつかいこなすようになります。

      画像

      [AICU] クリスマス動画コンテスト実施中

      5. プロンプトジェネレーターの使い方 – ステップバイステップ解説

      ステップ1:AIサービスにアクセス

      画像

      Google AI Studio

      https://ai.google.dev/aistudio?hl=ja

      ChatGPTやGeminiなどのAIサービスを開きましょう。まだアカウントをお持ちでない場合は、無料で作成することができます。

      ステップ2:プロンプトジェネレーターのソースコードをコピー

      このブログ最下部のソースコードをコピーします。

      ステップ3:ChatGPTやGeminiに貼り付けて実行

      コピーしたソースコードをChatGPTやGeminiに貼り付け、実行ボタンをおします。

      ステップ4:希望する動画の内容を入力

      その後、あなたが生成したい動画のプロンプトを作成します。日本語でも問題ありませんが、英語の方が精度が高いかもしれません。
      プロンプトには、カメラワーク、シーン設定、追加の詳細など、細かく項目が分かれていますので、迷わずに入力できます。現状、Gen-3 Alphaには500字しか入力できませんので、全部は入れられないかもしれませんが、あまり気にせず問題ありません。

      ステップ5:完成したプロンプトをGen-3 Alphaに入力

      画像

      生成されたプロンプトをコピーし、Runway Gen-3 Alphaに入力して、動画を生成しましょう。5秒か10秒を選択しGenerateボタンを押せば生成が始まります。

      その際、秒数によってそれぞれ消費するクレジットが違いますのでご注意ください。

      https://ja.aicu.ai/runway-gen-3-alpha

      6. 実際に作られた動画例

      例1:サーフィン
      入力例『サーフィンからシームレスにスケボーしてる感じにして』

      ④サーフィン (シームレスにAからBに)

      例2:黒い玉
      入力例『荒野の黒い球をシームレスに別の形態に変化させて』

      Gen-3 Alphaを使いたいけど迷っている人はこの『比較動画』見て頂くと良いかもしれません。
      画像のプロンプトと違って、動きや変化を指示しないと全然動かないので課金前に知っておいたらクレジット節約になります。もう使ってる方も1000回以上生成してわかったコツをnote等に纏めていれば「バズる」ためのヒントになるはずです👌

      https://ja.aicu.ai/alpaca-making

      例3:ゴッホの世界
      『ゴッホの空の街をFPVで進んでいって』
      まるでゴッホが描いたパリの街並みがあったら、行ってみたいと思いませんか?
      Gen-3 Alphaが描いたゴッホの筆使いが息づく世界を探索しましょう〜🍽️

       例4:タイタニック風
      『沈んだ船の外観、船内に入ったら当時の豪華絢爛な風景が広がっている』

      これまでの動画生成AIとは次元が違うのがGen-3 Alphaが特別な技術や才能がなくとも、自分のアイデアを映画級に仕上げることができるためです。

      必要なのは、あなたの想像力。

      7. まとめ

      プロンプトジェネレーターを使えば、動画制作の知識がなくても、AIと会話しながら誰でも簡単に高品質な動画を制作できます。そして、これを使いながら映像技術に関わる知識を学び、さらに素晴らしい動画を生成していくことができます。ぜひ活用して、あなたの創造力を爆発させてください!

      プロンプトは(みんなが無料で使えてしまうとオリジナリティが薄れてしまうので)メンバーシップ向け有料配布といたしますが、こちらのポストをシェアしていただければ無償で提供いたします!

      素敵な作品ができたらメンバーシップ掲示板で共有してくださいね!

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/1aa202bf314a

      作例:プロンプトジェネレーターのソースコード

      続きはこちらです

      https://note.com/aicu/n/n304ded1ec059

    3. 工場勤務のおじさんが書く:橋本大也教授と白井暁彦CEOが解説する生成AIの未来

      工場勤務のおじさんが書く:橋本大也教授と白井暁彦CEOが解説する生成AIの未来

      デジタルハリウッド大学の橋本大也教授と、デジタルハリウッド大学特命教授でもあるAICU Inc.の白井暁彦CEOが、それぞれのベストセラー書籍をもとに、ChatGPTやStable Diffusionなどの生成AIの最新動向を紹介しました。


      人気著者が語る生成AIの魅力を一挙レポート

      今回イベントレポートを書かせていただきます、AICU media のゲストライターです。工場のおじさんとしての目線でレポートしていきます!現地に参加できなかった読者に向けて、両著者の最新刊や #SD黄色本のサイン本即売会、交流の様子をお届けします。

      私は初めてデジタルハリウッド大学に行きましたが、とても高いビルの中にあり、「こんなところに大学があるんだ」とドキドキしました。(このイベントに参加するために、岡山からきました!)

      wikipediaより。このビルの3Fと4Fがデジタルハリウッド大学です!

      https://ja.wikipedia.org/wiki/%E3%83%87%E3%82%B8%E3%82%BF%E3%83%AB%E3%83%8F%E3%83%AA%E3%82%A6%E3%83%83%E3%83%89%E5%A4%A7%E5%AD%A6#

      AICU イベント告知記事→https://note.com/aicu/n/na27e9055f06f

      3階へ行き、会場の受付を済ませた後、中に入りました。

      (編集部:注)開演前に上映されていた動画
      #AICU – AI Creators Union Demo Reel 2024 Summer

      イベントの時間になり、スタートはデジタルハリウッド大学の杉山知之学長の動画から始まりました。

      イベントがはじまる

      写真:デジタルハリウッド大学の杉山知之学長の動画(AIの技術が入っているとは思えないくらい自然でしょ)

      これはAIで作られた杉山学長のアバターが、デジタルハリウッド大学の入学式で講演している動画です。
      ここで、杉山知之学長の発表で感じたことを率直に書きますね。

      この動画を見て、最近はAIが仕事を奪うなどネガティブなニュースが多いけれど、このような使い方は素晴らしいなと思いました。
      この動画、ただ学長が話をしているだけじゃんと思う人もいるかもしれません。
      しかし、杉山知之学長は2021年よりALSという難病のため、体を自由に動かせず、声も出せない状況です。

      AIを使って昔の声を再現し、AIの技術で表情を作り出すことで、まるで健康な時のように登壇している姿で動画の中で話をしていたのです。

      この姿を見て、体の不自由な人々に対してAIがどれだけのサポートを提供できるかを実感できたんですよね。
      AIが障害を持つ人々の生活をサポートする可能性を強く感じました。


      橋本大也先生の話 – ChatGPTで作業時間が3分の1に?

      続いて、今回のイベントのメインスピーカーの一人である橋本大也先生について紹介します。
      さくっと一言で言うと、『頭がいい人のChatGPT&Copilotの使い方』(橋本大也著)という本を書かれた先生です。
      本の表紙に、仕事時間を1/3に短縮できるって言葉が書いてありました。

      え、えっー!仕事時間を1/3に短縮。。。まじか!?

      そんな大きなことを書いてしまったら、めっちゃくちゃ叩かれてしまいそうと、ちょっと不安に思いました。みなさんも思いますよね?

      しかし、登壇内容を聞いていたら、めちゃくちゃ納得できました。

      橋本大也先生の話を書いたので読んでください。


      橋本大也先生の話で特に面白かった2点

      橋本先生の話は、主にAIで面白い映像を制作する方法にふれていました。

      写真:実際にAIで作った動画。スクリーンで見る大きな恐竜は大迫力!

      講演の序盤では、大画面に生成AIで作られた動画が流れていて、ワクワクする気持ちがおさえきれませんでした。

      橋本大也先生の話で特に面白かったことは2点あります。
      1点目は、実際に動画を作る工程を細かく説明してくれたことです。
      2点目は、数学的なグラフにアニメーションを加えるとアートになることです。

      これは1点目の話題で発表された、動画の製作工程の一部です。

      通常、完成形しか見ることがないAI動画の制作過程について、プロの目線から具体的なツールの使用方法を教えてくれました。

      橋本先生によるAI動画の手順の一例を紹介します。
      ChatGPTでストーリーを作り
      ②その段落ごとにRunwayを使って動画作成(日本語だと精度がよくないので英語に翻訳)
      Uidoで音楽生成(ストーリーをもとに)
      DIDでナレーションを追加
      ⑤動画を結合

      この作業をAIなしでやろうとすると、たぶん、1ヶ月から3ヶ月くらいかかる内容(私が、前に動画制作をしている人から聞いた情報です)を、なんと1時間ほどで作れるというのです。

      橋本先生の「仕事時間を1/3に短縮できる」という言葉は本当でした!

      2点目の、数学的なグラフにアニメーションを加えるとアートになるという話題です。

      普通のグラフはただ表示されるだけでは全く面白くありません。(面白いと思う人はすごくレベルが高いと思います)
      しかし、ChatGPTに「このグラフをアニメーションにしてください」と指示を与えてグラフのアニメーションをつくり、音楽を加えて編集することで、グラフの印象ががらっと180度くらい変わるのです。

      写真:この線グラフは、音楽に合わせて脈動しているところの写真。(一回、実際に体感してほしい。写真じゃ伝わらない。体感してみてください。)

      他にも、ドーナッツチャートに音楽を加えると、カラフルで楽しいアートになるんです。

      また、3次元サーフェスプロットに関しては、まるで新しい生物が誕生したかのような感覚になります。まるで新海で見たことがない生物を眺めている気持ちになるんです。これは実際に見たからこその感動でした。


      しらいはかせの話 – 「世界で最も[おもしろい]生成AIビジネスをつくるには」

      https://note.com/o_ob/n/n930c390b6dfa

      続いて、今回のイベントのメインスピーカーの一人であるしらいはかせについて紹介します。

      しらいはかせは、いろんなことができる方で、大ボリュームの発表でした。

      なので、しらいはかせをさくっと一言で説明すると
      画像生成AI Stable Diffusion スタートガイド」を書いた人です。

      写真:この本は、予約してすぐに買いました。個人的に、世界の生成AI画像をつくる教科書になるものだと思っています。

      有益な内容が多すぎる!
      正直、カルピスの原液一気飲みを3本くらいやった感じです。
      なので、情報量の濃さと多さに途中から頭がついていっていないのです笑

      実際の内容の1割ぐらいしか書き起こせなさそう。実際に発表を聞いた方ならわかってくれるはず!


      つくる人をつくる

      「つくる人をつくる」が生まれた理由には、しらい博士のこれまでの経験が濃縮されています。

      『綺麗なグラフィックでも、おもしろくない』

      印象的だったのは、「綺麗なグラフィックでも、おもしろくない」という言葉です。

      この言葉は非常に深い意味を持っており、しっかり理解するには深海3000メートルまで潜る覚悟が必要です。なので、ここでは簡単に説明します。

      例えば、非常に綺麗なグラフィックのAIアバターが全自動で会話をするアニメーションを作っても、見る人は3秒で飽きてしまいます。

      つまり、面白くないのです。

      ですが、そこに人の感情を反映させるような演出を人間が加えると、とても面白くなります。例えば、目線の動き、カメラのフレーミング、仕草などです。

      つまり、面白いものをつくるためには、人の演出が必要だということです。
      人がどこで面白いと感じ、感情が動くのかを考えながら手を加える必要があります。

      この点においては、現時点では人間の手による演出がAIを上回っているのかもしれません。



      人生のターニングポイント

      しらいはかせの人生には、2つのターニングポイントがあるそうです。

      1つ目は、「ゴキブリ」?
      2つ目は、子供たちの遊びの本質の探究

      「ゴキブリ」
      ゴキブリと聞くと驚くかもしれません。

      過去にしらいはかせが「ファンタスティック・ファントム・スリッパ」という作品を作った話です。

      写真:「ファントムスリッパー」。今でも最先端だと思う。そんな技術を1997年に、やっていたしらいはかせは、すごすぎる。

      この作品では、2匹のゴキブリの疑似体験が描かれています。1匹は感触を感じられ、もう1匹はただのグラフィックです。この疑似体験を通じて、リアルとバーチャルの境界を探りました。

      なぜこの疑似体験が海外で「アメージング」と言われ、大きな反響を呼んだのかを深く考えたことが、1つ目のターニングポイントだったそうです。


      子供たちの遊びの本質を探究したこと

      日本科学未来館 (旧)常設展示『アナグラのうた 〜消えた博士と残された装置〜』

      写真:「アナグラのうた」。自分が歩いたところを遡って、足跡をつくれるらしい。面白そう。この作品も10年以上も前に作られたそうです。

      「アナグラのうた」を通じて、子供たちの遊びの本質を探求しました。

      このプロジェクトでは、モーションキャプチャー技術を使って子供たちの遊びを可視化しました。子供たちが歩いたり、ダンスをしたりする際に足跡やマークが現れる仕組みを導入しました。

      (編集部注)

      ゲーム業界をやめて東京工業大学の博士学生に戻った頃から、子供たちが楽しそうに遊ぶ姿を観察し、博士論文を通して「遊ぶこと」の本質についてさらに深く考えるきっかけになったそうです。

      【博士論文】「床面提示型触覚エンタテイメントシステムの提案と開発 白井暁彦」

      https://akihiko.shirai.as/AkihikoSHIRAI-DoctorThesis2004.html





      『あそぶ』って言葉の意味っていろいろ。

      「あそぶ」という言葉には、実にたくさんの意味があります。

      写真:あそびの意味って、こんなに多い。

      例えば、

      遊ぶ(あそぶ)、(およぐ)、戯れる(たわむれる)、(もてあそぶ)、弄ぶ(たわむれる)
      このように、「あそぶ」という言葉には多くの意味が詰まっています。

      英語の「play」も同じように、多義的な意味を持っています。
      例えば、「play」はスポーツをする、楽器を演奏する、ゲームをするなど、さまざまな場面で使われます。これってすごく面白くないですか?

      つまり、「あそぶ」という言葉は、それを通じて私たちの好奇心を大いに刺激するもの。
      動作や使う人の思考や視点でも変わるって面白い。

      遊びながら新しいことを発見したり、楽しい経験を通じて学んだりすることは、まさに好奇心をくすぐる最高の方法ですよね。


      これからの人類に必要なこと

      これらの「つくる人をつくる」に繋がる話を聴いて、好奇心を持ち、情熱を持って生きることが、これからの人類にとって何よりも大切だと思いました。

      しらいはかせは、「情熱」と「ハルシネーション(幻覚)」という言葉を使っていました。

      ここからは、しらいはかせの言葉を使いながら、私なりに解釈したことを書きます。

      写真;昔のひとは、どうしてこの絵を描いたのだろう?そこに今求められている生きる秘密が隠されてそうです。

      個人的に解釈したのは、人間の存在意義を考えると、好奇心を持ち続け、情熱を持って生きることが、最もハッピーな人生を送る秘訣だということです。

      AIなどの技術がどんなに発展しても、人間が幸せに生きるためにはそれだけでは不十分です。目標を持ち、情熱を持って生きることが必要です。

      例えば、極端な話、定年退職してやることがない高齢者の方がいたとします。(極端な例の話ですよ。)
      無限に時間があるけどやることがない、これは地獄のような人生です。

      逆に、日々好奇心を持ち、情熱を持って生きると、毎日が楽しくなります。
      今日は絵を上手く描いて売ってみようという目標を持てるような毎日です。

      これによって色々学べるし、人生も楽しいものになります。私自身、本気で情熱がある方が良いと思っています。
      好奇心を持てるようになるためには、学ぶことが大切です。

      その学ぶ機会を無限に提供できるのが、「つくる人をつくる」ということなのだと思います。

      「つくる人をつくる」というのは、人間が持つ好奇心や情熱を育むことにあると考えています。これによって人生が充実し、ハッピーに生きることができるんですよね。

      Stable Diffusionの画像生成の話

      写真:Stable Diffusionの仕組み

      仕組みについての解説パートはこちらで資料が出ていました。

      ■Stable Diffusionの仕組み(入門編)

      https://note.com/aicu/n/n505b0dfb1a75

      最後に

      学べることと情報量がとても多く、おなかいっぱいになったイベントでした!

      他にも撮影不可の特別資料なども特別に公開されていましたが、現場にきた人だけの特権ということで、私からのレポートを終わらせてもらいますね。

      お読みくださりありがとうございました。

      イベント速報記事→https://ja.aicu.ai/talk20240530/

      前回のイベント「デルタもんLoRAを作ろう!」ワークショップレポートはこちら

      https://ja.aicu.ai/event20240516/

      デジタルハリウッド大学の動画より
      【公式60秒】デジタルハリウッド大学新CM『みんなを生きるな。自分を生きよう。2024』篇フルバージョン

      【関連】

      #SD黄色本 サイン本即売会も開催!生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

      この記事が面白いと思ったら、AICU media をフォローよろしくお願いいたします!

    4. [速報]AICU CEO白井が「ChatGPTとStable Diffusion丸わかりナイト」に登壇いたしました

      [速報]AICU CEO白井が「ChatGPTとStable Diffusion丸わかりナイト」に登壇いたしました

      2024年5月30日(木)に、デジタルハリウッド大学本校にて開催された「ChatGPTとStable Diffusion丸わかりナイト」に弊社CEO白井暁彦(@o_ob/しらいはかせ)が登壇いたしました!

      https://ai-maruwakari-night.peatix.com/

      デジタルハリウッド大学大学院教授の橋本大也先生、特任教授の弊社CEO白井暁彦が、近日それぞれ発売した書籍に関する講演、トークイベントを実施しました。

      『頭がいい人のChatGPT&Copilotの使い方』(橋本大也教授著)
      『画像生成AI Stable Diffusionスタートガイド』(AICU media (著), 白井 暁彦 (著))

      ChatGPTとStable Diffusionを中心に、文章、画像、音楽、動画の生成AIの面白さ、可能性について熱く語られ、本を読んだ人も読んでいない人も、学生も社会人も、生成AIの最新事情をアップデートできるイベントとなりました。

      書籍執筆に使われた蔵出し資料の数々!

      参加された方の感想
      「2時間びっしり濃い内容すぎて、消化しきれませんでした・・・」
      「楽しかった!」
      「頭のいい人…じゃなくて…頭のおかしい人の情報量…」

      本人曰く「40分強の講演に実に244枚のスライドがあるんだ」とのこと

      https://note.com/o_ob/n/n930c390b6dfa

      1分あたり6.1枚、だいたい10秒1枚という計算なんですね!(慣れた)

      終了後のサイン会でも沢山の方が購入されました。

      購入された方のご感想
      「実はKindle版も購入していたのですが、これはリアル本であったほうがいい!&先生のサイン付き✨ということでゲットできて良かったです😊」

      ご参加・ご購入ありがとうございました。

      詳細のレポートをお楽しみに!

      Originally published at https://note.com on May 30, 2024.

    5. 技術書典16 AICU media 編集部の「これ欲しい!」紹介

      技術書典16 AICU media 編集部の「これ欲しい!」紹介

      つくる人をつくる、AICU media の知山ことねです。

      皆さん、#SD黄色本 「画像生成AI Stable Diffusionスタートガイド」はもう読まれましたか?
      ご存じの通り、AICU が3月に発売開始したStable Diffusion の体系的な教科書を目指して書かれています。

      実は、この書籍は技術書典15(2023年11月11日~2023年11月26日)で、9食委員さん、CEOしらいはかせ・852話さんで出版された「自分のLoRAを愛でる本」が底本になっています。

      ▶「自分のLoRAを愛でる本」 作:9食委員・しらいはかせ・852話

      インターネットで新鮮なAIの情報を得るのも大切ですが、たまには出版された書籍「技術書」で体系的に技術を学ぶことも勉強には必要ですよね。

      そこでこの記事では「最新の技術書が生まれる場所」、2024年5月25日 (土) 〜2024年6月9日(日)までオンラインで開催中 、5月26日(日) 池袋サンシャインシティにてオフライン開催される技術書典16 に先行して、味わい深い技術書の世界を知山ことね視点で紹介します。

      技術書典とは?

      技術書典は、テックベース合同会社が主催する、技術書のオンリーイベントです。オンラインマーケットとオフライン会場の双方で、新しい技術に出会えるお祭りを開催しています。2016年から年に2回ほど開催されており、Webサイトに登録しているユーザーは約37,000人、同人誌を制作・販売している出展者は1,000サークルにのぼります。(出典: エンジニア版コミケ「 #技術書典 」が来場者1万人超えのイベントに成長した軌跡 | アンドエンジニア (and-engineer.com))

      おすすめの書籍紹介!

      技術書典16は、オンライン、オフライン双方で展開しており、現在出品予定の書籍はオンラインマーケットで確認することができます。

      技術書典16 :技術書のオンラインマーケット開催中
      ここからAICU media 編集部が「これ欲しい!」「読んでみたい!」と思った書籍をピックアップしてご紹介します。皆様もぜひ確認して、一緒にわくわくしましょう!

      AI編

      情報処理 特集別刷「AI はクリエータになれるか」(2023 年 7 月号)(情報処理学会)

      情報処理 特集別刷「AI はクリエータになれるか」(2023 年 7 月号):情報処理学会

      生成AIとは、機械学習により大量のデータを学習し、学習結果から類似性を保ったまったく新しい人工物を生成するAI技術を指す。これまでのAIで難しいとされてきた、デザイン、広告、映画、音楽、文学、作曲といったクリエイティブな領域での活用が期待されている。本特集ではホットな生成AIを各分野の専門家の方々に「AIはクリエータになれるか」という観点から解説いただいた。
      0.編集にあたって(袖美樹子・吉村 剛)
      1.生成AIは我々の創造力をどのように変えていくのか?(栗原 聡)
      2.AI俳句─AI一茶くん─(山下倫央)
      3.生成言語モデルは創作者になれるか(船越孝太郎・奥村 学)
      4.AI絵師─イラスト自動生成AIの功罪─(金森由博)
      5.ファウンデーションモデルのさまざまな分野・モダリティでのビジネス応用─IBMでの取り組みの例─(倉田岳人・吉田一星・武田征士)
      6.音楽AIは創造性を高める(浜中雅俊) 編集室

      様々な専門家の方が、「AIにこれはできるのか?」という視点で意見や事例をまとめています。クリエイターを目指すAICU mediaの読者にとっては気になる内容なのではないでしょうか。

      生成AIで絵本を作ろう ChatGPT Plus/Midjourneyで始めるクリエーター生活(橄欖石庵)

      生成AIで絵本を作ろう ChatGPT Plus/Midjourneyで始めるクリエーター生活:橄欖石庵

      本書は生成AIを活用して絵本を作成する方法について説明しています。 本書で学べること 本書を読むことで、次のことについて学習できます。
      * 生成AIの活用方法
      * 生成AIによる絵本のストーリー検討方法
      * 生成AIによる絵本のイラスト作成方法 本書の想定読者 本書は次の方を対象として執筆しております。
      * 生成AIを使って絵本のストーリーを考えたい方
      * 生成AIを使って絵本のイラストを描きたい方
      * 生成AIを使って絵本を作りたい方

      midjourneyで絵本を作る本とのこと。水彩画のような可愛い表紙、思わずジャケ買いしたくなりますね…!

      動画編集、画像認識で自動化してみる。(味噌とんトロ定食)

      動画編集、画像認識で自動化してみる。:味噌とんトロ定食
      そこの社会人YouTuber! 動画編集大変じゃないですか? 画像認識で自動化しちゃいませんか? 本書ではポケモンソード・シールドのバトルにおけるコマンド選択画面をカットしたもの、通称バトルビデオを作成することを目標とします。

      そこの社会人YouTuber!
      動画編集大変じゃないですか?
      画像認識で自動化しちゃいませんか?

      本書ではポケモンソード・シールドのバトルにおけるコマンド選択画面をカットしたもの、通称バトルビデオを作成することを目標とします。
      画像認識で可能な限り自動化を行います。

      本書は YouTuber に憧れて動画編集にチャレンジしてみたものの、あまりにも編集作業に時間が掛かってしまいこのままでは YouTuber を続けられないといった経緯から、編集作業の内のカット編集を自動化した方法や知見が記載されています。本書ではプログラミングや画像処理といった内容が出てきますが、未経験の方でも問題無いよう記載することを心掛けています。

      プログラミング初心者・未経験者にもやさしい動画処理でYoutuberとして動画を編集する本。
      読んだらきっとYoutuberを始めたくなりますね!

      Diffusion Models 入門(ジンギスカン同盟)

      Diffusion Models 入門:ジンギスカン同盟
      本書は、Diffusion Modelsについて解説した本です。Denoising Diffusion Probabilistic Modelsをもとに理論の説明と実装を行います。

      本書は、Diffusion Modelsについて解説した本です。Denoising Diffusion Probabilistic Modelsをもとに理論の説明と実装を行います。Diffusion Modelsに興味がある人、実装を通して理解したい人向けの本です。流行技術を触ってみたものの、その詳細まではキャッチアップの時間が取れないという方も多いと思い、日本語による理論解説と最低限の実装を提供しようと本書を執筆しました。本書内のソースコードはGithubから取得できます。本書を読むにはPythonの基礎知識、PyTorchの基礎知識、統計学の知識が必要となります。

      第2版では誤記の修正および2023年5月のGoogle Colaboratory環境でのソースコードの動作検証を行いました。

      Stable Diffusion の Diffusion Models について解説された書籍。画像生成AIのテクニカルな面に興味のある方は楽しめそう。

      ライトニングトークがうまくなる本(RPACommunity)

      ライトニングトークがうまくなる本:RPACommunity
      自動化大好きなコミュニティ主催メンバーが語るライトニングトークのコツ!イベント回数は300回以上、ライトニングトーク登壇者は数百人、見てきたライトニングトーク登壇は1,000回以上!そこで得たライトニングトーク知見を語る本です!

      自動化大好きなコミュニティ主催メンバーが語るライトニングトークのコツ!イベント回数は300回以上、ライトニングトーク登壇者は数百人、見てきたライトニングトーク登壇は1,000回以上!そこで得たライトニングトーク知見を語る本です!

      AIに直接関係は薄いかもしれませんが、AIのイベントで頻繁に目にするライトニングトーク、経験のある方や「応募してみたい…」と思った方は多いのではないでしょうか?
      ライトニングトークに特化したプレゼン技法書は技術書典ならではのものなので注目です!

      その他編

      筆者知山が個人的に「買いたいっ!」と思った本です。

      宇宙世紀の統計学マニュアル Mk-Ⅱ(ひのまる呉服店)

      宇宙世紀の統計学マニュアル Mk-Ⅱ:ひのまる呉服店
      統計学の基礎を、「機動戦士ガンダム」等のアニメ作品を題材に解説しました。…

      統計学の基礎を、「機動戦士ガンダム」等のアニメ作品を題材に解説しました。 平均値と標準偏差から始まって、管理図/変動係数/一様分布と正規分布/分散の加法性/2変数の相関/記述統計と推測統計/母集団と標本/点推定と区間推定/推定と検定/平均値の差の検定/二項分布/ポアソン分布/抜き取り検査/サンプリング方法等について解説しており、これ一冊で統計学の基礎を全て理解することが可能です。
      今、統計学を学習している高校生、大学生、ビジネスマン、あるいはかつて学習したけど挫折した方に、強くお勧めいたします。

      統計学をとことんガンダムに絡めて解説しています。
      文章にガンダムへの熱意が込められていて、読んでいて面白い!
      ガンダム好きな人はすらすら内容が入ってきそうです。

      軌道上補給・軌道上修理概覧2018(帝都高速度衛星通信団)

      軌道上補給・軌道上修理概覧2018:帝都高速度衛星通信団

      宇宙にいる人工衛星への補給や修理を行なう時代になりました。メカです!ロボです!合体です!

      宇宙にいる人工衛星への補給や修理を行なう時代になりました。メカです!ロボです!合体です!
      世界の人工衛星技術はいよいよ宇宙にいる衛星への補給や修理を行うところまで来ました。アメリカの先進的なプロジェクトの他に中国やイスラエルのプロジェクトなどを総括的に紹介しています。宇宙好きの方、メカ好きの方、合体好きの方にお勧めです。
      <項目の紹介>
      ・ はじめに
      ・目次
      ・ 軌道上補給
      ・軌道上修理について
      ・ 各国動向
      ・ スペースシステムズロラール
      ・ Restore-L
      ・ RSGS
      ・ ノースロップグラマン
      ・ MEV
      ・ MEP
      ・ MRV
      ・ 中国 OMEV
      ・ 英国 エフェクティブスペース

      紹介文の「メカです!ロボです!合体です!」の力強さが最高です。
      軌道上補給、着眼点が面白い…!

      あんまりAIに関係あるラインナップじゃなくてすみません、しかも旧刊が多かった…!

      AICU マガジンもよろしくお願いします!

      技術書典での学びと一緒に、Kindle で販売中の AICU マガジンもぜひご覧ください!

      5月号では AIを使用した漫画制作、4月号では Stable Diffusion のWeb UI、 AUTOMATIC1111 を大特集しています!

      AICU マガジン Vol.2 2024年5月号 次世代まんが制作術!
      AICU magazine Vol.1 2024年4月号

      この記事に「いいね!」と思ったら、ぜひいいねとnoteのフォローよろしくお願いします!

    6. OpenAI — GPT-4oをリリース

      OpenAI — GPT-4oをリリース

      2024年5月13日に OpenAI は新しい生成aiモデルであるGPT-4oをリリースしました。
      公式リリースの翻訳をベースにわかりやすく詳細にお送りします。
      https://openai.com/index/hello-gpt-4o/

      新しくできるようになったこと

      • 音声と動画から返答できる音声モード
      • テキスト、推論、コーディングの改善
      • 応答速度の高速化
      • APIの低価格化
      • 無料ユーザ向けのツール

      GPT-4oの紹介

      GPT-4o (Omni) は、人間とコンピューターのより自然な対話に向けたメジャーアップデートです。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか 232 ミリ秒で応答でき、平均では 320 ミリ秒で、会話の中における人間の応答時間とほぼ同じです。英語のテキストおよびコードでは GPT-4 Turbo のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善され、API でははるかに高速で 50% 安価です。 GPT-4o は、既存のモデルと比較して、特に視覚と音声の理解に優れています。

      GPT-4oの機能について

      現在、GPT-4oは既存のどのモデルよりも、あなたが共有する画像を理解し、議論することに優れています。例えば、異なる言語で書かれたメニューの写真を撮影し、GPT-4oに話しかけて翻訳したり、料理の歴史や意義について学んだり、おすすめの料理を教えてもらったりできるようになりました。将来的には、より自然なリアルタイムの音声会話や、リアルタイムの動画でChatGPTと会話できるように改良される予定です。例えば、ChatGPTにスポーツの試合中継を見せることで、ルールを説明してもらうことができます。これらの新機能を備えた新しい音声モードが、今後数週間のうちにアルファ版としてリリースされる予定だそうです。

      GPT-4o 以前は、音声モードを使用して、平均 2.8 秒 (GPT-3.5) および 5.4 秒 (GPT-4) の遅延で ChatGPT と会話していました。これを実現するために音声モードは 3 つの個別のモデルのパイプラインを用いていました。1つ目で音声をテキストに変換し、2つ目でGPT-3.5 または GPT-4 にテキストを取り込んでテキストを出力し、3 番目でそのテキストを音声に変換しています。このプロセスはGPT-4 が多くの情報を失うことを意味します。GPT-4 は、音調、複数の話者、環境音を直接観察することができず、笑い声や歌を発声したり、感情を表現したりすることができませんでした。

      GPT-4o では、テキスト、ビジョン、オーディオにわたって単一の新しいモデルをエンドツーエンドでトレーニングしています。これはすべての入力と出力が同じニューラル ネットワークによって処理されることを意味します。 GPT-4o はこれらすべてのモダリティを組み合わせた最初のモデルであるため、このモデルで何ができるか、そしてその限界を探る上で、まだ表面をなぞったにすぎないと言えます。

      動画によるデモ

      GPT-4oの評価について

      Text Evaluation テキスト評価

      推論の改善 — GPT-4o は、0 ショットの COT MMLU (一般知識の質問) で 88.7% のハイスコアを記録しました。これらすべての評価は、評価ライブラリでおこないました。さらに、従来の5ショットのNo-CoT MMLUでは、GPT-4oが87.2%のハイスコアを更新しました。(注: ラマ3 400bはまだ訓練中です)

      Audio ASR performance 音声ASRの性能

      オーディオ ASR パフォーマンス — GPT-4o は、すべての言語において、特にリソースの少ない言語において、Whisper-v3 よりも音声認識パフォーマンスを大幅に向上させます。

      Audio translation performance 音声翻訳性能

      音声翻訳のパフォーマンス — GPT-4o は音声翻訳において新たな最先端を確立し、MLS ベンチマークで Whisper-v3 を上回ります。

      M3Exam Zero-Shot Results M3Examゼロショット結果

      M3Exam — M3Exam ベンチマークは、多言語と視覚の両方の評価であり、他の国の標準化されたテストからの多肢選択問題で構成されており、図や図表が含まれる場合もあります。このベンチマークでは、すべての言語にわたって GPT-4o が GPT-4 よりも強力です。 (スワヒリ語とジャワ語については、視力の質問が 5 つ以下しかないため、これらの言語の視力の結果は省略します。

      Vision understanding evals 視覚理解試験

      視覚理解の評価 — GPT-4o は視覚認識ベンチマークで最先端のパフォーマンスを達成します。すべてのビジョン評価は 0 ショットであり、MMMU、MathVista、および ChartQA は 0 ショット CoT (Zero Shot Chain of Thought) です。

      従来のベンチマークで測定されているように、GPT-4o はテキスト、推論、コーディング インテリジェンスに関して GPT-4 Turbo レベルのパフォーマンスを達成すると同時に、多言語、オーディオ、ビジョン機能に関して最高水準といえます。

      GPT-4oのトークンについて

      これらの 20 の言語は、新しいトークナイザーの代表例です。

      • グジャラート語 トークンが 4.4 分の 1 (145 個から 33 個に)
      • テルグ語 トークンが 3.5 分の 1 (159 個から 45個に)
      • タミル語のトークンが 3.3 分の 1 (116 個から 35 個に)
      • マラーティー語のトークンが 2.9 分の 1 (96 個から 33 個に)
      • ヒンディー語のトークンが 2.9 分の 1 (90 個から 31個に)
      • ウルドゥー語のトークンが 2.5 分の 1 (82 個から 33 個に)
      • アラビア語のトークンが 2.0 分の 1 (53 個から 26個に)
      • ペルシャ語 トークンが 1.9 分の 1 (61 個から 32 個に)
      • ロシア語のトークンが 1.7 分の 1 (39 個から 23個に)
      • 韓国語のトークンが 1.7 分の 1 (45 個から 27 個に)
      • ベトナム語のトークンが 1.5 分の 1 (46 個から 30 個に)
      • 中国語のトークンが 1.4 分の 1 (34 個から 24 個に)
      • 日本語のトークンが 1.4 分の 1 (37 個から 26 個に)
      • トルコ語のトークンが 1.3 分の 1 (39 個から 30 個に)
      • イタリア語のトークンが 1.2 分の 1 (34 個から 28 個に)
      • ドイツ語のトークンが 1.2 分の 1 (34 個から 29 個に)
      • スペイン語のトークンが 1.1 分の 1 (29 個から 26個に)
      • ポルトガル語のトークンが 1.1 分の 1 (30 個から 27 個に)
      • フランス語のトークンが 1.1 分の 1 (31 個から 28 個に)
      • 英語のトークンが 1.1 分の 1 (27 個から 24 個に)

      GPT-4oの安全性と制限事項について

      GPT-4o には、トレーニング データのフィルタリングやトレーニング後のモデルの動作の調整などの技術を通じて、モダリティ全体に安全性が組み込まれています。また、音声出力にガードレールを提供する新しい安全システムも作成しました。
      OpenAI は準備フレームワークに従って、また自主的な取り組みに沿ってGPT-4o を評価しました。サイバーセキュリティ、CBRN(化学、生物、放射線、核)、説得、モデルの自律性に関する評価では、GPT-4o はこれらのカテゴリのいずれにおいても中リスク以上のスコアを獲得していないことが示されています。この評価には、モデルのトレーニング プロセス全体を通じて一連の自動評価と人間による評価の実行が含まれます。モデルの機能をより適切に引き出すために、カスタムの微調整とプロンプトを使用して、モデルの安全性緩和前バージョンと安全性緩和後のバージョンの両方をテストしました。
      また社会心理学、偏見と公平性、誤った情報などの分野で 70 人以上の外部専門家と広範な外部レッドチーム を結成し、新たに追加された手法によって導入または増幅されるリスクを特定しました。OpenAI はこれらの学習を利用して、GPT-4o とのやり取りの安全性を向上させるための安全介入策を構築しました。新たなリスクが発見され次第、引き続き軽減していきます。

      訳注:レッドチームとはセキュリティにおける仮想の敵チームのこと。ブルーとレッドに分かれて、パープルチームが判定します。

      OpenAI は、GPT-4o のオーディオ モダリティがさまざまな新たなリスクを引き起こすことを認識しています。本日、テキストと画像の入力とテキスト出力を一般公開します。今後数週間から数か月かけて、技術インフラストラクチャ、トレーニング後の使いやすさ、他のモダリティをリリースするために必要な安全性に取り組んでいきます。たとえば、発売時には、オーディオ出力はプリセット音声の選択に制限され、既存の安全ポリシーに準拠します。
      今後のシステム カードで GPT-4o のモダリティの全範囲に対処するさらなる詳細を共有する予定です。モデルのテストと反復を通じて、モデルのすべてのモダリティに存在するいくつかの制限を観察しました。そのうちのいくつかを以下に示します。

      GPT-4oはいつ利用できるのか

      GPT-4o は、ディープラーニングの限界を押し上げるための最新のステップであり、今回は実用的な使いやすさの方向に向かっています。過去 2 年間、OpenAI はスタックのすべての層での効率向上に多大な努力を費やしてきました。この研究の最初の成果として、GPT-4 レベルのモデルをより広範囲に利用できるようにすることができました。 GPT-4o の機能は繰り返し展開されます。今日から”レッドチーム アクセス”が拡張されます。

      GPT-4o のテキストおよび画像機能は、ChatGPT で今日から展開され始めます。 GPT-4o は無料枠で利用できるほか、最大 5 倍のメッセージ制限を持つ Plus ユーザーも利用できるようにしています。今後数週間以内に、ChatGPT Plus 内でアルファ版の GPT-4o を使用した音声モードの新バージョンを公開する予定です。

      開発者は、API の GPT-4o にテキストおよびビジョン モデルとしてアクセスできるようになりました。 GPT-4o は、GPT-4 Turbo と比較して 2 倍高速で、価格は半分で、レート制限が 5 倍高くなります。今後数週間以内に、API の信頼できるパートナーの小グループに対して GPT-4o の新しいオーディオおよびビデオ機能のサポートを開始する予定です。

      利用方法

      ChatGPT Plusのユーザはすでに利用できます。

      左上のモデル選択で選べるようになります。

      ・最大 128,000トークン
      ・2023年10月までの知識
      API playgroundはこちらから利用できます。

      https://platform.openai.com/playground/chat?mode=chat&model=gpt-4o&models=gpt-4o

      旧来のモデルと比較することができます。

      GPT-4oのリリースとChatGPT無料ユーザーへのツール追加

      実は、今回の OpenAI からのリリースには、GPT-4o 以外にもChatGPT無料ユーザへのツール追加が発表されました。

      https://openai.com/index/spring-update

      https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free

      GPT-4oという最新のフラッグシップモデルを発表したことで、ChatGPTで無料で利用できる機能が増えました。

      高度なAIをより身近で便利なものにするため、GPT-4oの言語機能は品質とスピードの両面で向上しています。ChatGPTはまた、サインアップやログイン、ユーザー設定などで50以上の言語(新しいウィンドウで開きます)をサポートするようになりました。

      GPT-4oは、ChatGPT PlusとTeamユーザーへの提供を開始し、エンタープライズユーザーへの提供も間もなく開始します。また、本日よりChatGPT Freeの利用制限を開始します。Plusユーザーには無料ユーザーの最大5倍のメッセージ制限があり、TeamとEnterpriseユーザーにはさらに高い制限があります。

      より多くのインテリジェンスと高度なツールを無料で提供

      OpenAI のミッションには、先進的なAIツールをできるだけ多くの人々に提供することが含まれています。毎週、1億人以上の人々がChatGPTを利用しています。今後数週間で、ChatGPT無料ユーザーにより多くのインテリジェンスと高度なツールを提供し始めます。

      GPT-4oを使用すると、ChatGPTフリーユーザーは以下のような機能を利用できるようになります:

      ・GPT-4レベルのインテリジェンス
      ・モデルとウェブの両方から応答を取得
      ・データの分析とグラフの作成
      ・撮影した写真についてチャット
      ・ファイルをアップロードして、要約、執筆、分析を支援する

      GPTとGPTストアの発見と使用

      Memoryでより役立つ体験を構築する

      GPT-4oの利用状況や需要に応じて、無料ユーザーが送信できるメッセージ数に制限があります。上限に達すると、ChatGPTは自動的にGPT-3.5に切り替わり、ユーザーは会話を続けることができます。

      新しいデスクトップアプリでワークフローを効率化

      無料・有料ユーザーを問わず、コンピュータ上で行っているあらゆることにシームレスに統合できるように設計されたmacOS用の新しいChatGPTデスクトップアプリもリリースします。簡単なキーボードショートカット(Option + Space)で、即座にChatGPTに質問することができます。また、アプリ内で直接スクリーンショットを撮り、議論することもできます。

      https://videos.ctfassets.net/kftzwdyauwt9/52LopQbWMG9s9TMcd3sd2k/6ef859a25569c217211bdf175009ea73/Web_-_New_UI_Updates.mp4

      本日より、PlusユーザーはmacOSアプリを配布しています。また、今年後半にはWindows版もリリースする予定です。

      GPT-4oの新しいオーディオとビデオ機能は、将来登場する予定です。社内で新しいアイデアを出したいとき、面接の準備をしたいとき、話したいトピックがあるときなど、デスクトップアプリの右下にあるヘッドフォンアイコンをタップして音声会話を始めましょう。

      編集部注:実際にはまだAppStoreには配信されていないようです。
      こちらのコミュニティで経過をみることができます

      https://community.openai.com/t/chat-gpt-desktop-app-for-mac/744613

      Originally published at https://note.com on May 14, 2024.

    7. OpenAI DevDayリリース詳細 日本語版

      OpenAI DevDayリリース詳細 日本語版

      2023年11月6日、OpenAI DevDayにて新モデルと開発者向け製品が発表されました。
      https://openai.com/blog/new-models-and-developer-products-announced-at-devday

      DevDayで発表されたモデルと開発者向け製品は主に以下のとおりです。
      以下、公式リリースをできるだけ丁寧に翻訳していきます。

      ・GPT-4Turboの128Kコンテキストと低価格化:
      より高性能で安価で、128Kのコンテキスト・ウィンドウをサポート
      ・新しいAssistants API:
      目標を持ち、モデルやツールを呼び出すことができる独自の支援AIアプリを開発者が簡単に構築できる
      ・GPT-4 Turbo with Vision
      ・DALL-E 3 API
      新しいマルチモーダル機能 視覚、画像作成(DALL-E 3)、音声合成(TTS)が本日午後1時(太平洋時間)から提供されます。

      GPT-4 Turbo 128Kコンテキスト

      OpenAIは今年3月にGPT-4の最初のバージョンをリリースし大きな反響を得ました。7月にGPT-4をすべての開発者が一般的に利用できるようになりましたが、本日、このモデルの次世代であるGPT-4 Turboのプレビューが公開されました。
      GPT-4 Turboはより高性能で、2023年4月までの世界情勢を把握しているようです。128kのコンテキスト・ウィンドウを持ち、300ページ以上のテキストを1つのプロンプトに収めることができます。GPT-4 Turboは、GPT-4と比較して、入力トークンで3倍安く、出力トークンで2倍安く提供されます。
      APIで「gpt-4–1106-preview」を渡すことにより、すべての有料開発者が試すことができます。

      関数呼び出し(function calling)の更新

      関数呼び出しは、アプリや外部APIの関数をモデルに記述し、モデルにそれらの関数を呼び出すための引数を含むJSONオブジェクトを出力するように賢く選択させることができます。1つのメッセージで複数の関数を呼び出す機能など、アップデートが本日リリースされました。
      例えば「車の窓を開けてエアコンを切る」といった複数のアクションを要求するメッセージを1回のリクエストで送ることができます。また関数呼び出し精度も向上しています。より正しい関数パラメータを返す可能性が高くなりました。

      命令追跡とJSONモードの改善

      GPT-4 Turboは、特定のフォーマット(「常にXMLで応答する」など)を生成するときなど、命令に注意深く従う必要があるタスクにおいて、これまでのモデルよりも優れたパフォーマンスを発揮するようになりました。モデルが有効なJSONで応答することを保証する新しい「 JSONモード 」をサポートしています。新しいAPIパラメータ「response_format」は、モデルが構文的に正しいJSONオブジェクトを生成するように出力を制約することを可能にします。JSONモードは、関数呼び出し以外でチャット完了APIでJSONを生成する開発者にとって便利と考えます。

      再現可能な出力とログ確率

      新しい「seed」パラメータは、モデルが一貫性のある補完を返すようにすることで再現可能な出力を可能にします。このベータ機能は、デバッグのためにリクエストを再生したり、より包括的な単体テストを書いたり、一般的にモデルの動作をより高度に制御したりするようなユースケースに便利です(OpenAI社内でこの機能をユニットテストに使用しており、 非常に貴重なものだと感じているそうです)。

      また、GPT-4 TurboとGPT-3.5 Turboによって生成された最も可能性の高い出力トークンのログ確率を返す機能を数週間以内に開始とのことです。

      更新されたGPT-3.5 Turbo

      GPT-4 Turboに加えて、デフォルトで16Kのコンテキスト・ウィンドウをサポートするGPT-3.5 Turboの新バージョンもリリースします。新しい3.5 Turboは、改良された命令フォロー、JSONモード、並列関数呼び出しをサポートしています。例えば、JSON、XML、YAMLを生成するようなフォーマット・フォロー・タスクにおいて、内部検証では38%の改善が見られました。開発者はAPIで「gpt-3.5-turbo-1106」を呼び出すことで、この新しいモデルにアクセスできます。「gpt-3.5-turbo」の名前を使用しているアプリケーションは、12月11日に自動的に新しいモデルにアップグレードされます。古いモデルには、2024年6月13日までAPIで「gpt-3.5-turbo-0613」を渡すことでアクセスできます。 詳細はこちら。

      アシスタントAPI、検索、コード・インタープリター

      今日、私たちは「 Assistants API」をリリースします。これは、開発者が自身のアプリケーション内でエージェントのような体験を構築することを支援するための第一歩です。アシスタントとは、特定の指示を持ち、余分な知識を活用し、モデルやツールを呼び出してタスクを実行できる「目的に特化したAI」です。
      新しいAssistants APIは、Code InterpreterやRetrieval、関数呼び出しなどの新しい機能を提供し、これまで自分で行わなければならなかった多くの重労働を処理し、高品質のAIアプリを構築できるようにします。

      このAPIは柔軟に設計されており、自然言語ベースのデータ分析アプリ、コーディングアシスタント、AI搭載のバケーションプランナー、ボイスコントロールDJ、スマートビジュアルキャンバスなど、使用例は多岐にわたる。アシスタントAPIは、当社の新製品GPTsを可能にする同じ機能、すなわちコード・インタープリタ、検索、関数呼び出しなどのカスタム命令とツールに基づいて構築されています。

      このAPIによって導入された重要な変更点は、持続的で無限に長いスレッドです。これにより、開発者はスレッドの状態管理をOpenAIに委ねることができ、コンテキストウィンドウの制約を回避することができます。アシスタントのAPIでは、既存のスレッドに新しいメッセージを追加するだけです。

      アシスタントは、必要に応じて新しいツールを呼び出すことができます。
      Code Interpreter:サンドボックス化された実行環境でPythonコードを書き込んで実行し、グラフやチャートを生成したり、多様なデータやフォーマットのファイルを処理したりできます。アシスタントがコードを繰り返し実行することで、難しいコードや数学の問題などを解決することができます。
      検索:独自のドメインデータ、製品情報、ユーザーから提供されたドキュメントなど、弊社のモデル外からの知識でアシスタントを補強します。つまり、ドキュメントの埋め込みを計算して保存したり、チャンキングや検索アルゴリズムを実装したりする必要はありません。アシスタントAPIは、ChatGPTで知識検索を構築した経験に基づいて、どのような検索手法を使用するかを最適化します。
      関数呼び出し: アシスタントは、あなたが定義した関数を呼び出し、その関数応答をメッセージに組み込むことができます。
      プラットフォームの他の部分と同様に、OpenAI APIに渡されたデータやファイルは、 OpenAIのモデルを訓練するために使用されることはありません。

      「 Assistantsプレイグラウンド 」に行けば、コードを書かずにAssistants APIベータ版を試すことができます。

      公式による動画紹介:Assistantsプレイグラウンドを使って、コードを書かずに高品質のアシスタントを作成
      https://cdn.openai.com/new-models-and-developer-products-announced-at-devday/assistants-playground.mp4

      Assistants APIはベータ版で、今日からすべての開発者が利用できます。作ったものを「@OpenAI」と共有してください。Assistants APIとそのツールの価格は、 価格ページ で確認できます。

      APIの新しいモダリティ

      ビジョン付きGPT-4 Turbo

      GPT-4 TurboはChat Completions APIで画像を入力として受け付けることができ、キャプションの生成、実世界の画像の詳細分析、図付きドキュメントの読み取りなどのユースケースが可能になります。例えば、 BeMyEyesはこの技術を使用して、目の不自由な人や弱視の人が商品を識別したり、店舗をナビゲートしたりするような日常作業を支援します。開発者はAPIで「gpt-4-vision-preview」を使用することでこの機能にアクセスできます。安定したリリースの一部として、メインモデルの「GPT-4 Turbo」にビジョンサポートを展開する予定です。価格は入力画像サイズに依存します。例えば、1080×1080ピクセルの画像をGPT-4 Turboに渡す場合、$0.00765かかります。詳細は ビジョンガイド をご覧ください。

      DALL-E 3

      モデルとして「dall-e-3」を指定することで、最近ChatGPT PlusとEnterpriseユーザーに提供を開始した「 DALL-E 3」を、Images APIを通じてアプリや製品に直接統合することができます。Snap、Coca-Cola、Shutterstockのような企業は、DALL-E 3を使用して、顧客やキャンペーン用の画像やデザインをプログラムで生成しているそうです。旧バージョンの DALL-E と同様に、API には開発者がアプリケーションを悪用から守るためのモデレーション機能が組み込まれています。様々なフォーマットやクオリティのオプションをご用意しており、生成される画像1枚あたり0.04ドルからご利用いただけます。 API で DALL-E 3 を使い始めるためのガイド をご覧ください。

      音声合成 (TTS)

      開発者はテキスト読み上げ API を使ってテキストから人間品質の音声を生成できるようになりました。新しい TTS モデルでは、6 種類のプリセット音声から選択でき、「tts-1」と「tts-1-hd」の 2 つのモデルバリエーションがあります。価格は1,000文字入力あたり0.015ドルから。まずは TTSガイド をご覧ください。音声サンプルも聞く事ができます。

      モデルのカスタマイズ

      GPT-4ファインチューニング実験アクセス

      GPT-4ファインチューニングの実験アクセスプログラムを作成中です。予備的な結果では、GPT-4ファインチューニングは、GPT-3.5ファインチューニングで実現した大幅な利益と比較して、ベースモデルから意味のある改善を達成するために、より多くの作業が必要であることを示しています。GPT-4ファインチューニングの品質と安全性が向上するにつれて、GPT-3.5ファインチューニングを積極的に使用している開発者には、ファインチューニング・コンソール内でGPT-4プログラムに適用するオプションが提示されます。

      カスタムモデル

      ファインチューニングが提供できる以上のカスタマイズを必要とする組織(特に、最低でも数十億トークンという非常に大規模な独自データセットを持つドメインに適用可能)のために、カスタムモデルプログラムも開始します。これにはドメイン固有の事前トレーニングの追加から、特定のドメインに合わせたカスタムRLポストトレーニングプロセスの実行まで、モデルトレーニングプロセスのすべてのステップを変更することが含まれます。組織は、カスタム・モデルに独占的にアクセスすることができます。OpenAIの既存のプライバシーポリシーに従い、カスタムモデルが他の顧客に提供されたり、他の顧客と共有されたり、他のモデルのトレーニングに使用されたりすることはありません。また、カスタムモデルを訓練するためにOpenAIに提供された専有データは、他のいかなる文脈でも再利用されることはありません。これは非常に限定された(そして高価な)プログラムの開始になります。 登録はこちら 。

      低価格と高い料金制限

      料金の値下げ

      開発者に節約分を還元するため、プラットフォーム全体でいくつかの価格を引き下げます(以下の価格はすべて1,000トークンあたりの価格です):

      ・GPT-4 TurboインプットトークンはGPT-4より3倍安い0.01ドル、アウトプットトークンは2倍安い0.03ドル。
      ・GPT-3.5 Turboの入力トークンは、以前の16Kモデルより3倍安い0.001ドル、出力トークンは2倍安い0.002ドルです。以前GPT-3.5 Turbo 4Kを使用していた開発者は、0.001ドルのインプット・トークンを33%削減できます。これらの低価格は、本日発表された新しいGPT-3.5 Turboにのみ適用されます。
      ・ファインチューニングされたGPT-3.5 Turbo 4Kモデルのインプット・トークンは4倍の0.003ドルに、アウトプット・トークンは2.7倍の0.006ドルに値下げされます。ファインチューニングはまた、新しいGPT-3.5 Turboモデルで4Kと同じ価格で16Kコンテキストをサポートします。これらの新しい価格は、ファインチューンされた「gpt-3.5-turbo-0613」モデルにも適用されます。

      より高いレート制限

      お客様のアプリケーションの拡張を支援するため、GPT-4 のすべての有料顧客の 1 分あたりのトークンの上限を 2 倍にします。新しいレートリミットは レートリミットページで確認できます。また、料金制限の自動引き上げを決定する 使用量階層を公開しましたので、使用量制限がどのように自動的に拡大されるかをご確認いただけます。 アカウント設定 から利用限度額の引き上げをリクエストできるようになりました。

      著作権シールド

      OpenAIは、システムに組み込まれた著作権セーフガードでユーザを保護することをお約束します。本日、さらに一歩進んで、「Copyright Shield」を導入します。お客様が著作権侵害に関する法的請求に直面した場合、OpenAIが介入してお客様を保護し、発生した費用を支払います。これは、ChatGPTエンタープライズと開発者プラットフォームの一般的に利用可能な機能に適用されます。

      Whisper v3 と一貫性デコーダー

      オープンソース自動音声認識モデル(ASR)の次のバージョンである「 Whisper large-v3」をリリースします。また、近い将来、APIでもWhisper v3をサポートする予定です。

      また、Stable Diffusion VAEデコーダーのドロップインリプレースメントである「 一貫性デコーダー (Consistency Decoder)」もオープンソース化しています。このデコーダーは、Stable Diffusion 1.0+ VAEと互換性のあるすべての画像を改善し、テキスト、顔、直線を大幅に改善します。

      ChatGPTのOpenAI DevDayアナウンスについてはこちらをご覧ください。

      Originally published at https://note.com on November 7, 2023.