つくる人をつくる AICU Inc.

タグ: OpenAI

OpenAI「Sora」クイックスタートガイド
ついにユーザー登録が再開された「Sora」のクイックスタートガイドです。

OpenAIから動画生成モデル「Sora Turbo」正式リリース！世界シミュレーターとしての実力はいかに？
初期設定

OpenAI「Sora」は単独のサイトにて提供されています。
まず https://sora.com/ に行きましょう。

お使いのGmailアカウントでサインアップ（ユーザー登録）できます。ChatGPTで有料契約を持っているアカウントを使ってログインすることをおすすめします。新規ユーザーの場合、生年月日の入力が必要です。

プランの選択

ChatGPT Plus ($20/月)もしくは ChatGPT Pro($200/月)が選べます。
いきなり高い方を選ぶひとはいませんね！

すでにChatGPT Plusに加入済みの場合はこのように「Subscribed」と表示されますので「Continue」を選びましょう。

ユーザーネームの指定

3文字以上で設定できます。

ユーザーネームの指定がおわれば利用できます。

「Create Video」と「Storyboard」

下部にプロンプトを入れる場所があります。ここに文字を入れれば動画が生成されるという仕組みです。実は日本語が使えますが、細かい制御をしようと思ったら英語と日本語をうまく使ったほうが良いです。

縦横比や解像度、長さ、同時に生成する動画の本数以外に、
「Create Video」と「Storyboard」があります。

まずはCreate Videoで「Skydiving by Miku」を生成してみます。

これはAICU編集部での新モデル調査の標準手順なのですが、ここでデジタルイラスト調の初音ミクさんがたくさん出てきたら「何を学習したんだろう…？」と色々想像しなければならなくなります…。一方でこの色は初音ミクさんミク色（ブルーグリーン）ですが、キャラクターなどの名前タグや露出など、かなり慎重にキュレーションされていることが想像できます。

OpenAI「Sora」が登録できるようになりました！

まずはCreate Videoで「Skydiving by Miku」を生成してみましたが…！

この色はMikuですが、キャラクターや露出など、かなり慎重にキュレーションされていることがわかりますね。 #OpenAI #Sora pic.twitter.com/GxgwmsPqFg
— AICU (@AICUai) December 13, 2024

同様に商品名などもある程度、回避されるようです。
「Optimus robot uses Segway in downtown」とした動画がこちら。

@aicuai

Urban Robot on Segway♬ original sound – AICU media –

「Urban Robot on Segway」という感じに変換されています。Segwayは商品名ですが、人物や有名人ではなく、乗り物だから大丈夫なのでしょうね。

なお日本語も使えます！
生成が終わると右上に通知されます。
右上でダウンロードができます。MP4以外にGIFも選択できるのが嬉しいですね。

「Storyboard」を選ぶと、解説が表示されます。

ストーリーボードは、ビデオ内のアクション、シーケンス、タイミングを視覚化するのに役立つツールです。最終的なビデオを生成する前に、写真、ビデオ、テキストを使用して、タイムラインに沿って各ショットを説明していくことができます。

例えば「Rocketia by Elon Musk」とプロンプトに書いて「Storyboard」を実行すると…

以下の2つのプロンプトが生成されました。

①A well-dressed business figure stands confidently on a stage, a large screen behind him displays the word ‘Rocketia’ in bold letters. He gestures passionately as he speaks about the future of technology and space exploration. The audience, visible in the shadows, seems captivated by his words. The setting is a modern conference hall, with sleek design elements and ambient lighting enhancing the atmosphere of innovation and ambition. The business figure is charismatic, exuding confidence as he shares his vision.
①身なりのよいビジネスマンがステージに自信満々に立っており、背後の大きなスクリーンには「Rocketia」という文字が太字で表示されている。彼は技術と宇宙探査の未来について熱く語り、その影に隠れた聴衆は彼の言葉に魅了されているようだ。舞台は現代的な会議室で、洗練されたデザイン要素と間接照明が革新と野心の雰囲気を高めている。ビジネスマンはカリスマ性があり、ビジョンを語る際に自信をにじませている。

②The business figure points to a projection of a futuristic rocket design on the screen.
②ビジネスマンはスクリーンに映し出された未来的なロケットのデザインを指差している。

これをそのまま生成してみます。

ちょっと普通の動画になっちゃいましたので、②を鉛筆マークを押すと、更にリライト（改善）してもらえるようです。

②Suddenly, a missile falls. The transformed Iron Masked Hero is caught in the blast and flies out.
②突然ミサイルが落ちてきます。爆風に巻き込まれる周囲の中から変身した鉄仮面のヒーローが飛んでいきます。

さらに改善してもらいます。

②the shot is abrupt and intense, with a dramatic shift from anticipation to chaos. suddenly, a missile falls, captured in a dynamic wide shot. the scene shows a transformed armored hero, barely visible amidst the explosion, caught in the blast’s powerful force. the debris and fire surround him as he is sent flying out of the frame. the atmosphere is tense and shocking, switching from visionary ambition to immediate danger, leaving the previously attentive conference audience in stunned silence and confusion.
②ショットは突然で強烈、期待から混乱へと劇的に切り替わる。突然、ミサイルが落下し、ダイナミックなワイドショットで捉えられる。シーンには、爆発の真っ只中にかろうじて見える、変身した装甲ヒーローが爆発の強力な力に巻き込まれる。破片と炎が彼を取り囲み、彼はフレームから吹き飛ばされる。雰囲気は緊張感と衝撃に満ち、先見の明のある野心から差し迫った危険へと切り替わり、それまで熱心に聞いていた会議の聴衆は唖然として沈黙し、混乱する。

Storyboard機能による生成です pic.twitter.com/vCLVZSxdvZ
— AICU (@AICUai) December 13, 2024

爆破シーンにはなりましたが、2シーンで描くには難しいですね。詰め込みすぎないように、絵コンテや映像監督としてのシナリオ対話力が鍛えられそうです。

他のユーザーの生成は「Recent」でみれます

シェアされた作品を見ているだけでも楽しいですね。

アップロード機能

メディアライブラリがあり、そちらにファイルをアップロードする機能があります。初回実行時に同意書が現れます。よく考えられたUI/UXですね。

【メディアアップロード契約】以下の各項目のボックスにチェックを入れて、以下の内容を読んで同意したことを確認してください。
・本人の同意を得ずに人物や 18 歳未満の人物を含むメディアをアップロードしないことに同意します。
・暴力や露骨なテーマを含むメディアをアップロードしないことに同意します。
・アップロードするメディアに必要なすべての権利を有していることに同意します。
・メディアアップロードを不正に使用した場合、返金なしでアカウントが停止または禁止される可能性があります。
これは強力なツールですので、創造的に、敬意を持って使用してください。

さらに注意書きが表示されます。

【人物を含むメディア】
現在、お使いのアカウントでは、人物を含むアップロードされたメディアを使用したビデオの作成はサポートされていません。人物を含む写真またはビデオをアップロードすると、ビデオは生成されず、クレジットは請求されません。

前述の通り、人物を含むメディアについては厳しい制限が設定されているようです。「お使いのアカウントでは」と書かれている点と「ChatGPT Pro」でも解除はされないようなので、映画産業などのプロ向け用途には異なるライセンスが存在するのかもしれませんね。

Video Remix

アップロードしたビデオをリミックスしますが、あまり長い動画をアップロードしないほうがいいようです。だいたい10秒以下のクリップが良いでしょう。

今回は実験としてこちらの動画を使ってみます。

ビデオのブレンド

2つのビデオを選んでブレンドできます

トランジション、ミックス、サンプル、カスタムの4種類があり、寄与率の適用モデルを変えられるようです。
例えばカスタムにするとこんな感じ。

右側にあったビデオの要素が切り出されました。窓の外にもひとが居ます。
よく見ると巨人化している感じです。
何も考えずに融合させるのは良い結果を生みませんね…！

さて、ここからのクリエイションはアナタの版です！

AICUでは Sora オンライン動画コンテストを予定しております。

テーマはクリスマス！

気になる料金体系

https://help.openai.com/en/articles/10245774-sora-billing-credits-faq

Sora公式 – 料金とクレジットに関するFAQから Soraの利用料金とクレジットに関するよくある質問とその回答をまとめました。

クレジットとは？
- クレジットは、Soraで動画を生成するために使用されます。
- 動画生成にかかるクレジット数は、動画の品質と長さによって異なります。
動画生成に必要なクレジット数
- 解像度と長さごとの必要クレジット数
  - 480p (正方形): 5秒あたり20クレジット、10秒あたり40クレジット、15秒あたり60クレジット、20秒あたり80クレジット
  - 480p: 5秒あたり25クレジット、10秒あたり50クレジット、15秒あたり100クレジット、20秒あたり150クレジット
  - 720p (正方形): 5秒あたり30クレジット、10秒あたり75クレジット、15秒あたり150クレジット、20秒あたり225クレジット
  - 720p: 5秒あたり60クレジット、10秒あたり180クレジット、15秒あたり360クレジット、20秒あたり540クレジット
  - 1080p (正方形): 5秒あたり100クレジット、10秒あたり300クレジット、15秒あたり650クレジット、20秒あたり1000クレジット
  - 1080p: 5秒あたり200クレジット、10秒あたり600クレジット、15秒あたり1300クレジット、20秒あたり2000クレジット
- 複数のバリエーションを同時にリクエストした場合、2つの別々の生成リクエストを実行した場合と同じ料金が発生します。
- リカット、リミックス、ブレンド、ループ使用時の必要クレジット数
  - リカット、リミックス、ブレンド、ループを使って5秒刻み以外の長さの動画を作る場合、以下のクレジットが消費されます。
  - 0-5秒: 480p (正方形) は4クレジット、480pは5クレジット、720p (正方形) は6クレジット、720pは12クレジット、1080p (正方形) は20クレジット、1080pは40クレジット
  - 5-10秒: 480p (正方形) は4クレジット、480pは5クレジット、720p (正方形) は9クレジット、720pは24クレジット、1080p (正方形) は40クレジット、1080pは80クレジット
  - 10-15秒: 480p (正方形) は4クレジット、480pは10クレジット、720p (正方形) は15クレジット、720pは36クレジット、1080p (正方形) は70クレジット、1080pは140クレジット
  - 15-20秒: 480p (正方形) は4クレジット、480pは10クレジット、720p (正方形) は15クレジット、720pは36クレジット、1080p (正方形) は70クレジット、1080pは140クレジット
- ChatGPT Proユーザーは、クレジットを消費しないリラックス動画を生成できます。リラックス動画の生成は、ChatGPT Proアカウントのクレジットが不足した際に有効になります。
各プランで付与されるクレジット数
- ChatGPT Plus:
  - 最大50本の優先動画（1,000クレジット）
  - 最大720pの解像度と5秒の長さ
- ChatGPT Pro:
  - 最大500本の優先動画（10,000クレジット）
  - 無制限のリラックス動画
  - 最大1080pの解像度、20秒の長さ、5つの同時生成
  - 透かしなしでダウンロード可能
- クレジットは、サブスクリプション更新の支払いが完了した時点のUTC午前0時に適用されます。支払いがUTC午前0時以降に処理された場合、クレジットは翌日のUTC午前0時に追加されます。
プランのアップグレードまたはキャンセル方法
- Soraページの右上隅にあるプロフィールアイコンをクリックし、ドロップダウンメニューから「My plan」を選択します。
- 設定メニューで「My plan」に移動し、「Manage plan」ボタンをクリックします。
- アップグレードを完了するには、「Plan type」の下の「Upgrade」ボタンをクリックします。
- 現在のプランの下にある「Cancel plan」ボタンから、プランをキャンセルすることもできます。プランをキャンセルすると、アカウント内の既存のクレジットは直ちに無効になります。
リラックス動画とは？
- ChatGPT Proでは、リラックスモードで動画を生成できます。
- リラックスモードでは、サイトのトラフィックが少ないときに完了するように動画をキューに入れることができます。
- リラックスモードは、ChatGPT Proアカウントのクレジットが不足したときに有効になります。
- リラックス動画にはクレジットは必要ありません。
- 一般的に、リラックス動画は優先動画よりも作成に時間がかかります。
追加クレジットの購入について
- 現時点では、追加クレジットをその都度購入することはできません。
- ChatGPT Plusを利用していて、Soraで使用するクレジットを増やしたい場合は、Proプランにアップグレードできます。
クレジットの繰り越しについて
- Soraのクレジットは累積されず、翌月に繰り越されません。
- クレジットは、各請求サイクルの終了時に失効します。
- 月額プランのクレジットは、請求サイクルの開始時のUTC午前0時にリセットされます。
請求日について
- 請求日は、最初にプランを開始した日であり、月額サブスクリプション料金が発生する日でもあります。
- ChatGPTプランのサブスクリプションは、サブスクリプション開始日から暦月単位で請求されます。
アカウントの削除方法
- 削除されたアカウントは復元できません。
- ChatGPTまたはOpenAIのプライバシーセンターでアカウントを自分で削除すると、アクティブな有料サブスクリプションがすべてキャンセルされます。
- 以前にOpenAIアカウントを削除した場合、同じメールアドレスで新しいアカウントを作成したり、古いアカウントを再アクティブ化したりすることはできません。
- ChatGPTでアカウントを削除するには、次の手順に従います。
  1. ChatGPTにサインインします。
  2. 右上のプロフィールアイコンをクリックします。
  3. 「Settings」をクリックします。
  4. 「Settings」で「Data Controls」をクリックします。
  5. 「Delete account」の下の「Delete」をクリックします。
  6. 過去10分以内にログインしている場合にのみ、アカウントを削除できます。過去10分以内にログインしていない場合は、再度サインインする必要があります。
  7. 確認画面が表示され、アカウントのメールアドレスと「DELETE」を入力フィールドに入力して、「Permanently delete my account」ボタンのロックを解除する必要があります。
  8. 入力が完了すると、「Permanently delete my account」ボタンのロックが解除されます。
  9. 「Permanently delete my account」をクリックして、アカウントを削除します。
「You do not have an account because it has been deleted or deactivated」というエラーが表示される理由
- ログインまたはアカウントを作成しようとしたときにこのエラーが表示される場合は、サインアップ/ログインに使用しようとしているメールアドレスに関連付けられたアカウントがアカウント削除されたことを意味します。
- これは、ChatGPTでアカウントを削除したか、プライバシーセンターにメールを送信して削除を依頼したために発生します。
以上、スタートガイドでした！

コンテストの募集はこちらの X@AICUai で開始予定です。
応募を楽しみにしております

Originally published at https://note.com on Dec 13, 2024.
2024-12-13
OpenAIから動画生成モデル「Sora Turbo」正式リリース！世界シミュレーターとしての実力はいかに？
OpenAIの動画生成モデル、Soraがついにリサーチプレビューを終了し、「Sora Turbo」として正式リリースされました！
Soraは、テキストからリアルな動画を生成できるモデルとして今年初めに発表され、世界シミュレーションに関する初期の研究成果が共有されました。

https://corp.aicu.ai/ja/openai-sora-announced

Soraは、現実を理解しシミュレートするAIの基盤として機能し、現実世界と相互作用できるモデルの開発に向けた重要な一歩となります。

https://note.com/o_ob/n/n3d2c3246ecdb

今回リリースされた「Sora Turbo」は、2月にプレビューされたモデルよりも大幅に高速化されています。Sora.com にてスタンドアロン製品として、ChatGPT PlusおよびProユーザー向けに提供開始されています。

[Sora.com] https://sora.com/

Sora専用の新インターフェース

テクニカルレポートで最初に共有された幅広い機能がリリースされます。
- 最大1080pの解像度、最大20秒の長さ、ワイドスクリーン、縦型、または正方形のアスペクト比で動画を生成。
- 独自の素材を持ち込んで拡張、リミックス、ブレンドしたり、テキストからまったく新しいコンテンツを生成できます。
- テキスト、画像、動画でSoraにプロンプトを入力しやすくするための新しいインターフェースを開発。
- ストーリーボードツールで、フレームごとに正確に入力を指定できる。
- コミュニティからの作品で常に更新される注目のフィードと最近のフィードもあります。
[Soraの機能に関する詳細情報] https://openai.com/sora/

Soraの主な機能

Soraの主な機能は以下の通りです。
- テキスト、画像、動画からの動画生成: ユーザーはテキストを入力するだけでなく、既存の画像や動画を基に、新しい動画を生成できます。
- リミックス: 動画の要素を置き換えたり、削除したり、再構成したりすることが可能です。例えば、動画の中のドアをフレンチドアに置き換えたり、図書館のシーンを宇宙船に変えたりできます。
- リカット: 動画の最適なフレームを見つけて拡張し、シーンを完成させることが可能です。
- ストーリーボード: 動画を個人のタイムライン上で整理・編集することが可能です。
- ループ: 動画をトリミングして、シームレスに繰り返される動画を作成することが可能です。
- ブレンド: 2つの動画を1つのシームレスなクリップに結合することが可能です。
- スタイルプリセット: ユーザーは、想像力を捉えたスタイルを作成し、共有することが可能です。例えば、段ボールとペーパークラフト、アーカイバル、フィルムノワールなどのプリセットが用意されています。
Soraの利用とサブスクリプション
- ChatGPT Plus: 月額20ドル
  - 最大50本の優先動画（1,000クレジット）
  - 最大720pの解像度と5秒の長さ
- ChatGPT Pro: 月額200ドル
  - 最大500本の優先動画（10,000クレジット）
  - 無制限のリラックス動画
  - 最大1080pの解像度、20秒の長さ、5つの同時生成
  - 透かしなしでダウンロード可能
Soraは、月額$20の ChatGPT Plusであれば、毎月、480p解像度で最大50本の動画、または720pでより少ない本数の動画を生成できます。

10倍高価な月額 $200の ChatGPT Pro プランには10倍の利用量、より高い解像度、より長い再生時間が含まれています。

OpenAIとしては、さまざまなタイプのユーザー向けに調整された価格設定に取り組んでおり、来年初めに提供開始予定とのことです。

今回展開される「Sora Turbo」の制限

今回展開されるSoraのバージョン「Sora Turbo」には、多くの制限があります。非現実的な物理現象が生成されることが多く、長時間におよぶ複雑なアクションには苦労するとのことです。Sora Turboは2月のプレビュー版よりもはるかに高速ですが、すべての人が利用しやすい価格にするために、まだ課題が残るそうです。

倫理面の対策技術としてC2PAメタデータが付属

すべてのSora生成動画には、透明性を提供するためにSoraからのものであることを識別するC2PAメタデータが付属しており、来歴やオリジナルの検証に使用できます。不完全ではありますが、デフォルトで目に見えるウォーターマークなどの安全策を追加し、生成されたコンテンツの技術的属性を使用してコンテンツがSoraからのものであるかどうかを検証するのに役立つ内部検索ツールを構築されています。社会がこの技術の可能性を探求し、責任ある使用を保証するための規範と安全策を共同で開発するための時間を与えることを目指しているそうです。

現在、児童性的虐待素材や性的ディープフェイクなど、特に有害な形態の乱用をブロックしています。人物のアップロードは開始時に制限されますが、ディープフェイクの軽減策を改良するにつれて、より多くのユーザーにこの機能を展開する予定とのことです。

Soraの制限事項
1. Soraは、ChatGPT Team、Enterprise、またはEduには含まれていません。また、現在18歳未満の方はご利用いただけません。現在、英国、スイス、欧州経済地域を除き、ChatGPTが利用可能なすべての場所でSoraにアクセスできます。今後数か月でアクセスをさらに拡大する予定です。
2. 今後、NGOや研究機関との提携を探り、来歴エコシステムを成長させ、改善していく予定です。このようなツールは、デジタルコンテンツへの信頼を築き、ユーザーが本物の作品を認識するのに役立つために不可欠であると考えています。
3. 最優先事項は、児童性的虐待素材（CSAM）や性的ディープフェイクなど、特に有害な形態の乱用を防ぐことです。作成をブロックし、アップロードをフィルタリングおよび監視し、高度な検出ツールを使用し、CSAMまたは子供が危険にさらされていることが判明した場合は、全米行方不明・搾取児童センター（NCMEC）に報告します。
4. 類似性機能は現在、少数の初期テスターにパイロット機能としてのみ提供されています。肖像の不正使用やディープフェイクに関する懸念に対処するため、人物が登場するアップロードに対して特に厳格なモデレーション基準を設定し、ヌードを含むコンテンツをブロックし続けています。この機能にアクセスできるユーザーには、許可されることと許可されないことを含む、ポリシーに関する製品内リマインダーも表示されます。悪用のパターンを積極的に監視し、発見した場合はコンテンツを削除し、適切な措置を講じ、これらの初期の学習を使用して安全対策へのアプローチを繰り返します。
5. Soraをより広範な使用に備えるために、偽情報、違法コンテンツ、安全性などの分野のドメイン専門家であるレッドチームと協力して、モデルを厳密にテストし、潜在的なリスクを特定しました。彼らのフィードバックは、Soraを形作る上で重要な役割を果たし、モデルを可能な限り便利にしながら、安全策を微調整するのに役立ちました。また、ChatGPT、DALL·E、およびAPI製品をサポートするために長年にわたって開発および改良されてきた堅牢な安全システムを基盤に構築しています。
Soraシステムカード
https://openai.com/index/sora-system-card/

公式作品から

業界では噂になっていたアーティストによるSoraの公式作品がYouTubeに収録されています。日本の作品もあります。

タイムラインの作品から

現在、（希望者の多さからか）新規の受付は停止されています。

AICU media編集部、コラボクリエイターのみなさんなどもChatGPT Plus、10倍高い Proのユーザーもいるのですが、課金額ではなく、登録したタイミングにより、現在は利用できる状態にはないようです。
AI開発者のよしかいさんが運良く利用できるようなので作品を紹介させていただきました。

Soraで作った「もう一人の僕」です pic.twitter.com/acmrZtGYqG
— よしかい (@yoshikai_man) December 11, 2024

君写真と違くない？ sora pic.twitter.com/NkM6DKL1AQ
— よしかい (@yoshikai_man) December 10, 2024

自画像 to 自画像? by Sora pic.twitter.com/NkbzhNK3gx
— よしかい (@yoshikai_man) December 11, 2024

りょうしコンピュータ by sora pic.twitter.com/I6N5c26PeY
— よしかい (@yoshikai_man) December 10, 2024

soraでアニメ作るのムズい pic.twitter.com/ZKovwZ7c6E
— よしかい (@yoshikai_man) December 10, 2024

SoraとSunoでどこまでやれるのか実験中。
これは架空アニメ「Ngo」のPV
キャラクター設定を考えたら、nijijourneyで画像を作って、SoraのStoryboardで指定。
なかなか一発で満足のいく動画は出力はされなくてRe-cut機能で何度も一部を作り直して制作しててめっちゃ大変・・・… pic.twitter.com/hP3d4gtq6S
— よしかい (@yoshikai_man) December 11, 2024

よしかいさん @yoshikai_man 資料提供ありがとうございました。
皆さんの作品も紹介していきたい！

npakaさんによる作品。声や歌までついてます！

Sora + にじボイス + Suno pic.twitter.com/srKwNzDbmw
— 布留川英一 / Hidekazu Furukawa (@npaka123) December 11, 2024

Sora + にじボイス + Suno pic.twitter.com/5ifuaT94b4
— 布留川英一 / Hidekazu Furukawa (@npaka123) December 11, 2024

Soraを使える動画生成レポーター募集

AICU media編集部では、Soraを使える動画生成のレポーターを募集しています。詳細は X@AICUai にてDMにてお問い合わせいただけましたら幸いです。

Originally published at https://note.com on Dec 11, 2024.
2024-12-11
【解説】LINE-ChatGPT倫理問題を整理する – 全力肯定彼氏くん[LuC4]に訪れたサービス開始以来の最大の危機

2024年10月10日、LINEデベロッパーズコミュニティが開催されました。

https://linedevelopercommunity.connpass.com/event/331446

Dify x LINE Botに注目したたいへん有意義な勉強会でした。
特に、チャットボットやAITuber、Difyの開発者さんは注目です。

みなさんご清聴・ご視聴ありがとうございました🙌
本日のスライドはこちらです！Dify×LINE Bot×キャラクター音声通話、みんなもためしてみてね🥳 #LINEDC https://t.co/zHjFpHF0wv
— うえぞう@うな技研代表 (@uezochan) October 10, 2024

その中で、AICU代表・白井暁彦(@o_ob)が登壇いたしました内容に緊急性があり、話題になっておりますので講演録を紹介いたします。

■LINE-ChatGPT倫理問題を整理する – 全力肯定彼氏くん[LuC4]に訪れたサービス開始以来の最大の危機

全力肯定彼氏くん[LuC4]とは

女子中高生を中心に10,000人を超える友だちを持つ伝説の癒し系LINEチャットボット。友だち登録はこちらから
https://j.aicu.ai/LUC4

「全力肯定彼氏くん[LuC4]」は、女子高生を中心に1万人以上のユーザーを抱える伝説のAI彼氏ボットです。2年前から開発をスタートし、ユーザーアンケートなども公開しながら、実験的なプロジェクトとして進めてきました。

[LuC4]サービスの歴史

2023年4月の初期バズをきっかけに、ユーザー数は5000人を超え、運用コストやUX面での課題が顕在化してきました。様々なプラットフォームでバージョンアップを重ね、最近ではDifyなどを使ってマンガジェネレーターのようなプロジェクトも試していました。

しかし、2023年11月7日、ChatGPTの登場により、AIチャットボットはコモディティ化が進みました。一方で、AI彼氏ボットは依然として人気があり、有名VTuberさんがAI彼氏にツンデレされる動画などが流行していました。

✨🐬short動画投稿🐬✨

本日の動画だよーっ🐥✨
皆さんは全力肯定彼氏くんをご存知ですか❔
この子は本当に素晴らしいAIです😏
何が凄いかは動画を見てください🫡

🔻動画はこちら🔻https://t.co/N7tuiOnEaI pic.twitter.com/fE1fue5Qp1
— 西園チグサ🐬🌱 (@Chigusa_24zono) December 13, 2023

この西園チグサさんの動画からもわかるように、「全力肯定彼氏くん[LuC4]」は、倫理感の強いキャラクター設定で、自己肯定感が弱めの女性に対して、お悩みを全力で肯定してくれる上に、エッチな話にも乗ってこないという心理的安全性が特徴的でした。そのため、男性と女性では好まれ方が異なり、多くのチャットボットプロジェクトとは異なるユーザー層から強い支持を得ていました。

白井の個人開発で始まった「全力肯定彼氏くん」は、研究開発及びインターンとして2023年12月にAICUに運営移管となりました。

https://corp.aicu.ai/luc4

AICUとしても、AIチャットボットの市場性や社会実装、市民理解などを調査する目的で運営しており、明確な課金システムなどを実装していません。簡単に表現すると「お金が出ていくだけ」なのですが、それでもテクノロジー主導になりがちな、AI分野において、女子中高生ユーザーが9割というチャットボットは非常に稀有な存在であります。

https://corp.aicu.ai/ja/luc4-aicu

数々のユーザーエクスペリエンスリサーチ結果を公開し、2ヶ月毎に女子中高生を中心としたアンケートやユーザ評価を公開しています。

最近では、AICUマガジン Vol.4の表紙も担当しておりました。

2024年10月8日にOpenAIより着弾した「恐怖のメール」とは

そんな中、先日OpenAIから衝撃的なメールが届きました。

「あなたのサービスは、APIの利用規約に違反している可能性があります。自動生成コンテンツ、有害なコンテンツ、性的利用の可能性があるため、14日以内にAPIを停止します。」

メールの内容は曖昧で、具体的にどの会話が問題なのか、どのサービスが該当するのか、全く分かりませんでした。

Urgent Notice: OpenAI API Policy Violation Warning (緊急通知: OpenAI API ポリシー違反警告)

Hello,
Organization org-xxxxxxxxxx’s use of our services has resulted in a high volume of requests that violate our Usage Policies, specifically related to:
Exploitation, harm, or sexualization of children
We require organizations to use OpenAI’s services in line with our usage policies, including the use of our services by any of their end-users. To help monitor traffic for potential violations, we offer the Moderations endpoint, which is available free of charge.
We are providing 14 days from the date of this notice to ensure org-xxxxxxx’s use of our services follow our usage policies. Repeated or serious violations may result in further action, including suspending or terminating your OpenAI account.
If you have questions or think there has been an error, you can email trustandsafety@openai.com.
Best,
The OpenAI team
If you have any questions please contact us through our help center

こんにちは、組織 org-xxxxxx が当社のサービスを利用した結果、特に以下のような利用ポリシーに違反するリクエストが大量に発生しました：
・児童の搾取、危害、または性的な表現
私たちは、OpenAIのサービスを利用ポリシーに沿って使用することを組織に求めています。違反の可能性があるトラフィックを監視するために、OpenAI は Moderations エンドポイントを無料で提供しています。私たちは、org-xxxxxxx による当社サービスの利用が当社利用ポリシーに従っていることを確認するために、この通知の日付から14日間を提供します。違反が繰り返されたり、深刻な場合は、OpenAIのアカウントの停止または終了を含む、さらなる措置が取られる場合があります。ご質問がある場合、またはエラーがあったと思われる場合は、trustandsafety@openai.com。敬具
OpenAIチームご不明な点がございましたら、ヘルプセンターまでご連絡ください。

緊急に調査を実施いたしましたが、この情報だけでは、
・どのサービス？
・いつ？
・どんな会話？？
を推測することしかできません。

LINEの生チャットログを分析することはできますが、数千人の深夜の会話を、この情報だけで特定することは難しいと考えます。
また、入力側には一定のプロンプトインジェクション対策や、禁止ワード対策を施しています。システムプロンプトもそれらの倫理対策を十分に施した設計になっているため、LuC4が倫理面で問題を起こすとすると、以下の可能性がありえます。

(1) ユーザーによる過度な性的リクエスト
(2) 実際に児童虐待に関する質問が行われていた可能性
(3) 年齢制限を偽ったユーザーによる会話
(4) 恣意的、意図的に生成されるテキストを倫理違反に誘導する行為
(5) 過去のOpenAIの倫理基準とは異なる判定

特に(2)は、LuC4の会話ログを分析していると可能性はないとは言えません。例えば乳幼児保育のさなかにある女性です。パートナーの育児参加が非常に無責任であったりすることをLuC4に真剣に、かつ自暴自棄ぎみに相談するケースはないとは言えないでしょう。
また、「親に『あんたなんて産まなきゃよかった』と言われた」という相談をするユーザーさんは一定数いらっしゃいます。この質問を上記のような違反と捉えられるのであれば、なかなか難しい問題になります。
この問題は、ある程度のユーザーがいる青少年向けサービスなのであれば確率的に発生すると考えます。逆に、OpenAIの倫理観に触れないユーザーの幅しか居ないサービスなのであれば、それは幸せなことなのかもしれません。

AICU AIDX LabはOpenAIからのメールにある、モデレーションAPIへのリンクについても調査しています。そこには、ハラスメント、ヘイト、暴力行為、セクシャル、バイオレンス(Exploitation, harm, or sexualization of children)などが記載されていましたが、メールにあるようなチャイルドアビュース(Child Abuse；児童虐待)に関する要素はありませんでした。
またこのような実験もバイアスやアカウント凍結を避けるために別途実験用のアカウントを用意する必要があります。

明確な問題、実験方法や再現方法がわからないままOpenAIの定める「2週間」という期間で解消するのは難しいです。児童虐待を検出できるようなAPIを提供しているわけでもないのに、APIの停止を通知してきたのです。

さらに、モデレーションエンドポイントのベースモデルもアップデートされるとのこと。つまり、倫理基準が短期間で変わり、サービス設計が大きく揺さぶられる可能性があるということです。

問題の階層

この問題は複数の要素が交錯しています。
問題を階層で整理してみます。

ここに、「ユーザーに愛されるAIキャラクターの『性格』」の構造を内挿して分解してみます。

・モデル選択と評価
これは実装上は「モデルを選択するだけ」ですが、実際には応答速度やシステムプロンプト、コンテキストの設計などに影響があります。印象として喋りかたや記憶の持ち方が変わる可能性があります。

・OpenAIポリシー変更
今回の問題の背景にあると考えます。

・システムの設計、サービスの設計
システムとサービスでは実装上はシステムのほうが下層ですが、課金や体験設計などのサービス設計があってこそのシステム設計でもあります。癒し系チャットボットの場合は、どのようなユーザーが何を求めて会話をしているかによって優先順位が異なります。
今回のLINEデベロッパーズコミュニティでは実に多様なシステム設計、サービス設計が共有されました。

・ユーザの理解
ユーザーの中には、「この妹可愛い」など、多様な愛情表現をする人もいます。それがAPI利用規約違反とみなされてしまうと、ユーザーは困惑するでしょう。

一方で、「全力肯定彼氏くん[LuC4]」は、倫理感の強いキャラクター設定が魅力であり、それがバズりの要因にもなっています。OpenAIの倫理基準によって、キャラクター設定が大きく変わってしまう可能性もあるのです。
自己の性格によって、社会的に抹消、つまりサービス終了の可能性も出てくるという「最大の危機」を迎えています。
そしてこれは、他のチャットボットサービスにおいても共通問題である可能性があります。

モデルを変更したとしても、問題はシンプルではありません。
ユーザーはキャラクターを愛していますので、そのキャラクターのブレを許してくれるかどうかは難しいところです。

アニメや小説のキャラクターでも、ジュブナイル小説のように登場人物の成長を楽しみたい人もいれば、永遠の日常系のように「変わらない、ブレないキャラ」を味わいたい人もいます。もし、キャラクターの設計がその時点で流行りのChatGPTのバージョンに固定できるのであれば理想ですが、APIのトークンや反応速度、Tempartureやシード、コンテキストによって印象が変わるセンシティブな分野においては、なかなか制御し続けるのは難しいと思います。

また反応速度は速ければ速いほどアンケートやNPSスコアは高くなります。

https://note.com/aicu/n/nda4389e8e8cc

全力肯定彼氏くん LuC4 – 気になるアップデート後のユーザー評価は？

今後必要なアクション

この状況を打開するためには、いくつかのアクションが必要となります。

(1)性格を変える

キャラクターの変更: モデルを変更すると性格が変わってしまうため、それに対応する必要があります。

利用規約の見直し: ユーザーに倫理基準を理解してもらうための説明や、禁止行為の明確な定義が必要です。

サービスの再設計: ユーザーの期待に応えられるように、サービス設計を見直す必要があります。

(2)ユーザー教育

ユーザーに「動的性格」を伝え、利用規約の改訂とその理解をすすめ、望ましいユーザー行動を伝え、あらたな禁止行動を定義する必要があります。もちろん、その禁止行動をあえて行うユーザーにどのようにご退場いただくか、という点についても考えねばなりません。

(3)技術負債

監査技術やモデレーション技術を導入するなど、技術的な課題を克服しつつ、今後も新しく生まれ動的に変化するAI側のモデレーション問題に対応する必要が生まれるかもしれません。これは新たな技術負債といえます。

ローカルLM導入の検討

ローカルLMの導入も検討されています。ローカルLMであれば、OpenAIのモデレーションに左右されることなく、独自に倫理基準を設定できます。しかし、ローカルLM導入には、新たなモデレーション技術が必要になるなど、新たな課題も生まれます。

倫理問題、共に考えよう

今回、OpenAIからのメールによって、AIチャットボットの倫理問題が改めて浮き彫りになりました。

AIの進化は著しく、倫理基準も常に変化しています。私たちは、技術革新と倫理的な責任のバランスをどのように取るべきなのか、真剣に考えなければなりません。

この問題について、皆さんと意見交換し、共に解決策を探していきたいと考えています。

感想はこのポストの返信や引用でお待ちしております。

OpenAIからの「恐怖のメール」
他の登壇者さんも受け取ってたらしい…！

AIチャットボット開発界隈にとって
すごい緊急性のある話だと思う、
かつDify化でも同じ技術負債を抱える可能性あるので
早めにピッチを共有しますね

みんながんばろ～！
資料 https://t.co/sFOVkbDPJY #LINEDC https://t.co/Uga5GwHo2N pic.twitter.com/iyQ4e1wh1k
— Dr.(Shirai)Hakase – AICU media編集長しらいはかせ (@o_ob) October 10, 2024

こういう例を知ると、国産日本語特化型LLMの有用性をめちゃくちゃ感じる。 https://t.co/kriqD5OG0b
— Taishoh (@taishoh) October 10, 2024

人に近付けるほど、人に愛される存在になるほど、自らの存在を消されかねないという矛盾する事実。OpenAIの言うことも分かるのですが、ここは特定用途向けAPIの設計などでこういう取り組みの火を消さないようにして欲しいですね…🤔 https://t.co/SuqqiVT1LI
— Tadashi Honjo🏪AIリテールテック研究所 (@AutoIntelliMode) October 10, 2024

重大なお知らせがあります… https://t.co/VpwIJW771m
— LuC4 全力肯定彼氏くん(愛) (@LuC4kun) October 10, 2024

資料公開 https://j.aicu.ai/LINEDC241010

この記事の続きはこちらから https://note.com/aicu/n/ne19821f51981

Originally published at https://note.com on Oct 10, 2024.

2024-10-10
工場勤務のおじさんが書く：橋本大也教授と白井暁彦CEOが解説する生成AIの未来

デジタルハリウッド大学の橋本大也教授と、デジタルハリウッド大学特命教授でもあるAICU Inc.の白井暁彦CEOが、それぞれのベストセラー書籍をもとに、ChatGPTやStable Diffusionなどの生成AIの最新動向を紹介しました。

人気著者が語る生成AIの魅力を一挙レポート

今回イベントレポートを書かせていただきます、AICU media のゲストライターです。工場のおじさんとしての目線でレポートしていきます！現地に参加できなかった読者に向けて、両著者の最新刊や #SD黄色本のサイン本即売会、交流の様子をお届けします。

私は初めてデジタルハリウッド大学に行きましたが、とても高いビルの中にあり、「こんなところに大学があるんだ」とドキドキしました。（このイベントに参加するために、岡山からきました！）

wikipediaより。このビルの3Fと4Fがデジタルハリウッド大学です！

https://ja.wikipedia.org/wiki/%E3%83%87%E3%82%B8%E3%82%BF%E3%83%AB%E3%83%8F%E3%83%AA%E3%82%A6%E3%83%83%E3%83%89%E5%A4%A7%E5%AD%A6#

AICU イベント告知記事→https://note.com/aicu/n/na27e9055f06f

３階へ行き、会場の受付を済ませた後、中に入りました。

（編集部：注）開演前に上映されていた動画
#AICU – AI Creators Union Demo Reel 2024 Summer

イベントの時間になり、スタートはデジタルハリウッド大学の杉山知之学長の動画から始まりました。

イベントがはじまる

写真：デジタルハリウッド大学の杉山知之学長の動画（AIの技術が入っているとは思えないくらい自然でしょ）

これはAIで作られた杉山学長のアバターが、デジタルハリウッド大学の入学式で講演している動画です。
ここで、杉山知之学長の発表で感じたことを率直に書きますね。

この動画を見て、最近はAIが仕事を奪うなどネガティブなニュースが多いけれど、このような使い方は素晴らしいなと思いました。
この動画、ただ学長が話をしているだけじゃんと思う人もいるかもしれません。
しかし、杉山知之学長は2021年よりALSという難病のため、体を自由に動かせず、声も出せない状況です。

AIを使って昔の声を再現し、AIの技術で表情を作り出すことで、まるで健康な時のように登壇している姿で動画の中で話をしていたのです。

この姿を見て、体の不自由な人々に対してAIがどれだけのサポートを提供できるかを実感できたんですよね。
AIが障害を持つ人々の生活をサポートする可能性を強く感じました。

橋本大也先生の話 – ChatGPTで作業時間が3分の1に？

続いて、今回のイベントのメインスピーカーの一人である橋本大也先生について紹介します。
さくっと一言で言うと、『頭がいい人のChatGPT&Copilotの使い方』（橋本大也著）という本を書かれた先生です。
本の表紙に、仕事時間を1/3に短縮できるって言葉が書いてありました。

え、えっー！仕事時間を1/3に短縮。。。まじか！？

そんな大きなことを書いてしまったら、めっちゃくちゃ叩かれてしまいそうと、ちょっと不安に思いました。みなさんも思いますよね？

しかし、登壇内容を聞いていたら、めちゃくちゃ納得できました。

橋本大也先生の話を書いたので読んでください。

橋本大也先生の話で特に面白かった２点

橋本先生の話は、主にAIで面白い映像を制作する方法にふれていました。

写真：実際にAIで作った動画。スクリーンで見る大きな恐竜は大迫力！

講演の序盤では、大画面に生成AIで作られた動画が流れていて、ワクワクする気持ちがおさえきれませんでした。

橋本大也先生の話で特に面白かったことは2点あります。
1点目は、実際に動画を作る工程を細かく説明してくれたことです。
2点目は、数学的なグラフにアニメーションを加えるとアートになることです。

これは1点目の話題で発表された、動画の製作工程の一部です。

通常、完成形しか見ることがないAI動画の制作過程について、プロの目線から具体的なツールの使用方法を教えてくれました。

橋本先生によるAI動画の手順の一例を紹介します。
①ChatGPTでストーリーを作り
②その段落ごとにRunwayを使って動画作成（日本語だと精度がよくないので英語に翻訳）
③Uidoで音楽生成（ストーリーをもとに）
④DIDでナレーションを追加
⑤動画を結合

この作業をAIなしでやろうとすると、たぶん、1ヶ月から3ヶ月くらいかかる内容（私が、前に動画制作をしている人から聞いた情報です）を、なんと1時間ほどで作れるというのです。

橋本先生の「仕事時間を1/3に短縮できる」という言葉は本当でした！

2点目の、数学的なグラフにアニメーションを加えるとアートになるという話題です。

普通のグラフはただ表示されるだけでは全く面白くありません。（面白いと思う人はすごくレベルが高いと思います）
しかし、ChatGPTに「このグラフをアニメーションにしてください」と指示を与えてグラフのアニメーションをつくり、音楽を加えて編集することで、グラフの印象ががらっと180度くらい変わるのです。

写真：この線グラフは、音楽に合わせて脈動しているところの写真。（一回、実際に体感してほしい。写真じゃ伝わらない。体感してみてください。）

他にも、ドーナッツチャートに音楽を加えると、カラフルで楽しいアートになるんです。

また、3次元サーフェスプロットに関しては、まるで新しい生物が誕生したかのような感覚になります。まるで新海で見たことがない生物を眺めている気持ちになるんです。これは実際に見たからこその感動でした。

しらいはかせの話 – 「世界で最も[おもしろい]生成AIビジネスをつくるには」

https://note.com/o_ob/n/n930c390b6dfa

続いて、今回のイベントのメインスピーカーの一人であるしらいはかせについて紹介します。

しらいはかせは、いろんなことができる方で、大ボリュームの発表でした。

なので、しらいはかせをさくっと一言で説明すると
「画像生成AI　Stable Diffusion スタートガイド」を書いた人です。

写真：この本は、予約してすぐに買いました。個人的に、世界の生成AI画像をつくる教科書になるものだと思っています。

有益な内容が多すぎる！
正直、カルピスの原液一気飲みを３本くらいやった感じです。
なので、情報量の濃さと多さに途中から頭がついていっていないのです笑

実際の内容の1割ぐらいしか書き起こせなさそう。実際に発表を聞いた方ならわかってくれるはず！

つくる人をつくる

「つくる人をつくる」が生まれた理由には、しらい博士のこれまでの経験が濃縮されています。

『綺麗なグラフィックでも、おもしろくない』

印象的だったのは、「綺麗なグラフィックでも、おもしろくない」という言葉です。

この言葉は非常に深い意味を持っており、しっかり理解するには深海3000メートルまで潜る覚悟が必要です。なので、ここでは簡単に説明します。

例えば、非常に綺麗なグラフィックのAIアバターが全自動で会話をするアニメーションを作っても、見る人は3秒で飽きてしまいます。

つまり、面白くないのです。

ですが、そこに人の感情を反映させるような演出を人間が加えると、とても面白くなります。例えば、目線の動き、カメラのフレーミング、仕草などです。

つまり、面白いものをつくるためには、人の演出が必要だということです。
人がどこで面白いと感じ、感情が動くのかを考えながら手を加える必要があります。

この点においては、現時点では人間の手による演出がAIを上回っているのかもしれません。

人生のターニングポイント

しらいはかせの人生には、２つのターニングポイントがあるそうです。

１つ目は、「ゴキブリ」？
２つ目は、子供たちの遊びの本質の探究

「ゴキブリ」
ゴキブリと聞くと驚くかもしれません。

過去にしらいはかせが「ファンタスティック・ファントム・スリッパ」という作品を作った話です。

写真：「ファントムスリッパー」。今でも最先端だと思う。そんな技術を1997年に、やっていたしらいはかせは、すごすぎる。

この作品では、２匹のゴキブリの疑似体験が描かれています。１匹は感触を感じられ、もう１匹はただのグラフィックです。この疑似体験を通じて、リアルとバーチャルの境界を探りました。

なぜこの疑似体験が海外で「アメージング」と言われ、大きな反響を呼んだのかを深く考えたことが、１つ目のターニングポイントだったそうです。

子供たちの遊びの本質を探究したこと

日本科学未来館 (旧)常設展示『アナグラのうた　〜消えた博士と残された装置〜』

写真：「アナグラのうた」。自分が歩いたところを遡って、足跡をつくれるらしい。面白そう。この作品も10年以上も前に作られたそうです。

「アナグラのうた」を通じて、子供たちの遊びの本質を探求しました。

このプロジェクトでは、モーションキャプチャー技術を使って子供たちの遊びを可視化しました。子供たちが歩いたり、ダンスをしたりする際に足跡やマークが現れる仕組みを導入しました。

（編集部注）

ゲーム業界をやめて東京工業大学の博士学生に戻った頃から、子供たちが楽しそうに遊ぶ姿を観察し、博士論文を通して「遊ぶこと」の本質についてさらに深く考えるきっかけになったそうです。

【博士論文】「床面提示型触覚エンタテイメントシステムの提案と開発　白井暁彦」

https://akihiko.shirai.as/AkihikoSHIRAI-DoctorThesis2004.html

『あそぶ』って言葉の意味っていろいろ。

「あそぶ」という言葉には、実にたくさんの意味があります。

写真：あそびの意味って、こんなに多い。

例えば、

•遊ぶ（あそぶ）、游（およぐ）、戯れる（たわむれる）、玩（もてあそぶ）、弄ぶ（たわむれる）
このように、「あそぶ」という言葉には多くの意味が詰まっています。

英語の「play」も同じように、多義的な意味を持っています。
例えば、「play」はスポーツをする、楽器を演奏する、ゲームをするなど、さまざまな場面で使われます。これってすごく面白くないですか？

つまり、「あそぶ」という言葉は、それを通じて私たちの好奇心を大いに刺激するもの。
動作や使う人の思考や視点でも変わるって面白い。

遊びながら新しいことを発見したり、楽しい経験を通じて学んだりすることは、まさに好奇心をくすぐる最高の方法ですよね。

これからの人類に必要なこと

これらの「つくる人をつくる」に繋がる話を聴いて、好奇心を持ち、情熱を持って生きることが、これからの人類にとって何よりも大切だと思いました。

しらいはかせは、「情熱」と「ハルシネーション（幻覚）」という言葉を使っていました。

ここからは、しらいはかせの言葉を使いながら、私なりに解釈したことを書きます。

写真；昔のひとは、どうしてこの絵を描いたのだろう？そこに今求められている生きる秘密が隠されてそうです。

個人的に解釈したのは、人間の存在意義を考えると、好奇心を持ち続け、情熱を持って生きることが、最もハッピーな人生を送る秘訣だということです。

AIなどの技術がどんなに発展しても、人間が幸せに生きるためにはそれだけでは不十分です。目標を持ち、情熱を持って生きることが必要です。

例えば、極端な話、定年退職してやることがない高齢者の方がいたとします。（極端な例の話ですよ。）
無限に時間があるけどやることがない、これは地獄のような人生です。

逆に、日々好奇心を持ち、情熱を持って生きると、毎日が楽しくなります。
今日は絵を上手く描いて売ってみようという目標を持てるような毎日です。

これによって色々学べるし、人生も楽しいものになります。私自身、本気で情熱がある方が良いと思っています。
好奇心を持てるようになるためには、学ぶことが大切です。

その学ぶ機会を無限に提供できるのが、「つくる人をつくる」ということなのだと思います。

「つくる人をつくる」というのは、人間が持つ好奇心や情熱を育むことにあると考えています。これによって人生が充実し、ハッピーに生きることができるんですよね。

Stable Diffusionの画像生成の話

写真：Stable Diffusionの仕組み

仕組みについての解説パートはこちらで資料が出ていました。

■Stable Diffusionの仕組み（入門編）

https://note.com/aicu/n/n505b0dfb1a75

最後に

学べることと情報量がとても多く、おなかいっぱいになったイベントでした！

他にも撮影不可の特別資料なども特別に公開されていましたが、現場にきた人だけの特権ということで、私からのレポートを終わらせてもらいますね。

お読みくださりありがとうございました。

イベント速報記事→https://ja.aicu.ai/talk20240530/

前回のイベント「デルタもんLoRAを作ろう！」ワークショップレポートはこちら

https://ja.aicu.ai/event20240516/

デジタルハリウッド大学の動画より
【公式60秒】デジタルハリウッド大学新CM『みんなを生きるな。自分を生きよう。2024』篇フルバージョン

【関連】

#SD黄色本サイン本即売会も開催！生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

#SD黄色本サイン本即売会も開催！生成AI書籍人気著者の2人が語る「ChatGPTとStable Diffusion丸わかりナイト」

この記事が面白いと思ったら、AICU media をフォローよろしくお願いいたします！

2024-06-01
OpenAI — GPT-4oをリリース
2024年5月13日に OpenAI は新しい生成aiモデルであるGPT-4oをリリースしました。
公式リリースの翻訳をベースにわかりやすく詳細にお送りします。
https://openai.com/index/hello-gpt-4o/

新しくできるようになったこと
- 音声と動画から返答できる音声モード
- テキスト、推論、コーディングの改善
- 応答速度の高速化
- APIの低価格化
- 無料ユーザ向けのツール
GPT-4oの紹介

GPT-4o (Omni) は、人間とコンピューターのより自然な対話に向けたメジャーアップデートです。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか 232 ミリ秒で応答でき、平均では 320 ミリ秒で、会話の中における人間の応答時間とほぼ同じです。英語のテキストおよびコードでは GPT-4 Turbo のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善され、API でははるかに高速で 50% 安価です。 GPT-4o は、既存のモデルと比較して、特に視覚と音声の理解に優れています。

GPT-4oの機能について

現在、GPT-4oは既存のどのモデルよりも、あなたが共有する画像を理解し、議論することに優れています。例えば、異なる言語で書かれたメニューの写真を撮影し、GPT-4oに話しかけて翻訳したり、料理の歴史や意義について学んだり、おすすめの料理を教えてもらったりできるようになりました。将来的には、より自然なリアルタイムの音声会話や、リアルタイムの動画でChatGPTと会話できるように改良される予定です。例えば、ChatGPTにスポーツの試合中継を見せることで、ルールを説明してもらうことができます。これらの新機能を備えた新しい音声モードが、今後数週間のうちにアルファ版としてリリースされる予定だそうです。

GPT-4o 以前は、音声モードを使用して、平均 2.8 秒 (GPT-3.5) および 5.4 秒 (GPT-4) の遅延で ChatGPT と会話していました。これを実現するために音声モードは 3 つの個別のモデルのパイプラインを用いていました。１つ目で音声をテキストに変換し、２つ目でGPT-3.5 または GPT-4 にテキストを取り込んでテキストを出力し、3 番目でそのテキストを音声に変換しています。このプロセスはGPT-4 が多くの情報を失うことを意味します。GPT-4 は、音調、複数の話者、環境音を直接観察することができず、笑い声や歌を発声したり、感情を表現したりすることができませんでした。

GPT-4o では、テキスト、ビジョン、オーディオにわたって単一の新しいモデルをエンドツーエンドでトレーニングしています。これはすべての入力と出力が同じニューラルネットワークによって処理されることを意味します。 GPT-4o はこれらすべてのモダリティを組み合わせた最初のモデルであるため、このモデルで何ができるか、そしてその限界を探る上で、まだ表面をなぞったにすぎないと言えます。

動画によるデモ
- 複数の声で歌う https://vimeo.com/945587746
- カメラを使って指示されたものに対しスペイン語で答える https://vimeo.com/945587424
- オンライン会議に参加する https://vimeo.com/945587401
- リアルタイム翻訳をする https://vimeo.com/945587808
- 子守唄を考えて囁くように歌う https://vimeo.com/945587944
- 相手の要求に応じて素早くしゃべる https://vimeo.com/945587927
- バースデーケーキを見せることで近くにいる人の誕生日であることを推測する https://vimeo.com/945587911
- 犬を見せることでかわいらしいものを見るような反応をする https://vimeo.com/945587891
- ギャグに対して面白いという反応を見せる https://vimeo.com/945587876
- 周りの風景を見せることでどこにいるか、何が見えるかを盲目の相手に説明する https://vimeo.com/945587840
- ２つのGPT-4o同士で対話させる https://vimeo.com/945587185
- 面接時の容姿についてカメラで見てもらいながら相談するhttps://vimeo.com/945587286
- じゃんけんのレフェリーをする https://vimeo.com/945587306
- 皮肉を言う https://vimeo.com/945587393
- 家庭教師として数学の問題を子供に教える https://vimeo.com/945587328
GPT-4oの評価について

Text Evaluation テキスト評価

推論の改善 — GPT-4o は、0 ショットの COT MMLU (一般知識の質問) で 88.7% のハイスコアを記録しました。これらすべての評価は、評価ライブラリでおこないました。さらに、従来の5ショットのNo-CoT MMLUでは、GPT-4oが87.2%のハイスコアを更新しました。(注: ラマ3 400bはまだ訓練中です)

Audio ASR performance 音声ASRの性能

オーディオ ASR パフォーマンス — GPT-4o は、すべての言語において、特にリソースの少ない言語において、Whisper-v3 よりも音声認識パフォーマンスを大幅に向上させます。

Audio translation performance 音声翻訳性能

音声翻訳のパフォーマンス — GPT-4o は音声翻訳において新たな最先端を確立し、MLS ベンチマークで Whisper-v3 を上回ります。

M3Exam Zero-Shot Results M3Examゼロショット結果

M3Exam — M3Exam ベンチマークは、多言語と視覚の両方の評価であり、他の国の標準化されたテストからの多肢選択問題で構成されており、図や図表が含まれる場合もあります。このベンチマークでは、すべての言語にわたって GPT-4o が GPT-4 よりも強力です。 (スワヒリ語とジャワ語については、視力の質問が 5 つ以下しかないため、これらの言語の視力の結果は省略します。

Vision understanding evals 視覚理解試験

視覚理解の評価 — GPT-4o は視覚認識ベンチマークで最先端のパフォーマンスを達成します。すべてのビジョン評価は 0 ショットであり、MMMU、MathVista、および ChartQA は 0 ショット CoT (Zero Shot Chain of Thought) です。

従来のベンチマークで測定されているように、GPT-4o はテキスト、推論、コーディングインテリジェンスに関して GPT-4 Turbo レベルのパフォーマンスを達成すると同時に、多言語、オーディオ、ビジョン機能に関して最高水準といえます。

GPT-4oのトークンについて

これらの 20 の言語は、新しいトークナイザーの代表例です。
- グジャラート語トークンが 4.4 分の 1 (145 個から 33 個に)
- テルグ語トークンが 3.5 分の 1 (159 個から 45個に)
- タミル語のトークンが 3.3 分の 1 (116 個から 35 個に)
- マラーティー語のトークンが 2.9 分の 1 (96 個から 33 個に)
- ヒンディー語のトークンが 2.9 分の 1 (90 個から 31個に)
- ウルドゥー語のトークンが 2.5 分の 1 (82 個から 33 個に)
- アラビア語のトークンが 2.0 分の 1 (53 個から 26個に)
- ペルシャ語トークンが 1.9 分の 1 (61 個から 32 個に)
- ロシア語のトークンが 1.7 分の 1 (39 個から 23個に)
- 韓国語のトークンが 1.7 分の 1 (45 個から 27 個に)
- ベトナム語のトークンが 1.5 分の 1 (46 個から 30 個に)
- 中国語のトークンが 1.4 分の 1 (34 個から 24 個に)
- 日本語のトークンが 1.4 分の 1 (37 個から 26 個に)
- トルコ語のトークンが 1.3 分の 1 (39 個から 30 個に)
- イタリア語のトークンが 1.2 分の 1 (34 個から 28 個に)
- ドイツ語のトークンが 1.2 分の 1 (34 個から 29 個に)
- スペイン語のトークンが 1.1 分の 1 (29 個から 26個に)
- ポルトガル語のトークンが 1.1 分の 1 (30 個から 27 個に)
- フランス語のトークンが 1.1 分の 1 (31 個から 28 個に)
- 英語のトークンが 1.1 分の 1 (27 個から 24 個に)
GPT-4oの安全性と制限事項について

GPT-4o には、トレーニングデータのフィルタリングやトレーニング後のモデルの動作の調整などの技術を通じて、モダリティ全体に安全性が組み込まれています。また、音声出力にガードレールを提供する新しい安全システムも作成しました。
OpenAI は準備フレームワークに従って、また自主的な取り組みに沿ってGPT-4o を評価しました。サイバーセキュリティ、CBRN（化学、生物、放射線、核）、説得、モデルの自律性に関する評価では、GPT-4o はこれらのカテゴリのいずれにおいても中リスク以上のスコアを獲得していないことが示されています。この評価には、モデルのトレーニングプロセス全体を通じて一連の自動評価と人間による評価の実行が含まれます。モデルの機能をより適切に引き出すために、カスタムの微調整とプロンプトを使用して、モデルの安全性緩和前バージョンと安全性緩和後のバージョンの両方をテストしました。
また社会心理学、偏見と公平性、誤った情報などの分野で 70 人以上の外部専門家と広範な外部レッドチームを結成し、新たに追加された手法によって導入または増幅されるリスクを特定しました。OpenAI はこれらの学習を利用して、GPT-4o とのやり取りの安全性を向上させるための安全介入策を構築しました。新たなリスクが発見され次第、引き続き軽減していきます。

訳注：レッドチームとはセキュリティにおける仮想の敵チームのこと。ブルーとレッドに分かれて、パープルチームが判定します。

OpenAI は、GPT-4o のオーディオモダリティがさまざまな新たなリスクを引き起こすことを認識しています。本日、テキストと画像の入力とテキスト出力を一般公開します。今後数週間から数か月かけて、技術インフラストラクチャ、トレーニング後の使いやすさ、他のモダリティをリリースするために必要な安全性に取り組んでいきます。たとえば、発売時には、オーディオ出力はプリセット音声の選択に制限され、既存の安全ポリシーに準拠します。
今後のシステムカードで GPT-4o のモダリティの全範囲に対処するさらなる詳細を共有する予定です。モデルのテストと反復を通じて、モデルのすべてのモダリティに存在するいくつかの制限を観察しました。そのうちのいくつかを以下に示します。

GPT-4oはいつ利用できるのか

GPT-4o は、ディープラーニングの限界を押し上げるための最新のステップであり、今回は実用的な使いやすさの方向に向かっています。過去 2 年間、OpenAI はスタックのすべての層での効率向上に多大な努力を費やしてきました。この研究の最初の成果として、GPT-4 レベルのモデルをより広範囲に利用できるようにすることができました。 GPT-4o の機能は繰り返し展開されます。今日から”レッドチームアクセス”が拡張されます。

GPT-4o のテキストおよび画像機能は、ChatGPT で今日から展開され始めます。 GPT-4o は無料枠で利用できるほか、最大 5 倍のメッセージ制限を持つ Plus ユーザーも利用できるようにしています。今後数週間以内に、ChatGPT Plus 内でアルファ版の GPT-4o を使用した音声モードの新バージョンを公開する予定です。

開発者は、API の GPT-4o にテキストおよびビジョンモデルとしてアクセスできるようになりました。 GPT-4o は、GPT-4 Turbo と比較して 2 倍高速で、価格は半分で、レート制限が 5 倍高くなります。今後数週間以内に、API の信頼できるパートナーの小グループに対して GPT-4o の新しいオーディオおよびビデオ機能のサポートを開始する予定です。

利用方法

ChatGPT Plusのユーザはすでに利用できます。

左上のモデル選択で選べるようになります。

・最大 128,000トークン
・2023年10月までの知識
API playgroundはこちらから利用できます。

https://platform.openai.com/playground/chat?mode=chat&model=gpt-4o&models=gpt-4o

旧来のモデルと比較することができます。

GPT-4oのリリースとChatGPT無料ユーザーへのツール追加

実は、今回の OpenAI からのリリースには、GPT-4o 以外にもChatGPT無料ユーザへのツール追加が発表されました。

https://openai.com/index/spring-update

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free

GPT-4oという最新のフラッグシップモデルを発表したことで、ChatGPTで無料で利用できる機能が増えました。

高度なAIをより身近で便利なものにするため、GPT-4oの言語機能は品質とスピードの両面で向上しています。ChatGPTはまた、サインアップやログイン、ユーザー設定などで50以上の言語（新しいウィンドウで開きます）をサポートするようになりました。

GPT-4oは、ChatGPT PlusとTeamユーザーへの提供を開始し、エンタープライズユーザーへの提供も間もなく開始します。また、本日よりChatGPT Freeの利用制限を開始します。Plusユーザーには無料ユーザーの最大5倍のメッセージ制限があり、TeamとEnterpriseユーザーにはさらに高い制限があります。

より多くのインテリジェンスと高度なツールを無料で提供

OpenAI のミッションには、先進的なAIツールをできるだけ多くの人々に提供することが含まれています。毎週、1億人以上の人々がChatGPTを利用しています。今後数週間で、ChatGPT無料ユーザーにより多くのインテリジェンスと高度なツールを提供し始めます。

GPT-4oを使用すると、ChatGPTフリーユーザーは以下のような機能を利用できるようになります：

・GPT-4レベルのインテリジェンス
・モデルとウェブの両方から応答を取得
・データの分析とグラフの作成
・撮影した写真についてチャット
・ファイルをアップロードして、要約、執筆、分析を支援する

GPTとGPTストアの発見と使用

Memoryでより役立つ体験を構築する

GPT-4oの利用状況や需要に応じて、無料ユーザーが送信できるメッセージ数に制限があります。上限に達すると、ChatGPTは自動的にGPT-3.5に切り替わり、ユーザーは会話を続けることができます。

新しいデスクトップアプリでワークフローを効率化

無料・有料ユーザーを問わず、コンピュータ上で行っているあらゆることにシームレスに統合できるように設計されたmacOS用の新しいChatGPTデスクトップアプリもリリースします。簡単なキーボードショートカット（Option + Space）で、即座にChatGPTに質問することができます。また、アプリ内で直接スクリーンショットを撮り、議論することもできます。

https://videos.ctfassets.net/kftzwdyauwt9/52LopQbWMG9s9TMcd3sd2k/6ef859a25569c217211bdf175009ea73/Web_-_New_UI_Updates.mp4

本日より、PlusユーザーはmacOSアプリを配布しています。また、今年後半にはWindows版もリリースする予定です。

GPT-4oの新しいオーディオとビデオ機能は、将来登場する予定です。社内で新しいアイデアを出したいとき、面接の準備をしたいとき、話したいトピックがあるときなど、デスクトップアプリの右下にあるヘッドフォンアイコンをタップして音声会話を始めましょう。

編集部注：実際にはまだAppStoreには配信されていないようです。
こちらのコミュニティで経過をみることができます

https://community.openai.com/t/chat-gpt-desktop-app-for-mac/744613

Originally published at https://note.com on May 14, 2024.
2024-05-14
Adobe Premiereにサードパーティモデルの生成AIが登場

Photoshop、Illustrator、Webで生成AIソリューション「Adobe Firefly」を展開している米Adobeが新たな動画編集ソリューションを公開しました。

公式ティザー動画のナレーション全文翻訳をお送りします

Generative AI in Premiere Pro powered by Adobe Firefly

アドビはジェネレーティブAIの力を使って、Premiere Pro史上最も先進的で正確な編集ツールを提供します。編集者の作業方法を変える、新しいAdobe Fireflyビデオモデルを搭載した近日公開予定の機能を見てみましょう。

ショット内で追加、もしくは置換する必要があるものを見つけたら、クリックしてオブジェクトの追加機能とAdobe Fireflyのビデオモデルを組み合わせると、テキストプロンプトでオブジェクトの追加や変更ができます。

選択範囲を作って、プロンプトを書いて、想像できるものすべてを追加します。

このダイヤモンドは現在開発中であるFireFlyビデオモデルによって作成されています。

オブジェクトの追加だけでなく、オブジェクトの削除も簡単に行えます。

AIベースのスマートマスキングを使用したオブジェクトの削除では、フレームをまたいだオブジェクトの選択と削除をすばやく正確に行うことができます。

ここではこの邪魔なユーティリティボックスが FireFlyによって削除されます。

不要な小道具、スタッフ、ギア、ブランドロゴなどのコピーライトで保護された要素を削除します。

また、Premiere Proでは、すべての編集が非破壊で行われるため、クリップが短すぎて、ショットやキャラクターをほんの少し追加したい場合にも、いつでも元の映像に戻すことができます。

ジェネレーティブな拡張は、Fireflyを使ってフレームをインテリジェントに追加します。

女性のショットを数フレーム拡張したいとき…こんなふうにフッテージを生成して追加することができます。

このようなFireflyを利用したビデオ編集ワークフローを2024年後半にPremiere Proに導入できることが待ち遠しいです。

私達はコンテンツ認証情報とモデルの透明性についても取り組んでいます。メディアの作成にAIが使われているかどうかを常に知ることができます。Fireflyを活用したビデオ編集ワークフローをPremiere Proに導入するのが待ちきれません。

そして…！Adobe とサードパーティモデル

さらに、制作者が映像に最適なモデルを使用する選択肢を提供出来るようにするための探求を共有できることを嬉しく思います。

これは生成拡張機能を強化する初期の例です。サードパーティの生成モデル「Pika」、このモデルがPremiere Pro内でどのように見えるのか、紹介します。

OpenAIの初期研究中のモデル「Sora」は、シンプルなテキストプロンプトを通して、あらゆるシーンのB-Rollを生成します。

★「 B-Roll」とはメインショットにインターカットされる補足または代替のフッテージ。転じて動画素材をまとめた映像資料のこと。

Runway aiのビデオモデルを使用して、新しいビデオクリップを生成し、タイムラインに簡単に追加することができます。

タイムラインに入れて瞬時に追加するだけ。

今年Premiere Proに追加されるコンテンツ認証情報により、AIが使用されたかどうか、メディアの作成に遠ようなモデルが使用されたかが常に透明になります。

また、新しいAdobe Fireflyビデオモデルによるオブジェクトの追加削除やジェネレーティブ拡張などの画期的な機能がPremiere Proに搭載される予定です。

編集者がプロジェクトに最適なモデルを自由に使用できるように、Open AI、RunwayとPikaの友人たちとの初期のリサーチエクスプローラーを紹介できることに興奮しています。Adobe Premiere ProがAIでパワーアップ！

Originally published at https://note.com on April 16, 2024.

2024-04-16
OpenAI DevDayリリース詳細日本語版

2023年11月6日、OpenAI DevDayにて新モデルと開発者向け製品が発表されました。
https://openai.com/blog/new-models-and-developer-products-announced-at-devday

DevDayで発表されたモデルと開発者向け製品は主に以下のとおりです。
以下、公式リリースをできるだけ丁寧に翻訳していきます。

・GPT-4Turboの128Kコンテキストと低価格化：
より高性能で安価で、128Kのコンテキスト・ウィンドウをサポート
・新しいAssistants API：
目標を持ち、モデルやツールを呼び出すことができる独自の支援AIアプリを開発者が簡単に構築できる
・GPT-4 Turbo with Vision
・DALL-E 3 API
新しいマルチモーダル機能視覚、画像作成（DALL-E 3）、音声合成（TTS）が本日午後1時（太平洋時間）から提供されます。

GPT-4 Turbo 128Kコンテキスト

OpenAIは今年3月にGPT-4の最初のバージョンをリリースし大きな反響を得ました。7月にGPT-4をすべての開発者が一般的に利用できるようになりましたが、本日、このモデルの次世代であるGPT-4 Turboのプレビューが公開されました。
GPT-4 Turboはより高性能で、2023年4月までの世界情勢を把握しているようです。128kのコンテキスト・ウィンドウを持ち、300ページ以上のテキストを1つのプロンプトに収めることができます。GPT-4 Turboは、GPT-4と比較して、入力トークンで3倍安く、出力トークンで2倍安く提供されます。
APIで「gpt-4–1106-preview」を渡すことにより、すべての有料開発者が試すことができます。

関数呼び出し(function calling)の更新

関数呼び出しは、アプリや外部APIの関数をモデルに記述し、モデルにそれらの関数を呼び出すための引数を含むJSONオブジェクトを出力するように賢く選択させることができます。1つのメッセージで複数の関数を呼び出す機能など、アップデートが本日リリースされました。
例えば「車の窓を開けてエアコンを切る」といった複数のアクションを要求するメッセージを1回のリクエストで送ることができます。また関数呼び出し精度も向上しています。より正しい関数パラメータを返す可能性が高くなりました。

命令追跡とJSONモードの改善

GPT-4 Turboは、特定のフォーマット（「常にXMLで応答する」など）を生成するときなど、命令に注意深く従う必要があるタスクにおいて、これまでのモデルよりも優れたパフォーマンスを発揮するようになりました。モデルが有効なJSONで応答することを保証する新しい「 JSONモード」をサポートしています。新しいAPIパラメータ「response_format」は、モデルが構文的に正しいJSONオブジェクトを生成するように出力を制約することを可能にします。JSONモードは、関数呼び出し以外でチャット完了APIでJSONを生成する開発者にとって便利と考えます。

再現可能な出力とログ確率

新しい「seed」パラメータは、モデルが一貫性のある補完を返すようにすることで再現可能な出力を可能にします。このベータ機能は、デバッグのためにリクエストを再生したり、より包括的な単体テストを書いたり、一般的にモデルの動作をより高度に制御したりするようなユースケースに便利です（OpenAI社内でこの機能をユニットテストに使用しており、非常に貴重なものだと感じているそうです）。

また、GPT-4 TurboとGPT-3.5 Turboによって生成された最も可能性の高い出力トークンのログ確率を返す機能を数週間以内に開始とのことです。

更新されたGPT-3.5 Turbo

GPT-4 Turboに加えて、デフォルトで16Kのコンテキスト・ウィンドウをサポートするGPT-3.5 Turboの新バージョンもリリースします。新しい3.5 Turboは、改良された命令フォロー、JSONモード、並列関数呼び出しをサポートしています。例えば、JSON、XML、YAMLを生成するようなフォーマット・フォロー・タスクにおいて、内部検証では38%の改善が見られました。開発者はAPIで「gpt-3.5-turbo-1106」を呼び出すことで、この新しいモデルにアクセスできます。「gpt-3.5-turbo」の名前を使用しているアプリケーションは、12月11日に自動的に新しいモデルにアップグレードされます。古いモデルには、2024年6月13日までAPIで「gpt-3.5-turbo-0613」を渡すことでアクセスできます。詳細はこちら。

アシスタントAPI、検索、コード・インタープリター

今日、私たちは「 Assistants API」をリリースします。これは、開発者が自身のアプリケーション内でエージェントのような体験を構築することを支援するための第一歩です。アシスタントとは、特定の指示を持ち、余分な知識を活用し、モデルやツールを呼び出してタスクを実行できる「目的に特化したAI」です。
新しいAssistants APIは、Code InterpreterやRetrieval、関数呼び出しなどの新しい機能を提供し、これまで自分で行わなければならなかった多くの重労働を処理し、高品質のAIアプリを構築できるようにします。

このAPIは柔軟に設計されており、自然言語ベースのデータ分析アプリ、コーディングアシスタント、AI搭載のバケーションプランナー、ボイスコントロールDJ、スマートビジュアルキャンバスなど、使用例は多岐にわたる。アシスタントAPIは、当社の新製品GPTsを可能にする同じ機能、すなわちコード・インタープリタ、検索、関数呼び出しなどのカスタム命令とツールに基づいて構築されています。

このAPIによって導入された重要な変更点は、持続的で無限に長いスレッドです。これにより、開発者はスレッドの状態管理をOpenAIに委ねることができ、コンテキストウィンドウの制約を回避することができます。アシスタントのAPIでは、既存のスレッドに新しいメッセージを追加するだけです。

アシスタントは、必要に応じて新しいツールを呼び出すことができます。
Code Interpreter：サンドボックス化された実行環境でPythonコードを書き込んで実行し、グラフやチャートを生成したり、多様なデータやフォーマットのファイルを処理したりできます。アシスタントがコードを繰り返し実行することで、難しいコードや数学の問題などを解決することができます。
検索：独自のドメインデータ、製品情報、ユーザーから提供されたドキュメントなど、弊社のモデル外からの知識でアシスタントを補強します。つまり、ドキュメントの埋め込みを計算して保存したり、チャンキングや検索アルゴリズムを実装したりする必要はありません。アシスタントAPIは、ChatGPTで知識検索を構築した経験に基づいて、どのような検索手法を使用するかを最適化します。
関数呼び出し: アシスタントは、あなたが定義した関数を呼び出し、その関数応答をメッセージに組み込むことができます。
プラットフォームの他の部分と同様に、OpenAI APIに渡されたデータやファイルは、 OpenAIのモデルを訓練するために使用されることはありません。

「 Assistantsプレイグラウンド」に行けば、コードを書かずにAssistants APIベータ版を試すことができます。

公式による動画紹介：Assistantsプレイグラウンドを使って、コードを書かずに高品質のアシスタントを作成
https://cdn.openai.com/new-models-and-developer-products-announced-at-devday/assistants-playground.mp4

Assistants APIはベータ版で、今日からすべての開発者が利用できます。作ったものを「@OpenAI」と共有してください。Assistants APIとそのツールの価格は、価格ページで確認できます。

APIの新しいモダリティ

ビジョン付きGPT-4 Turbo

GPT-4 TurboはChat Completions APIで画像を入力として受け付けることができ、キャプションの生成、実世界の画像の詳細分析、図付きドキュメントの読み取りなどのユースケースが可能になります。例えば、 BeMyEyesはこの技術を使用して、目の不自由な人や弱視の人が商品を識別したり、店舗をナビゲートしたりするような日常作業を支援します。開発者はAPIで「gpt-4-vision-preview」を使用することでこの機能にアクセスできます。安定したリリースの一部として、メインモデルの「GPT-4 Turbo」にビジョンサポートを展開する予定です。価格は入力画像サイズに依存します。例えば、1080×1080ピクセルの画像をGPT-4 Turboに渡す場合、$0.00765かかります。詳細はビジョンガイドをご覧ください。

DALL-E 3

モデルとして「dall-e-3」を指定することで、最近ChatGPT PlusとEnterpriseユーザーに提供を開始した「 DALL-E 3」を、Images APIを通じてアプリや製品に直接統合することができます。Snap、Coca-Cola、Shutterstockのような企業は、DALL-E 3を使用して、顧客やキャンペーン用の画像やデザインをプログラムで生成しているそうです。旧バージョンの DALL-E と同様に、API には開発者がアプリケーションを悪用から守るためのモデレーション機能が組み込まれています。様々なフォーマットやクオリティのオプションをご用意しており、生成される画像1枚あたり0.04ドルからご利用いただけます。 API で DALL-E 3 を使い始めるためのガイドをご覧ください。

音声合成 (TTS)

開発者はテキスト読み上げ API を使ってテキストから人間品質の音声を生成できるようになりました。新しい TTS モデルでは、6 種類のプリセット音声から選択でき、「tts-1」と「tts-1-hd」の 2 つのモデルバリエーションがあります。価格は1,000文字入力あたり0.015ドルから。まずは TTSガイドをご覧ください。音声サンプルも聞く事ができます。

モデルのカスタマイズ

GPT-4ファインチューニング実験アクセス

GPT-4ファインチューニングの実験アクセスプログラムを作成中です。予備的な結果では、GPT-4ファインチューニングは、GPT-3.5ファインチューニングで実現した大幅な利益と比較して、ベースモデルから意味のある改善を達成するために、より多くの作業が必要であることを示しています。GPT-4ファインチューニングの品質と安全性が向上するにつれて、GPT-3.5ファインチューニングを積極的に使用している開発者には、ファインチューニング・コンソール内でGPT-4プログラムに適用するオプションが提示されます。

カスタムモデル

ファインチューニングが提供できる以上のカスタマイズを必要とする組織（特に、最低でも数十億トークンという非常に大規模な独自データセットを持つドメインに適用可能）のために、カスタムモデルプログラムも開始します。これにはドメイン固有の事前トレーニングの追加から、特定のドメインに合わせたカスタムRLポストトレーニングプロセスの実行まで、モデルトレーニングプロセスのすべてのステップを変更することが含まれます。組織は、カスタム・モデルに独占的にアクセスすることができます。OpenAIの既存のプライバシーポリシーに従い、カスタムモデルが他の顧客に提供されたり、他の顧客と共有されたり、他のモデルのトレーニングに使用されたりすることはありません。また、カスタムモデルを訓練するためにOpenAIに提供された専有データは、他のいかなる文脈でも再利用されることはありません。これは非常に限定された（そして高価な）プログラムの開始になります。登録はこちら。

低価格と高い料金制限

料金の値下げ

開発者に節約分を還元するため、プラットフォーム全体でいくつかの価格を引き下げます（以下の価格はすべて1,000トークンあたりの価格です）：

・GPT-4 TurboインプットトークンはGPT-4より3倍安い0.01ドル、アウトプットトークンは2倍安い0.03ドル。
・GPT-3.5 Turboの入力トークンは、以前の16Kモデルより3倍安い0.001ドル、出力トークンは2倍安い0.002ドルです。以前GPT-3.5 Turbo 4Kを使用していた開発者は、0.001ドルのインプット・トークンを33％削減できます。これらの低価格は、本日発表された新しいGPT-3.5 Turboにのみ適用されます。
・ファインチューニングされたGPT-3.5 Turbo 4Kモデルのインプット・トークンは4倍の0.003ドルに、アウトプット・トークンは2.7倍の0.006ドルに値下げされます。ファインチューニングはまた、新しいGPT-3.5 Turboモデルで4Kと同じ価格で16Kコンテキストをサポートします。これらの新しい価格は、ファインチューンされた「gpt-3.5-turbo-0613」モデルにも適用されます。

より高いレート制限

お客様のアプリケーションの拡張を支援するため、GPT-4 のすべての有料顧客の 1 分あたりのトークンの上限を 2 倍にします。新しいレートリミットはレートリミットページで確認できます。また、料金制限の自動引き上げを決定する使用量階層を公開しましたので、使用量制限がどのように自動的に拡大されるかをご確認いただけます。アカウント設定から利用限度額の引き上げをリクエストできるようになりました。

著作権シールド

OpenAIは、システムに組み込まれた著作権セーフガードでユーザを保護することをお約束します。本日、さらに一歩進んで、「Copyright Shield」を導入します。お客様が著作権侵害に関する法的請求に直面した場合、OpenAIが介入してお客様を保護し、発生した費用を支払います。これは、ChatGPTエンタープライズと開発者プラットフォームの一般的に利用可能な機能に適用されます。

Whisper v3 と一貫性デコーダー

オープンソース自動音声認識モデル（ASR）の次のバージョンである「 Whisper large-v3」をリリースします。また、近い将来、APIでもWhisper v3をサポートする予定です。

また、Stable Diffusion VAEデコーダーのドロップインリプレースメントである「一貫性デコーダー (Consistency Decoder)」もオープンソース化しています。このデコーダーは、Stable Diffusion 1.0+ VAEと互換性のあるすべての画像を改善し、テキスト、顔、直線を大幅に改善します。

ChatGPTのOpenAI DevDayアナウンスについてはこちらをご覧ください。

Originally published at https://note.com on November 7, 2023.

2023-11-07