つくる人をつくる AICU Inc.

月: 2023年11月

日本語で画像を生成できる新技術「JSDXL」とは？和風画像を生成してみよう！
この記事では、StabilityAI社が新たにリリースした「JSDXL」の概要、使い方、実際に生成できる画像を公式リリースに基づいて解説していきます。

公式リリース

2023年11月17日11時、StabilityAI社から「Japanese Stable Diffusion XL」（以下JSDXL）がリリースされました。

🚀 新リリース 🚀
「Japanese Stable Diffusion XL (JSDXL)」が登場！
✨ 日本特化の商用利用可能なtext-to-imageモデル ✨

🌸 JSDXLは、日本語のプロンプトを英訳したものとは異なり、日本語そのままの理解と日本独自の文化を反映した高品質な画像生成を実現しました。

公式リリースはこちら

https://ja.stability.ai/blog/japanese-stable-diffusion-xl

🚀 新リリース 🚀
「Japanese Stable Diffusion XL (JSDXL)」が登場！
✨ 日本特化の商用利用可能なtext-to-imageモデル ✨

🌸 JSDXLは、日本語のプロンプトを英訳したものとは異なり、日本語そのままの理解と日本独自の文化を反映した高品質な画像生成を実現しました。

詳細はこちら💁‍♀️… pic.twitter.com/YYefbKvqE8
— Stability AI Japan (@StabilityAI_JP) November 17, 2023

昨年8月に世界を一変させた画像生成AI「Stable Diffusion」をオープンモデルでリリースしたStabilityAI社は日本に拠点があり、日本でも特色ある開発を行っています。11月には数多くの日本語モデルがリリースされました。

今回リリースされた『JSDXL』はどのような特徴を持っているのでしょうか。単なる翻訳とは異なるのでしょうか。公式リリースを読み解いてみましょう。

「Japanese Stable Diffusion XL（JSDXL）」は、最新の英語版 text-to-image モデルSDXLに対して、日本語入力はもちろん、日本の文化やものが理解・反映された画像生成に特化させた日本向け text-to-image モデルです。
昨今、SDXL を含む強力な text-to-image モデルが公開されております。これらと翻訳ツールを組み合わせることで日本語入力は可能ですが、日本特有の表現の認識が難しい点や開発コストがかかる点、モデルが認識できるテキスト最大文字数の制限などの課題があります。また、英語プロンプトをそのまま「呪文」として扱い画像生成することも可能ですが、大規模に学習されたモデルは西洋系の画像生成が得意であり日本スタイルの画像生成がまだまだ物足りないのが現実です。
「JSDXL」は、Stable Diffusion の中で最高性能である SDXL の汎用性と高解像度の画像生成能力をできる限り維持したまま、以下の点を可能にした日本特化モデルです。
・日本語をモデルが直接扱うことができ、日本語特有の表現を認識可能
・日本の広範囲な文化やアート、伝統的なものから現代的なものまで含め、それらを反映した高解像度で質の高い画像を作成することが可能
・また、SDXL にはテキストエンコーダーが2つありますが、「JSDXL」には1つのみであるため、SDXL と比べ、より効率的な推論が可能になります。

■公式リリースより引用

つまり、日本語を英語に翻訳して画像を生成するのではなく、日本語を学習することで日本特有のものを生成可能にしている、ということですね。

StabilityAI日本の代表・Jerry Chiさんのツイート

日本の文化などを反映させたJapanese Stable Diffusion XLをリリースしました！　機械翻訳を介さずに本当に日本語を理解できるモデルです！日本チーム、頑張りました！#JSDXL https://t.co/MxlYv7AZLf
— Jerry Chi (ジェリー・チー) (@peacej) November 17, 2023

JSDXLの使い方

それでは、実際にJSDXLを使って画像を生成してみましょう。
今回のこの記事では、JSDXLを使う方法を3つ紹介します。

(方法1) HuggingFace公式の「Spaces」を使う（最も簡単）

様々な機械学習モデルが公開されているSNS「HuggingFace」の「Spaces」にてJSDXLが利用できるようになっています。

https://huggingface.co/spaces/stabilityai/japanese-stable-diffusion-xl

HuggingFaceの中の人のアカウントで、日本語を歓迎する発言が発信されています。

In other news, Japanese Stable Diffusion XL (JSDXL) was released today by @StabilityAI_JP, おめでとう、友よ 🤗

このモデルは @huggingface でデモできます。

Play with it on Spaces ▶️ https://t.co/sT8OzFJgoH pic.twitter.com/QjR0zxJuRS
— apolinario (multimodal.art) (@multimodalart) November 17, 2023

Spacesでの運用は有料なので、どこかで費用を負担してくれている方がいらっしゃいます。ありがたいことです。

(方法2) Google Colab Pro を使う（中上級者向け）

上記の公開Spacesが使えない時、Google Colab Proのアカウントがある人は、自分でGradioのUIを立ち上げて利用できます。

まずは HuggingFace上で公開されているJSDXLのライセンスを確認します。

https://huggingface.co/stabilityai/japanese-stable-diffusion-xl

このモデルは商用利用可能ですが、利用規約を読み、名前、在住国と所属、メールアドレス等を入力する必要があります。
（これを行わないと、次のステップでモデルをダウンロードできません）

利用規約
> By downloading, using, or distributing any portion or element of this model, you agree to be bound by the agreement described in the LICENSE file.

（意訳）このモデルのいかなる部分または要素をダウンロード、使用、または配布することにより、あなたはライセンスファイルに記載されている契約に拘束されることに同意するものとします。

実際のライセンスファイルはこちらにあり、合意後に読むことができます。

https://huggingface.co/stabilityai/japanese-stable-diffusion-xl/blob/main/LICENSE

続いてこちらのURLでGoogle Colabによるサンプルコードが共有されていますので、自分のアカウントで実行します。

https://colab.research.google.com/github/Stability-AI/model-demo-notebooks/blob/main/japanese_stable_diffusion_xl.ipynb

GPUを必要としますので、Colab ProのアカウントでGPUインスタンスを選んで実行してください。

最後の段階まで進むと、GradioのURLが生成されますのでそちらから利用できます。

Google ColabのV100でGradioを使った例

いまV100で動かしてますhttps://t.co/V53Y6tzsXI pic.twitter.com/vF0FlWbBXQ
— Dr.(Shirai)Hakase しらいはかせ (@o_ob) November 17, 2023

(方法3) StabilityAI 社が提供しているテスト用Gradio環境を使用する（初心者向け・期間限定）

https://discord.gg/stablejp

初心者は「Stable Community Japan」のDiscord で質問しながら、お試し環境で遊んでみることができます。
discord招待リンク

こちらのリンクでテスト用のWebサイト（Gradio）にアクセスできます

https://discord.com/channels/1062784909191680120/1088440176398831729/1175022582655893535

https://____.gradio.live/

というURLが期間限定で無料で試せるように公開されていますので、試してみてください。

今回は、②の方法で画像を生成していきます。

実際に生成してみよう

では、実際にプロンプトを入力して画像を生成してみましょう。
各パラメーター、枠に数値やプロンプトを指定し、『Run』を押すだけで生成することができます。
- prompt ここに生成したいものを記述します。
- cfg_scale 画像がプロンプトに従う程度を指定します。デフォルトの7.5で問題ありません。
- steps 画像からノイズを除去するステップ数を指定します。こちらもデフォルトの40で問題ありません。
- width,height 生成する画像の縦横の大きさを指定します。
- n_samples 一度に生成する画像の数を指定します。
- seed (integer or ‘random’) 画像を生成する乱数です。最初は「random」にしておきましょう。値を固定することで、同じ条件でプロンプトや他の数値の比較ができます。
- negative prompt 生成したくないものを記述します。
※実際に試してみた印象ですが、cfg_scaleもNPも絶対ではなく、だいたい1/3（10回中3回）といった印象です。気長にたくさん生成してみることをおすすめします。

美味しい和食の生成

それでは、さっそく日本独自の文化を生成してみましょう。

「幕の内弁当、使い捨て弁当箱」

よく見るお弁当です

売り物のお弁当が再現されています！

プロンプト「日本、板前、寿司職人」
ネガティブプロンプト「無人」

おかみさんの存在が現実感を出しています

カウンター席ですね！

しっかり日本文化が再現されています！
これは個人的な感覚ですが、「寿司職人」など「モノ＋人」の単語を指定すると、「モノ」の方が強く出てしまいがちです。人物が出力されない場合、ネガティブプロンプトに「無人」と記述すると上手くいくことが多いです。

じわじわくる「和顔」ですね。

掛け軸の生成

また、縦横比を工夫することで、掛け軸や巻物が良い感じに生成されました。

「掛け軸」「水墨画」「松竹梅」「鯉」などが良いキーワードになりそうです。

「白黒」を指定するとスタイリッシュになります。

年賀状の生成に便利

弊社CEO白井が以前リリースした記事にて、「年賀状」というキーワードを使って年賀状を生成したのですが、JSDXLでも試してみたところ、雰囲気を掴んだ画像が生成されました。

https://forest.watch.impress.co.jp/docs/serial/aistream/1537430.html

プロンプト「年賀状」

他にも、「屏風絵」「渋谷」「原宿」なども効果的なようです。
ぜひ試してみてください！

Originally published at https://note.com on November 22, 2023.
2023-11-22
AI動画生成の大きな一歩 StabilityAIが「SVD Image-to-Video」を公開

2023年11月21日、StabilityAI社は画像から動画を生成する技術「Stable Video Diffusion」（SVD）を公開しました。
研究者の方はGitHubリポジトリで公開されたコードを試すことができます。ローカルでモデルを実行するために必要なウェイトは、HuggingFaceで公開されています（注意：40GBのVRAMが必要です）。
さらにStable Video Diffusion (SVD) を使って画像から動画へウェブインタフェースも近日公開予定とのこと。キャンセル待ちリストが公開されています。

stable-video-diffusion公式アナウンス

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

日本語アナウンス

https://ja.stability.ai/blog/stable-video-diffusion

https://youtu.be/G7mihAy691g

ウェイティングリスト

https://stability.ai/contact

研究論文

「Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets」(21 Nov ,2023)
安定した映像拡散：潜在的映像拡散モデルの大規模データセットへの拡張

高解像度で最先端のテキストから動画、画像から動画生成のための潜在動画拡散モデル、Stable Video Diffusionを紹介する。近年、2次元画像合成のために学習された潜在拡散モデルは、時間レイヤーを挿入し、小規模で高品質なビデオデータセット上で微調整することで、生成的なビデオモデルへと変化している。しかし、文献に記載されている学習方法は様々であり、ビデオデータをキュレーションするための統一的な戦略について、この分野はまだ合意されていない。本論文では、動画LDMの学習を成功させるための3つの異なる段階を特定し、テキストから画像への事前学習、動画の事前学習、高品質動画の微調整の評価を行った。

Translated from the original paper

Github: https://github.com/Stability-AI/generative-models

HuggingFace

https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

Stable Video Diffusion Image-to-Video モデルカードより

Stable Video Diffusion (SVD) Image-to-Video は、静止画像を条件フレームとして取り込み、そこから動画を生成する拡散モデルです。

モデル詳細

(SVD)Image-to-Videoは、画像コンディショニングから短いビデオクリップを生成するようにトレーニングされた潜在拡散モデルです。このモデルは、 SVD Image-to-Video[14フレーム]から微調整された、同じサイズのコンテキスト・フレームが与えられたときに、解像度576×1024の25フレームを生成するように訓練されています。また、広く使われている f8-デコーダを時間的整合性のために微調整した。便宜上、標準的なフレーム単位のデコーダのモデルも提供されています。

研究目的であれば、Generative-modelsのGithubリポジトリリポジトリ: https://github.com/Stability-AI/generative-models

最も一般的な拡散フレームワーク（学習と推論の両方）が実装されています。
論文： https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

評価

https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

比較チャートは、GEN-2やPikaLabsに対するSVD-Image-to-Videoのユーザー嗜好を評価したものです。SVD-Image-to-Videoは、ビデオの品質という点で、人間に好まれています。ユーザー調査の詳細については、研究論文を参照してください。

用途：直接利用

このモデルは研究目的でのみ使用されます。想定される研究分野や課題は以下の通りです。

・生成モデルの研究
・有害なコンテンツを生成する可能性のあるモデルの安全な展開
・生成モデルの限界とバイアスの調査と理解
・芸術作品の生成と、デザインやその他の芸術的プロセスにおける使用
・教育的または創造的なツールへの応用

除外される用途を以下に示します
使用の範囲外
このモデルは、人物や出来事の事実または真実の表現となるように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。またこのモデルをStability AI の利用規定に違反するような方法で使用しないでください。

制限とバイアス

制限事項
・生成される動画はかなり短く（4秒未満）、モデルは完全なフォトリアリズムを達成しません。
・モデルは動きのないビデオや、非常に遅いカメラパンを生成することがあります。
・モデルはテキストで制御することができません。
・モデルは読みやすいテキスト（legible text）をレンダリングできません。
・顔や人物全般が適切に生成されないことがあります。
・モデルの自動エンコード部分は非可逆です。

推奨事項
このモデルは研究目的のみを意図しています。

モデルを使い始めるには
https://github.com/Stability-AI/generative-models をチェックしてください。

最新の進歩を取り入れたモデルのアップデートに意欲的に取り組み、皆さんのフィードバックを取り入れるよう努力していますが、現段階では、このモデルは実世界や商業的な応用を意図したものではないことを強調しておきます。安全性と品質に関する皆様の洞察とフィードバックは、最終的な商業リリースに向けてこのモデルを改良する上で極めて重要です。

StabilityAI社のリリースメッセージより翻訳

AICU media のコメント

StableDiffusionを2022年8月に公開してから14カ月。ついにStabilityAIがAI動画生成の大きな一歩となる「SVD Image-to-Video」をオープンに公開しました。画像を入力すると動画が生成されるDiffusionモデルのようです。フレーム間の安定性も高いようです。論文も30ページの超大作なので今後のこの分野における革新の一歩になることは間違いありません。今後も注目していきます。

Originally published at https://note.com on November 22, 2023.

2023-11-22
Stability Matrixが最新版 v2.6.1にアップデート

2023年11月17日「Automatci1111」や「Fooocus」、「ComfyUI」を代表とするStable Diffusion WebUI各種が簡単なインストーラーでセットアップできちゃう「Stability Matrix」が最新版 v2.6.1にアップデートされました。

https://github.com/LykosAI/StabilityMatrix/releases/tag/v2.6.1

v2.6.0以前から大きな変更点

v.2.5.x以前のユーザは新規インストールをしたほうがいいかもしれません。

11月10日にリリースされたStability Matrixがv2.6.0に！IntelのオンボードGPUでも動く可能性が出てきました。

https://note.com/o_ob/n/nd5ec2fd34ad9

大きなニュースとしては、追加学習のプロジェクトとして評価の高い「kohya_ss」のパッケージ追加されました。

Kohya’s GUI とは

LoRAを生成するためのGUIで、日本人のKohyaさんが開発しています。

https://github.com/bmaltais/kohya_ss

このリポジトリは、主にKohyaさんが開発したStable Diffusionでの機械学習のためのWindowsに特化したGradio GUIを提供しています。GUIで学習パラメータを設定し、モデルを学習するために必要なCLIコマンドを生成して実行することができます。

LoRAとは

画像生成やLLMにおける追加学習のことで、StableDiffusionの場合は、自分の画風を学習させたり、キャラクターや背景を安定させたりといった使い道があります。ちょうどこちらの書籍で解説しています

https://techbookfest.org/product/guM26Wz45JGPzhkaHFVzZj

まだバグがいっぱいありそうですが、その後、短い期間でStability Matrixが最新版 v2.6.1にアップデートされたということになります。

https://github.com/LykosAI/StabilityMatrix/releases/tag/v2.6.1

リリースノートによると

・NVIDIA GPUユーザーは、InvokeAIパッケージでCUDA 12.1を使用するように更新され、パフォーマンスが若干向上。アップデートは、パッケージの次回更新時または新規インストール時に行われます。
注：CUDA 12.1は、Maxwell（GTX 900シリーズ）以降のGPUでのみ利用可能です。

・バグ修正
レート制限を防ぐため、GitHubへのコール量を削減
起動時にレート制限がクラッシュし、アプリが起動できなくなる問題を修正

インストール時の不具合はこちらで修正された可能性がありますね。
Stability MatrixによるWebUIのパッケージ管理は非常に便利なので、今後もアップデートを見守っていきたいと思います。

Originally published at https://note.com on November 20, 2023.

2023-11-21
シリコンバレーからみた生成AI — Stable Diffusion内部を学ぶ

AICUメディア事業部のKotoneです！
前回の記事にて、10月30日（月）から11月2日（木）にシリコンバレーで行われた「ODSC West（Open Data Science Conference）」というデータサイエンスのカンファレンスをレポートしました。

（前回）シリコンバレーからみた生成AI — Stable Diffusionの重要性

https://corp.aicu.ai/ja/stable-diffusion-at-odsc-west

この記事では、生成AIの誕生からStableDiffusionの発表、画像生成AIの急速な発展を再確認しました。
今回は第2弾ということで、シリコンバレー在住のKojiのレポートから、前回の続きをお伝えします。
Diffusion Model（拡散モデル）を使った世界初のオープンソースの技術であるStable Diffisionは、一体どういった経緯で生まれたのでしょうか。

Stable Diffusionは、ドイツのミュンヘン大学のコンピュータビジョン研究所の Bjorn Ommer（ビヨン・オマール）教授が開発した Latent Diffusion Model(LDM) という技術をベースとして、RunwayML社の Patrick Esser氏と StablityAI社の Robin Rambach氏が協力して開発されたものです。

Stable DiffusionはイギリスのStabilityAI社によって発表され、３つの重要な特徴を有しています。
①オープンソースコード
②学習とファインチューニングが容易
③一般ユーザレベルのGPUで稼働する
開発費はわずか60万ドルでしたが、2022年10月には101Mドルを資金調達できたそうです。StablityAI社は元々ヘッジファンドマネージャーであったEmad氏によって2019年に設立された企業です。

2023年4月はStable Diffusionにとって大躍進の月でした。Advanced SDXL、Stable LM (LLM)、Stable Vicuna(Chatbot)の３つの新しいツールが発表されました。。これらにより、Mo-Di Diffusion、InstructPix2Pix、ControlNet、WebUI、CivitAI、Robo Diffusionなど他社の様々な関連技術の開発が誘発されました。

以下はStable Diffusionの直感的な解説です。テキストからイメージを作ります。たとえば、「ネコ」から「ネコの写真」を生成します。しかし、テキストを直接変換するものではありません。テキストの指示にしたがって、リバースディフュージョン（逆拡散）によって、ノイズからイメージを生成するのです。これは3つの技術要素でできています。
①Noise to Image：ノイズから画像を生成する
②Guidance of Text：テキストによるガイダンス
③Reverse Diffusion：逆拡散

テキストプロンプトは、「変更されたノイズのある画像は、テキストの説明文に少し似ている」といったように、ノイズ画像を変更する方法を指示（ガイダンス）します。

この直感の例を見てみましょう。この例では、入力テキスト “Boy”（少年）に対して、この画像が与えられたとします。さて、この少年の画像のどこに問題があるでしょうか？耳と頭を変える必要がありますね。そこで、”Boy “というテキストが “ears “（耳）を変更するようガイド（指示）します。Stable Diffusionでは、このガイドはピクセルレベル、つまり1ドット単位で行います。エンコードされたテキストは、どのピクセルを少しだけ変更するか教えます。

Stable Diffusionの直感的な画像生成プロセスです。Forward Diffusion（順方向拡散）はノイズを加えることで、Reverse Diffusion（逆拡散）は「ノイズ除去処理」です。

Calculate：現在の画像のノイズ加算
Remove：現在の画像のノイズを取り除く（Denoising）
Repeate：繰り返し
Stable Diffusion は、このノイズ付加⇒ノイズ除去⇒繰り返し…の繰り返しです。実はノイズの生成や逆のノイズ除去計算はニューラルネットワークで容易に行うことができます。しかし、すべてのエラーを一度のステップで予測することは出来ませんので、ステップバイステップで行っていきます。

特に画像からノイズを除去するプロセスには膨大な時間がかかります。その時間を短縮するため Stable DiffusionではLatent Space（潜在空間）という概念を利用します。複雑で膨大な画像データを「その画像の特徴を表す、より少ない次元」で表現する「特徴ベクトル」として扱うことで、画像生成に利用するパラメーター数を削減します。
たとえば、人の顔を表現するのに、画像の一つ一つのピクセルの情報で表現しようとするとデータ量は大きくなりますが、髪の色、目の色、顔の形、などの特徴を数値（ベクトル）で表すことにすると、大幅にデータ圧縮することができます。

Stable DiffusionはLatent Stable Diffusionを示します。そして以下の３つの要素で理解できます。
Latent（潜在）：エンコードされた入力、デコードされた出力
Stable（安定）：ノイズを除去するための小さな変更
Diffusion（拡散）：ノイズ除去

テキストからノイズを計算するためのガイダンス（指示）をどのように受け取るのでしょうか？テキストもまたLatent Space（潜在空間）にエンコードされます。しかし、それはテキスト自体の潜在空間です。画像とテキストが潜在空間で交わるこのプロセスは、すべてのテキストから画像へのモデルの基礎です。この現象により、テキストと画像モデルの境界線が曖昧になっています。そしてこのことは、次の論文で解決されました。2021年のCLIP論文です。

CLIP（Contrastive Language-Image Pre-training、対照的な言語-画像事前トレーニング）とは、テキストと画像のデータペアを同時に理解することを目的とした技術です。具体的には、テキストの説明と対応する画像を関連付けることで、モデルは特定のテキスト記述にマッチする画像を生成する能力を学びます。

CLIPは以下のように機能します。
1．事前学習: CLIPモデルは、インターネットから収集された大量のテキストと画像のペアで事前学習されます。この学習プロセスでは、テキストエンコーダと画像エンコーダが使用され、それぞれがテキストと画像のデータを高次元の潜在空間にマッピングします。
2．コントラスト学習: この潜在空間内で、正しいテキストと画像のペアは近接して表現され、誤ったペアは離れた位置に表現されるように学習されます。これにより、モデルは正確なマッチングを予測できるようになります。
3．ゼロショット学習: CLIPはゼロショット学習能力も持っています。訓練中に見たことがない新しいカテゴリの画像やテキストに対しても、正確な関連付けを行うことができます。
CLIP(Contrastive Language-Image Pre-training) の論文: https://arxiv.org/abs/2103.00020

Stable Diffusionは、DDPM（Denoising Diffusion Probabilistic Model）と呼ばれるプロセスを活用しています。このプロセスは、大量のデータセットで何百万回も行われるトレーニングと、実際に画像を生成する際の推論の2つの主要なステップに分けられます。
１．トレーニング：トレーニング段階では、既知の量のノイズを画像に加え、テキスト情報に基づいてそのノイズを除去する方法をモデルが学習します。このプロセスは何百万回も繰り返され、モデルはテキストと画像の対応関係をより正確に理解するようになります。
２．推論: 推論段階では、ランダムなノイズからスタートし、テキスト情報に従って徐々にノイズを減らしていきます。このプロセスを繰り返し行い、テキスト情報に合致した、ノイズのない画像が得られるまで続けます。
DDPMは、ノイズのあるデータからノイズを除去していくことでデータの本来の分布を学習する確率的モデルであり、このアプローチによってテキストから画像を生成することが可能になります。

DDPMの論文: https://arxiv.org/abs/2006.11239

Kotoneの感想
画像生成に使われている専門用語を分解して理解することで、どのような技術が使われているのかを理解できました。画像生成とLLMは一見関係ないように感じますが、TransformerやCLIPをはじめとしてテキストと画像を結びつける技術にLLMが関わっているのだと実感できました。

次回はOSDC編の最終回、もう一歩踏み込んでVAEなどの解説に入っていきます！

Originally published at https://note.com on November 20, 2023.

2023-11-20
シリコンバレーからみた生成AI — Stable Diffusionの重要性
AICUメディア事業部のKotoneです！
最近LLMについての勉強を始めました。私が今力を入れている画像生成の根元にある技術なので、そもそもの基本的な考え方を知ることができ、とても興味深いです。

さて、今回は当社CFOのKojiから、10月30日（月）から11月2日（木）にシリコンバレーで行われた「ODSC West（Open Data Science Conference）」というデータサイエンスのカンファレンスのレポートが届きました。
Stable Diffusionに関するまとまった講演もあったとのことで、皆さんにご紹介したいと思います！

10月30日（月）から11月2日（木）までODSC West（Open Data Science Conference）がシリコンバレーで実施されました。

シリコンバレーでは生成AIがビジネスの中心と言ってよいほど、データサイエンスやAIに関するカンファレンスやミートアップはさまざまなものが開催されます。本カンファレンスは主に現場のエンジニア向けにフォーカスされており、ワークショップやチュートリアルが中心で、現場で開発に従事していると思われる若手エンジニアが多数参加していました。毎年この時期に開催されていますが、今回の特徴は、昨年夏から急激に盛り上がってきた生成AIについてのプレゼンやワークショップが多数行われたことでした。

私自身これまでオンライン大学などでさまざまなAIやデータサイエンスの講義を受講してきましたが、生成AIに関してはこの1年の進歩が非常に早く,
大学でのカリキュラムの整備がほとんど追いついてない状況です。一方、ODSCは、現場のシニアエンジニアがワークショップ形式で教えるスタイルが主体のため、最新の技術や手法を学ぶのに最も優れているカンファレンスの一つで、今年は特にとても楽しみにしていました。

各人が自分のPCを動かしながら講演を聞いています

今回のカンファレンスではStable Diffusionについてのプレゼンがありましたので、ご紹介したいと思います（但し、本件は初心者にも理解できるようにSandeep Singh氏による解説であり、Stability AI社の公式な見解に基づく講演内容ではないことをお含みおきください）。

本件は、「Mastering Stable Diffusion」というテーマで、３つの講演内容で構成されていました。本レポートでは、1番目の「Embark on an Exciting Journey with Generative AI」についてご紹介したいと思います。
プレゼンターは、Beans AI社におけるコンピュータビジョン部門の開発ヘッドであるSandeep Singh氏でした。なお、プレゼン資料の原稿はSandeepさんから直接いただいており、 ブログ記事で日本の読者向けにご紹介することも快諾を得ております。Sandeepさんありがとうございます！

Stable Diffusion: A New Frontier for Text-to-Image Paradigm

Stable Diffusion: Advancing the Text-to-Image Paradigm

実際のスライド

単にStable Diffusionの解説のみならず、生成AIの歴史から紐解いた内容で、とてもわかりやすく、興味深い内容でした。

立ち見が多数出るほどの人気の内容でした。

Stable Diffusionは、深層学習のテクニックを使って自動で画像を生成するものですが、単なる技術にとどまらず、知識、人間の興味、理解の探索などのシンフォニーである、というふうにSandeepさんは位置づけています。

Stable Diffusionの技術の基盤となるDeep Learningですが、様々なコンセプトと技術があります。

従来のAIは、データの分析から予測や意志決定を行うものですが、一方、生成AIは学習したパターンから何か新しいものを生み出すもので、従来型のAIを超えたものである、と位置づけています。そのためパラダイムシフトが生まれ、創造性を生む力を持つようになったということです。

生成AIですが、テキスト（LLM、ChatGPT、GoogleBARD、Cohereなど）、画像・映像（Stable Diffusion、Dell-e2、Midjourneyなど）、音声（MusicLMなど）等があります。

2014年あたりから生成AIのモデルが登場しはじめ、次第に複雑で高度なものに進化していきました。2020年以降、生成能力が人間を超えるものが登場し、専門家の間では話題となっておりました。さらには2022年には一般ユーザが簡単に利用できるレベルのものが登場し、世界中の注目を集めることになりました。

画像生成の世界では、VAE、GAN、CLIP、GLIDEなどが次々と登場し、2022年夏頃にStableDiffusion、Dall-e2、Midjourney、Imagenなどが発表され、世間の認知度が一気に高まることになりました。

Stable Diffusionの登場
それでは、なぜStable Diffusionは注目すべきものなのでしょうか？それは、テキストからイメージを作ることができる驚異的な技術であることは言うまでもないことですが、Diffusion Model（拡散モデル）を使った世界初のオープンソースの技術であることです。元はと言えば、流体やガスの物理現象を応用したものです。同時期に登場したDalle2（OpenAI社）、Imagen（Google）なども類似の技術を使っているものと思われますが、残念ながら未公開です。

Stable Diffusion: Why care?
*Almost all Text-to-Image techniques are Inspired by This!
*Poster Child of Text-to-Image Model.
*First Open Source State of Art Diffusion Model.
*Inspired by Physics of Fluids/Gases
*Improved Image Reconstruction
*Robustness to Variability, more resilient to changes in illumination, contrast
*Enhanced Edge Preservation as in Image above.

Stable Diffusionは何がすごいのか？
- ほとんどのText-to-Imageテクニックはこれにインスパイアされている！
- Text-to-Imageモデルの「わかりやすい姿」（Poster Child）
- 初のオープンソースによる最先端の拡散モデル
- 流体/気体の物理学にインスパイアされている
- 画像再構成の改善
- 変化に強く、照明やコントラストの変化に強い
- エッジ保存を強化している
2022年は、画像生成AIにとって驚異的な年となりました。OpenAIは4月にDalle2を発表し、5月にはGoogleがAmagenを、Midjorneyが7月に発表と、次々と高度なツールが発表されたのです。しかし、いずれも素晴らしいものではありましたが技術内容は未公開であったため、研究者やコミュニティによって評価を行うこと自体が困難でした。

そして、2022年8月Stable Diffusionが登場しました。Stable Diffusionは世界初のオープンソースモデルであることから、多くの研究者や技術者から注目されました。単純で美しいコードによるDiffusionアプローチには、興奮が沸き起こりました。さらに重要なこととして、コモディティ化されたハードウエアで動かすことが可能、ということがわかり、世界中の多くの研究者や技術者、そして一般人までが一気に飛びついたのでした。

ここから先の歴史についてはみなさんご存知のことも多いかと存じます。

レポートは次回に続きます。

生成AI（GenerativeAI）という言葉が世間で言われるようになったのはここ2、3年のことなので、2014年のAIというのは全く馴染みが無く、逆に新鮮に聞こえてしまいました。こうして振り返って見ると、とても短い期間に画像生成AIが広まっていったことが再確認できますね。

Kotone＆しらいはかせの感想

Kotone：VAE、GAN、CLIPなどはStable Diffusionをさわっていると時々視界に入る単語ですね！
はかせ：「 AIとコラボして神絵師になる論文から読み解くStable Diffusion」で解説したつもりだったのですが、公開から1年、さらに俯瞰する時期が来ているかもしれませんね。
Kotone：用語集助かります、整理して勉強していきたいと思います。
はかせ：私は東京工業大学総合理工学研究科知能システム科学という専攻で博士を取得したのですが、当時は「知能システム」という分野は1970年代からサイバネティックス、ロボット・制御工学といった分野で研究されていました。もちろん2000年ごろにはすでに機械学習といった分野も存在し、研究室では強化学習、バックプロパゲーションなどをシミュレーションしたり、VRで体験できるようにしたり、ソフトウェアロボットにしたり、それを人間の脳から筋骨格系への信号と比較したり…といった研究です。制御となると目標とすべき正解やゴールがありますが、私の分野のようにエンタテインメント、アート、インタラクティブといった分野は定義も難しく、推論をするにも正解は何なのか、といったところで議論が終わる事が多かったです。

講演は続きます。次回は Stable Diffusionの内部構造、仕組みについての解説になるそうです！

Originally published at https://note.com on November 16, 2023.
2023-11-17
OpenAI DevDayリリース詳細日本語版

2023年11月6日、OpenAI DevDayにて新モデルと開発者向け製品が発表されました。
https://openai.com/blog/new-models-and-developer-products-announced-at-devday

DevDayで発表されたモデルと開発者向け製品は主に以下のとおりです。
以下、公式リリースをできるだけ丁寧に翻訳していきます。

・GPT-4Turboの128Kコンテキストと低価格化：
より高性能で安価で、128Kのコンテキスト・ウィンドウをサポート
・新しいAssistants API：
目標を持ち、モデルやツールを呼び出すことができる独自の支援AIアプリを開発者が簡単に構築できる
・GPT-4 Turbo with Vision
・DALL-E 3 API
新しいマルチモーダル機能視覚、画像作成（DALL-E 3）、音声合成（TTS）が本日午後1時（太平洋時間）から提供されます。

GPT-4 Turbo 128Kコンテキスト

OpenAIは今年3月にGPT-4の最初のバージョンをリリースし大きな反響を得ました。7月にGPT-4をすべての開発者が一般的に利用できるようになりましたが、本日、このモデルの次世代であるGPT-4 Turboのプレビューが公開されました。
GPT-4 Turboはより高性能で、2023年4月までの世界情勢を把握しているようです。128kのコンテキスト・ウィンドウを持ち、300ページ以上のテキストを1つのプロンプトに収めることができます。GPT-4 Turboは、GPT-4と比較して、入力トークンで3倍安く、出力トークンで2倍安く提供されます。
APIで「gpt-4–1106-preview」を渡すことにより、すべての有料開発者が試すことができます。

関数呼び出し(function calling)の更新

関数呼び出しは、アプリや外部APIの関数をモデルに記述し、モデルにそれらの関数を呼び出すための引数を含むJSONオブジェクトを出力するように賢く選択させることができます。1つのメッセージで複数の関数を呼び出す機能など、アップデートが本日リリースされました。
例えば「車の窓を開けてエアコンを切る」といった複数のアクションを要求するメッセージを1回のリクエストで送ることができます。また関数呼び出し精度も向上しています。より正しい関数パラメータを返す可能性が高くなりました。

命令追跡とJSONモードの改善

GPT-4 Turboは、特定のフォーマット（「常にXMLで応答する」など）を生成するときなど、命令に注意深く従う必要があるタスクにおいて、これまでのモデルよりも優れたパフォーマンスを発揮するようになりました。モデルが有効なJSONで応答することを保証する新しい「 JSONモード」をサポートしています。新しいAPIパラメータ「response_format」は、モデルが構文的に正しいJSONオブジェクトを生成するように出力を制約することを可能にします。JSONモードは、関数呼び出し以外でチャット完了APIでJSONを生成する開発者にとって便利と考えます。

再現可能な出力とログ確率

新しい「seed」パラメータは、モデルが一貫性のある補完を返すようにすることで再現可能な出力を可能にします。このベータ機能は、デバッグのためにリクエストを再生したり、より包括的な単体テストを書いたり、一般的にモデルの動作をより高度に制御したりするようなユースケースに便利です（OpenAI社内でこの機能をユニットテストに使用しており、非常に貴重なものだと感じているそうです）。

また、GPT-4 TurboとGPT-3.5 Turboによって生成された最も可能性の高い出力トークンのログ確率を返す機能を数週間以内に開始とのことです。

更新されたGPT-3.5 Turbo

GPT-4 Turboに加えて、デフォルトで16Kのコンテキスト・ウィンドウをサポートするGPT-3.5 Turboの新バージョンもリリースします。新しい3.5 Turboは、改良された命令フォロー、JSONモード、並列関数呼び出しをサポートしています。例えば、JSON、XML、YAMLを生成するようなフォーマット・フォロー・タスクにおいて、内部検証では38%の改善が見られました。開発者はAPIで「gpt-3.5-turbo-1106」を呼び出すことで、この新しいモデルにアクセスできます。「gpt-3.5-turbo」の名前を使用しているアプリケーションは、12月11日に自動的に新しいモデルにアップグレードされます。古いモデルには、2024年6月13日までAPIで「gpt-3.5-turbo-0613」を渡すことでアクセスできます。詳細はこちら。

アシスタントAPI、検索、コード・インタープリター

今日、私たちは「 Assistants API」をリリースします。これは、開発者が自身のアプリケーション内でエージェントのような体験を構築することを支援するための第一歩です。アシスタントとは、特定の指示を持ち、余分な知識を活用し、モデルやツールを呼び出してタスクを実行できる「目的に特化したAI」です。
新しいAssistants APIは、Code InterpreterやRetrieval、関数呼び出しなどの新しい機能を提供し、これまで自分で行わなければならなかった多くの重労働を処理し、高品質のAIアプリを構築できるようにします。

このAPIは柔軟に設計されており、自然言語ベースのデータ分析アプリ、コーディングアシスタント、AI搭載のバケーションプランナー、ボイスコントロールDJ、スマートビジュアルキャンバスなど、使用例は多岐にわたる。アシスタントAPIは、当社の新製品GPTsを可能にする同じ機能、すなわちコード・インタープリタ、検索、関数呼び出しなどのカスタム命令とツールに基づいて構築されています。

このAPIによって導入された重要な変更点は、持続的で無限に長いスレッドです。これにより、開発者はスレッドの状態管理をOpenAIに委ねることができ、コンテキストウィンドウの制約を回避することができます。アシスタントのAPIでは、既存のスレッドに新しいメッセージを追加するだけです。

アシスタントは、必要に応じて新しいツールを呼び出すことができます。
Code Interpreter：サンドボックス化された実行環境でPythonコードを書き込んで実行し、グラフやチャートを生成したり、多様なデータやフォーマットのファイルを処理したりできます。アシスタントがコードを繰り返し実行することで、難しいコードや数学の問題などを解決することができます。
検索：独自のドメインデータ、製品情報、ユーザーから提供されたドキュメントなど、弊社のモデル外からの知識でアシスタントを補強します。つまり、ドキュメントの埋め込みを計算して保存したり、チャンキングや検索アルゴリズムを実装したりする必要はありません。アシスタントAPIは、ChatGPTで知識検索を構築した経験に基づいて、どのような検索手法を使用するかを最適化します。
関数呼び出し: アシスタントは、あなたが定義した関数を呼び出し、その関数応答をメッセージに組み込むことができます。
プラットフォームの他の部分と同様に、OpenAI APIに渡されたデータやファイルは、 OpenAIのモデルを訓練するために使用されることはありません。

「 Assistantsプレイグラウンド」に行けば、コードを書かずにAssistants APIベータ版を試すことができます。

公式による動画紹介：Assistantsプレイグラウンドを使って、コードを書かずに高品質のアシスタントを作成
https://cdn.openai.com/new-models-and-developer-products-announced-at-devday/assistants-playground.mp4

Assistants APIはベータ版で、今日からすべての開発者が利用できます。作ったものを「@OpenAI」と共有してください。Assistants APIとそのツールの価格は、価格ページで確認できます。

APIの新しいモダリティ

ビジョン付きGPT-4 Turbo

GPT-4 TurboはChat Completions APIで画像を入力として受け付けることができ、キャプションの生成、実世界の画像の詳細分析、図付きドキュメントの読み取りなどのユースケースが可能になります。例えば、 BeMyEyesはこの技術を使用して、目の不自由な人や弱視の人が商品を識別したり、店舗をナビゲートしたりするような日常作業を支援します。開発者はAPIで「gpt-4-vision-preview」を使用することでこの機能にアクセスできます。安定したリリースの一部として、メインモデルの「GPT-4 Turbo」にビジョンサポートを展開する予定です。価格は入力画像サイズに依存します。例えば、1080×1080ピクセルの画像をGPT-4 Turboに渡す場合、$0.00765かかります。詳細はビジョンガイドをご覧ください。

DALL-E 3

モデルとして「dall-e-3」を指定することで、最近ChatGPT PlusとEnterpriseユーザーに提供を開始した「 DALL-E 3」を、Images APIを通じてアプリや製品に直接統合することができます。Snap、Coca-Cola、Shutterstockのような企業は、DALL-E 3を使用して、顧客やキャンペーン用の画像やデザインをプログラムで生成しているそうです。旧バージョンの DALL-E と同様に、API には開発者がアプリケーションを悪用から守るためのモデレーション機能が組み込まれています。様々なフォーマットやクオリティのオプションをご用意しており、生成される画像1枚あたり0.04ドルからご利用いただけます。 API で DALL-E 3 を使い始めるためのガイドをご覧ください。

音声合成 (TTS)

開発者はテキスト読み上げ API を使ってテキストから人間品質の音声を生成できるようになりました。新しい TTS モデルでは、6 種類のプリセット音声から選択でき、「tts-1」と「tts-1-hd」の 2 つのモデルバリエーションがあります。価格は1,000文字入力あたり0.015ドルから。まずは TTSガイドをご覧ください。音声サンプルも聞く事ができます。

モデルのカスタマイズ

GPT-4ファインチューニング実験アクセス

GPT-4ファインチューニングの実験アクセスプログラムを作成中です。予備的な結果では、GPT-4ファインチューニングは、GPT-3.5ファインチューニングで実現した大幅な利益と比較して、ベースモデルから意味のある改善を達成するために、より多くの作業が必要であることを示しています。GPT-4ファインチューニングの品質と安全性が向上するにつれて、GPT-3.5ファインチューニングを積極的に使用している開発者には、ファインチューニング・コンソール内でGPT-4プログラムに適用するオプションが提示されます。

カスタムモデル

ファインチューニングが提供できる以上のカスタマイズを必要とする組織（特に、最低でも数十億トークンという非常に大規模な独自データセットを持つドメインに適用可能）のために、カスタムモデルプログラムも開始します。これにはドメイン固有の事前トレーニングの追加から、特定のドメインに合わせたカスタムRLポストトレーニングプロセスの実行まで、モデルトレーニングプロセスのすべてのステップを変更することが含まれます。組織は、カスタム・モデルに独占的にアクセスすることができます。OpenAIの既存のプライバシーポリシーに従い、カスタムモデルが他の顧客に提供されたり、他の顧客と共有されたり、他のモデルのトレーニングに使用されたりすることはありません。また、カスタムモデルを訓練するためにOpenAIに提供された専有データは、他のいかなる文脈でも再利用されることはありません。これは非常に限定された（そして高価な）プログラムの開始になります。登録はこちら。

低価格と高い料金制限

料金の値下げ

開発者に節約分を還元するため、プラットフォーム全体でいくつかの価格を引き下げます（以下の価格はすべて1,000トークンあたりの価格です）：

・GPT-4 TurboインプットトークンはGPT-4より3倍安い0.01ドル、アウトプットトークンは2倍安い0.03ドル。
・GPT-3.5 Turboの入力トークンは、以前の16Kモデルより3倍安い0.001ドル、出力トークンは2倍安い0.002ドルです。以前GPT-3.5 Turbo 4Kを使用していた開発者は、0.001ドルのインプット・トークンを33％削減できます。これらの低価格は、本日発表された新しいGPT-3.5 Turboにのみ適用されます。
・ファインチューニングされたGPT-3.5 Turbo 4Kモデルのインプット・トークンは4倍の0.003ドルに、アウトプット・トークンは2.7倍の0.006ドルに値下げされます。ファインチューニングはまた、新しいGPT-3.5 Turboモデルで4Kと同じ価格で16Kコンテキストをサポートします。これらの新しい価格は、ファインチューンされた「gpt-3.5-turbo-0613」モデルにも適用されます。

より高いレート制限

お客様のアプリケーションの拡張を支援するため、GPT-4 のすべての有料顧客の 1 分あたりのトークンの上限を 2 倍にします。新しいレートリミットはレートリミットページで確認できます。また、料金制限の自動引き上げを決定する使用量階層を公開しましたので、使用量制限がどのように自動的に拡大されるかをご確認いただけます。アカウント設定から利用限度額の引き上げをリクエストできるようになりました。

著作権シールド

OpenAIは、システムに組み込まれた著作権セーフガードでユーザを保護することをお約束します。本日、さらに一歩進んで、「Copyright Shield」を導入します。お客様が著作権侵害に関する法的請求に直面した場合、OpenAIが介入してお客様を保護し、発生した費用を支払います。これは、ChatGPTエンタープライズと開発者プラットフォームの一般的に利用可能な機能に適用されます。

Whisper v3 と一貫性デコーダー

オープンソース自動音声認識モデル（ASR）の次のバージョンである「 Whisper large-v3」をリリースします。また、近い将来、APIでもWhisper v3をサポートする予定です。

また、Stable Diffusion VAEデコーダーのドロップインリプレースメントである「一貫性デコーダー (Consistency Decoder)」もオープンソース化しています。このデコーダーは、Stable Diffusion 1.0+ VAEと互換性のあるすべての画像を改善し、テキスト、顔、直線を大幅に改善します。

ChatGPTのOpenAI DevDayアナウンスについてはこちらをご覧ください。

Originally published at https://note.com on November 7, 2023.

2023-11-07
AICU media 学生インターン募集(2023年11月期)

米国法人である AICU社は日米のクリエイティブAIをテーマに活動しているデラウェア州登録、カルフォルニアのシリコンバレーにオフィスがあるAIスタートアップ企業です。
その中でメディア事業部の運営する「AICU media」はお気付きの通り、広くクリエイティブな方々をAIをより使いこなすことで温めていくようなメディアを学生ライター中心で構築しています。

ちょうどこちらの記事などが典型ですね。

タスクを分解してくれるゴブリンツールは”すべてのひと”にうれしいAIDXを実現

（もちろんメディアなので広告としての商品性の高い記事やリサーチ、そして現在開発進行中の商業書籍の執筆やワークショップ開発などもあります）

そこで活躍する学生ライターを養成しています。
いわゆる「学生インターン」ですが、きちんと報酬もお支払いし、教育も行い、将来的に弊社の正社員・幹部候補として育成いたします。

世の中に数多くあるアフィリエイトサイトのようなあからさまな商品紹介やアクセス数を狙った情報商材サイトとは異なり、メディア事業部の自主事業としての「AICU media」は以下の点を重要と考えています。

【AICU mediaのビジョン】

・「つくるひとをつくる」AICU社のビジョンです
・できるだけ原典にあたった正確性・信頼性の高い記事
・企業だけでなくグッドユーザを育てる視点に立ったアドボケイト

を目指しています（2023年11月現在）。

【やらないこと】

・アクセス数を目的にした炎上狙いの記事
・「これはすごい」という驚きだけを中心にした記事
・引用元や出典不明な噂話
・経験則や思い込みだけに基づくノウハウ
（=画作りにおいても他人に説明できて再現性がある理論が必要）
・プロや開発者、専門家、研究者だけが喜ぶ専門用語だらけの記事

【これからやっていきたいこと】

・読んだ人が「使ってみたい」「つくりたい！」と思える記事
・プロフェッショナルで食えている人だけでなく、これからこの分野のプロになりたい人が必ず読んでおいてほしい記事や研究・論文を紹介
・Stable Diffusionや画像生成に関するプロフェッショナルを目指す人向けの基礎的なテクニック、理論、ノウハウ
・既に何かしらのプロだけれど、この技術を使ってさらに自分や所属組織を高めていきたい人向けの情報（企業向けワークショップもあります）
・LLMを使ったアプリケーションやサービスの開発（Python, AWS, GCP, Visual Studio Code, Google Colab, node.js など）
・生成AIを使った価値あるサービスや、それを開発している人々の紹介
・LLMをつくる人々、世界の頂点への挑戦とその意味
・AITuberやコミュニケーションエージェント開発技術、事例、解説（Unity, Unreal Engine, OBS, YouTube DataAPI, 音声合成技術、インタラクション技術など）
・AIをゲーム開発に活用した事例、PoCの開発など。
・AIと社会、特に法律面や倫理面。
・AIと社会、特にAIを使うことによるインクルージョン、その事例と課題。

【どうやったら応募できるの？】

(1) 会社紹介を読む（メールアドレスの入力が必要です）https://hubs.ly/Q027Kg_j0
ご興味、ご質問ご感想を X(Twitter)@AICUai までお送りください。
SPAMフィルタなどにかからない場合、DMにて24時間以内でご返信いたします。その後、予定している流れは以下のとおりです。

(2) 読めるブログを最低3本ご準備ください
ご自身の興味、趣味、活動、学習、研究などテーマは何でも構いません。
noteやtwitter, GitHub, Pixivなどすべてのリンクを辿って調査します。
もちろん完璧でなくても構いません。
商業的なアルバイトで書いた記事などでも構いません。
調査力やモチベーション、文体のイキオイ、商品名などの正確さ、品質、原稿の発行速度感などを評価します。もちろんインターンは指導していきますので、若くて未経験な方（例えば高校生や高専生）でも問題ありません。
(3) オンライン面談（複数回）
学生インターンさんは個別の面談があります。同僚となるメディア事業部のメンバー、社員の方々、しらいはかせCEOなど。
どれぐらいの時間が捻出できるか、雰囲気良く学びながら仕事ができるか、本人の実績としてどのような積み上げをできるか（オンラインでライターとして活動していただく場合は、ペンネームをご準備いただき、どのように参加するかもお聞きします）。
(4) トライアウト期間
実際にチームの中でリサーチや執筆、開発といった作業に従事します。オンラインが中心ですが、オフライン（取材や調査など）の活動がありますので、時間帯や参加方法も調整させていただきます。

よくある質問

Q: 報酬は？
A: パフォーマンスをアウトプットと時間で評価し、時給で最低賃金を考慮し支給します。米国法人なので米国ドルでお支払いします（居住地にもよります）日本円で日本の銀行口座にお振込することも可能です。

Q: 税金とかどうすればいいの
A: 弊社にて丁寧に指導いたします！

Q: 理系なのですが
A: 読んでわかる技術文書を書くのがお仕事です！歓迎！

Q: 文系なのですが
A: 社会に伝わる文章を書くのがお仕事です！歓迎！

Q: 美術・芸術系なのですが
A: 絵作りおいて、十分なスキルと、他人に短い時間で読んでわかる原稿を描ける/書けるスキルが有れば歓迎です。イラストや漫画が描ける、人当たりがいい人はもっと歓迎！

Q: 専門学校生ですが
A: ゲーム専門学校生、AI系の学科は歓迎です。特に学校の課題だけでなく、独自の作品や探求を外部発信している方は大歓迎です。

Q: 高校生ですが働けますか？
A: 十分なスキルとモチベーション、そして「学業第一」を守っていただければ歓迎です。

Q: 学位があります
A: 専門士、準学士、学士、修士、博士、特に情報系のPhDは優遇し、採用や給与に反映させます。卒業研究や学会等で論文を書いたことがある人は特に歓迎です。

Q: 既に有名なブロガー/クリエイターです
A: そういう方の参加を歓迎します！まずは別名義で活躍していただくことも可能ですのでスキルを活かして転生していただくのが良いかと存じます。

Q: 期間は？
A: 本人のご希望、パフォーマンスと弊社の成長に従い、1～3ヶ月毎に条件面とともに契約更新を行います（時給等）。学業や進路により継続できない場合を除き、できるだけ長く（数ヶ月～数年）といった期間で育成していきます。長く勤められるほど優秀な人材であり、会社の成長とともにベネフィットが多くなります。

Q: 性別とか、国籍、年齢については？
A: メディア事業部については日本語を書くスキルが十分であれば歓迎です。国籍や居住地、本名/実名については考慮しません。

Q: 障害者手帳を持っています
A: 障害者手帳を持っているかどうかについては条件ではなく配慮します。例えば疲れやすい、集中力が続かないといった特性がご自身でコントロールできるように配慮します。

Q: なぜ応募に X(Twitter)アカウントが必要なの？
A: 社会とのコミュニケーションを重視しているためです。呼吸をするようにSNSを使いこなしている人を歓迎します。もちろんメールでのご応募も受け付けていますが、まずは @AICUai での発信に向けて、これをより良くしていく方法を開拓していく人材を期待しています。

Q: 深夜が逆転していますが働けますか？
A: 学生インターンの場合は「学業第一」という方針があり、昼間の学生さんの場合はおすすめしませんが、弊社は日米にオフィスがあるため海外大学などの場合は調整可能です。

Q: 副業ですが可能ですか？
A: 本育成プログラムは基本的にはフルタイムの学生（高校生、高専生、大学生、大学院生、留学生）を対象としており、職業がある方はご遠慮願います。

Q: 卒業間近ですがエントリーできますか？
A: いろいろな経緯によってそのような状況にあると推察します。まずはエントリーをどうぞ。卒業するつもりがあるかどうか、などもお聞きします。

Q: 社会人学生ですが応募できますか？
A: どのような社会人学生かにもよりますのでまずは応募してみてください。最優先ではありませんが、十分な時間が捻出できる、本業とコンフリクトしない、といった条件があります。例えば主婦の方でハローワークなどの訓練事業やスクールなどの受講生なども考慮の対象とします。

Q: 職業ライターとして1件あたりで報酬がほしい
A: 学生さんの場合はいったん本プログラムで育成期間を持ち、スキル認定によってプロライターに移行します。もともとプロの方やある程度のスキルが見込まれる方は業務委託でのご参加をご検討お願い致します。NDAや取引先登録といった情報はこちらになります。 https://corp.aicu.ai/

Q: ブログのライターの仕事しかないの？
A: （会社説明資料を読んでいただくと）AICU mediaには本ブログ以外にもプロフェッショナル向けの書籍やワークショップ開発など多くの新規事業があり、本募集におけるライターさん育成とはまた異なった調査や執筆、開発活動に従事していただいております。基本的にブログが書ける人は次のステージに進行していただくという計画になっております。

Q: クリエイターとして活動していきたいのですが両立できますか？
A: 弊社は「つくるひとをつくる」がビジョンにある会社なので、両立するための方法を探っていきます。歓迎です。

Q: 業務的な製作物の著作権の取り扱いは？
A: 契約上の業務内容にもよりますが、依頼されて業務として執筆する著作物は基本的に会社（AICU Inc.）の帰属になります。また協力会社に委託された業務の場合は条件が異なります。依頼されていない場合の著作物の利用は、業務外のクリエイティブであり、著作権者は「譲渡ではなく永続的なライセンス、著作者人格権は主張しない」という条件で解決することが多いと思います。

Q: 独自のブログやオープンソース活動には参加できますか？
A: Yesです、ただし事前の確認が必要です。ブログ等の公開ドキュメントが多く、それに付随したソースコードなどを GitHubで公開するようなケースも想定されます。ライセンス等を記載しないブログの場合など、比較的多くの場合で許可を出しています。ただし弊社及び関連の取引先の守秘義務は守っていただきますので、そのあたりのタイミングにはご注意ください。

Q: 守秘義務ってなんですか？
A: Non-Disclosure Agreement（NDA）という機密を守る、という基本的なルールです。基本守秘義務契約、秘密保持契約、機密保持契約といった訳ができますが、基本的に業務で知り得た秘密（個人情報、売上などのトレードシークレット、知的財産、営業上の戦略、まだ未開示の情報）などを機関が定めた方法で守ってください、というルールです。AICU社とワーカーさんのNDAに加えて、関わる業務によっては協力会社さんのNDAなども理解して遵守する必要があります。

Q: AICUは日本の会社ですか？
A: いいえ、米国デラウェア州の企業になります。詳しくは会社案内をご覧ください。

Q: AICUはなんて読むの？何かの略なの？
A: 「アイキュー」です。AICUがなんの略なのかは諸説あり、会社説明資料に書いてあったりします。

Q: 英語スキルを活かせる仕事はありますか？
A: あります！

Q: 会社説明資料が英語で読めません
A: 弊社は米国法人なので…しばらくお時間いただけると幸いです！

Q: 契約書は英語ですか？
A: Yes。DocuSignによる電子署名になります。もちろん本契約に移行する際に条件面などを日本語で確認していただきます。

Q: 給与や教育以外に何かベネフィットはないの？
A: 弊社の成長次第ですが、正社員や幹部候補としての育成に加えて、インターンや業務委託パートナーの方は弊社のパートナーワーカー専用Discordサーバーに参加できます。しらいはかせCEOをはじめとして、LLMのすごい人や、生成AIのすごい人が集まっています。またデジタルハリウッド大学大学院「クリエイティブAIラボ」との交流があり、交流会やイベント、技術書展に出展したりします。ちょうど次の技術書典に「自分のLoRAを愛でる本」という書籍の準備をしております。

Q: 他になにかいいことはないの？
A: 生成AIの大爆発の時代に、学生の期間を無駄にすることなく、その成長に身を粉にしてぶつけることが出来ます。同じような想いの人々と一緒に働くことで自分を成長させられる可能性があります。

Q: いつからいつまで募集しているの？
A: この記事のタイトルに有るように「2023年11月期」としています。応募は随時で、面接等も随時行っています。予定の候補者数に達した時点で、本募集は終了します（本記事自体は残すかもしれませんが）。

皆様のご応募をお待ちしております！

Originally published at https://note.com on November 3, 2023.

2023-11-03
タスクを分解してくれるゴブリンツールは”すべてのひと”にうれしいAIDXを実現
先週、しらいはかせCEOのTwitterで紹介されて数十万バズとなったツイートがこちらから、ゴブリンツール「 goblin.tools 」というステキなAIDXを体験できるタスク管理ツールを紹介します。

ToDoを分解してくれるツール助かるhttps://t.co/aXxMI20oXw pic.twitter.com/k3mxj7wji1
— Dr.(Shirai)Hakase しらいはかせ (@o_ob) November 2, 2023

[Magic ToDo]：魔法のようにやること分解

「同人誌のを入稿する」という日本語の親ToDoから「Magic ToDo」使うと
・内容を決定する
・内容に基づいて文章を書く
・文章を校正する
・レイアウトを作成する
・イラストや写真を挿入する
・タイトルと目次を作成する
・ページ番号を付ける
・用紙を選び、印刷する
・印刷物をバインドする
・入稿先に送る
といった複雑かつ、日本の漫画同人誌や技術書典のような技術同人誌に共通な工程を見事に表現してくれています。魔法の杖🦯をクリックするとさらに細かなタスクに分解することができます。

例えば「ゲームコンテストに応募する」といった例でも実験してみました。

ゲームコンテストに応募するためにはゲームを完成させる必要がありますが、「ゲームを完成させること」がどんなに複雑で大変か、そしてゲームのプログラム開発よりもテストプレイがどんなに重要か、など複雑で見えづらい要素を分解してくれています。

多少繰り返しになっていますが、実際こんな感じですよね。
ドットを掴むと順番を変えることができます。

辛さレベル🌶は、そのタスクがどれだけ難しいか、またはストレスに感じるかをヒントにします。辛ければ辛いほど、より多くのステップに分解しようとします。これは正確な指標ではなく、システムへのヒントです。
トップレベルのタスクには、絵文字で示されたカテゴリーが自動的に割り当てられます。ボタンでリストを1つ以上のカテゴリーにフィルターすることができる。フィルターボタンはすべての完了したアイテムを隠すこともできます。一般的なタスクツール（編集、削除、サブタスクの追加、見積もり）は各アイテムのボタンの下にあります。左のアイコンはドラッグしてアイテムの並び替えができます。リスト全体の追加アクションはその下にあります。デバイス間の同期、エクスポートオプション、アンドゥとリドゥ、バルクアクションなどがあります。

Helpより

Goblin.tools には他にも以下のようなツールが揃っています
- [MagicToDo] 魔法のToDo：やるべきことを分解
- [Formalizer] フォーマライザー：言いづらいことをより丁寧な文体で
- [The Judge] 裁判官：空気が読めなかったのかどうかを判定
- [Estimator] どのくらい時間がかかるか見積もります
- [Compiler] 頭の中のモヤモヤをタスクリストにコンパイルする
- [The Chef] 食材や食事制限からレシピを作成
  goblin.tools は、小規模でシンプルなシングルタスクツールのコレクションであり、主に neurodivergent ※の人々が圧倒的なタスクや困難を感じるタスクを支援するように設計されています。
Formalizer：言いづらいことをより丁寧な文体で

言いづらいことを言わねばならない、そんなときによりフォーマルな文体で書き直してくれます。🌶の個数で表現してくれるのもかわいい。

「提示された契約書の内容が先方が有利すぎて、我々が合意する利点が見つからない」
これをよりプロフェッショナルに🌶🌶🌶🌶🌶
↓
「提示された契約書の内容は、相手方に大きな利益をもたらす一方で、わたしたちにとって合意するメリットを見出すことが困難です。」

The Judge：空気が読めなかったのかどうかを判定

原文では「Am I misreading the tone of this?」と書かれていますが、「私の読み違いだろうか？」と直訳するよりも、「tone」つまり語調や感情といった要素がどの程度含まれているのかを冷静に判定してくれます。

「正直、あの金額の見積書でドン引きして一旦凍結になりました。」
→「提供されたテキストは感情的な表現であり、金額の見積もりに関して驚愕や不快感を抱いていることが伺えます。」

感情や語調を読むことで、相手がロジックとして伝えている要素とそれ以外の要素を分離して理解することを助けてくれます。
「怒られたり怒鳴られたり、何か勘違いしているのでは？」という時に役立ちます。もしくは相手の空気を読みすぎな人にとっても、少しだけ安心できるツールになると思います。
[+]ボタンを押すと、その返信についてもジャッジできます。

B:ご指摘ありがとうございます。凍結とのことですが、いくらぐらいでしたらお話を訊いていただけそうでしょうか？

Estimator：どのくらい時間がかかるか見積もり

同人誌の原稿を入稿するには1週間から1カ月かかるそうです…！

Magic Todoアイテムでも利用できます。

Magic ToDoで右側の「Estimate」をクリックしてしばらく待ちます

「ゲームコンテストに応募する」…は53日と13時間かかるそうです！

なお最大のToDoは「ゲームのテストプレイを繰り返し修正や改良を行う」で21日17時間、
そのうち「バグや不具合の修正や改良を行う」が14日でした。
なお「ゲームを完成させる」は3日です。奥深い。

Compiler：頭の中のモヤモヤをタスクリストにコンパイルする

ブレインダンプ（braindump）を訳す方法がなかったのですが「アタマの中のモヤモヤ」とさせていただきました。ちょっと実験してみます。

「誰も作ったことがないようなゲームを開発して、ゲームコンテストに応募して華々しく優勝してモテる」→①ゲームを開発する②ゲームコンテストに応募する③優勝する④モテる

もっとモヤモヤした課題を与えてみます。

「海賊王に、俺はなる」→「Becoming the Pirate King」
ちょっとダイレクトすぎました。

ちょっと難しい課題にしてみます。

いい大学に入って会社に就職して幸せになる、そのために大学に受かる、いま目の前にある問題を解かねばならない

こんな結果が出てきました。

入る大学に受かる
会社に就職する
幸せになる

・入ることのできるいい大学を見つける
・志望する大学に合格する
・会社を見つけて就職する
・幸せになる

何度か気に入ったタスクが出るまでガチャを回してみましょうね！

念のため、ちょっとおかしいモヤモヤを突っ込んでみます。

卒論指導の先生はパワハラ、俺は死ぬしかないんだ大学をやめる死ぬ。

（あえてロジックがおかしい感じにしてみます）

それぞれの要素自体はファクトとして独立していますね。
ChatGPTをバックエンドに使っているにようですが、けっこうきな臭い話題についても扱ってくれている点が気になります。
これを「Send result to the Magic Todo」ボタンを押してブレイクダウンしてみます。

まあ人はいずれ死ぬしかないんですが…

大学をやめるのにだいたい2年と63日かかるそうです

卒論指導の先生のパワハラを対処するのにかかる日数はだいたい14日と20時間ぐらいです

気になる「俺は死ぬしかないんだ」はこんな感じでした。

ちなみに何回やっても日本語の誤りを指摘されました…

The Chef：食材や食事制限からレシピを作成

食材や食事制限から
ここにどのような食材があるか書いてください！また、食事制限、分量、器具、時間など、シェフに配慮してほしいことを何でも書いてください。

「バナナと卵とお米。糖尿病に気遣いたい。」
でました！

料理名: バナナエッグカップ

サービングサイズ: 2人分

材料:
– バナナ: 2本
– 卵: 4個
– お米: 1/4カップ (乾燥状態)

調理手順:
1. オーブンを180度に予熱します。
2. バナナを皮を剥いてボウルに入れ、フォークでよくつぶします。
3. 卵をバナナのボウルに加え、よく混ぜます。
4. お米を乾燥させた状態でボウルに加え、再びよく混ぜ合わせます。
5. マフィンカップに混ぜたバナナエッグカップの生地を均等に分けて流し込みます。
6. オーブンで約15–20分焼きます。焼き時間はカップの大きさやオーブンの性能によって異なる場合がありますので、中心部がしっかりと固まるまで焼いてください。
7. 焼き上がったら、完全に冷ましてからお楽しみください。

メートル法の材料:
– バナナ: 2本
– 卵: 4個
– お米: 60ml (乾燥状態)

インペリアル法の材料:
– バナナ: 2本
– 卵: 4個
– お米: 1/4カップ (乾燥状態)

ToDo化して時間を見積もることもできますのでやってみます。

3時間もかかるのか…そりゃそうだな

ちょっと朝ごはんには間に合わなさそう。
「バナナと卵とお米。糖尿病に気遣いたい。朝ごはんなので手早くお願いしたい。一人分でいい。」としてみます。

料理名：バナナオートミールパンケーキ
サービングサイズ：1人分
材料（メートル法）：
– バナナ：1本（中サイズ）
– 卵：1個
– お米（未炊飯）：40g
– オートミール：30g
– 低脂肪乳または豆乳：100ml
– ステビアまたは他の低カロリー甘味料：お好みで適量
– シナモンパウダー：お好みで適量
材料（インペリアル法）：
– バナナ：1本（中サイズ）
– 卵：1個
– お米（未炊飯）：1.4オンス
– オートミール：1オンス
– 低脂肪乳または豆乳：3.4液量オンス
– ステビアまたは他の低カロリー甘味料：お好みで適量
– シナモンパウダー：お好みで適量
調理手順：
1. バナナをフォークなどでつぶし、ボウルに移す。
2. 卵をバナナの上に割り入れ、よく混ぜ合わせる。
3. お米とオートミールをバナナと卵の混合物に加え、さらによく混ぜ合わせる。
4. 低脂肪乳または豆乳を徐々に加えながら、さらによく混ぜる。
5. ステビアまたは他の低カロリー甘味料を適量加え、シナモンパウダーもお好みで加えてよく混ぜる。
6. フライパンを中火にかけ、少量のオイルを敷く。パンケーキの生地を適当な大きさに流し入れる。
7. パンケーキの表面に小さな気泡ができ、生地が少し固まってきたら（約2分程度）、裏返してもう1分程度焼く。裏返す際は注意して行いましょう。
8. 全てのパンケーキを同様に焼き上げる。
9. バナナオートミールパンケーキを温かい状態でプレートに盛り付け、お好みでシナモンパウダーや切ったバナナをトッピングして完成です。

このレシピは、糖尿病の方にやさしい低GI（血糖上昇指数）で栄養価の高い朝食オプションです。オートミールとお米の組み合わせにより、食物繊維と栄養素が取り入れられます。バナナは自然の甘みを提供し、低脂肪乳または豆乳は牛乳よりも低い糖分を含んでいます。ステビアや他の低カロリー甘味料を使用することで、甘さを加えることができます。

ToDoにして、時間を見積もってみました！

まあでもそんなにかからない気もする（甘い？）

個々のステップでの時間の正確さには課題が残りそうです。実際の工程のなかで手抜きをしてもいいし、最後までの道筋がある程度示されているのはいいですね！

クラウドサービスとしての利用

公式のAboutに AICU mediaとしての見解を加えて解説します。

Goblin.tools はベルギーのクラウド開発者 Bram De Buyserさんが開発運営しているツールです。モバイル版もあります。Apple iOS版が 0.99USD、Android版が150円です。

ほとんどのツールは、目的を達成するためにバックエンドで AI テクノロジーを使用しています。現在、これには OpenAI のモデルが含まれています。「ツールとバックエンドが改善されるにつれて、オープンソースの代替手段に移行する」とのことです。

すっごいお金かかっちゃうはずなんですが、ありがたい話ですね！

認証情報を入力すると、デバイス間でToDoリストを同期することができます。新しいデバイスで同期を有効にする前に、バックアップを取ることをお勧めします。リストはユーザー名とパスワードで暗号化されます。管理者やあなたの認証情報を知らない人がリストを見たり、復号化したりすることはできません。

同期には数秒かかりますが、もしかして小規模なチームで利用する場合なんかも便利かもしれませんね。

シェアボタンから .goblin 形式（JSON形式）で保存することもできます

注意事項として、

使用される AI モデルは汎用モデルであるため、出力の精度は異なる場合があります。どのツールからも返されるものは何も真実の記述として解釈されるべきではなく、推測にすぎません。得られた結果が妥当であるかどうかは、ご自身の知識と経験に基づいて判断してください。
免責事項: goblin.tools、Skyhook、および Bram De Buyser は、結果やその使用方法について責任を負いません。
goblin.tools は、このページで言及されているもの以外の Web サイトやアプリと提携したり、推奨したりするものではありません。

しらいはかせの一言解説：ニューロダイバージェントとは？

しらいはかせに紹介されたこのツールですが、大好評ですね。
でもアプリのタグライン（1行解説）には「Smart tools for the neurospicy」と書かれています。nuerospicyとはどんな意味なんでしょうか。

Wikipediaによると「neurospicy」とは

語源
neurodivergent + spicyの合成語。表面分析では、neuro- + spicy。
形容詞
ニューロスパイシー
(新造語、俗語、かわいらしい、ユーモラスな）神経異端者。[2017-]

使用上の注意
この言葉を幼児化すると考える人もいれば、かわいらしい、あるいは中立的だと考える人もいる。

「neurospicy」

Neurodiversity/neurodivergent とは
精神機能にばらつきのある人々を表す非医学的な包括的用語であり、自閉症スペクトラム障害（ASD）や注意欠陥・多動性障害（ADHD）などの神経学的または発達的な状態を含む人々のことだそうです。

注意欠陥、というと生きづらい気持ちになりますが、こういったAIによるサポート技術は、お年寄りや若者、他人の感情に左右されやすい人や反応が薄い人などすべての人々の助けになる技術ですね。

AICU mediaは、広くクリエイティブな方々をAIをより使いこなすことで温めていくようなメディアを目指しています。
クリエイティブな生き方って社会との接点で生きづらい気持ちになることは多いですよね。
すべての人々がこんなツールで、もっと楽しく、なめらかに生きられるといいなと思います。

今後もこんなツールがあったら積極的に深掘りして
応援していきたいと思います！

追記：作者のBram De Buyserさんとコミュニケーションが取れましたのでインタビューです

“Why it is free?”なぜ無料なの？

Bram De Buyser：その答えは、このツールは安価なAI APIとしてGPT 3.5を使用するように構築されており、ホストするのに非常に軽量です。そのため、goblin toolsの運営にかかる月々のコストは、利用者の多さに対して思ったほどかかりません！アンドロイドとアップルでのアプリの売り上げで、月々のコストをカバーしています。）

アプリを買う余裕がない人や、アプリにお金を払えない人のために、私は絶対にツールを無料にしたかったのです。

素晴らしいお話ですね！感動したみなさんはアプリを購入して応援しましょう！

Google Play
https://play.google.com/store/apps/details?id=com.goblintools&pli=1

App Store
https://apps.apple.com/us/app/goblin-tools/id6449003064

以上、AICU mediaがお送りしました

Originally published at https://note.com on November 3, 2023.
2023-11-03