年: 2024年

  • [ComfyMaster31] AWS上にComfyUI環境を構築しよう!(準備編)

    こんにちわ!AICU media編集部です。
    AWS 生成 AI 実用化推進プログラム」に採択されました!

    クリエイティブAIで「つくるひとをつくる」をビジョンに、「わかるAIを届ける」をコンセプトに活動しているAICU mediaは、高い技術力と、わかりやすい記事を通して今後もより一層力を入れて、AWS(Amazon Web Services)の企業での社内開発やプロフェッショナル向けの使いこなし事例を当事者目線でお届けしていきます。


    あらためまして、こんにちわ、AICU media編集部です。
    ComfyUI マスターガイド」第30回目になります。
    本記事では、AWS上にComfyUI環境を構築するテクニックを詳細に解説します。お値打ち記事ですが、ちょっと長いので3編に分けて、お送りします!

    本シリーズの初回はこちら。前回はこちら目次はこちらです。

    AWS編第2回はこちら、「コスト効果大なComfyUIのAWSデプロイ(Cost Effective AWS Deployment of ComfyUI)」を準備していきます。

    「Cost Effective AWS Deployment of ComfyUI」

    つまり「お財布に痛くない、AWSでのComfyUI運用」というオープンソース(MITライセンス)のプロジェクトです。AWS公式サンプルとして公開されています。

    https://github.com/aws-samples/cost-effective-aws-deployment-of-comfyui/blob/main/README_ja.md

    このサンプルリポジトリは、強力な AI画像生成ツールである ComfyUI を AWS 上にシームレスかつコスト効率の高い方法でデプロイ(インストールして利用)するソリューションを提供しています。このリポジトリは、AWSの主要サービスであるECS(Amazon Elastic Container Service)や、EC2(Amazon Elastic Compute Cloud)、その他の AWS サービスを活用した構成の設定を無償提供しています。しかも日本語の解説付きです。

    このリポジトリの説明にもあるように、このソリューションの利用については AWS の費用が発生します。また設定次第では高額な費用になる可能性もあります。費用に関する詳細情報は、コスト セクションに記載されていますが、本記事では、まずAICU編集部での実用的な実験データで計測して共有していきたいと思います。

    AICUコラボクリエイター・Yasさんによる動画での解説冒頭はこちら

    動画での学びを求める方にはこちらがオススメです!

    https://j.aicu.ai/Coloso3

    それでは準備作業からはじめましょう

    (1) AWSのアカウントを作成
    (2) クォータの引き上げ申請
    (3) インストール環境をCode Editorで構築
    (4) デプロイオプションの変更
    (5) ComfyUI のデプロイ
    (6) 利用開始!

    (1)AWSアカウントの作成

    AWSを使用するためには、AWSのアカウントが必要になります。AWS公式が公開している以下の記事を参考にアカウントを作成しておいてください。

    https://aws.amazon.com/jp/register-flow

    IAMによる開発者アカウントの作成

    最初に作られるアカウントを「ルートユーザー」といいます。
    このユーザーは、アカウントの新規作成や削除、支払いなど全ての根幹的権限を持っていますので、操作するのはできるだけ短期間で終わらせたいところです。またパスワード等の流出によるリスクが大きすぎます。
    そこで、開発に頻繁に使うアカウントは分けておきたいと思います。

    AWSではこのユーザー作成及び管理を「AWS Identity and Access Management」つまり、「IAM」と呼ぶサービスで管理します。

    一番上の検索窓に「IAM」と打って、出てきたIAMの「主要な機能」から「ユーザー」を選びましょう。

    画像

    左側の「アクセス管理」→「ユーザー」でも構いません。

    画像

    ユーザ作成ボタンを押してください。
    この先、何か間違った?というときも「削除」を押せば元通りです。

    画像

    次はユーザー作成です。

    画像

    ユーザーの詳細を指定

    ・ユーザ名: 「ComfyUI-server」とします
    ・[チェックON] AWS マネジメントコンソールへのユーザーアクセスを提供する
    ・ユーザーにコンソールアクセスを提供していますか?
    →ユーザータイプ「IAMユーザーを作成」 でユーザーを指定する

    画像

    「次へ」を押すと「許可の設定」に移動します。

    画像

    ユーザーグループを設定します

    ここでは「ComfyUI-users」というAdministratorAccess権限のみを持ったユーザーグループを作成します。

    画像

    続いて、「ポリシーを直接アタッチする」を使って以下のポリシーをアタッチしてください。

    画像
    • ServiceQuotasFullAccess
    • AWSCloudFormationFullAccess
    • AmazonEC2FullAccess
    • IAMFullAccess
    • AWSCloudTrail_FullAccess
    • AmazonSageMakerFullAccess
    • AWSLambda_FullAccess
    • AWSAppSyncPushToCloudWatchLogs

    ※ここでは詳細な権限設定を考えるべきですが、設定の簡易のために、いったん「AdministratorAccess」と続く設定で必要となる権限のFullAccessのみを設定してすすめます。

    次のステップ「パスワードの取得」で、ユーザーのAWS マネジメントコンソールにサインインするための手順とパスワードを取得できます。

    画像

    「コンソールパスワード」の表示をして、ブラウザの別ユーザのウインドウでコンソールサインインURLにアクセスします。このURLの冒頭の12桁の数字がアカウントIDです。

    画像

    あらかじめ設定されたパスワードでの初回ログインが終わると、パスワード変更を求められます。ここでのパスワード設定は、英数大文字、数字、記号など、高い難度でお願いします。

    MFA(多要素認証)デバイスの設定もしておくことをおすすめします。

    作成したアカウントでAWSダッシュボードに入れるようになったら次のステップです。
    ここまでの作業を単純化したい場合は、次のステップでは、ルートユーザーでログインします(非推奨)。

    (2)スポットインスタンスの上限解放

    今回使うこのリポジトリでは、GPUのスポットインスタンス「All G and VT Spot Instance Requests」を使用しますが、このスポットインスタンスの上限のデフォルトは0であり、このままでは使用できません。さらに、この上限は自由に設定できるものではなく、AWSのサポートで変更してもらう必要があります。そのため、ここではスポットインスタンスの上限解放のリクエストを送る方法を説明します。

    まず、AWSに作成したユーザー(もしくはルートユーザー)でログインし、トップページに当たる「コンソールのホーム」画面を表示します。
    https://console.aws.amazon.com/console/home

    画像

    次にリージョン(地域)を選択します。
    右上のプルダウンで選ぶことができます。

    画像

    ここでは「us-west2」(オレゴン)を選んでおきましょう。
    新しい機械学習サービスなどが入りやすく、利用しやすい価格になっている事が多いためです。もちろん東京リージョンのほうが良い、など都合に合わせていただいて構いません。

    次に左上の検索ボックスに「service quotas」と入力し、表示されたサービス一覧から「Service Quotas」を選択します。

    こちらのURLでもアクセスできます。

    https://us-west-2.console.aws.amazon.com/servicequotas/home/services

    画像
    画像

    Service Quotasの画面が開くので、左サイドメニューから「AWSのサービス」を選択します。

    画像

    AWSのサービス一覧画面が表示されるので、上部の検索バーに「ec2」と入力し、下部のサービス一覧から「Amazon Elastic Compute Cloud (Amazon EC2)」を選択します。

    画像

    もしこのタイミングで以下のような画面になる場合は、必要な権限「ServiceQuotasFullAccess」が足りません(一つ前のステップを確認してきてください)。

    画像

    EC2のスポットインスタンス一覧が表示されるので、一覧から「All G and VT Spot Instance Requests」にチェックを入れ、右上の「アカウントレベルでの引き上げをリクエスト」をクリックします。

    画像

    表示されたダイアログボックスの左中央にある「クォータ値を引き上げる」の入力欄に「4」と入力し、下部の「リクエスト」ボタンをクリックします。

    画像

    ※ここでクォータ値が「4」以上になっている場合は、すでに同一アカウントでクォータの引き上げが実施されています。申請する必要はありません。

    「リクエスト」すると画面上部に「Submitting Quota increase request for All G and VT Spot Instance Requests with requested Value of 4.」と表示され、リクエストの送信が行われます。

    画像

    しばらくすると、AWSサポートより以下のような文面のメールが送信されてきます。おそらく人力で確認が実施されているようです。

    ご担当者様

    以下内容にて上限緩和申請を受領いたしました。

    [US West (Oregon)]: EC2 Spot Instances / All G and VT Spot Instance Requests, 新しい上限数 = 8

    現在、担当部署にて当上限緩和の申請内容について確認しております。
    進歩があり次第ご連絡いたしますので、今しばらくお待ちいただきますようお願いいたします。
    ※確認作業のためお時間をいただく場合がございます、予めご了承くださいませ

    Amazon Web Services

    さらにしばらくすると、上限緩和リクエストが受理された内容のメールが届きます。これで上限緩和が完了になります。

    ご担当者様

    以下内容にて、ご依頼いただきました上限緩和リクエストの設定が完了いたしました。
    反映されるまでに30分ほどかかる場合がございますことご了承くださいませ。

    [US West (Oregon)]: EC2 Spot Instances / All G and VT Spot Instance Requests, 新しい上限数 = 8

    何卒よろしくお願いいたします。
    Amazon Web Services

    (3) インストール環境をCode Editorで構築

    クォータの申請が終わったらしばらく時間がありますので、ここで一休みしても良いのですが、せっかくなのでもうちょっとだけ進めていきましょう。

    続いてのステップはインストール環境の構築です。
    cost-effective-aws-deployment-of-comfyuiの環境構築方法には、ローカル環境で行う方法と、SageMakerで行う方法があります。ローカル環境を使ったインストールは、ユーザー個々の環境でブレが大きく「おま環」(=「お前の環境だけで起こっている」)になりがちです。
    そのため最近の多くのAWSセットアップ手順では、SageMaker Studioでセットアップを行う手順が推奨されています。
    せっかくなので今回も、SageMaker Studioを体験しつつ、SageMaker Studio上で環境構築していきましょう!

    SageMaker Studioの起動

    SageMakerには、テンプレートが用意されています。このテンプレートを利用することで、最初からdockerやコードエディターなどの環境がインストールされた状態でSageMaker Studioを立ち上げられます。以下のリンクよりテンプレート用のリポジトリにアクセスしてください。

    https://github.com/aws-samples/sagemaker-studio-code-editor-template

    リポジトリにアクセスし、下の方にスクロールすると、「Deploymet (1-click)」という項目があることが確認できます。ここから好きなリージョンの「Launch Stack」ボタンを押下することで、そのリージョンでSageMaker Studioを起動できます。今回は、us-west-2を起動します。

    画像
    画像

    AWSにログイン済みの場合、以下のような画面が表示されます。

    画像

    AWSダッシュボードにログインできるにも関わらず、以下のような画面が表示された場合は、CloudFormationに関する必要な権限が足りません。一つ前のステップを確認するか、ルートユーザーで「AWSCloudFormationFullAccess」の権限追加を行ってください。

    画像

    さて、正しく権限がある場合は、ここで以下のパラメータ設定を行えます。

    画像
    • AutoStopIdleTimeInMinutes: SageMaker Code Editorが自動で停止するまでの時間を設定します。デフォルトは120分で、起動してから120分後にCode Editorが停止します。今回は、120分あれば十分なので、120分に設定します。
    • EbsSizeInGb: Code Editorで使用する容量を設定します。今回、Code EditorはIDEとしてデプロイを行うためだけに使用するため、デフォルトの容量「20GB」で問題ありません。
    • InstanceType: Code Editorを起動するインスタンスを設定します。デフォルト設定は「ml.t3.medium」で、選択できるインスタンスの中で最も性能が低いものになりますが、インストールのみに使用するので、これで問題ありません。
    • UseDefaultVpc: 各リージョンにデフォルトで用意されているVPCを利用するかどうかを決定します。デフォルト設定は「true」で、デフォルトのVPCを利用する設定になっています。デフォルトのVPCを使用したくない理由がなければ、デフォルト設定のままで問題ありません。

    上記の設定後に、下部の「AWS CloudFormation によって IAM リソースがカスタム名で作成される場合があることを承認します。」にチェックを入れ、「スタックの作成」ボタンをクリックします。

    そうすると、CloudFormationが実行され、SageMaker Studioの環境構築が行われます。

    画像

    しばらくすると、ステータスが「CREATE_IN_PROGRESS」から「CREATE_COMPLETE」に変わり、SageMaker Studioの環境構築が完了します。

    画像

    もしROLLBACK_FAILDEDというエラーになった場合は、「SageMakerStudio」に関する必要な権限が足りません。

    画像

    この場合はいったんこのCodeEditorStackを「削除」して、ルートユーザー必要な権限を追加してきてください。

    https://docs.aws.amazon.com/ja_jp/IAM/latest/UserGuide/troubleshoot_roles.html

    理解のために CodeEditorStack.template.yaml を使ってChatGPT等に訊いてみるのもよいでしょう。

    このCloudFormationのデプロイに必要なARNを教えて

    1. EC2関連の権限必要な権限:
    ec2:CreateVpc, ec2:DescribeVpcs, ec2:CreateSubnet, ec2:DescribeSubnets
    ec2:CreateInternetGateway, ec2:AttachInternetGateway
    ec2:CreateRouteTable, ec2:CreateRoute, ec2:AssociateRouteTable
    理由: VPCやサブネット、ルートテーブルを作成し、インターネットゲートウェイをアタッチするために必要です。
    2. IAM関連の権限必要な権限:
    iam:CreateRole, iam:AttachRolePolicy, iam:PutRolePolicy, iam:PassRole
    理由: LambdaやSageMaker Studioの実行用ロール作成とポリシーのアタッチ、およびPassRole権限を必要とする可能性があります。
    3. SageMaker関連の権限必要な権限:
    sagemaker:CreateDomain, sagemaker:CreateUserProfile, sagemaker:CreateApp, sagemaker:DescribeDomain, sagemaker:DeleteDomain
    理由: SageMaker Studioのセットアップに必要な権限です。ドメイン、ユーザープロファイル、アプリの作成・削除を行うために必要です。
    4. CloudWatch Logs関連の権限必要な権限:
    logs:CreateLogGroup, logs:CreateLogStream, logs:PutLogEvents
    理由: Lambda関数の実行時にCloudWatch Logsへ出力するために必要です。
    5. Lambda関連の権限必要な権限:
    lambda:CreateFunction, lambda:InvokeFunction, lambda:DeleteFunction
    理由: CloudFormationスタックでLambda関数を作成・実行・削除するために必要です。
    6. CloudFormation関連の権限追加の権限として AWSCloudFormationFullAccess が必要ですが、他にも以下のような権限を確認してください:
    cloudformation:DescribeStacks, cloudformation:ListStackResources
    これらはスタックの管理に必要です。

    7. Service Quotas関連の権限すでにServiceQuotasFullAccessが提案されていますが、サービスクォータの確認と調整が必要な場合はこれを付与します。

    • AmazonEC2FullAccess
    • IAMFullAccess
    • AWSCloudTrail_FullAccess
    • AmazonSageMakerFullAccess
    • AWSLambda_FullAccess
    • AWSAppSyncPushToCloudWatchLogs

    以上のような権限があれば設定できるはずです。
    ※どうしてもうまく行かない場合はルートユーザーで実験しましょう。

    さて、デプロイに成功している場合、ここで「出力」タブを選択すると、「SageMakerStudioUrl」が出力されていることが確認できます。この値にあるURLを選択します。

    画像

    そうすると、SageMakerの画面が開きます。

    画像

    「Skip Tour for now」して、左上に5-6個のアイコンが並んでいるところから、「Code Editor」を選択します。

    画像

    Code Editorの起動画面に遷移します。既に起動中のCode Editorがあるので、このCode Editorの「Open」をクリックします。

    画像

    SageMaker Code Editorの画面が開きます。これでSageMakerの準備ができました。

    画像

    Microsoft の Visual Studio Code (vscode) そっくりですが、そもそも vscode もオープンソースです。こちらは「SageMaker Code Editor」というプロジェクトのようです。

    画像

    (4) デプロイオプションの変更

    今回はまずデプロイオプションの変更は行わずに、デフォルト状態でのデプロイを実験していきます。

    今回の手順では企業等での利用を想定して、ユーザーIDとパスワードによるログインを必須としています。この状態で問題なければ次のステップに進んでいただいて構いません。

    以下はセルフサインアップや自動シャットダウンなどの設定を行うデプロイオプションの変更点です。デプロイオプションは、主にcdk.jsonの内容を編集することで設定可能です。

    セルフサインアップの有効化

    Cognitoのセルフサインアップは、ログイン画面で新規アカウントをアクセスしたユーザーが作成することを可能とします。セルフサインアップの有効化は、cdk.jsonのコンテキストでselfSignUpEnabledをtrueに設定します。デフォルトはfalseですので「今回の手順でいますぐ使いたい!」という方はtrueにしておきましょう。

    {
      "context": {
        "selfSignUpEnabled": true
      }
    }

    MFAの有効化

    ユーザーの多段階認証 (MFA) を有効化します。MFAの有効化は、cdk.jsonのコンテキストでmfaRequiredをtrueに設定します(デフォルトはfalseです)。

    {
      "context": {
        "mfaRequired": true
      }
    }

    サインアップ可能なメールアドレスのドメインを制限

    allowedSignUpEmailDomainsコンテキストで、許可するドメインのリストを指定できます(デフォルトはnull)。文字列リストとして値を指定し、”@”シンボルは含めません。メールアドレスのドメインが許可ドメインのいずれかに一致する場合、ユーザーはサインアップ可能です。nullを指定すると制限なしで全ドメインが許可され、[]を指定すると全ドメインが禁止され、どのメールアドレスもサインアップできません。

    設定されると、許可されていないドメインからのユーザーは「アカウント作成」でエラーが表示され、サインアップが阻止されます。この設定は既存のCognitoユーザーには影響しません。新規サインアップやユーザー作成のみに適用されます。

    例:amazon.comドメインのメールアドレスでのみサインアップを許可する場合

    {
      "context": {
        "allowedSignUpEmailDomains": ["amazon.com"] 
      }
    }

    IPアドレス制限

    IPアドレスでWebアプリケーションへのアクセスを制限するために、AWS WAFを使用してIP制限を有効にできます。cdk.json内のallowedIpV4AddressRangesに許可するIPv4 CIDR範囲の配列、allowedIpV6AddressRangesに許可するIPv6 CIDR範囲の配列を指定します。

    { 
     "context": {
        "allowedIpV4AddressRanges": ["192.168.0.0/24"],
        "allowedIpV6AddressRanges": ["2001:0db8::/32"]
      }
    }

    SAML認証

    Google WorkspaceやMicrosoft Entra ID(旧称Azure Active Directory)などのIdPによって提供されるSAML認証機能と統合することができます。

    samlAuthEnabled: trueに設定すると、SAMLのみの認証画面に切り替わります。Cognitoユーザープールを使用した従来の認証機能は利用できなくなります。

      "samlAuthEnabled": true

    スポットインスタンス

    重要でないワークロードでコストを削減するためにスポットインスタンスを使用できます(デフォルトはtrue)。コンテキストでuseSpotをfalseに設定して無効にすることも可能です。また、spotPriceを変更してスポット価格を指定できます。スポット価格がspotPrice以下である場合のみインスタンスが利用可能です。

    {
      "context": {
        "useSpot": true,
        "spotPrice": "0.752"
      }
    }

    自動またはスケジュールでのスケールダウン

    コストをさらに削減するために、インスタンスをゼロにスケールダウンできます。

    例:活動が1時間ない場合に自動でスケールダウンするには、autoScaleDownをtrueに設定します。

    {
      "context": {
        "autoScaleDown": true
      }
    }

    これで自動でスケールダウンしてくれるようになります。

    • スケジュール(例: 勤務時間)でスケールダウン/アップするには、scheduleAutoScalingをtrueに設定します。timezone、scheduleScaleUp、scheduleScaleDownでスケールアップ/ダウンのスケジュールを指定できます。
    {
      "context": {
        "scheduleAutoScaling": true,
        "timezone": "Asia/Tokyo",
        "scheduleScaleUp": "0 9 * * 1-5",
        "scheduleScaleDown": "0 18 * * *"
      }
    }

    NATインスタンスの使用

    NATインスタンスは、NATゲートウェイと比較して安価ですが、利用可能性とネットワークスループットが制限されています。詳細はNATゲートウェイとNATインスタンスの比較を参照してください。

    デフォルトでNATインスタンスが使用されます。cheapVpcをfalseに設定すると、NATゲートウェイに変更できます。

    {
      "context": {
        "cheapVpc": false
      }
    }

    カスタムドメインの使用

    カスタムドメインをサイトのURLとして使用できます。Route53のパブリックホストゾーンがすでに同じAWSアカウントで作成されている必要があります。パブリックホストゾーンの詳細については以下を参照してください:Working with Public Hosted Zones – Amazon Route 53

    同じAWSアカウントにパブリックホストゾーンがない場合は、手動でのDNSレコードの追加やAWS ACMでのSSL証明書の検証中にメール認証を利用することも可能です。これらの方法を使用する場合、CDKドキュメントを参照し、適宜カスタマイズしてください:aws-cdk-lib.aws_certificatemanager module · AWS CDK

    cdk.jsonで以下の値を設定します。

    • hostName … サイトのホスト名。AレコードはCDKによって作成され、事前作成は不要
    • domainName … 事前に作成されたパブリックホストゾーンのドメイン名
    • hostedZoneId … 事前に作成されたパブリックホストゾーンのID
    {
      "context": {
        "hostName": "comfyui",
        "domainName": "example.com",
        "hostedZoneId": "XXXXXXXXXXXXXXXXXXXX"
      }
    }

    以上が主要な設定です。
    いまのタイミングでは見直す必要はありませんが、後ほど使用環境にあわせて変更してみてください。

    (5) ComfyUI のデプロイ

    ComfyUIのデプロイの実行

    それでは、SageMaker Code Editorを使ってComfyUIのデプロイを実行します。Code Editorの左上にある3本線のアイコンをクリックし、Terminal->New Terminalの順に選択します。


    この記事の続きはこちらから https://note.com/aicu/n/ne119480439e8

    Originally published at https://note.com on Nov 6, 2024.

  • [ComfyMaster30] AWS上にComfyUI環境を構築しよう!(知識編) 

    こんにちわ!AICU media編集部です。
    このたびAICUは「AWS ジャパン 生成AI 実用化推進プログラム」に採択されました!

    クリエイティブAIで「つくるひとをつくる」をビジョンに、「わかるAIを届ける」をコンセプトに活動しているAICU mediaは、高い技術力と、わかりやすい記事を通して今後もより一層力を入れて、AWS(Amazon Web Services)の企業での社内開発やプロフェッショナル向けの使いこなし事例を当事者目線でお届けしていきます。


    この記事の続きはこちらから https://note.com/aicu/n/nf89a72982ddb

    Originally published at https://note.com on Nov 5, 2024.

  • [ComfyMaster29] 参照画像でAIをコントロール!IPAdapterの使い方

    理想のビジュアルをAIに伝えたいのに、テキストだけでは限界を感じていませんか?
    IPAdapterなら、参照画像を使って視覚的に指示できます。

    こんにちわ、AICU media編集部です。
    ComfyUI マスターガイド」第29回目になります。
    本記事では、1枚の画像から高度に画風を適用できる「IPAdapter」(アイピーアダプター)の解説です。例えば、「劇画風のしらいはかせ」画像を使うとこんな画像がプロンプトだけで生成できます。

    画像

    本稿ではIPAdapterの仕組みとComfyUIでの活用方法をステップバイステップで解説し、参照画像に基づいた高品質な画像生成を行えるようになることを目指します。気になる倫理面についても配慮していきましょう。

    本連載の初回はこちら。前回はこちら、目次はこちらです。

    [ComfyMaster28] 落書きが画像に!ControlNet Scribble入門 #ComfyUI

      1. 概要

      IPAdapterは、テキストプロンプトに加えて参照画像を入力することで、AIによる画像生成をより精密に制御する技術です。画像のスタイル、特定の視覚要素、全体的な構図など、テキストでは表現しきれないニュアンスをAIに伝えることを可能にし、生成画像の品質、一貫性、再現性を向上させます。

      本記事では、IPAdapterの仕組み、ComfyUI上での具体的なワークフロー、そして生成結果を通して、その効果と活用方法を解説します。蝶の画像を参考に人物画像を生成する例を通して、IPAdapterの強度や適用方法による変化、linear、style transfer、ease_inといった異なる重みタイプの効果の違いを検証します。

      2. IPAdapterとは

      IPAdapterは、テキストベースのプロンプトと視覚的な参照画像を組み合わせることで、AIに対してより詳細で正確な指示を与えることを可能にする技術です。この手法により、生成される画像の品質、スタイルの一貫性、特定の視覚要素の再現性が大幅に向上します。

      技術的背景

      IPAdapterの核心は、画像エンコーダーとテキストエンコーダーの出力を効果的に統合する能力にあります。この過程は以下のように要約できます。

      1. 画像エンコーディング: 入力された参照画像は、畳み込みニューラルネットワーク(CNN)などの画像エンコーダーによって処理され、高次元の特徴ベクトルに変換されます。
      2. テキストエンコーディング: 同時に、テキストプロンプトは言語モデルによって処理され、同じく高次元の特徴ベクトルに変換されます。
      3. 特徴の融合: 画像とテキストから得られた特徴ベクトルは、複雑な方法で結合されます。この過程では、注意機構(Attention Mechanism)などの技術が用いられることがあります。
      4. 潜在空間への投影: 融合された特徴は、Stable Diffusionの潜在空間に投影されます。この空間内で、画像生成プロセスが行われます。
      5. 画像生成: 最後に、潜在表現から実際の画像ピクセルへのデコードが行われ、最終的な出力画像が生成されます。

      IPAdapterの利点

      1. 精密な視覚情報の伝達: テキストだけでは表現しきれない細かいニュアンスや視覚的特徴を、AIモデルに効果的に伝達できます。
      2. スタイルの一貫性: 特定のアーティストのスタイルや、製品デザインなどを高い一貫性で再現することが可能です。
      3. 学習効率の向上: 新しい視覚概念や複雑な構図を、画像を通じてAIモデルに効率的に「教える」ことができます。
      4. 創造性の拡張: 視覚的なインスピレーションを直接AIに伝えることで、より革新的で予想外の結果を得られる可能性が高まります。

      3. ワークフローの使用準備

      カスタムノード

      • ComfyUI IPAdapter plus: IPAdapterをComfyUI上で使用できるようにしたカスタムノードです。ComfyUI Managerからインストール可能です。このカスタムノードの詳細を知りたい方は、以下のリポジトリを参照してください。

      https://github.com/cubiq/ComfyUI_IPAdapter_plus

      モデル

      • RealVisXL V5.0: 実写系を得意とするモデルで、商用利用可能(画像の販売、サービスへの組み込み可能)になります。このモデルを以下のリンクよりダウンロードし、「ComfyUI/models/checkpoints」フォルダに格納してください。

      https://civitai.com/models/139562/realvisxl-v50?modelVersionId=789646

      画像素材

      今回は、以下の画像をIPAdapterで参照します。

      画像

      画像ファイルは、以下よりダウンロードしてください。

      4. ワークフロー解説

      以下がワークフローの全体構成になります。

      GPU不要でComfyUIを簡単に起動できる
      AICU特製Colabノートブック(ConrolNetつき)はこちら
      https://j.aicu.ai/ComfyCN

      画像

      今回作成したワークフローのファイルは、文末のリンクよりダウンロードください。
      以下に、このワークフローの主要な部分とその機能を図示し、詳細に説明します。

      画像
      1. 入力画像の読み込みと前処理
        • Load Image ノード: 「butterfly_01.png」という画像を読み込みます。
      2. モデルとIP-Adapterの読み込み
        • Load Checkpoint ノード: 「RealVisXl.safetensors」モデルを読み込みます。
        • IPAdapter Model Loader ノード: 「ip-adapter-plus_sdxl_vit-h.safetensors」を読み込みます。
        • Load CLIP Vision ノード: 「CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors」を読み込みます。
      3. プロンプト処理 (CLIP Text Encode ノード x2)
        • ポジティブプロンプト: 「realistic, photorealistic, 1girl, t-shirt, black_hair, long_hair,」
        • ネガティブプロンプト: 「bad hand, bad anatomy, worst quality, ai generated images, low quality, average quality, nsfw, nude, naked,」
      4. IP-Adapterの適用 (IPAdapter Advanced ノード)
        • 入力画像、IP-Adapter、CLIP Visionモデルを組み合わせて、元のStable Diffusionモデルを調整します。
        • 重み: 1.0 (IP-Adapterの最大影響力)
        • ノイズ追加方法: linear
        • モード: concat
        • 適用範囲: V only (Value embeddings only)
      5. 潜在画像の準備 (Empty Latent Image ノード)
        • サイズ: 1024×1024
        • バッチサイズ: 1
      6. 画像生成 (KSampler ノード)
        • Seed: 860227022998597
        • Steps: 20
        • CFG Scale: 8
        • Sampler: dpmpp_2m
        • Scheduler: karras
        • Denoise: 1.0 (完全に新しい画像を生成)
      7. 画像のデコードと保存
        • VAE Decode ノード: 生成された潜在表現を実際の画像にデコードします。
        • Save Image ノード: 最終的に生成された画像を “ipadapter” という名前で保存します。

      IPAdapter Model Loderと IPAdapter Advancedの拡大です。パラメーターの参考にどうぞ。

      画像

      5. 生成結果

      以下が生成結果になります。左がIPAdapter非適用の画像、右がIPAdapterの強度を0.50で適用した結果です。IPAdapterを適用することで、シャツに学習元である蝶の模様が浮かんだり、背景が自然の風景になっています。

      画像

      IPAdapter Advancedノードのweight_typeがlinearの場合の強度ごとの生成結果一覧です。0.80になると、蝶が全面に現れてしまい、人物がいなくなってしまいます。

      画像

      これをweght_typeをstyle transfer、強度を1.0に変更して生成してみました。style transferの場合は、蝶の形状自体は継承しないので、蝶が前面に現れることなく、蝶の模様のみが反映されています。参照元画像のスタイルだけを適用したい場合は、weght_typeをstyle transferにした方が効果的です。

      画像

      weght_typeがlinearやease_inなどのスタイルと形状の両方を参照させるタイプの用途は、例えば左のパーカーの画像を参照し、右の画像のように生成した人物に着せることが考えられます。しかし、あくまで参照なので、完全に左の洋服を再現することは難しいです。
      補足として、右の画像は、weght_typeをease_in、強度を9.5にして生成した画像です。ease_inにすることで、最初はIPAdapterの効きを弱くし、後から効果が上がるようにすることで、プロンプトを反映させつつ、IPAdapterの効果も効かせるようにしています。

      画像

      6. まとめと倫理面への配慮

      本記事では、ComfyUIとIPAdapterを用いて、参照画像に基づいた高品質な画像生成を行う方法を解説しました。IPAdapterは、テキストプロンプトだけでは難しい、微妙なニュアンスや視覚的特徴の再現を可能にします。特に、IPAdapterの強度調整とweight_typeの選択によって、参照画像の要素をどのように反映させるかを細かく制御できることを示しました。linearでは形状とスタイルの両方を、style transferではスタイルのみを、ease_inでは徐々にIPAdapterの効果を強めることで、プロンプトと参照画像のバランスを調整できることを実例を通して確認しました。

      これらの技術を活用することで、AIによる画像生成の可能性は大きく広がり、より創造的で自由な表現が可能になります。今後の展望として、更なるモデルの改良や新たなカスタムノードの登場によって、IPAdapterの適用範囲はますます拡大していくことが期待されます。より高度な活用方法の探求や、他のモデルとの組み合わせなど、更なる実験を通して、IPAdapterの潜在能力を引き出し、自身の創作活動に役立ててください。

      一方では、「IPAdapter」の名前からも、IP、すなわち知的財産やキャラクタービジネスにとっては、著作権法違反、つまり違法行為や迷惑行為の原因となる技術でもあります。「技術的に出来る/できない」といった視点とは別に、Load Imageにおいて利用する画像の権利や、客観的に見た「依拠性」や「類似性」についても評価を行っておく習慣は大切です。この解説の中でも、weightパラメーターが0.5以上であれば、それは元の画像と同じものに近くなっていきます。パラメータを0.5以上にすることは「原作に対する類似と依拠を同時に認めているという証拠」とも言えますので、画像生成を行う際には、その責任をしっかりと認識して利用してください。

      AICUでは画像生成AIクリエイター仕草(v.1.0)といった形で、モラル面も啓蒙活動を行っていますが、IPAdapterの使用についてはより高度な倫理観をもっていくことを推奨します。

      次はいよいよLoRA編がはじまります。
      そしてその前に、特別編が予定されています!
      X(Twitter)@AICUai もフォローよろしくお願いいたします!

      画像生成AI「ComfyUI」マスターPlan

      画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

      • メンバー限定の会員証が発行されます
      • 活動期間に応じたバッジを表示
      • メンバー限定掲示板を閲覧できます
      • メンバー特典記事を閲覧できます
      • メンバー特典マガジンを閲覧できます
      • 動画資料やworkflowといった資料への優先アクセスも予定

      ゼロから学ぶ「ComfyUI」マガジン

      https://note.com/aicu/m/md2f2e57c0f3c

      マガジン単体の販売は1件あたり500円を予定しております。
      2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

      もちろん、初月は無料でお試しいただけます!
      毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
      退会率はとても低く、みなさまにご満足いただいております。
      ✨️オトクなメンバーシップについての詳細はこちら

      動画で一気に学びたい方は、こちらのColoso講座もオススメです

      ボーナストラック

      有料・メンバーシップ向けのボーナストラックには今回解説したワークフローの完成品ダウンロードリンクに加えて、お楽しみ画像です。

      某有名漫画家のアシスタントさんに書いていただいた劇画風しらいはかせをIPAdapterに使ったら…!?生成画像を収録しています。

      画像

      この記事の続きはこちらから https://note.com/aicu/n/nc6164bdae138

      Originally published at https://note.com on Nov 4, 2024.

    1. AICUマガジン Vol.6はエンタメ技術とAI特集!

      AICU Magazine Vol.6 「Entertainment x AI」

      「つくる人をつくる」あなたをアップデートするクリエイティブAIエンターテイメントマガジン「AICU Magazine Vol.6」特集は「Entertainment x AI」。

      【Kindleで無料】 https://j.aicu.ai/MagV6

      2024年9月26~29日に開催され、過去最多出展者数を記録した東京ゲームショウ(TGS2024)から、感情を分析するスマートウォッチ「OVOMIND」、新型モーションキャプチャー「NOKOV」、そしてレトロなガンシューティングゲームの機械学習技術によるリノベーション「タイムクライシス」、キャラクターデザイン、チャットボット、科学者の先端研究、そして、ゲームAIの研究開発を長年リードされてきた、三宅陽一郎氏をゲストライターにお迎えして構成します。

      【CONTENTS】
      Creative AI Trends – 2024 年10月
      特集: Entertainment x AI
      ・感情がゲームを動かす「OVOMIND」
      ・融合型モーションキャプチャー「NOKOV」
      ・懐かしの「タイムクライシス」AI 技術で再誕!?
      ・期間限定無料「ガンマミィ・ジェネレーター」を提供開始!
      ・全力肯定彼氏くん [LuC4] に訪れたサービス開始以来の最大の危機
      ・先端研究が挑む「AI 時代の創作」
      ・特別寄稿「著作を振り返って」三宅陽一郎(ゲーム AI 開発者・研究者)

      https://j.aicu.ai/MagV6

      「突撃レビュー!AIツール」
      ・日本語で魔法のように GAS 開発がはかどる「GASSISTANT」
      ・Stable Assistant Day1 無料トライアル 3 日間でこんなにお得!?
      ・Stable Assistant Day2 案件に AI で提案してみた
      ・Stable Assistant Day3 商用利用と倫理 TIPS
      ・「CGWORLD vol.315」画像生成 AI による表紙メイキング、大公開。

      「イベントレポート」
      ・ComfyUI を開発する「Comfy Org」が東京・渋谷で初のミートアップを開催。
      ・「なんかいい展」レポート

      「読者のひろば」
      ・AICU×BlendAI ガンマミィ誕生記念イラストコンテスト結果 発表!
      ・連載漫画: ウワサの大型新人 (2) By わらさん (@wara_hirono)
      ・編集長とGeminiたん: 商用で画像生成AIをしていないとできない体験

      はるしね〜しょん:編集後記

      表紙「ガンマミィ誕生」by犬沢某さん @insbow

      本書は2024年10月30日初版です。約1ヶ月の校正期間を持ちながら、ePub版とペーパーバック版をアップデートしていきます。

      そして前号、AICUマガジン Vol.5「Stability AI Forever!」もペーパーバック版がリリースされました!
      https://amzn.to/4ftX8Wd

      Originally published at https://note.com on Nov 2, 2024.

    2. [note.com/aicu] 2024年10月好アクセスランキング!

      2024年も残すところあと2ヶ月を切りました!
      AICU mediaのこの1ヶ月のアクセスランキングと時系列でのニュースをみて、最近のトレンドを分析していきたいと思います。

      【最速レビュー】Stability AI 最新ベースモデル「Stable Diffusion 3.5」リリース!Stability AI APIで「日本人の生成」を試してみた!

      さすがの Stability AIの新モデルです!
      その後 SD3.5 Mediumの公開や、指の問題の解決に貢献する「SLG」なども公開され、開発者コミュニティではにぎわいを見せています。

      img2img入門(1) i2iでできることを知ろう

      今月の特徴として、なぜかAUTOMATIC1111に関連する記事が多く読まれています。

      韓国の学生が作ったブラウザだけで動くAIモーションキャプチャ「Metive」

      これはすごい、インパクトが有りました。ブラウザだけで利用できる動画分析からのキャラクターアニメーションツールです。

      AUTOMATIC1111 v1.10.xリリース – Stable Diffusion 3 Mediumをサポート

      日本人が開発した「Regional Prompter」がなかなかすごい!

      https://note.com/aicu/n/n832941df99c5

      [保存版] Animagine XL 3.1 生成比較レポート

      日本語で魔法のようにGAS開発がはかどる「GASSISTANT」 #サクッと先取り !クリエイティブAIツール

      その後、開発者の横田さんからプロモーションコードのご提案をいただきました。近日発売予定の「AICUマガジン vol.6」にて収録します!

      「ComfyUI V1」デスクトップアプリのリリース告知!新UI、カスタムノードのマーケットプレイス機能[CNR]も。

      「CGWORLD vol.315」画像生成AIによる表紙メイキング、大公開。 #デジタルハリウッド30周年

      Stable Diffusion – ControlNet入門(2) ControlNet をダウンロード・準備する

      https://note.com/aicu/n/na48f6b8f3b2d

      【初心者向け!】Runway Gen-3 Alphaでプロンプト自動生成して簡単動画制作

      漫画制作に適したモデルは?Animagine 3.1 vs Animagine 3.0 徹底比較!

      公開順で振り返る2024年10月!

      AICU Magazine Vol.5 初版リリース!! 特集は「Stability AI Forever!」KDPで無料 (2024-10-01)

      祝note1,000人超え! データ公開[成長し続けるAICU]の秘密は…? (2024-10-02)

      東京ゲームショウ2024でみつけたエンタメxAI技術!懐かしの「タイムクライシス」AI技術で再誕!? (2024-10-03)

      運や勘に頼らない「クリエイティブAI」のススメ – 電通ワークショップ実施報告 (2024-10-04)

      [ComfyMaster22] レイアウトそのままにアニメを実写化!image-to-imageとスタイル変換で実写化レベルを制御 #ComfyUI (2024-10-05)

      【超入門】Stability AI APIの革新的機能(2)Edit APIの活用 (2024-10-06)

      【超初心者向け】DreamStudioを無料で試してみよう – 画像生成レッスン (2024-10-07)

      日本語で魔法のようにGAS開発がはかどる「GASSISTANT」 #サクッと先取り !クリエイティブAIツール (2024-10-08)

      【解説】LINE-ChatGPT倫理問題を整理する – 全力肯定彼氏くん[LuC4]に訪れたサービス開始以来の最大の危機 #LINEDC (2024-10-10)

      期間限定無料「ガンマミィ・ジェネレーター」を提供開始! (2024-10-11)

      [ComfyMaster23] 特別編: 画像の髪型を自由自在に変えてみよう! #ComfyUI (2024-10-12)

      先端研究が挑む「AI時代の創作」 (2024-10-13)

      「Stable Assistant を 知らないの?」Day2: 案件にAIで提案してみた (2024-10-14)

      Adobe Max 2024開催!みんな知ってる!? Adobeに搭載されているAI機能100 (2024-10-15)

      [ComfyMaster24] LoRAで表現をもっと自由に! スタイルを使いこなそう (2024-10-16)

      [ComfyMaster25] 画像を自由自在に!ControlNetで完全制御 #ComfyUI (2024-10-17)

      【速報】ガンマミィ誕生記念! イラストコンテストBlendAI賞・まいにち投稿達成賞の発表! (2024-10-17)

      INDEST(東京科学大学 田町キャンパス)にて「あんしんAIセミナー」開催 (2024-10-18)

      AICU×BlendAIガンマミィ誕生記念イラストコンテスト結果発表! #ガンマミィ (2024-10-19)


      [ComfyMaster26] ControlNetでイラストを精密に実写化! #ComfyUI (2024-10-20)

      「Stable Assistant を 知らないの?」Day3:商用利用と倫理TIPS (2024-10-21)

      「ComfyUI V1」デスクトップアプリのリリース告知!新UI、カスタムノードのマーケットプレイス機能[CNR]も。 (2024-10-22)

      【最速レビュー】Stability AI 最新ベースモデル「Stable Diffusion 3.5」リリース!Stability AI APIで「日本人の生成」を試してみた! (2024-10-23)

      あんしんなクリエイティブAIで「陽のあたる場所」をつくる #AIクリエイターに訊く #生成AI倫理 (2024-10-24)

      [ComfyMaster27] 写真もイラストも線画に!ComfyUIとControlNetによる線画抽出ワークフロー #ComfyUI (2024-10-25)

      韓国の学生が作ったブラウザだけで動くAIモーションキャプチャ「Metive」 (2024-10-26)

      Magazine Vol.5 紙版リリース!! 特集は「Stability AI Forever!」 [2024-10-27]

      紙版のリリースは10月30日を予定しております
      ご購入は j.aicu.ai/MagV5 から

      画像

      ペーパーバック版も本日リリースです!

      https://amzn.to/4fw2Erm


      Coloso講座第2弾「初級者:広告企画から動画制作までのプロセス」配信開始!! (2024-10-28)

      Google Colab 初手の初手 – GPUいらずでパワフルなAI開発環境を手に入れよう #画像生成Lesson (2024-10-29)

      Stable Diffusion 3.5 Medium 登場! 盛り上がる開発者コミュニティ、LoRAやSkip Layer Guidance (SLG)で指も改善? (2024-10-30)

      「なんかいい展」開催レポート (2024-10-31)

      そして本日、10月の内容をギュッとまとめたAICUマガジン Vol.6特集「Entertainment x AI」Kindle版がストア審査通過しました!表紙は「ガンマミィ」です。順次アップデートされますので、お楽しみに!

      https://amzn.to/4eeHihp

      10月のカバーアートは、ないとっちさん「秋の妖精」でした。

      画像

      11月~12月のカバーアートも募集中です!
      メンバーシップ掲示板でお問い合わせください

      https://note.com/aicu/membership/boards/61ab0aa9374e/posts/1aa202bf314a?from=self

      Originally published at https://note.com on Nov 2, 2024.

    3. [ComfyMaster28] 落書きが画像に!ControlNet Scribble入門

      頭の中のイメージを、絵心がなくても、まるで魔法のように高品質な画像に変換できるとしたら?
      最新のAI技術、ControlNetの「Scribble」がそれを可能にします!
      シンプルな線画を描くだけで、あとはAIがあなたの意図を読み取り、驚くほどリアルで美しい画像を生成してくれるのです。

      こんにちわ、AICU media編集部です。
      ComfyUI マスターガイド」第28回目になります。
      本記事では、この革新的なScribble機能の使い方を、具体的な手順と豊富な作例を交えて分かりやすく解説します。AIによる画像生成の世界を、あなたも体験してみませんか?

      本連載の初回はこちら。前回はこちら、目次はこちらです。

      [ComfyMaster27] 写真もイラストも線画に!ComfyUIとControlNetによる線画抽出ワークフロー #ComfyUI

        1. 概要

        この記事では、ControlNetのScribble機能を使って、簡単な線画から高品質な画像を生成するワークフローを解説します。具体的な手順、使用したモデルやパラメータ、そして異なる強度設定による生成結果の違いなどを示し、Scribbleの効果と活用方法を理解することを目的とします。

        以前の記事で解説したControlNetの基本設定を前提に、今回は「scribble_01.png」というサンプル線画を用いて、人物画像を生成する例を紹介します。生成にはSDXL、RealVisXlモデル、controlnet-union-sdxl-1.0モデルを使用し、プロンプトによる調整も行います。最終的には、ControlNetの強度パラメータを調整することで、線画の反映度合いを制御し、思い通りの画像生成を実現する方法を学びます。

        2. ワークフローの使用準備

        ControlNet

        ControlNetの使用準備については、以下の記事をご覧ください。

        今回は、ControlNetのScribbleを使用します。Scribbleは、線画を元に、画像の内容を推定し、その内容に沿った画像を生成します。

        画像素材

        今回は、以下の画像をScribbleに使用します。

        画像

        画像ファイルは、以下よりダウンロードしてください。

        3. ワークフロー解説

        以下がワークフローの全体構成になります。

        画像

        ワークフローのファイルは文末のリンクよりダウンロードしてください。
        以下にワークフローの主要な部分とその機能を図示し、詳細に説明します。

        1. 入力画像の読み込みと前処理
          • Load Image ノード: 「scribble_01.png」というスケッチ画像を読み込みます。
          • Scribble ノード: 入力スケッチを処理し、ControlNetに適した形式に変換します。
            • 出力解像度: 1024×1024
        2. モデルとControlNetの読み込み
          • Load Checkpoint ノード: 「RealVisXl.safetensors」モデルを読み込みます。
          • Load ControlNet Model ノード: 「controlnet-union-sdxl-1.0.safetensors」を読み込みます。
        3. プロンプト処理 (CLIP Text Encode (Prompt) ノード x2)
          • ポジティブプロンプト: 「realistic, photorealistic, 1girl, t-shirt, black_hair, long_hair,」
          • ネガティブプロンプト: 「bad hand, bad anatomy, worst quality, ai generated images, low quality, average quality, nsfw, nude, naked,」
        4. ControlNetの適用 (Apply ControlNet (Advanced) ノード)
          • 前処理されたスケッチ画像を使用してControlNetを適用します。
          • 強度: 0.4 (中程度の影響力)
        5. 潜在画像の準備 (EmptyLatentImage ノード)
          • サイズ: 1024×1024
          • バッチサイズ: 1
        6. 画像生成 (KSampler ノード)
          • Seed: 860227022998597
          • Steps: 20
          • CFG Scale: 7
          • Sampler: dpmpp_2m
          • Scheduler: karras
          • Denoise: 1.0 (完全に新しい画像を生成)
        7. 画像のデコードと保存
          • VAEDecode ノード: 生成された潜在表現を実際の画像にデコードします。
          • SaveImage ノード: 最終的に生成された画像を「controlnet_scribble」という名前で保存します。

        4. 生成結果

        以下がScribbleの生成結果です。ControlNetの強度を0.10〜0.80まで変化させながら生成を行い、その違いを一覧化しました。

        画像

        まず、0.10は、ほとんどScribbleが効いていないようです。0.20から少し効果が出てきているようで、0.30-0.40で良い具合で効いているように見えます。0.50からは、反対に効果が出過ぎていて、形状が崩れていっています。0.70からは落書きが強く反映されてしまっています。

        強度を0.40にし、プロンプトを変更して色々と画像を生成してみました。

        画像

        5. まとめ

        Scribbleは、落書きやラフ絵をプロンプトで指定した画像に変換してくれる、特に絵を描きたい人に有効なControlNetです。今回は、私の適当な落書きで試しましたが、もう少ししっかりしたラフ絵であれば、より良い画像を生成できると思います。ぜひ色々なラフ絵でお試しください!

        次回は、IPAdapterでの生成画像のコントロールの方法を紹介します。乞うご期待!
        X(Twitter)@AICUai もフォローよろしくお願いいたします!

        画像生成AI「ComfyUI」マスターPlan

        画像生成AI「Stable Diffusion」特に「ComfyUI」を中心としたプロ向け映像制作・次世代の画像生成を学びたい方に向けたプランです。最新・実用的な記事を優先して、ゼロから学ぶ「ComfyUI」マガジンからまとめて購読できます。 メンバーシップ掲示板を使った質問も歓迎です。

        • メンバー限定の会員証が発行されます
        • 活動期間に応じたバッジを表示
        • メンバー限定掲示板を閲覧できます
        • メンバー特典記事を閲覧できます
        • メンバー特典マガジンを閲覧できます
        • 動画資料やworkflowといった資料への優先アクセスも予定

        ゼロから学ぶ「ComfyUI」マガジン

        https://note.com/aicu/m/md2f2e57c0f3c

        マガジン単体の販売は1件あたり500円を予定しております。
        2件以上読むのであればメンバーシップ参加のほうがお得です!というのもメンバーシップ参加者にはもれなく「AICU Creator Union」へのDiscordリンクをお伝えし、メンバーオンリー掲示板の利用が可能になります。

        https://note.com/aicu/membership/boards/61ab0aa9374e/posts/db2f06cd3487?from=self

        もちろん、初月は無料でお試しいただけます!
        毎日新鮮で確かな情報が配信されるAICUメンバーシップ。
        退会率はとても低く、みなさまにご満足いただいております。
        ✨️オトクなメンバーシップについての詳細はこちら

        ワークフローのファイルは以下のリンクよりダウンロードしてください。


        この記事の続きはこちらから https://note.com/aicu/n/n8f82a5f619f1

        Originally published at https://note.com on Nov 1, 2024.

      1. 「なんかいい展」開催レポート

        「AIの現物展示をしよう」
        「なんかいい」という、「曖昧で深い言葉」、なにか心に引っかかる。
        6人のAIイラストレーターが集まって、「なんかいい展」が2024年10月26日に開催されました。
        「つくる人をつくる」をビジョンにするAICUでは開催を応援する意味で、参加クリエイターにロングインタビューを実施しました。
        各クリエイターの作品や、次回の開催についての情報もあり!
        最後まで味わってお読みください。

        画像
        画像
        画像
        展示会場の様子 (左: Sentaku さんの作品 / 中: Naf / 右:高高度墜落 さんの作品)

        参加クリエイター3名に1時間半のロングインタビューを実施しました。

        「なんかいい展」

        AI illustration group exhibition “kind of like ******”
        東京の門前仲町で、2024年10月26日に1日だけ開催されました。

        いままで大きな企業や展示会でしか企画されていなかったAI画像祭といった企画を「最初はミニマムに」ということで深川ガレージさんをお借りして小規模に実施したかった、ということです。
        素敵なウェルカムボードをご紹介。

        画像

        ”なんかいい”って、曖昧なようでいて、実は深い言葉だと思いませんか?
        はっきり言えないけど、なぜか気になる、なにか心に引っかかる。
        でも、だからこそ価値がある。
        今回は6人のイラストレーターが、この”なんかいい”をテーマに、
        それぞれの視点で新しい感覚を探求しました。

        AIが作るアートに価値はあるのか?
        人間の創造性を奪うのでは?
        AIに魂はないのでは?

        そういう疑問の声もあります。
        けれど、私達はこう考えます。
        AIアートは、人間が想像しなかった視点を提示してくれる。
        偶然が生む美しさや、予測不可能な世界が広がっている。
        それが今の時代に生まれる新しい「なんかいい」かもしれません。

        この展示で、あなたの心にも”なんかいい”が見つかることを願っています。

        【メンバーの紹介】

        集まったメンバー6人は、Sentakuさんの呼びかけにより、SNSもしくはdiscordコミュニティで集まってくれたそうです。

        Sentaku(せんたく) さん

        画像

        Xアカウント:@sentakusound
        https://x.com/sentakusound

        廃材 さん

        画像

        Xアカウント:@haiz_ai
        https://x.com/haiz_ai

        marukichi(まるきち) さん

        画像

        Xアカウント:@marukichi667944
        https://x.com/marukichi667944

        ☆今回のインタビューに参加できなかったメンバーさんからは、メッセージ・プロフ、作品展示写真をご許諾とともに頂いております。

        Naf さん

        画像

        アカウント:@naf_aiart
        https://x.com/naf_aiart

        【Naf】
        初めまして、Nafです。
        AIを使ってイラストを生成しています。

        少女というキャラクターを通して
        その場の空気や温度を感じられるような
        作品を作りたいと思っています。

        人には色々な感情があって
        背景には必ずその理由があります。

        皆さんの目に触れた時に
        心に残る何かがあれば幸いです。

        高高度墜落/kkdfall さん

        画像

        アカウント:@kkdfall
        https://x.com/kkdfall

        【高高度墜落/kkdfall】
        aiをツール化したい墜落さんです。あの日見た景色から落下しています。
        日常の少し隣にある瞬間を捉えたいと考えて取り組んでいます。

        Takoyama さん

        画像

        アカウント:@takoyama9zo
        https://x.com/takoyama9zo

        読者のみなさま、はじめましてTakoyamaです。
        私は色彩とアルゴリズムの交差点に身を投じ、コードと創造が交わる場所で美しいなにかを見たいと願い、日々模索しています。
        AIが考える命の美しさが何かの拍子に現れたらいいなと考えています。

        【どうして「なんかいい展」を開催したの?】

        画像
        (看板)

        ――インタビュワーのAICU media編集長・しらいはかせ です。このたびは「なんかいい展」のご開催おめでとうございます。まずは普段どんな活動をして、何を考えているのか、また何故「なんかいい展」を開催したのかについてお聞かせください。

        Sentaku「みんなに会って話したい」

        ――今回のグループ展の発起人となったSentakuさんですが、どういうモチベーションだったのでしょうか。

        Sentaku:ふだんはテレビ業界のサウンドデザイナをしています。けっこうAIは、この仕事と近いところがあって、自分は「サウンドデザイナーをしているけど楽器はできない」という人材なんです。AIでイラストレーションを作っていくのもとても似ているところがあって。仕事はいつもクライアントワークなので「自分を表現するところが欲しい」とおもってAIアート活動をはじめました。最近は「みんなに会って話したい」、「コミュニティとしてみんなに会ってみたい」と思って企画しました。

        ――その芽生え……。なるほど興味深いです。楽器とかも結局そうなんですよね。演奏するっていういわゆる演奏家の人がいたとしても、楽器を上手に扱えるか 扱えないかみたいなところの軸も当然あるし、さらにそのお客さんに対しての「商品性がある演奏」とか「楽曲などがやれるかどうか」みたいなところの軸もあって……。運よくそのテレビ業界で生業になり糧なりを得ているんだけれども、やはり「表現したい」、「自分の考えたことを表現したい」と思った、と。道具を使いこなして演奏するみたいなところから、画像生成 AI の演奏家として、ひとりひとりのクリエイターとして成立していて、さらにそれが「他の人たちに会いたい」、「作品を通して人に会いたい」っていうモチベーションに育っていったってことなんですね 。

        画像
        Sentaku さんの作品

        marukichi「自分の好きなものに”手綱”をとってもらう」

        marukichiです。普段はIT系でカスタマーサクセスを担当しています。イラストレーションは我流ですが、画材を使って描いたり、立体造形、工芸などをやってきました。AI画像生成とは MidJourney を2022年夏頃から触っていて、デザイン関係でロゴとかを作ったりして「時短ツール」として使って来ました。いままで作ってきたもの、表現できるようになってきたこともあり、X(Twitter)で公開し始めたのは2023年の7月ぐらい。最初はジャンル問わず出していたのだけど、ここ半年ぐらいは「青とメガネ」にこだわっています。

        画像
        会場の様子 (左: marukichiさんの作品 / 右: Sentakuさんの作品)

        ――「最初はジャンル問わず出していたのだけど」ということなんですが、「AIアートならではのスランプ」みたいなのに入ることってありますよね。なんでも出せちゃうし、みんなとの差も生まれづらいですし。

        marukichi:そうなんです。「自分の好きなものに”手綱”をとってもらう」という感じです。

        ――たしかに、その「好きなものドリブン」って大事ですよね。AICUの所属クリエーター・犬澤某さん(@insbow)も「(個人作品では)オーバーオールを着た犬しか描かない」って言ってシバリを入れてますし、そういう「制約」って、クリエイターにとってはとてもいい挑戦になるんですよね。

        画像
        会場の様子(左: Nafさん / 中央左: 高高度墜落さん / 中央: Takoyamaさん / 右: 廃材さん)

        廃材「”AIイラストレーター”という表現にも、複雑な想い」

        ――廃材さんは、どんな活動をされてきたのですか?

        廃材:AIの流行が始まってすぐの頃は、叩かれがちだったり、著作権問題だったりが、重くありました。
        その中で自分としては「クリエイティブをネットに廃棄していく」というスタンスで活動してきたんです。いわゆる『AI絵師』と自分は違う、「廃材」として。でも『捨てている』というスタンスを取っている反面、魂を込めて作品を作っているので、『どこかの誰かの心に触れてほしい』という気持ちも長く持ち続けてきました。「なんかいい展」というグループ展を通して、それを感じてみたいと思いました。”AIイラストレーター”という表現にも、複雑な想いがあります。

        ――いいですね!とても複雑で、いいと思います!AICU mediaも生成AIでの発信活動を2年ぐらい続けて来ましたが、商品としてパブリッシングを行うメディアによって「AI画像生成を”描く”と表現しない」とか、セミリアル、フォトリアルのみを扱い「イラストレーションを扱わない」といった制約を行ったメディアもあります。でも、社会との対話を作品を通して行いたい、という気持ちが芽生えていく姿はとても尊いですね。

        画像
        高高度墜落さん作品
        画像
        Nafさん作品

        【やってみて、どうだった?】

        「なんかいい展」は「見に来る人もお金がかからないように」ということで、「来場無料、グッズ販売などもなしで」、というコンセプトで実施されたそうです。

        ――制作の過程での苦労などをお聞かせください。

        Marukichi:もともと手でアナログアートをやっていたんです。でも時間がかかるので、だんだん、できなくなってきている。それが「AIでイラストを生成できる」という時代がやってきて、「好きなものをトンマナにしよう」と決めて、最近は「青色と眼鏡」でこだわっています。

        ▼展示1枚目

        ▼展示2枚目

        ――ほんとうに!青色と眼鏡、なんですね。ネットでの反応も共感が多く見られますね。

        画像
        展示された marukichiさんの作品

        ――廃材さんは、”普通のプリントではない作品”なのですね!?

        廃材:アクリルの塗料を使って立体感を加えました。キャラクターの眼の部分など。これは、やってみて、お客さんからも反応が良かったです。

        画像
        立体的な質感を持つ廃材さんの作品(スタッフ撮影)

        ――廃材さん、いかがでした?社会に自分の物としての作品を発信してみた、ということなのですが。

        廃材:ホント、一人ではできなかったと思うので、Sentakuさんには感謝です。

        画像
        Takoyamaさん作品

        【お金、どれぐらいかかりました?】

        ―― 来場無料で開催されているのですが、クリエーター側はどのような費用感なのでしょうか?

        Sentaku:ひとりおよそ2万円ぐらいかかっていますね。ギャラリーの場所代が6万円、印刷費用はA2サイズが1枚5,000円、といったところです。

        ―― ギャラリーも大判印刷もけっこうかかりますからね……。ちなみに印刷所についてもお聞きしていいですか?

        Sentaku:今回は「ソクプリ」さんですね  https://www.ooban-senmon.com/

        廃材さん:私は実はたくさん失敗しているので、もっとかかっていますね。

        ―― ああ~!でもそれってたぶん「上手になっても何度もプリントして品質あげちゃうやつ」ですよね……僕も写真出身なのでわかります……!!!

        画像
        廃材さんの作品

        やってみる前は「不安」、やってみたら「みんなあたたか」。

        ―― 来場された方々の反応はいかがでしたか?

        Marukichi:一言でいうと、やって見る前は「不安」、やってみたら「みんなあたたか」、という感じです。来場された方々にも、画像生成でイラストレーションを作っている方々も多くいらっしゃって、「こうやってます」と、変に自分を隠す人もいないし、むしろ「アピールされた」という感想があります。作ってる中の人のことを聞きたい、みんな「やりたい人はたくさんいるんだな」、それを肌で感じました。

        ―― それはおもしろいですね(笑)

        Sentaku:AIアートに対する批判もあるかと思ったのだけど、「なんかいい」に共感する方、共通することが多くて。これこそがアートだと思いました。
        「なんで呼んでくれなかったんですが」とか、「次は声かけてください」とか言ってくださって。それがうれしかった。みんな表現したいんだ、とか「実物を通して伝わったんだ」と思いました。

        ―― 一番大変だった事って何ですか?

        Sentaku「この企画を、とにかく、成立させるんだ!」……これをメインに考えていましたね。全部が初めてだったので。(お客さんが)AIイラストを見た人がどう感じるのか。AIで、デジタルだったものを、物体化してみんなに見せるってことが一番大変だったことかもしれない。

        (僕は仕事柄、AI クリエイターの人たちをたくさん見てるところもあるのですが)ソロでやっている方は「心理的不安」みたいな「まだ同人誌レベルには一般化していないかも」といった不安がある中で、「やる前 、やった後」つまり、やる前は『すげえ 大変だ』と思ったけど、やってみたら『いい話』といったエピソードってありませんか?

        廃材:深川ガレージ(Fukagawa Garage)さんが、ギャラリーの道路沿いに大きな看板を出してくださって……これを見て来場された方々がいらっしゃいました。「開催した」ってことに、価値があると思っています。

        AIアートがギャラリーイベントを通して社会との接点を得る瞬間をみた

        ―― 白井:ネットで出会いようのない人たち、「深川ガレージでしかありえなかった出会い」とか、いただいた意外な感想とか 、あれば。

        Marukichi:サラリーマン、仕事帰り、という感じの方が写真を撮ってふむふむ、という感じで帰っていた。そういうのもいいとおもいました。

        Sentaku:オーナーさんの娘さん(未就学児か小学校低学年ぐらい)が見に来てくれたのが嬉しかったですね。で、「かわいい!」「かわいいけど女の子ばっかり!」って。

        ―― あるあるですね(笑)!女の子じゃないの モチーフにしたらどうなんだろう? みたいな発想はまさに「社会に作品を出してみて初めて気づく新たなチャレンジ」みたいな感じで尊いですね。
        AIアートがギャラリーイベントを通して社会との接点を得ていく瞬間』みたいな……。 

        画像
        会場となった 深川ガレージ(Fukagawa Garage)さん

        Sentaku:プロジェクターを使ってPCの映像を写して…ということもやっていました。その場でNijiJourneyをいじってみたりしてみました。その後、お客さんが「NijiJourneyはじめました」って言ってくれたりもして。

        ―― なるほどそういうワークショップとか需要ありそう。AICUとしてはぜひ 提供したいですね。

        廃材:スクリーンさえあれば、リアルタイムで飾れるわけですよね。AIアートならではの展示方法もありそう。

        ―― さいごに告知等ございましたらどうぞ!

        Sentaku:Sentaku 、廃材、marukichiの3人が「第3回 オオカミの森」展の東京開催にAIイラストを出品します。販売もあります。

        アートで紡ぐ『オオカミ』の新たな物語

        https://forest-of-wolf.crywolves.net

        画像

        🐺第3回「オオカミの森」東京開催🐺
        日時:11/5(tue)~11(mon)
        場所:西武渋谷展 B館5階
        時間:10:00~20:00

        『オオカミ』ってこんなにもカッコよくもあり、愛らしい存在だと知ってほしい!
        そして、日本から姿を消したオオカミが帰ってこれる森を創っていく。
        そんなきっかけになるイベントを目指しています。
        オオカミ好きのクリエーターたちが創る、オオカミ関連のアート、グッズ、雑貨などの作品が一堂に集結するPOPUP。

        おもしろそうな展示会ですね!しかももうすぐ開催ですね!これは楽しみです。

        Sentakuさん、廃材さん、marukichiさん。お忙しいところロングインタビューにご参加いただき本当にありがとうございました!

        AICU mediaは「つくる人をつくる」を応援しています。

        展示会やクリエイティブAIイベントの告知や開催レポートの掲載ご相談・ご出稿はこちらのフォームか、 X@AICUai までお問い合わせください。

        https://j.aicu.ai/pubreq

        ☆こちらの記事はAICU media編集部の方針で期間限定無料配信とさせていただきます

        印刷版「AICU Magazine Vol.6」に収録予定です。
        https://ja.aicu.ai/mag

        もちろん本記事をご購入いただく事は歓迎です!
        ☆シェアしていただいたほうが嬉しいです☆


        この記事の続きはこちらから https://note.com/aicu/n/nb669d5eca8f6

        Originally published at https://note.com on Oct 31, 2024.

      2. Stable Diffusion 3.5 Medium 登場! 盛り上がる開発者コミュニティ、LoRAやSkip Layer Guidance (SLG)で指も改善?

        2024年10月29日(日本時間)、Stability AIから予告通り、最新の画像生成モデル「Stable Diffusion 3.5 Medium」がオープンリリースされました。

        Stable Diffusion 3.5 Medium が登場しました!

        このオープンモデルは、25億のパラメータを持ち、消費者向けハードウェア上で「箱から出してすぐに」動作するように設計されています。

        ブログにMediumの内容を追加しています。ぜひご覧ください。

        https://x.com/StabilityAI_JP/status/1851268389140119774

        https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

        「消費者向けハードウェア…!?」というドヨメキがAICU media編集部に響き渡ったのですが、Stability AI公式が具体的なモデル名とGPU製品名で推奨動作表を提供しています。

        画像
        https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

        Stable Diffusion 3.5 Medium (以下、SD3.5M) は 2.5B(25億パラメータ)のモデルであり、NVIDIA GeForce RTX 3080 (VRAM 10GB以上) が推奨になっています。NVIDIA GeForce RTX 4060 (VRAM 6GB)では、[!] という黄色いマークがつけられており、「[!] indicates the model requires performance – compromising optimizations, such as quantization or sequential offloading, to run on this device.」(モデルをこのデバイスで実行するには、量子化や順次オフロードなどのパフォーマンスを犠牲にした最適化が必要であることを示します)と書かれています。

        ダウンロードはこちらから、ファイルサイズは4.75GBです。

        https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/resolve/main/sd3.5_medium.safetensors?download=true

        なお、SD3.5 Large (80億パラメータ)も配布されています(ファイルサイズとしては16.5GB!です)。動作させるには32GB VRAMを搭載した NVIDIA H100クラスのGPUが必要とのことです。

        https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/sd3.5_large.safetensors

        https://github.com/Stability-AI/sd3.5

        Google Colab上でweightをダウンロードするテクニック!

        Google Colab上で、HuggingFaceに置かれたStable Diffusion 3.5 MediumやLargeを活用したい!でもHuggingFaceでの認証が通らないのでwgetすることができない…なんて諦めてしまったひとはいませんか?

        AICU AIDX Labではこんな方法で、自動でダウンロードできるスクリプトを組んでいます。
        まずはGoogle Colabの「シークレット機能」を使って、HuggingFaceのAPIキーを保存します。ここでは「HF_TOKEN」という名前にしてあります。

        画像

        Google Colabノートブック上でこちらのHF_TOKENにアクセスを許可して、以下のようなコードを書きます。

        #!wget -c https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/resolve/main/sd3.5_medium.safetensors  -P ./models/checkpoints
        # %cd /content/drive/MyDrive/ComfyUI/models/checkpoints
        !pip install huggingface_hub
        
        import os 
        from google.colab import userdata
        os.environ['HF_TOKEN'] = userdata.get('HF_TOKEN')
        !huggingface-cli login --token $token
        
        token = userdata.get('HF_TOKEN')
        from huggingface_hub import hf_hub_download
        hf_hub_download(repo_id="stabilityai/stable-diffusion-3.5-medium", filename="sd3.5_medium.safetensors", local_dir="/content/drive/MyDrive/ComfyUI/models/checkpoints")
        

        hf_hub_download(repo_id=”stabilityai/stable-diffusion-3.5-medium”, filename=”sd3.5_medium.safetensors”, local_dir=”/content/drive/MyDrive/ComfyUI/models/checkpoints”)

        と書くことで、HuggingFaceにログインした状態でファイルを指定ディレクトリに直接ダウンロードできます!これは便利。

        画像

        参考:その他のHuggingFaceの使いこなしはこの記事でも扱っています。

        盛り上がる開発者コミュニティ

        AICU media編集部でもSD3.5のリリース直後から評価に入っています。

        日本人などの人種や肌の多様性は確認できましたが、一方で「指の正確さ」については難があるという印象を得ましたが、実はその後、急速にコミュニティ内で改善が見られるので共有したいと思います。

        まずは、sampler をEuler Ancestral (Euler_a) にする!

        集合知的に様々なノウハウが集まってきていますが、SD3.5でMMDiT-Xにモデルが変わっていることもあり、サンプラーについても見直しが必要なようです。

        指に関しては、Euler Ancestral (Euler_a)がよいという説があります。

        世界のKohya氏、LoRA対応を追加。

        LoRA学習スクリプト「sd-scripts」を開発し、世界中のStable Diffusionコミュニティの英雄ともいえるKohya氏がSD3.5M対応をGitHubリポジトリにプッシュしました。

        https://github.com/kohya-ss/sd-scripts/pull/1719

        コメントでは世界中の開発者からの検証結果が寄せられ始めています。

        Civitaiによるマニュアル・ワークフローの提供

        SD3公開直後、荒れた瞬間があったCivitaiコミュニティですが、SD3.5については公式のエデュケーションブログやワークフローの公開が提供されています。

        せっかくなので翻訳を提供していきたいと思います。最新のモデルと専門用語を学ぶうえでも大変役に立ちます。

        Stable Diffusion 3.5 Mediumクイックスタートガイド

        Stable Diffusion 3.5 Mediumは、画質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の向上を実現する、マルチモーダル拡散トランスフォーマー(MMDiT-x)をベースにしたテキスト画像生成モデルです。

        注記: このモデルはStability Community Licenseの下でリリースされています。商用ライセンスについては、Stability AIのサイトをご覧いただくか、当社までお問い合わせください。

        モデルの説明

        • 開発元: Stability AI
        • モデルの種類: MMDiT-Xテキスト画像生成モデル
        • モデルの説明: このモデルは、テキストプロンプトに基づいて画像を生成します。3つの固定の事前学習済みテキストエンコーダー、トレーニングの安定性を向上させるためのQK正規化、および最初の12個のトランスフォーマーレイヤーにおけるデュアルアテンションブロックを使用する改良版マルチモーダル拡散トランスフォーマー(https://arxiv.org/abs/2403.03206)です。

        ライセンス

        • コミュニティライセンス: 年間総収益が100万ドル未満の組織または個人の研究、非商用、および商用利用は無料です。詳細はコミュニティライセンス契約をご覧ください。https://stability.ai/license で詳細をご覧ください。
        • 年間収益が100万ドルを超える個人および組織の場合:エンタープライズライセンスを取得するには、当社までお問い合わせください。

        実装の詳細

        • MMDiT-X: トランスフォーマーの最初の13レイヤーに自己注意モジュールを導入し、マルチ解像度生成と全体的な画像の整合性を強化します。
        • QK正規化: トレーニングの安定性を向上させるためにQK正規化技術を実装します。
        • 混合解像度トレーニング:
          • プログレッシブトレーニングステージ:256→512→768→1024→1440の解像度
          • 最終段階には、マルチ解像度生成パフォーマンスを向上させるための混合スケール画像トレーニングが含まれていました
          • 低解像度ステージでは、位置埋め込み空間を384×384(潜在)に拡張
          • 混合解像度とアスペクト比の全範囲にわたるトランスフォーマーレイヤーの堅牢性を強化するために、位置埋め込みにランダムクロップ拡張を採用しました。たとえば、64×64の潜在画像が与えられた場合、トレーニング中に192×192の埋め込み空間からランダムにクロップされた64×64の埋め込みをxストリームへの入力として追加します。

        これらの機能強化は、マルチ解像度画像生成、一貫性、および様々なテキスト画像タスクへの適応性におけるモデルのパフォーマンス向上に総合的に貢献しています。

        • テキストエンコーダー:
          • CLIP:OpenCLIP-ViT/G、CLIP-ViT/L、コンテキスト長77トークン
          • T5:T5-xxl、トレーニングのさまざまな段階でのコンテキスト長77/256トークン
        • トレーニングデータと戦略:
          • このモデルは、合成データやフィルタリングされた公開データなど、様々なデータでトレーニングされました。

        元のMMDiTアーキテクチャの技術的な詳細については、研究論文を参照してください。

        使用方法と制限事項

        • このモデルは長いプロンプトを処理できますが、T5トークンが256を超えると、生成された画像の端にアーティファクトが発生する場合があります。ワークフローでこのモデルを使用する場合はトークン制限に注意し、アーティファクトが目立ちすぎる場合はプロンプトを短くしてください。
        • MediumモデルはLargeモデルとはトレーニングデータの分布が異なるため、同じプロンプトに同じように反応しない場合があります。
        • より良い構造と解剖学的整合性を得るためには、Skip Layer Guidanceを使ったサンプリングを推奨します。

        実装の詳細

        • MMDiT-X: トランスフォーマーの最初の13層に自己関心モジュールを導入し、マルチ解像度生成と全体的なイメージの一貫性を強化。
        • QK正規化: トレーニングの安定性を向上させるために、QK正規化技術を導入。
        • 混合解像度トレーニング:
          • 段階的なトレーニングステージ:256 → 512 → 768 → 1024 → 1440解像度
          • 最終段階では、マルチ解像度生成性能を高めるために、混合スケール画像のトレーニングを実施
          • 低解像度段階では、位置埋め込み空間を384×384(潜在)に拡張
          • 混合解像度およびアスペクト比の全範囲にわたってトランスフォーマー層の頑健性を強化するために、位置埋め込みにランダムなクロップ拡張を採用しました。例えば、64×64の潜在画像が与えられた場合、192×192の埋め込み空間からランダムにクロップした64×64の埋め込みを、xストリームへの入力としてトレーニング中に追加します。

        これらの強化により、多様なテキストから画像へのタスクにおける、マルチ解像度の画像生成、一貫性、適応性の向上というモデルのパフォーマンス改善に総合的に貢献しています。

        • テキストエンコーダー:
          • CLIPs: OpenCLIP-ViT/GCLIP-ViT/L、文脈の長さ77トークン
          • T5: T5-xxl、トレーニングの異なる段階における文脈の長さ77/256トークン
        • トレーニングデータと戦略:
        • このモデルは、合成データやフィルタリングされた公開データなど、さまざまなデータでトレーニングされています。

        MMDiT-X

        Stable Diffusion 3.5 Medium は、画像品質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の向上を特徴とする、改良された Multimodal Diffusion Transformer with improvements (MMDiT-X; マルチモーダル拡散トランスフォーマー)によるテキストから画像へのモデルです。

        画像

        MMDiTのオリジナルアーキテクチャの技術的な詳細については、研究論文を参照してください。

        使用法と制限事項

        • このモデルは長いプロンプトを処理できますが、T5トークンが256を超えると、生成の端にアーティファクトが発生することがあります。このモデルをワークフローで使用する際はトークン制限に注意し、アーティファクトが顕著になる場合はプロンプトを短くしてください。
        • 中規模モデルは大規模モデルとは異なるトレーニングデータの分布であるため、同じプロンプトに対して同じように反応しない場合があります。
        • より良い構造と解剖学的整合性を得るために、Skip Layer Guidanceでサンプリングすることをお勧めします。

        Skip Layer Guidance (SLG)の推奨

        Stability AIが提案している方法としてはSkip Layer Guidance (SLG)です。Skip Connection(残差接続)についてはこちらの日本語解説が詳しいです。これによって指の改善がStability AIによって提案されており、ComfyUIやHuggingFaceでも試されています。

        https://github.com/comfyanonymous/ComfyUI/pull/5404

        https://github.com/huggingface/candle/issues/2588

        スキップ レイヤー ガイダンス (SLG) は、特定の範囲のサンプリング ステップで元の CFG に追加のガイダンスを追加するサンプリング手法です。追加のガイダンスは、元のモデルからの正の DiT モデル出力から、特定のレイヤー (たとえば、Stable Diffusion 3.5 Medium の場合はレイヤー 7、8、9) が削除されたバリアント モデルからの正のモデル出力を減算して比較することによって計算されます。

        SLG はオプションの選択肢のように見えますが、SAI は Stable Diffusion 3.5 Medium に対して SLG を有効にすることを公式に推奨しているようです。証拠には以下が含まれます:HuggingFace Hub の公式リポジトリでは、 SLG が有効になっているComfyUI ワークフローが提供されています。
        公式リファレンス デザイン GitHub リポジトリStability-AI/sd3.5には、SD3.5-medium の SLG をサポートする最近の変更が含まれています。
        Stable Diffusion 3.5 Medium での SLG の使用について取り上げたReddit (例:こちら) および Twitter/X (例:こちら) の投稿では、SLG の使用は「解剖学的失敗の可能性を減らし、全体的な一貫性を高める」ために重要であると思われると示唆されており、複数の独立した投稿がこの主張を相互検証しています。

        HuggingFaceにおいてワークフローが配布されています。

        https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/resolve/main/SD3.5M_SLG_example_workflow.json?download=true

        さいごに


        今後も、Stable Diffusionを中心としたオープンな画像生成モデルとそのコミュニティの熱狂は続きそうです。

        AICUとしては「つくる人をつくる」をビジョンにする専門AIメディアとして今後も、公平に、Stability AIやコミュニティの活動を応援していきたいと考えています。

        Originally published at https://note.com on Oct 30, 2024.

      3. Google Colab 初手の初手 – GPUいらずでパワフルなAI開発環境を手に入れよう

        皆さん、こんにちは!生成AI時代に「つくる人をつくる」で活動しているAICU media編集部です。
        勉強がはかどる秋の夜長ですね!今回は手法を変えて、画像生成だけでなく、Pythonや機械学習の勉強に役立つGoogle Colabの基本操作について解説していきます。GPUいらず、Gmailアカウントさえあれば無料で利用できるパワフルなAI開発環境を手に入れましょう!

        Google Colabとは?

        Google Colabは、ブラウザ上で利用できるGoogleの無料のPython開発環境です。Googleドライブと連携しており、機械学習やデータ分析などの作業に最適な環境を提供しています。

        Google Colabへのアクセス

        ブラウザで「Google Colab」と検索し、検索結果から「Google Colaboratory」をクリックしてアクセスします。

        https://colab.google/

        画像
        画像
        Google Colabのトップページ

        サンプルノートブックの実行

        Google Colabにアクセスすると、最初に「Colaboratoryへようこそ」というサンプルノートブックが表示されます。このノートブックは、Google Colabの基本的な操作方法を学ぶためのものです。

        ノートブックは、コードセルとテキストセルで構成されています。コードセルにはPythonコードを記述し、実行することができます。テキストセルには説明文や注釈などを記述することができます。

        基本操作

        サンプルノートブックで基本的な操作を確認してみましょう。

        1. コードセルの実行

        コードセルを実行するには、セルの左側に表示されている再生ボタンをクリックするか、セル内で「Ctrl + Enter」キーを押します。

        画像
        スクリーンショット:コードセルの実行

        2. 結果の確認

        コードセルを実行すると、その結果がセルの下に表示されます。

        Googleへのログインが済んでいない場合は、Googleへのログインが必要です。

        画像

        3. ランタイムの設定

        Google Colabでは、コンピューターのスペック(CPU、GPU、TPUなど)を選択できます。

        画像
        スクリーンショット:ランタイムの設定

        ランタイムの設定は、ノートブックのメニューから「ランタイム」→「ランタイムのタイプを変更」を選択して行います。

        4. セッションの終了

        Google Colabのセッションを終了するには、ブラウザのタブを閉じます。

        次のステップは…?

        今回は、Google Colabの基本操作について解説しました。Google Colabは、機械学習や大規模言語モデルだけでなく、画像生成AIの学習にも非常に役立つツールです。今後、Google Colabを使って、様々な画像生成AIのモデルを学習していきましょう。

        ここまでの手順はこちらの動画でも解説しております。

        Google Colabも画像生成も学べちゃう 画像生成Lesson(無料動画)

        Google Colabにも公式サンプルやはあるのですが、公式は初心者向けではないかもしれません。特にPythonによる開発環境「Jupyter notebook」に慣れた方であればこちらの基本機能比較が役に立つと思います。https://colab.research.google.com/notebooks/basic_features_overview.ipynb

        「Curated Notebooks」には「ChatGPTとGoogle Geminiの比較」といった玄人ごのみのサンプルもあります。

        https://colab.google/notebooks

        やってみました。
        「日本語英語とフランス語の違い列挙して」

        画像

        上のサンプルの動作確認にはGoogle GeminiのAPIに加えてChatGPTのAPIも必要です(それぞれクレジットカード等の登録が必要になります)。
        ちょっと初心者向けとはいい難いので、やはり無料で試せるStability AIのAPIを使った学習が良いかなと思いました。

        超入門:Stable Diffusionではじめる画像生成AI

        https://j.aicu.ai/coloso1

        Google Colabさえあれば、GPUは不要です!!

        以上、初心者け動画 「#画像生成Lesson」の紹介でした。
        これをみて「これならやれそう…?」という方は、ぜひ上を目指してみましょう。

        「生成AIクリエイティブ AICU」シリーズ
        ■超入門:Stable Diffusionではじめる画像生成AI
        https://j.aicu.ai/AICUXColosoJP
        ■初級者:広告企画から動画制作までのプロセス
        https://j.aicu.ai/ColosoJPXAICU
        ■ComfyUIマスター:カスタムノードとアプリ開発
        https://j.aicu.ai/Coloso3

        Originally published at https://note.com on Oct 29, 2024.

      4. Coloso講座第2弾「初級者:広告企画から動画制作までのプロセス」配信開始!!

        AICUxColosoコラボ企画第2弾「広告企画から動画制作までのプロセス」が2024年10月31日(木)18時に配信開始となります。この講座では、MidJourney, Runway, Sunoなどの生成AIツールを活用した広告の企画から動画と楽曲制作まで、初心者でも制作できるように解説しています。

        AICUのコラボクリエイター 藤吉香帆さんが中心になって製作しています。動画を中心としたデジタルクリエイティブや広告を制作しながら、生成AIの魅力と可能性を世の中に伝えています。

        生成AI時代の動画広告プロダクションを理解

        生成AI時代における動画制作工程のパラダイムシフトに対応するための知識を、各生成AIツールの設定や特徴と共に解説します。

        画像

        https://corp.aicu.ai/ja/runway-gen-3-alpha

        生成AIを活用したプロモーションビデオ制作方法を習得

        MidjourneyとRunway、Sunoを活用したキャッチーなCM動画制作の全プロセスを、基礎から学ぶことができます。

        画像

        プランニングにおける生成AIの活用方法

        動画広告制作の過程やプランニングをする上で、生成AIを活用してより効率的にする方法を、実演を通して分かりやすく解説します。

        画像

        こちらは ぽんずさんの作品です。Coloso番組内ではもっとすごい!

        本講座を通して、生成AIを用いた動画制作に挑戦することで、生成AIの活用法を学んでいただければ幸いです。

        画像
        画像

        生成AIツールを活用した広告企画から動画制作までのプロセスを習得

        講師陣はこちら

        画像

        藤吉香帆:動画クリエイター、セツナクリエイション合同会社 代表取締役。デジタルハリウッド大学 非常勤講師。

        ぽんず:生成AIクリエイター。各種イラスト・動画コンペで受賞歴多数。

        白井暁彦:生成AIクリエイティブAICU代表。デジタルハリウッド大学大学院 特任教授。著書に「AIとコラボして神絵師になる 論文から読み解くStable Diffusion」など。

        こんな方におすすめ

        ・動画広告制作に興味がある方
        ・生成AIを使ったクリエイティブ制作を学びたい方
        ・広告代理店や制作会社で働く方
        ・最先端の広告制作スキルを身につけたい方

        画像

        今ならお得な割引キャンペーン実施中!

        いよいよ、2024年10月31日リリース予定です。
        定価 25,350円
        →現在は 24%offの¥19,013円
        リリース後は割引価格が終了します!

        詳細はこちら: [https://j.aicu.ai/coloso2]

        https://note.com/iamkaho/n/n81b7691db92d

        AICU x Colosoコラボ企画3作はこちら
        【Coloso講座】ComfyUIマスター:カスタムノードとアプリ開発
        ComfyUIを活用したワークフローの構築と画像生成の実践講座

        https://bit.ly/3YsuzCP 👈 

        https://j.aicu.ai/coloso1

        https://note.com/o_ob/n/n4aa82191b566

        Originally published at https://note.com on Oct 28, 2024.