NVIDIAの画像生成AI「SANA」を解説! ComfyUIでの使い方

NVIDIAの画像生成AI「SANA」を解説! ComfyUIでの使い方

NVIDIAが主導開発した画像生成AI「SANA」登場!

2024年10月14日、NVIDIA、マサチューセッツ工科大学(MIT)および清華大学の共同研究チームは、わずか数秒で最大4096×4096ピクセルの高解像度画像を生成できる画像生成AI「SANA」を発表しました。

この記事では、「SANA」の使い方を初心者向けに詳しく解説します。

ブラウザで使えるStable Diffusion!

目次

SANAとは?

SANA
(出典:nvidia.com)

「SANA」とは、NVIDIA Labsが開発した次世代の拡散モデルを採用した画像生成AIです。SANAは計算コストを大幅に削減しながら、高速かつ高精度な画像生成を可能にした注目のAI技術です。

従来の画像生成技術とは異なる技術を組み合わせ、比較的手頃な消費者向けハードウェアでも高品質な4K画像生成を実現します。

以下にSANAの主な特徴をまとめました。

SANAの特徴
  • ディープコンプレッションオートエンコーダーが凄い!
  • 効率的なトレーニングと推論戦略!
  • 圧倒的なパフォーマンス性能!

ディープコンプレッションオートエンコーダーの特徴

SANA
(出典:nvidia.com)

SANAの高速処理技術は、NVIDIAの「ディープコンプレッションオートエンコーダー」によるものです。

この技術は、画像データを元のサイズの1/32に圧縮しながら、すべての細部を保つことができます。

さらに、Gemma 2 LLMモデルと組み合わせて、指示を正確に理解し、一般的なハードウェアでも驚異的なパフォーマンスを発揮することが可能です。

例えば、Sana-0.6Bは16GBのノートパソコンのGPUでも動作し、1024×1024ピクセルの画像を1秒未満で生成できます。

効率的なトレーニングと推論戦略

SANA
(出典:nvidia.com)

SANAは、テキストと画像の一致度を高めるために、自動ラベル付けとトレーニング方法を採用しています。

複数のモデルが様々なキャプションを生成し、その中からCLIPScoreという指標を使って高スコアのキャプションを選び、モデルの収束と整合性を向上させます。

また、Flow-DPM-Solverという新しい手法を使うことで、推論のステップ数を従来の28~50から14~20ステップに減らし、性能も向上させています。

圧倒的なパフォーマンス性能

SANA
(出典:nvidia.com)

SANAは、最先端のテキストから画像への生成モデルと比較しても圧倒的な性能を誇ります。

512×512の解像度では、Sana-0.6はPixArt-Σに比べて5倍速く、FIDやClip Score、GenEval、DPG-Benchといった指標でも優れた性能を示しました。

さらに、1024×1024の解像度では、SANAは3B以下のパラメータを持つ多くのモデルよりも強力で、低遅延での推論を実現しています。

特に、Sana-0.6BはFLUX-devに対して39倍速く、Sana-1.6Bでも23倍の効率性を発揮しています。

SANAの使い方

見出し画像

ここでは、画像生成AI「SANA」をComfyUI上で利用する使い方を紹介します。

STEP
SANAの起動環境を用意

SANAは、多くのGPUパワーが必要になりますので、余裕をもった環境を準備しましょう。

導入前に「ComfyUI」を起動して最新版に更新しておきます。

まずは「ComfyUI」上でSANAを動かす準備をします。

SANAは、Python、PyTorch、CUDAのバージョンに推奨設定があります。

Stable Diffusionを通常起動する基本環境と同じ設定で問題ありません。

conda create -n sana python=3.10
conda activate sana
pip install torch==2.3.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118

環境が用意できたらSANAのプロジェクトをインストールします。

ComfyUI」>「custom_nodes」を開き、クローンを実行します。

cd ComfyUI/custom_nodes
git clone https://github.com/Efficient-Large-Model/ComfyUI_ExtraModels.git
STEP
モデルデータを入手

SANA用に学習されたモデルをダウンロードします。

Hugging FaceからNVIDIAが公式に配布しているモデルデータを入手します。

(出典:huggingface.co)

ComfyUI」>「models」>「checkpoint」を開き、フォルダを格納します。

cd ComfyUI/models/checkpoints
git clone https://huggingface.co/Efficient-Large-Model/Sana_1600M_1024px

次にVAEデータを格納します。

(出典:huggingface.co)

ComfyUI」>「models」>「vae」を開き、フォルダを格納します。

cd ComfyUI/models/vae
git clone https://huggingface.co/mit-han-lab/dc-ae-f64c128-in-1.0
STEP
「ComfyUI」を起動してワークフローを入手

データのセットが完了したらComfyUIを起動します。

GitHubで公開されているNVIDIAの公式ページからSANA専用のサンプルワークフローを入手します。

サンプルワークフローはこちらから入手!
https://github.com/NVlabs/Sana/blob/main/asset/docs/ComfyUI/comfyui.md

SANA

ComfyUIの画面にドラッグ&ドロップでファイルを読み込むと埋め込まれているワークフローデータを表示することができます。

SANA

ワークフローを展開して、各ノードが正常に反映されているかを確認します。

赤くなっている未入手のカスタムノードがある場合は、手動で補填していきます。

SANA
STEP
パラメータを設定して生成開始!

そのまま生成を開始すると、#9「Gemma Loader」のモデルが見つからないエラーが出てしまうので選択し直します。

Efficient-Large-Model~を指定します。

SANA

次にプロンプトを入力します。

LLMによる補正があるため、自由な表現で入力して問題ありません。ネガティブプロンプトは入力不要です。

生成は右上の「Queue Prompt」ボタンをクリックて生成を開始します。

初回の生成はモデルデータのダウンロードを伴うので時間がかかります。

使用したプロンプト

ukiyo-e style,japanese aesthetic,realist,realistic,masterpiece,top-quality,Detailed and complex,offcial art,aestheticly pleasing,japanic style,detailed diagram of the pattern,with the highest quality,artistic style,postcard design,balanced design,composition that fits well,gorgeous background art,propose a very attractive design,1 girl and 1 cat,natural color design,morning glory flowers,bold and beautiful floral design,summer image,attributes of a person profile,seen from the side,elegant smile,top grade,neuter,honor students,a dark-haired,lustrous hair,slender,virtuous,well-behaved,good impression,cat attributes black cat,pitch black cat,cute little,ultra cute,yellow eyes,lithe

SANA(ComfyUI)で生成した動画

SANA

スポンサーリンク

SANAの商用利用は?

料金イメージの見出し画像

ここでは、画像生成AI「SANA」の料金プランと商用利用の条件について詳しく解説します。

SANAの料金プラン

ユーザーは、「Nvidia Source Code License-NC」の条件を遵守する限り、使用、複製、派生作品の作成、公開表示・実行、サブライセンスの付与、および配布の権利が無償で提供されます。

著作物の再配布は、以下の条件を満たす場合にのみ許可されます。

配布物に関しては、ライセンスの全文を含める必要があり、著作権、特許、商標、または帰属表示を変更せずそのまま保持することが求められます。

SANAの商用利用は?

著作物およびその派生作品は、非商用目的でのみ使用できます。

非商用利用とは、「研究または評価目的のみ」を指します。

ただし、NVIDIA Corporationおよびその関連会社は商用利用が認められます。

ライセンス違反が発生した場合、付与された権利(著作権の使用権を含む)は即座に終了します。

Nvidia Source Code License-NC
https://github.com/NVlabs/Sana/blob/main/LICENSE

画像生成AI「SANA」を使うならクラウドGPUがおすすめ

快適のイメージ見出し画像

画像生成AI「SANA」をスムーズに利用するには、高スペックなパソコンが必要です。

コストを抑えたい方へ:クラウドGPUの利用がおすすめ

クラウドGPUとは、インターネット上で高性能なパソコンを借りることができるサービスです。これにより、最新の高性能GPUを手軽に利用することができます。

クラウドGPUのメリット

  • コスト削減:高額なGPUを購入する必要がなく、使った分だけ支払い
  • 高性能:最新の高性能GPUを利用できるため、高品質な画像生成が可能
  • 柔軟性:必要なときに必要なだけ使えるので便利

SANAを使いこなして生成AIをマスターしよう!

今回の記事では、NVIDIAが公開した最新の画像生成AIツール「SANA」について紹介しました。

SANAは、画像サイズに対する生成スピードに関しては圧倒的にパフォーマンスが高く、メジャー利用のツールになる期待が高いです。

無料で利用できる画像生成AIの応用機能の中でトップクラスなので、このチャンスに高性能ツールで画像生成を極めてみましょう!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
EdgeHUBロゴ

メールマガジン登録

Stable Diffusion・LLM・RAGに関する最新情報をいち早くお届けします。

無料メルマガの配信をご希望の方は、下記フォームよりご登録ください。

    EdgeHUB編集部からのお知らせ

    無料ウェビナーのお知らせ

    RAG進化のさらに先へ!自立型AIエージェント ウェビナー【12/25無料開催】

    RAG進化のさらに先へ! 大好評につきRAGシリーズ第3弾が開催決定!

    開催日時:
    2024年12月25日(水) 14:00~15:00

    内容:

    • RAGの精度を向上させる「自律型AIエージェント」のデモ
    • 生成AI開発の強い味方「GPUSOROBAN」の活用方法

    このウェビナーでは、オープンソース「LangGraph」で構築したAIエージェントの使い方や、デモを紹介します。

    生成AIに関心のある方、AI技術をビジネスに活かしたい方は、ぜひこの貴重な機会にご参加ください!

    こんな方におすすめ!

    • 自律型AIエージェントに興味がある方
    • RAGの高度化を検討しているエンジニアや開発者
    • 日本語のローカルLLMの利用を検討している方
    • GPUリソースに課題を感じている方

    \簡単1分で申し込み!/

    この記事を書いた人

    EdgeHUBは、NVIDIAクラウドパートナーである株式会社ハイレゾが運営しています。「AIと共にある未来へ繋ぐ」をテーマに、画像生成AI、文章生成AI、動画生成AI、機械学習・LLM、Stable Diffusionなど、最先端の生成AI技術の使い方をわかりやすく紹介します。

    目次