NVIDIAの画像生成AI「SANA」を解説！ ComfyUIでの使い方

2024年12月23日

NVIDIAが主導開発した画像生成AI「SANA」登場！

2024年10月14日、NVIDIA、マサチューセッツ工科大学（MIT）および清華大学の共同研究チームは、わずか数秒で最大4096×4096ピクセルの高解像度画像を生成できる画像生成AI「SANA」を発表しました。

この記事では、「SANA」の使い方を初心者向けに詳しく解説します。

ブラウザで使えるStable Diffusion！

SANAとは？

「SANA」とは、NVIDIA Labsが開発した次世代の拡散モデルを採用した画像生成AIです。SANAは計算コストを大幅に削減しながら、高速かつ高精度な画像生成を可能にした注目のAI技術です。

従来の画像生成技術とは異なる技術を組み合わせ、比較的手頃な消費者向けハードウェアでも高品質な4K画像生成を実現します。

以下にSANAの主な特徴をまとめました。

SANAの特徴

ディープコンプレッションオートエンコーダーが凄い！
効率的なトレーニングと推論戦略！
圧倒的なパフォーマンス性能！

ディープコンプレッションオートエンコーダーの特徴

SANAの高速処理技術は、NVIDIAの「ディープコンプレッションオートエンコーダー」によるものです。

この技術は、画像データを元のサイズの1/32に圧縮しながら、すべての細部を保つことができます。

さらに、Gemma 2 LLMモデルと組み合わせて、指示を正確に理解し、一般的なハードウェアでも驚異的なパフォーマンスを発揮することが可能です。

例えば、Sana-0.6Bは16GBのノートパソコンのGPUでも動作し、1024×1024ピクセルの画像を1秒未満で生成できます。

効率的なトレーニングと推論戦略

SANAは、テキストと画像の一致度を高めるために、自動ラベル付けとトレーニング方法を採用しています。

複数のモデルが様々なキャプションを生成し、その中からCLIPScoreという指標を使って高スコアのキャプションを選び、モデルの収束と整合性を向上させます。

また、Flow-DPM-Solverという新しい手法を使うことで、推論のステップ数を従来の28～50から14～20ステップに減らし、性能も向上させています。

圧倒的なパフォーマンス性能

SANAは、最先端のテキストから画像への生成モデルと比較しても圧倒的な性能を誇ります。

512×512の解像度では、Sana-0.6はPixArt-Σに比べて5倍速く、FIDやClip Score、GenEval、DPG-Benchといった指標でも優れた性能を示しました。

さらに、1024×1024の解像度では、SANAは3B以下のパラメータを持つ多くのモデルよりも強力で、低遅延での推論を実現しています。

特に、Sana-0.6BはFLUX-devに対して39倍速く、Sana-1.6Bでも23倍の効率性を発揮しています。

SANAの使い方

ここでは、画像生成AI「SANA」をComfyUI上で利用する使い方を紹介します。

STEP

SANAの起動環境を用意

SANAは、多くのGPUパワーが必要になりますので、余裕をもった環境を準備しましょう。

導入前に「ComfyUI」を起動して最新版に更新しておきます。

まずは「ComfyUI」上でSANAを動かす準備をします。

SANAは、Python、PyTorch、CUDAのバージョンに推奨設定があります。

Stable Diffusionを通常起動する基本環境と同じ設定で問題ありません。

conda create -n sana python=3.10
conda activate sana
pip install torch==2.3.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118

環境が用意できたらSANAのプロジェクトをインストールします。

「ComfyUI」>「custom_nodes」を開き、クローンを実行します。

cd ComfyUI/custom_nodes
git clone https://github.com/Efficient-Large-Model/ComfyUI_ExtraModels.git

STEP

モデルデータを入手

SANA用に学習されたモデルをダウンロードします。

Hugging FaceからNVIDIAが公式に配布しているモデルデータを入手します。

「ComfyUI」>「models」>「checkpoint」を開き、フォルダを格納します。

cd ComfyUI/models/checkpoints
git clone https://huggingface.co/Efficient-Large-Model/Sana_1600M_1024px

次にVAEデータを格納します。

「ComfyUI」>「models」>「vae」を開き、フォルダを格納します。

cd ComfyUI/models/vae
git clone https://huggingface.co/mit-han-lab/dc-ae-f64c128-in-1.0

STEP

「ComfyUI」を起動してワークフローを入手

データのセットが完了したらComfyUIを起動します。

GitHubで公開されているNVIDIAの公式ページからSANA専用のサンプルワークフローを入手します。

サンプルワークフローはこちらから入手！
https://github.com/NVlabs/Sana/blob/main/asset/docs/ComfyUI/comfyui.md

ComfyUIの画面にドラッグ＆ドロップでファイルを読み込むと埋め込まれているワークフローデータを表示することができます。

ワークフローを展開して、各ノードが正常に反映されているかを確認します。

赤くなっている未入手のカスタムノードがある場合は、手動で補填していきます。

STEP

パラメータを設定して生成開始！

そのまま生成を開始すると、#9「Gemma Loader」のモデルが見つからないエラーが出てしまうので選択し直します。

Efficient-Large-Model~を指定します。

次にプロンプトを入力します。

LLMによる補正があるため、自由な表現で入力して問題ありません。ネガティブプロンプトは入力不要です。

生成は右上の「Queue Prompt」ボタンをクリックて生成を開始します。

初回の生成はモデルデータのダウンロードを伴うので時間がかかります。

使用したプロンプト

ukiyo-e style,japanese aesthetic,realist,realistic,masterpiece,top-quality,Detailed and complex,offcial art,aestheticly pleasing,japanic style,detailed diagram of the pattern,with the highest quality,artistic style,postcard design,balanced design,composition that fits well,gorgeous background art,propose a very attractive design,1 girl and 1 cat,natural color design,morning glory flowers,bold and beautiful floral design,summer image,attributes of a person profile,seen from the side,elegant smile,top grade,neuter,honor students,a dark-haired,lustrous hair,slender,virtuous,well-behaved,good impression,cat attributes black cat,pitch black cat,cute little,ultra cute,yellow eyes,lithe

SANA（ComfyUI）で生成した動画