NVIDIAが主導開発した画像生成AI「SANA」登場!
2024年10月14日、NVIDIA、マサチューセッツ工科大学(MIT)および清華大学の共同研究チームは、わずか数秒で最大4096×4096ピクセルの高解像度画像を生成できる画像生成AI「SANA」を発表しました。
この記事では、「SANA」の使い方を初心者向けに詳しく解説します。
SANAとは?
「SANA」とは、NVIDIA Labsが開発した次世代の拡散モデルを採用した画像生成AIです。SANAは計算コストを大幅に削減しながら、高速かつ高精度な画像生成を可能にした注目のAI技術です。
従来の画像生成技術とは異なる技術を組み合わせ、比較的手頃な消費者向けハードウェアでも高品質な4K画像生成を実現します。
以下にSANAの主な特徴をまとめました。
- ディープコンプレッションオートエンコーダーが凄い!
- 効率的なトレーニングと推論戦略!
- 圧倒的なパフォーマンス性能!
ディープコンプレッションオートエンコーダーの特徴
SANAの高速処理技術は、NVIDIAの「ディープコンプレッションオートエンコーダー」によるものです。
この技術は、画像データを元のサイズの1/32に圧縮しながら、すべての細部を保つことができます。
さらに、Gemma 2 LLMモデルと組み合わせて、指示を正確に理解し、一般的なハードウェアでも驚異的なパフォーマンスを発揮することが可能です。
例えば、Sana-0.6Bは16GBのノートパソコンのGPUでも動作し、1024×1024ピクセルの画像を1秒未満で生成できます。
効率的なトレーニングと推論戦略
SANAは、テキストと画像の一致度を高めるために、自動ラベル付けとトレーニング方法を採用しています。
複数のモデルが様々なキャプションを生成し、その中からCLIPScoreという指標を使って高スコアのキャプションを選び、モデルの収束と整合性を向上させます。
また、Flow-DPM-Solverという新しい手法を使うことで、推論のステップ数を従来の28~50から14~20ステップに減らし、性能も向上させています。
圧倒的なパフォーマンス性能
SANAは、最先端のテキストから画像への生成モデルと比較しても圧倒的な性能を誇ります。
512×512の解像度では、Sana-0.6はPixArt-Σに比べて5倍速く、FIDやClip Score、GenEval、DPG-Benchといった指標でも優れた性能を示しました。
さらに、1024×1024の解像度では、SANAは3B以下のパラメータを持つ多くのモデルよりも強力で、低遅延での推論を実現しています。
特に、Sana-0.6BはFLUX-devに対して39倍速く、Sana-1.6Bでも23倍の効率性を発揮しています。
SANAの使い方
ここでは、画像生成AI「SANA」をComfyUI上で利用する使い方を紹介します。
SANAは、多くのGPUパワーが必要になりますので、余裕をもった環境を準備しましょう。
導入前に「ComfyUI」を起動して最新版に更新しておきます。
まずは「ComfyUI」上でSANAを動かす準備をします。
SANAは、Python、PyTorch、CUDAのバージョンに推奨設定があります。
Stable Diffusionを通常起動する基本環境と同じ設定で問題ありません。
conda create -n sana python=3.10
conda activate sana
pip install torch==2.3.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118
環境が用意できたらSANAのプロジェクトをインストールします。
「
ComfyUI」>「 custom_nodes」を開き、クローンを実行します。cd ComfyUI/custom_nodes
git clone https://github.com/Efficient-Large-Model/ComfyUI_ExtraModels.git
SANA用に学習されたモデルをダウンロードします。
Hugging FaceからNVIDIAが公式に配布しているモデルデータを入手します。
「
ComfyUI」>「 models」>「 checkpoint」を開き、フォルダを格納します。cd ComfyUI/models/checkpoints
git clone https://huggingface.co/Efficient-Large-Model/Sana_1600M_1024px
次にVAEデータを格納します。
「
ComfyUI」>「 models」>「 vae」を開き、フォルダを格納します。cd ComfyUI/models/vae
git clone https://huggingface.co/mit-han-lab/dc-ae-f64c128-in-1.0
データのセットが完了したらComfyUIを起動します。
GitHubで公開されているNVIDIAの公式ページからSANA専用のサンプルワークフローを入手します。
ComfyUIの画面にドラッグ&ドロップでファイルを読み込むと埋め込まれているワークフローデータを表示することができます。
ワークフローを展開して、各ノードが正常に反映されているかを確認します。
赤くなっている未入手のカスタムノードがある場合は、手動で補填していきます。
そのまま生成を開始すると、#9「Gemma Loader」のモデルが見つからないエラーが出てしまうので選択し直します。
Efficient-Large-Model~を指定します。
次にプロンプトを入力します。
LLMによる補正があるため、自由な表現で入力して問題ありません。ネガティブプロンプトは入力不要です。
生成は右上の「Queue Prompt」ボタンをクリックて生成を開始します。
初回の生成はモデルデータのダウンロードを伴うので時間がかかります。
ukiyo-e style,japanese aesthetic,realist,realistic,masterpiece,top-quality,Detailed and complex,offcial art,aestheticly pleasing,japanic style,detailed diagram of the pattern,with the highest quality,artistic style,postcard design,balanced design,composition that fits well,gorgeous background art,propose a very attractive design,1 girl and 1 cat,natural color design,morning glory flowers,bold and beautiful floral design,summer image,attributes of a person profile,seen from the side,elegant smile,top grade,neuter,honor students,a dark-haired,lustrous hair,slender,virtuous,well-behaved,good impression,cat attributes black cat,pitch black cat,cute little,ultra cute,yellow eyes,lithe
SANA(ComfyUI)で生成した動画
スポンサーリンク
SANAの商用利用は?
ここでは、画像生成AI「SANA」の料金プランと商用利用の条件について詳しく解説します。
SANAの料金プラン
ユーザーは、「Nvidia Source Code License-NC」の条件を遵守する限り、使用、複製、派生作品の作成、公開表示・実行、サブライセンスの付与、および配布の権利が無償で提供されます。
著作物の再配布は、以下の条件を満たす場合にのみ許可されます。
配布物に関しては、ライセンスの全文を含める必要があり、著作権、特許、商標、または帰属表示を変更せずそのまま保持することが求められます。
SANAの商用利用は?
著作物およびその派生作品は、非商用目的でのみ使用できます。
非商用利用とは、「研究または評価目的のみ」を指します。
ただし、NVIDIA Corporationおよびその関連会社は商用利用が認められます。
ライセンス違反が発生した場合、付与された権利(著作権の使用権を含む)は即座に終了します。
画像生成AI「SANA」を使うならクラウドGPUがおすすめ
画像生成AI「SANA」をスムーズに利用するには、高スペックなパソコンが必要です。
コストを抑えたい方へ:クラウドGPUの利用がおすすめ
クラウドGPUとは、インターネット上で高性能なパソコンを借りることができるサービスです。これにより、最新の高性能GPUを手軽に利用することができます。
クラウドGPUのメリット
- コスト削減:高額なGPUを購入する必要がなく、使った分だけ支払い
- 高性能:最新の高性能GPUを利用できるため、高品質な画像生成が可能
- 柔軟性:必要なときに必要なだけ使えるので便利
SANAを使いこなして生成AIをマスターしよう!
今回の記事では、NVIDIAが公開した最新の画像生成AIツール「SANA」について紹介しました。
SANAは、画像サイズに対する生成スピードに関しては圧倒的にパフォーマンスが高く、メジャー利用のツールになる期待が高いです。
無料で利用できる画像生成AIの応用機能の中でトップクラスなので、このチャンスに高性能ツールで画像生成を極めてみましょう!