Stable Diffusion XLとは?使い方や旧モデルとの違いなど

Stable Diffusion XLとは?使い方や旧モデルとの違いなど

Stable Diffusion XLとは、Stability AI社が開発したStable Diffusionの最新モデルで、SDXLと略されます。

2023年の7月に正式版SDXL1.0、その後、11月にはSDXL Turboが発表されました。

この記事では、Stable Diffusion XLの詳細や使い方を紹介します。

ブラウザで使えるStable Diffusion!

目次

Stable Diffusion XLとは

AIイラストネモフィラと美少女

Stable Diffusion XL(SDXL)は、Stability AI社により開発され、オープンソース化されている画像生成AIの最新モデル(2024年4月時点)です。

以前のモデルよりも精度が高く、より幅広いスタイルの画像を生成できるようになりました。

Stable Diffusion XLと旧モデルの違い

Stable Diffusion XLの特徴は大きく3つあります。

  • パラメータ数が2倍以上に大幅に拡大
  • デフォルトの画像生成サイズが拡大
  • 幅広いスタイルの画像を生成可能

Stable Diffusionのデフォルトで入っているモデルよりも上位互換であるため、導入するメリットがあります。

しかし、推奨されるメモリは16GB以上、GPUメモリ(VRAM)が12GB以上なので、使用PCに余裕があるか確認してから導入してみましょう。

パラメータ数が2倍以上に大幅に拡大

Stable Diffusion XL 1.0では従来のバージョンに比べてパラメータ数が2倍以上拡大しました。

このモデルは2つで構成されており、1つ目は3.5B(35億)のパラメータを持つ基本モデル、2つ目は6.6B(66億)パラメータを持つリファイメント(精密化)モデルです。

Stable Diffusion XLは、これまでの仕組みと大きく異なり、1回の画像生成で、まずは基本モデルが画像の草案を生成し、その後リファイメント(精密化)モデルが画像を綺麗にして仕上げます。

この2回生成するプロセスを経ることによって、Stable Diffusion XLの描写力が飛躍的に向上しました。

デフォルトの画像生成サイズが拡大

Stable Diffsuionで生成される画像の解像度は512×512が最大サイズでしたが、SDXL 1.0では最大1,024×1,024のサイズ出力が可能となりました。

それに応じて、コントラストや照明、影の投影が改善され、高解像度でも鮮やかな描写が可能となりました。

幅広いスタイルの画像を生成可能

Stable Diffusion XLでは、複雑なプロンプトを組まずに簡単なプロンプトで高品質な画像を生成できるようになりました。

さらに、構図が大幅に改善され、生成できる画像のパターンが増えました。

詳しくは、現在公開されている技術レポートをご覧ください。

Stable Diffusion XLのおすすめモデル

AIイラスト桜と美少女

Stable Diffusion XL自体はベースモデルとなっており、このモデルから派生した数々のモデルが公開されています。

その中で、各スタイルに特化したおすすめのモデルを3つ紹介します。

Juggernaut XL

Juggernaut XLは、写真のようなリアルな画像の生成に特化したモデルです。

人や動物だけでなく、風景なども再現が可能です。

夏の日没前、カラフルな髪の色をした20歳の日本人の女の子を顔をアップにしてカメラ目線で正面から撮影した画像を生成します。

Juggernaut
使用したプロンプト

[hyperrealistic rendition, ultra detailed, realistic, high definition, realistic photo , 20 year old, colorful hair color. Japanese girl, focus on eyes, close up on face, hair styled as up, summer forest, golden hour]

ネガティブプロンプト
[ugly, deformed, (worst quality, low quality:1.2)]

Juggernaut XL
https://civitai.com/models/133005/juggernaut-xl

AAM XL (Anime Mix)

AAM XLは、日本のアニメのイメージに近いイラストが得意なモデルで、人物の細かい描写以外にもロボットなどの生成できます。

朝の公演で目を閉じながら歌を歌う少女の絵を生成してみます。

AAM-XL
使用したプロンプト

[best quality, highres, anime, anime style, singing song, closed eyes,upper body, green park,morning]

ネガティブプロンプト
[worst quality, low quality]

AAM XL (Anime Mix)
https://civitai.com/models/269232/aam-xl-anime-mix

AfterRealXL

AfterRealXLは、グラビアなどリアルな人物の描写に特化しているモデルで、主にAIグラビアなどに利用されています。

制服を着て猫耳をつけているセクシーな日本人女性をプロの写真風に撮影した画像を生成します。

AfterRealXL
使用したプロンプト

[a professional photographic beautiful japanese girl,night location,sexy uniform,joy smile,Cat ear]

ネガティブプロンプト
[(worst quality, low quality:1.4), (deformed, distorted, disfigured:1.3), (depth of field, bokeh, blurry, blurry background:1.4), manicure,lip]

AfterRealXL
https://huggingface.co/sazyou-roukaku/AfterRealXL

以下の記事では、モデルの入れ方やおすすめのStable Diffusionモデルを紹介していますので参考にしてみて下さい。

Stable Diffusion XLの使い方

注意を促す見出し画像

Stable Diffusion XLはデフォルトで導入されているものではないので、以下の各方法で設定する必要があります。

ブラウザ版Stable Diffusion XLの使い方

Stable Diffusion XLをブラウザで利用する場合は、Stability AI社が運営する公式サービス「DreamStudio」を利用します。

  • DreamStudioにアクセスしてログインします。
  • Advencedをクリックして、ページ下部にモデルの切り替えタブを開き、SDXL v1.0 を選択します。
Dream Studio
(出典:dreamstudio.ai)

切り替えが完了したら、以降の生成画像に自動的にStable Diffusion XLのモデルが適用されます。

ローカル版Stable Diffusion XLの使い方

ローカル版(Stable Diffusion Web UI(AUTOMATIC1111版)でのStable Diffusion XLの使い方は、下記ステップになります。

STEP
Hugging Faceにアクセス

Stable Diffusion Web UI(AUTOMATIC1111版)を立ち上げて、Hugging Faceにアクセスします。

stable-diffusion-xl-base-1.0のページから、Baseモデル、Refinerモデル、VAEの3つのファイルをダウンロードします。

STEP
Baseモデルのダウンロード

Baseモデルのファイルはメインページの下部のボタンから直接ダウンロードします。

BASEモデル
(出典:huggingface.co)
STEP
Refinerモデルのダウンロード

Refinerモデルは、こちらのページからダウンロードします。

Refinerモデル
(出典:huggingface.co)
STEP
VAEファイルをダウンロード

VAEファイルは、こちらのページからダウンロードします。

VAEファイル
(出典:huggingface.co)
STEP
ダウンロードしたファイルをフォルダに格納

ダウンロードしたファイルをフォルダに格納します。

BaseモデルとRefinerモデルは「Stable-diffusion」フォルダに格納します。

VAEファイルは「VAEフォルダ」が別にありますので、そこに格納してください。

STEP
モデルを適用する

モデルを適用する場合は、Stable Diffusion Web UI左上のタブから切り替えます。

Stable Diffusion Web UI
(出典:Stable Diffusion Web UI)
STEP
VAEファイルを設定

設定タブからダウンロードしたVAEファイルを設定すれば完了です。

VAEファイルは使うモデルによって切り替えが必要なので、自動にしておくのがおすすめです。

Stable Diffusion Web UI
(出典:Stable Diffusion Web UI)

Stable Diffusion XLを使うならクラウドGPUがおすすめ

Stable Diffusion の上位バージョンとも言えるSDXLをフルに使うには、かなりハイスペックなGPUが必要となります。

元々所有のPCに入っているGPUスペックが低い場合や、少しでもパワーの不足を感じた時は、GPUクラウドがおすすめです。

GPUクラウドは、自分のパソコンスペックに関係なく自由に使え、SDXLでもスムーズな画像生成が可能なのでとても便利です。

GPUSOROBAN
GPUSOROBAN

GPUSOROBANは、高性能なGPU「NVIDIA A4000 16GB」を業界最安値の1時間50円で使用することができます。

さらに、クラウドGPUを利用しない時は停止にしておくことで、停止中の料金はかかりません。

クラウドGPUを使えばいつでもStable Diffusionの性能をフルに引き出すことができるので、理想の環境に近づけることができます。

\快適に生成AI!1時間50円~/

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
EdgeHUBロゴ

メールマガジン登録

Stable Diffusion・LLM・RAGに関する最新情報をいち早くお届けします。

無料メルマガの配信をご希望の方は、下記フォームよりご登録ください。

    EdgeHUB編集部からのお知らせ

    無料ウェビナーのお知らせ

    RAG進化のさらに先へ!自立型AIエージェント ウェビナー【12/25無料開催】

    RAG進化のさらに先へ! 大好評につきRAGシリーズ第3弾が開催決定!

    開催日時:
    2024年12月25日(水) 14:00~15:00

    内容:

    • RAGの精度を向上させる「自律型AIエージェント」のデモ
    • 生成AI開発の強い味方「GPUSOROBAN」の活用方法

    このウェビナーでは、オープンソース「LangGraph」で構築したAIエージェントの使い方や、デモを紹介します。

    生成AIに関心のある方、AI技術をビジネスに活かしたい方は、ぜひこの貴重な機会にご参加ください!

    こんな方におすすめ!

    • 自律型AIエージェントに興味がある方
    • RAGの高度化を検討しているエンジニアや開発者
    • 日本語のローカルLLMの利用を検討している方
    • GPUリソースに課題を感じている方

    \簡単1分で申し込み!/

    この記事を書いた人

    EdgeHUBは、NVIDIAクラウドパートナーである株式会社ハイレゾが運営しています。「AIと共にある未来へ繋ぐ」をテーマに、画像生成AI、文章生成AI、動画生成AI、機械学習・LLM、Stable Diffusionなど、最先端の生成AI技術の使い方をわかりやすく紹介します。

    目次