Stable Diffusion XLとは、Stability AI社が開発したStable Diffusionの最新モデルで、SDXLと略されます。
2023年の7月に正式版SDXL1.0、その後、11月にはSDXL Turboが発表されました。
この記事では、Stable Diffusion XLの詳細や使い方を紹介します。
Stable Diffusion XLとは
Stable Diffusion XL(SDXL)は、Stability AI社により開発され、オープンソース化されている画像生成AIの最新モデル(2024年4月時点)です。
以前のモデルよりも精度が高く、より幅広いスタイルの画像を生成できるようになりました。
Stable Diffusion XLと旧モデルの違い
Stable Diffusion XLの特徴は大きく3つあります。
- パラメータ数が2倍以上に大幅に拡大
- デフォルトの画像生成サイズが拡大
- 幅広いスタイルの画像を生成可能
Stable Diffusionのデフォルトで入っているモデルよりも上位互換であるため、導入するメリットがあります。
しかし、推奨されるメモリは16GB以上、GPUメモリ(VRAM)が12GB以上なので、使用PCに余裕があるか確認してから導入してみましょう。
パラメータ数が2倍以上に大幅に拡大
Stable Diffusion XL 1.0では従来のバージョンに比べてパラメータ数が2倍以上拡大しました。
このモデルは2つで構成されており、1つ目は3.5B(35億)のパラメータを持つ基本モデル、2つ目は6.6B(66億)パラメータを持つリファイメント(精密化)モデルです。
Stable Diffusion XLは、これまでの仕組みと大きく異なり、1回の画像生成で、まずは基本モデルが画像の草案を生成し、その後リファイメント(精密化)モデルが画像を綺麗にして仕上げます。
この2回生成するプロセスを経ることによって、Stable Diffusion XLの描写力が飛躍的に向上しました。
デフォルトの画像生成サイズが拡大
Stable Diffsuionで生成される画像の解像度は512×512が最大サイズでしたが、SDXL 1.0では最大1,024×1,024のサイズ出力が可能となりました。
それに応じて、コントラストや照明、影の投影が改善され、高解像度でも鮮やかな描写が可能となりました。
幅広いスタイルの画像を生成可能
Stable Diffusion XLでは、複雑なプロンプトを組まずに簡単なプロンプトで高品質な画像を生成できるようになりました。
さらに、構図が大幅に改善され、生成できる画像のパターンが増えました。
詳しくは、現在公開されている技術レポートをご覧ください。
Stable Diffusion XLのおすすめモデル
Stable Diffusion XL自体はベースモデルとなっており、このモデルから派生した数々のモデルが公開されています。
その中で、各スタイルに特化したおすすめのモデルを3つ紹介します。
Juggernaut XL
Juggernaut XLは、写真のようなリアルな画像の生成に特化したモデルです。
人や動物だけでなく、風景なども再現が可能です。
夏の日没前、カラフルな髪の色をした20歳の日本人の女の子を顔をアップにしてカメラ目線で正面から撮影した画像を生成します。
[hyperrealistic rendition, ultra detailed, realistic, high definition, realistic photo , 20 year old, colorful hair color. Japanese girl, focus on eyes, close up on face, hair styled as up, summer forest, golden hour]
ネガティブプロンプト
[ugly, deformed, (worst quality, low quality:1.2)]
AAM XL (Anime Mix)
AAM XLは、日本のアニメのイメージに近いイラストが得意なモデルで、人物の細かい描写以外にもロボットなどの生成できます。
朝の公演で目を閉じながら歌を歌う少女の絵を生成してみます。
[best quality, highres, anime, anime style, singing song, closed eyes,upper body, green park,morning]
ネガティブプロンプト
[worst quality, low quality]
AfterRealXL
AfterRealXLは、グラビアなどリアルな人物の描写に特化しているモデルで、主にAIグラビアなどに利用されています。
制服を着て猫耳をつけているセクシーな日本人女性をプロの写真風に撮影した画像を生成します。
[a professional photographic beautiful japanese girl,night location,sexy uniform,joy smile,Cat ear]
ネガティブプロンプト
[(worst quality, low quality:1.4), (deformed, distorted, disfigured:1.3), (depth of field, bokeh, blurry, blurry background:1.4), manicure,lip]
以下の記事では、モデルの入れ方やおすすめのStable Diffusionモデルを紹介していますので参考にしてみて下さい。
Stable Diffusion XLの使い方
Stable Diffusion XLはデフォルトで導入されているものではないので、以下の各方法で設定する必要があります。
ブラウザ版Stable Diffusion XLの使い方
Stable Diffusion XLをブラウザで利用する場合は、Stability AI社が運営する公式サービス「DreamStudio」を利用します。
- DreamStudioにアクセスしてログインします。
- Advencedをクリックして、ページ下部にモデルの切り替えタブを開き、SDXL v1.0 を選択します。
切り替えが完了したら、以降の生成画像に自動的にStable Diffusion XLのモデルが適用されます。
ローカル版Stable Diffusion XLの使い方
ローカル版(Stable Diffusion Web UI(AUTOMATIC1111版)でのStable Diffusion XLの使い方は、下記ステップになります。
Stable Diffusion Web UI(AUTOMATIC1111版)を立ち上げて、Hugging Faceにアクセスします。
stable-diffusion-xl-base-1.0のページから、Baseモデル、Refinerモデル、VAEの3つのファイルをダウンロードします。
ダウンロードしたファイルをフォルダに格納します。
BaseモデルとRefinerモデルは「Stable-diffusion」フォルダに格納します。
VAEファイルは「VAEフォルダ」が別にありますので、そこに格納してください。
モデルを適用する場合は、Stable Diffusion Web UI左上のタブから切り替えます。
設定タブからダウンロードしたVAEファイルを設定すれば完了です。
VAEファイルは使うモデルによって切り替えが必要なので、自動にしておくのがおすすめです。
Stable Diffusion XLを使うならクラウドGPUがおすすめ
Stable Diffusion の上位バージョンとも言えるSDXLをフルに使うには、かなりハイスペックなGPUが必要となります。
元々所有のPCに入っているGPUスペックが低い場合や、少しでもパワーの不足を感じた時は、GPUクラウドがおすすめです。
GPUクラウドは、自分のパソコンスペックに関係なく自由に使え、SDXLでもスムーズな画像生成が可能なのでとても便利です。
GPUSOROBANは、高性能なGPU「NVIDIA A4000 16GB」を業界最安値の1時間50円で使用することができます。
さらに、クラウドGPUを利用しない時は停止にしておくことで、停止中の料金はかかりません。
クラウドGPUを使えばいつでもStable Diffusionの性能をフルに引き出すことができるので、理想の環境に近づけることができます。
\快適に生成AI!1時間50円~/