Stable Diffusionプロンプトは順番で画質が変わる|CLIPの仕組みから検証画像で徹底解説

「同じ単語を入れているのに、なぜか指示した要素が出てこない」「背景ばかり強調されて主役が小さくなる」tいった現象が起きます。

その原因の多くはプロンプトの”内容”ではなく順番にあります。

Stable Diffusionは入力された言葉を前から順に処理し、先頭に近い単語ほど画像に強く反映する仕組みになっているからです。

この記事では、CLIP(テキストエンコーダ)の仕組みとトークン制限から順番が効く理由を画像を用いて解説していきます。

目次

そもそもStable Diffusionのプロンプトの「順番」はなぜ重要なのか

結論:先頭に書いた単語ほど画像に強く反映される

パターンA

パターンB

パターンC

最初に結論からお伝えします。Stable Diffusionは、プロンプトの先頭に近い単語ほど「重要な指示」として強く扱い、後ろにいくほど影響力が下がっていきます。

「一番描きたいもの(主役)」を後ろに書いてしまうと、それだけで画像のクオリティや構図が崩れてしまうことがあります。

たとえば「紫陽花の花に囲まれる少女」を描きたいとき、次の3つのプロンプトは同じ単語を使っていても結果が変わります。

  • パターンA:ultra-detailed,highly detailed CG illustration,best quality(画質エフェクトが先頭)
  • パターンB:solo,1girl,Youth face,18 years old(主役=少女が先頭)
  • パターンC:hydrangea flowers forming a perfect, floral wreath(背景が先頭)

パターンAでは少女が主役として大きく描かれますが、パターンBでは人物が強調され、装飾が少なくなっています。パターンCでは紫陽花の存在感の方が大きくなり目立ってしまいました。

同じ単語でも順番を変えると結果が変わる

順番の影響は「主役の大きさ」だけにとどまりません。よくあるのが色移りと呼ばれる現象です。

1girl, white dress, blue sky のように「白いドレス」と「青い空」を近い位置に並べると、要素を混同し、ドレスまで青く染まってしまうことがあります。

これは隣り合った単語ほどお互いに影響を与えやすいためで、順番を意識するだけで防げることがあります。

「順番が効く」仕組みの話
多くの解説記事は「とにかく重要な単語を先頭に置こう」で終わってしまいます。しかし、なぜ先頭が強いのか・どこまで効くのかを理解しておくと、応用が一気に効くようになります。
次の章では、その仕組みであるCLIPとトークン処理について解説します。

Stable DiffusionのCLIPとトークン処理の仕組み

プロンプトはCLIPテキストエンコーダが前から処理する

Stable Diffusionは、入力したテキストをCLIP(Contrastive Language-Image Pre-training)と呼ばれるテキストエンコーダがプロンプトをベクトルに変換し、その情報をもとに画像生成プロセスが進みます。

このCLIPは、文章を前から順に読み込みながら、各単語が「文全体の中でどんな意味・重要度を持つか」を計算していきます。

先頭付近の単語は文脈の土台として強く作用するため、結果として「最初に書いた言葉ほど画像に反映されやすい」という性質が生まれます。

「75トークン(77トークン)」の壁とは何か

CLIPには、一度に処理できる長さに上限があります。これが「75トークン」の壁です。

正確には、CLIPは1チャンクあたり77トークンを処理しますが、その先頭と末尾は「開始」「終了」を表す特別なトークン占有されます。

そのため、ユーザーが実際に使えるのは実質75トークン分です。Stable Diffusion Web UI(AUTOMATIC1111など)のプロンプト入力欄の右上に表示される「x/75」というカウンタは、この上限を示しています。

75トークンを超えると後半が無視されやすくなる理由

プロンプトが75トークンを超えると、Web UIなどは超過分を別のチャンク(次の75トークン枠)として分割処理します。

このとき、2つ目のチャンクに押し出された単語は、1つ目のチャンクの単語と同じ文脈で評価されにくくなり、影響力が弱まったり無視されたりしやすくなります。「こだわって長文を書いたのに、後半の指示がまったく反映されない」というのは、この分割が原因であることがほとんどです。

つまり、絶対に外せない指示ほど75トークン以内の前半に収めることが、確実に反映させるための基本になります。

1単語=1トークンではない(トークン数の数え方の注意点)

ここで一つ注意点があります。「1単語=1トークン」ではありません。

CLIPのトークナイザは、単語を意味のある最小単位に分割します。短い一般的な単語は1トークンですが、長い単語や珍しい単語は2〜3トークンに分かれることがあります。,(カンマ)もトークンを消費します。

そのため「単語数」ではなく、Web UIのカウンタで表示される実際のトークン数で管理するのが正確です。

まだ単語が少ないのに効かないと感じたら、トークン数が想定より膨らんでいないか確認してみましょう。

【検証】Seedを固定して順番だけ入れ替えてみた

光のイメージの見出し画像

解説ではイメージしづらいので、実際に同じ条件で順番だけを入れ替えて生成し、結果を比較してみます。

検証条件(モデル・Seed・ステップ数を固定)

▼検証環境

  • モデル:mellowPencilXLClear_v1
  • Seed:3804439847
  • Sampling/Steps/CFG:すべて固定
  • 変更するのは「プロンプトの順番」のみ

Seed値を固定すると、ノイズの初期状態が同一になるため、「順番の違いだけ」が結果に与える影響を切り分けて観察できます。

「主役を先頭」 vs 「背景を先頭」の比較

【A=主役先頭 / B=背景先頭の比較】

  • A:1girl, streamer, wearing headphones, light blue parka
  • B:rough sketch anime, soft rough lines, kawaii sketchy style, chibi style
  • 想定キャプション:「Aは少女が画面中央に大きく描かれるのに対し、Bは背景が支配的になり人物が小さく・不明瞭になった。Seedは同一。」

品質タグ(masterpiece)を先頭に置いた場合の差

【品質タグ先頭あり/なしの比較】

  • あり:masterpiece, best quality, 1girl, ...
  • なし:1girl, ..., masterpiece, best quality(末尾に移動)
  • 想定キャプション:品質タグを先頭に置いた方が描き込み密度が上がり、末尾に置くと効果が弱まる

順番の影響度まとめ

検証の結果、同じ単語・同じSeedでも、順番を変えるだけで主役の大きさ・構図・色の出方が明確に変化することが確認できました。

特に「主役の定義」と「品質タグ」は前半に置くほど安定します。

※本セクションの画像は、ブラウザだけでStable Diffusionを試せる「PICSOROBAN」で生成しています(記事末で紹介)。手元で同じ検証を再現したい方は、Seedを固定して順番だけを入れ替えてみてください。

失敗しないプロンプトの基本構成

「結局どう並べればいいの?」という方のために、多くのモデルで安定する基本の並び順を紹介します。

品質 → 主役 → 外見の特徴 → ポーズ・表情 → 背景 → 画風・ライティング → LoRA

順番カテゴリ具体例役割
1品質タグmasterpiece, best quality, ultra detailed全体の画質を底上げ
2主役(被写体)1girl, solo何を描くか(最優先)
3外見の特徴blue hair, twintails, white dress髪型・服装などの詳細
4ポーズ・表情standing, looking at viewer, smileどんな状態か
5背景・場所indoors, classroom, sunsetどこにいるか
6画風・ライティングanime style, cinematic lighting雰囲気・光
7LoRA等<lora:xxx:0.8>画風の上書き(後方でも効きやすい)

「大きな要素(誰を・何を)→ 細かい要素(どう見せるか)」の順に書くのがポイントです。

コピペで使える構成テンプレート

masterpiece, best quality, ultra detailed,
1girl, solo,
long hair, blue eyes, white dress,
standing, looking at viewer, smile,
outdoors, garden, daytime,
soft lighting, cinematic

このテンプレートの各行を、自分の描きたい内容に置き換えるだけで、破綻しにくいプロンプトになります。

  • NG:looking at viewer, masterpiece, sunset, 1girl, smile, school uniform → 主役の 1girl が後方にあり、「何を主役に描くか」を判断しづらい。
  • OK:masterpiece, 1girl, smile, school uniform, looking at viewer, sunset → 品質 → 主役 → 詳細 → 背景の順に並べ替えるだけで、同じ単語でも安定して主役が描かれる。

モデル別・プロンプトの正しい並べ方

「先頭が強い」という大原則は共通ですが、モデルの世代によって最適な書き方は異なります。

ここを押さえているかどうかで仕上がりが変化します。

SD1.5系:タグ形式で重要語を左に詰める

初期から使われているSD1.5系は、自然な文章よりも単語をカンマで区切ったタグ形式を得意とします。接続詞などは省き、重要なキーワードを左側に詰め込むほど意図が伝わりやすくなります。

SDXL / Pony / Illustrious:タグ順序の正確さがカギ

SDXLや、その派生で人気のPony Diffusion・Illustrious系は、Danbooruタグなどを大量に学習しているため、タグの並び順の正確さが再現度を大きく左右します。キャラクターの特徴タグを正しい順番で丁寧に並べることが高品質化の近道です。短いプロンプトでも破綻しにくい傾向があるため、品質タグを過剰に盛りすぎないのもコツです。

Flux.1など自然文系:順番ルールが緩み、文脈・文章構造が重要に

Flux.1に代表される新世代モデルは、人間が話すような自然文(センテンス)の理解力が非常に高いのが特徴です。「A girl wearing a white dress is standing in a forest」のような文章でも高品質に出力されます。

これらのモデルでは「単語の優先順位」よりも文章としての文脈の通り方が効いてくるため、タグの並べ替えに神経質になるより、伝えたい情景を自然な一文で構成する方が良い結果につながります。

順番ルールが”緩む”世代と理解しておきましょう。

モデル世代推奨の書き方順番の重要度
SD1.5系タグ形式(カンマ区切り)★★★(高)
SDXL / Pony / Illustriousタグ形式+一部自然文★★★(高・タグ順が重要)
Flux.1 など自然文系自然な文章★★(中・文脈重視)
早見表(モデル世代 × 書き方 × 順番の重要度)

順番を直しても効かない時の対処法

順番を整えても思い通りにならない場合は、次のステップで原因を切り分けていきます。

STEP
強調構文 (word:1.2) で重み付けする

どうしても無視される要素は、(cat ears:1.2) のように重み付けで注目度を上げられます。(word) で約1.1倍、(word:1.3) で1.3倍、[word] で約0.9倍に弱められます。

数値を1.5以上に上げると画像が崩壊しやすいため、1.1〜1.3程度が安全圏です。

STEP
BREAK構文でブロックを分けて色移りを防ぐ

「白いドレスが青空に引っ張られて青くなる」といった色移りには、BREAK が有効です。1girl, white dress BREAK blue sky のように書くと、そこで文脈が一度区切られ、前後の要素が混ざるのを防げます。

BREAK構文の詳しい使い方は、別記事「Stable DiffusionのBREAK構文・強調構文の使い方」もあわせてご覧ください。

STEP
ネガティブプロンプトで不要要素を排除する

描いてほしくない要素は、ネガティブプロンプトで排除します。low quality, worst quality, bad anatomy などを前方に置くほど強く排除されます。

詳しくは「Stable Diffusionのネガティブプロンプト利用法とその効果」で解説しています。

STEP
Seed固定で原因を切り分ける

「順番を変えたから良くなったのか、たまたまなのか」を確かめるには、Seedを固定して比較するのが確実です。Seedを固定すれば、変更した箇所の効果だけを純粋に観察できます。

判断フローチャート(どこから直すかをチェック)

  1. 主役が小さい・出ない → 順番を見直す(主役を前へ)
  2. 色が混ざる → BREAKで区切る
  3. 特定要素が弱い → 強調構文 (:1.2) で底上げ
  4. 余計なものが出る → ネガティブプロンプトで排除
  5. 効果の有無が判断できない → Seed固定で検証

順番を制する者がStable Diffusionを制する

Stable Diffusionは、CLIPが実質75トークンで区切りながら前から処理するため、先頭に近い単語ほど画像に強く反映されます。

外せない指示は前半に置き、「品質 → 主役 → 外見 → 背景」の順で並べるのが基本です。

最後に要点を整理します。

  • Stable Diffusionは先頭に近い単語ほど強く反映する。
  • これはCLIPが前から処理し、実質75トークンで区切る仕組みによるもの。
  • 絶対に外せない指示は75トークン以内の前半に置く。
  • 基本構成は「品質 → 主役 → 外見 → ポーズ → 背景 → 画風」。
  • モデル世代で最適解は変わる(SD1.5/SDXLはタグ順、Flux.1は文脈)。
  • 効かない時は 強調構文 → BREAK → ネガティブ → Seed固定 の順で切り分ける。

「主役ファースト」で並べ、仕組みを理解し、Seed固定で検証する。この3つを意識するだけで、生成の打率は大きく変わります。

PICSOROBANトップ

Stable Diffusionの人物画像生成において、ポーズを生成する際、非常に細かいディテールが求められます。

効率的にStable Diffusionで画像を生成するには、16GB以上のVRAMが搭載されたパソコンの利用がおすすめです。

しかし、高性能なパソコンの多くがが30万円以上と高額になります。

そのような時は、PICSOROBANがおすすめです。

コストを抑えたい方へ:今のパソコンのまま使える「PICSOROBAN」

ピクソロのメリット

  • すぐ使える:高額PC不要で、ブラウザからすぐに利用可能。必要な分だけポイントを購入できます。
  • リーズナブル:30分約60円で利用可能。さらに今なら約2時間分が無料。
  • 無制限作成:時間内であれば、何枚でも画像生成可能。短時間で多くの作品を生成できます。
ブラウザで簡単!ピクソロ!
PICSOROBANトップ

PICSOROBANは、インストールの必要なくブラウザで簡単にStable Diffusionを利用できます。

さらに、今ならリリースキャンペーンとして無料会員登録するだけで、2,000ポイント貰えます!

詳しい使い方は下記の記事で紹介しています。

\約2時間無料で使える!/

Stable Diffusionが快適に使えるおすすめのパソコンやグラボに関しては下記の記事で紹介しています。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

EdgeHUBは、NVIDIAクラウドパートナーである株式会社ハイレゾが運営しています。「AIと共にある未来へ繋ぐ」をテーマに、画像生成AI、文章生成AI、動画生成AI、機械学習・LLM、Stable Diffusionなど、最先端の生成AI技術の使い方をわかりやすく紹介します。

目次