Stable Diffusionプロンプトは順番で画質が変わる｜CLIPの仕組みから検証画像で徹底解説

2026年6月15日

「同じ単語を入れているのに、なぜか指示した要素が出てこない」「背景ばかり強調されて主役が小さくなる」ｔいった現象が起きます。

その原因の多くはプロンプトの”内容”ではなく順番にあります。

Stable Diffusionは入力された言葉を前から順に処理し、先頭に近い単語ほど画像に強く反映する仕組みになっているからです。

この記事では、CLIP（テキストエンコーダ）の仕組みとトークン制限から順番が効く理由を画像を用いて解説していきます。

そもそもStable Diffusionのプロンプトの「順番」はなぜ重要なのか

結論：先頭に書いた単語ほど画像に強く反映される

パターンA

パターンB

パターンC

最初に結論からお伝えします。Stable Diffusionは、プロンプトの先頭に近い単語ほど「重要な指示」として強く扱い、後ろにいくほど影響力が下がっていきます。

「一番描きたいもの（主役）」を後ろに書いてしまうと、それだけで画像のクオリティや構図が崩れてしまうことがあります。

たとえば「紫陽花の花に囲まれる少女」を描きたいとき、次の3つのプロンプトは同じ単語を使っていても結果が変わります。

パターンA：ultra-detailed,highly detailed CG illustration,best quality（画質エフェクトが先頭）
パターンB：solo,1girl,Youth face,18 years old（主役＝少女が先頭）
パターンC：hydrangea flowers forming a perfect, floral wreath（背景が先頭）

パターンAでは少女が主役として大きく描かれますが、パターンBでは人物が強調され、装飾が少なくなっています。パターンCでは紫陽花の存在感の方が大きくなり目立ってしまいました。

同じ単語でも順番を変えると結果が変わる

順番の影響は「主役の大きさ」だけにとどまりません。よくあるのが色移りと呼ばれる現象です。

1girl, white dress, blue sky のように「白いドレス」と「青い空」を近い位置に並べると、要素を混同し、ドレスまで青く染まってしまうことがあります。

これは隣り合った単語ほどお互いに影響を与えやすいためで、順番を意識するだけで防げることがあります。

「順番が効く」仕組みの話
多くの解説記事は「とにかく重要な単語を先頭に置こう」で終わってしまいます。しかし、なぜ先頭が強いのか・どこまで効くのかを理解しておくと、応用が一気に効くようになります。
次の章では、その仕組みであるCLIPとトークン処理について解説します。

あわせて読みたい

Stable DiffusionのSeed値(シード値)とは？意味やおすすめの使い方を解説 Stable Diffusionの画像生成にはSeed値（シード値）と呼ばれる仕組みがあります。これを上手く利用することで、表情変化や背景差分などの画像を生成することが可能です…

Stable DiffusionのCLIPとトークン処理の仕組み

プロンプトはCLIPテキストエンコーダが前から処理する

Stable Diffusionは、入力したテキストをCLIP（Contrastive Language-Image Pre-training）と呼ばれるテキストエンコーダがプロンプトをベクトルに変換し、その情報をもとに画像生成プロセスが進みます。

このCLIPは、文章を前から順に読み込みながら、各単語が「文全体の中でどんな意味・重要度を持つか」を計算していきます。

先頭付近の単語は文脈の土台として強く作用するため、結果として「最初に書いた言葉ほど画像に反映されやすい」という性質が生まれます。

「75トークン（77トークン）」の壁とは何か

CLIPには、一度に処理できる長さに上限があります。これが「75トークン」の壁です。

正確には、CLIPは1チャンクあたり77トークンを処理しますが、その先頭と末尾は「開始」「終了」を表す特別なトークン占有されます。

そのため、ユーザーが実際に使えるのは実質75トークン分です。Stable Diffusion Web UI（AUTOMATIC1111など）のプロンプト入力欄の右上に表示される「x/75」というカウンタは、この上限を示しています。

75トークンを超えると後半が無視されやすくなる理由

プロンプトが75トークンを超えると、Web UIなどは超過分を別のチャンク（次の75トークン枠）として分割処理します。

このとき、2つ目のチャンクに押し出された単語は、1つ目のチャンクの単語と同じ文脈で評価されにくくなり、影響力が弱まったり無視されたりしやすくなります。「こだわって長文を書いたのに、後半の指示がまったく反映されない」というのは、この分割が原因であることがほとんどです。

つまり、絶対に外せない指示ほど75トークン以内の前半に収めることが、確実に反映させるための基本になります。

1単語＝1トークンではない（トークン数の数え方の注意点）

ここで一つ注意点があります。「1単語＝1トークン」ではありません。

CLIPのトークナイザは、単語を意味のある最小単位に分割します。短い一般的な単語は1トークンですが、長い単語や珍しい単語は2〜3トークンに分かれることがあります。,（カンマ）もトークンを消費します。

そのため「単語数」ではなく、Web UIのカウンタで表示される実際のトークン数で管理するのが正確です。

まだ単語が少ないのに効かないと感じたら、トークン数が想定より膨らんでいないか確認してみましょう。

あわせて読みたい

Stable Diffusionアクセサリーのプロンプト一覧【すぐに使える呪文集】 Stable Diffusionでアクセサリーを生成する際、思い通りのデザインを出すのは難しい場合があります。オリジナリティあふれるアクセサリー画像を作るために、部位ごとの…

【検証】Seedを固定して順番だけ入れ替えてみた

解説ではイメージしづらいので、実際に同じ条件で順番だけを入れ替えて生成し、結果を比較してみます。

検証条件（モデル・Seed・ステップ数を固定）

▼検証環境

モデル：mellowPencilXLClear_v1

Seed：3804439847

Sampling／Steps／CFG：すべて固定

変更するのは「プロンプトの順番」のみ

Seed値を固定すると、ノイズの初期状態が同一になるため、「順番の違いだけ」が結果に与える影響を切り分けて観察できます。

「主役を先頭」 vs 「背景を先頭」の比較

A：主役先頭

B：背景先頭

【A=主役先頭 / B=背景先頭の比較】

A：1girl, streamer, wearing headphones, light blue parka

B：rough sketch anime, soft rough lines, kawaii sketchy style, chibi style

想定キャプション：「Aは少女が画面中央に大きく描かれるのに対し、Bは背景が支配的になり人物が小さく・不明瞭になった。Seedは同一。」

品質タグ(masterpiece)を先頭に置いた場合の差

品質タグ先頭あり

品質タグ先頭なし

【品質タグ先頭あり/なしの比較】

あり：masterpiece, best quality, 1girl, ...

なし：1girl, ..., masterpiece, best quality（末尾に移動）

想定キャプション：品質タグを先頭に置いた方が描き込み密度が上がり、末尾に置くと効果が弱まる

順番の影響度まとめ

検証の結果、同じ単語・同じSeedでも、順番を変えるだけで主役の大きさ・構図・色の出方が明確に変化することが確認できました。

特に「主役の定義」と「品質タグ」は前半に置くほど安定します。

※本セクションの画像は、ブラウザだけでStable Diffusionを試せる「PICSOROBAN」で生成しています（記事末で紹介）。手元で同じ検証を再現したい方は、Seedを固定して順番だけを入れ替えてみてください。

あわせて読みたい

Stable Diffusionの口元プロンプト一覧｜表情の作り方と崩れ修正テクニックを解説！ Stable Diffusionで「思った通りの表情にならない」「口元だけ不自然に崩れてしまう」ことがあります。口元は顔の中で最も繊細なディテールが求められるパーツのため、…

失敗しないプロンプトの基本構成

「結局どう並べればいいの？」という方のために、多くのモデルで安定する基本の並び順を紹介します。

品質 → 主役 → 外見の特徴 → ポーズ・表情 → 背景 → 画風・ライティング → LoRA

順番	カテゴリ	具体例	役割
1	品質タグ	`masterpiece, best quality, ultra detailed`	全体の画質を底上げ
2	主役（被写体）	`1girl, solo`	何を描くか（最優先）
3	外見の特徴	`blue hair, twintails, white dress`	髪型・服装などの詳細
4	ポーズ・表情	`standing, looking at viewer, smile`	どんな状態か
5	背景・場所	`indoors, classroom, sunset`	どこにいるか
6	画風・ライティング	`anime style, cinematic lighting`	雰囲気・光
7	LoRA等	`<lora:xxx:0.8>`	画風の上書き（後方でも効きやすい）

「大きな要素（誰を・何を）→ 細かい要素（どう見せるか）」の順に書くのがポイントです。

コピペで使える構成テンプレート

masterpiece, best quality, ultra detailed,
1girl, solo,
long hair, blue eyes, white dress,
standing, looking at viewer, smile,
outdoors, garden, daytime,
soft lighting, cinematic

このテンプレートの各行を、自分の描きたい内容に置き換えるだけで、破綻しにくいプロンプトになります。

NG：looking at viewer, masterpiece, sunset, 1girl, smile, school uniform → 主役の 1girl が後方にあり、「何を主役に描くか」を判断しづらい。
OK：masterpiece, 1girl, smile, school uniform, looking at viewer, sunset → 品質 → 主役 → 詳細 → 背景の順に並べ替えるだけで、同じ単語でも安定して主役が描かれる。

あわせて読みたい

Stable Diffusionで表情のバリエーションを豊かにする手軽な方法 Stable Diffusionで手軽に表情差分を生成したいと考えたことはありませんか？ Stable Diffusionでは背景やポーズに合わせて異なる表情を作り出すことで、キャラクターの…

モデル別・プロンプトの正しい並べ方

「先頭が強い」という大原則は共通ですが、モデルの世代によって最適な書き方は異なります。

ここを押さえているかどうかで仕上がりが変化します。

SD1.5系：タグ形式で重要語を左に詰める: 初期から使われているSD1.5系は、自然な文章よりも単語をカンマで区切ったタグ形式を得意とします。接続詞などは省き、重要なキーワードを左側に詰め込むほど意図が伝わりやすくなります。
SDXL / Pony / Illustrious：タグ順序の正確さがカギ: SDXLや、その派生で人気のPony Diffusion・Illustrious系は、Danbooruタグなどを大量に学習しているため、タグの並び順の正確さが再現度を大きく左右します。キャラクターの特徴タグを正しい順番で丁寧に並べることが高品質化の近道です。短いプロンプトでも破綻しにくい傾向があるため、品質タグを過剰に盛りすぎないのもコツです。

Flux.1など自然文系：順番ルールが緩み、文脈・文章構造が重要に: Flux.1に代表される新世代モデルは、人間が話すような自然文（センテンス）の理解力が非常に高いのが特徴です。「A girl wearing a white dress is standing in a forest」のような文章でも高品質に出力されます。

これらのモデルでは「単語の優先順位」よりも文章としての文脈の通り方が効いてくるため、タグの並べ替えに神経質になるより、伝えたい情景を自然な一文で構成する方が良い結果につながります。

順番ルールが”緩む”世代と理解しておきましょう。

モデル世代	推奨の書き方	順番の重要度
SD1.5系	タグ形式（カンマ区切り）	★★★（高）
SDXL / Pony / Illustrious	タグ形式＋一部自然文	★★★（高・タグ順が重要）
Flux.1 など自然文系	自然な文章	★★（中・文脈重視）

早見表（モデル世代 × 書き方 × 順番の重要度）

あわせて読みたい