huggingface · zxuhan · May 14, 2026
diff --git a/src/diffusers/pipelines/controlnet_sd3/pipeline_stable_diffusion_3_controlnet.py b/src/diffusers/pipelines/controlnet_sd3/pipeline_stable_diffusion_3_controlnet.py
@@ -447,6 +447,13 @@ def encode_prompt(
         else:
             batch_size = prompt_embeds.shape[0]
 
+        # The internal `_get_*_prompt_embeds` helpers expand the encoded embeddings
+        # by `num_images_per_prompt`, but user-supplied embeddings bypass that path.
+        # Track that here so we can apply the same expansion at the end and keep the
+        # batch dimension consistent with `prepare_latents` (see #10712).
+        prompt_embeds_was_provided = prompt_embeds is not None
+        negative_prompt_embeds_was_provided = negative_prompt_embeds is not None
+
         if prompt_embeds is None:
             prompt_2 = prompt_2 or prompt
             prompt_2 = [prompt_2] if isinstance(prompt_2, str) else prompt_2
@@ -543,6 +550,28 @@ def encode_prompt(
                 [negative_pooled_prompt_embed, negative_pooled_prompt_2_embed], dim=-1
             )
 
+        # Apply `num_images_per_prompt` expansion to user-supplied embeddings to match
+        # what `_get_*_prompt_embeds` already does for freshly-encoded ones (#10712).
+        if prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = prompt_embeds.shape[-2], prompt_embeds.shape[-1]
+            prompt_embeds = prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            prompt_embeds = prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, hidden_dim)
+            pooled_dim = pooled_prompt_embeds.shape[-1]
+            pooled_prompt_embeds = pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            pooled_prompt_embeds = pooled_prompt_embeds.view(batch_size * num_images_per_prompt, pooled_dim)
+
+        if do_classifier_free_guidance and negative_prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = negative_prompt_embeds.shape[-2], negative_prompt_embeds.shape[-1]
+            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            negative_prompt_embeds = negative_prompt_embeds.view(
+                batch_size * num_images_per_prompt, seq_len, hidden_dim
+            )
+            pooled_dim = negative_pooled_prompt_embeds.shape[-1]
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.view(
+                batch_size * num_images_per_prompt, pooled_dim
+            )
+
         if self.text_encoder is not None:
             if isinstance(self, SD3LoraLoaderMixin) and USE_PEFT_BACKEND:
                 # Retrieve the original scale by scaling back the LoRA layers

diff --git a/src/diffusers/pipelines/controlnet_sd3/pipeline_stable_diffusion_3_controlnet_inpainting.py b/src/diffusers/pipelines/controlnet_sd3/pipeline_stable_diffusion_3_controlnet_inpainting.py
@@ -469,6 +469,13 @@ def encode_prompt(
         else:
             batch_size = prompt_embeds.shape[0]
 
+        # The internal `_get_*_prompt_embeds` helpers expand the encoded embeddings
+        # by `num_images_per_prompt`, but user-supplied embeddings bypass that path.
+        # Track that here so we can apply the same expansion at the end and keep the
+        # batch dimension consistent with `prepare_latents` (see #10712).
+        prompt_embeds_was_provided = prompt_embeds is not None
+        negative_prompt_embeds_was_provided = negative_prompt_embeds is not None
+
         if prompt_embeds is None:
             prompt_2 = prompt_2 or prompt
             prompt_2 = [prompt_2] if isinstance(prompt_2, str) else prompt_2
@@ -565,6 +572,28 @@ def encode_prompt(
                 [negative_pooled_prompt_embed, negative_pooled_prompt_2_embed], dim=-1
             )
 
+        # Apply `num_images_per_prompt` expansion to user-supplied embeddings to match
+        # what `_get_*_prompt_embeds` already does for freshly-encoded ones (#10712).
+        if prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = prompt_embeds.shape[-2], prompt_embeds.shape[-1]
+            prompt_embeds = prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            prompt_embeds = prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, hidden_dim)
+            pooled_dim = pooled_prompt_embeds.shape[-1]
+            pooled_prompt_embeds = pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            pooled_prompt_embeds = pooled_prompt_embeds.view(batch_size * num_images_per_prompt, pooled_dim)
+
+        if do_classifier_free_guidance and negative_prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = negative_prompt_embeds.shape[-2], negative_prompt_embeds.shape[-1]
+            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            negative_prompt_embeds = negative_prompt_embeds.view(
+                batch_size * num_images_per_prompt, seq_len, hidden_dim
+            )
+            pooled_dim = negative_pooled_prompt_embeds.shape[-1]
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.view(
+                batch_size * num_images_per_prompt, pooled_dim
+            )
+
         if self.text_encoder is not None:
             if isinstance(self, SD3LoraLoaderMixin) and USE_PEFT_BACKEND:
                 # Retrieve the original scale by scaling back the LoRA layers

diff --git a/src/diffusers/pipelines/pag/pipeline_pag_sd_3.py b/src/diffusers/pipelines/pag/pipeline_pag_sd_3.py
@@ -417,6 +417,13 @@ def encode_prompt(
         else:
             batch_size = prompt_embeds.shape[0]
 
+        # The internal `_get_*_prompt_embeds` helpers expand the encoded embeddings
+        # by `num_images_per_prompt`, but user-supplied embeddings bypass that path.
+        # Track that here so we can apply the same expansion at the end and keep the
+        # batch dimension consistent with `prepare_latents` (see #10712).
+        prompt_embeds_was_provided = prompt_embeds is not None
+        negative_prompt_embeds_was_provided = negative_prompt_embeds is not None
+
         if prompt_embeds is None:
             prompt_2 = prompt_2 or prompt
             prompt_2 = [prompt_2] if isinstance(prompt_2, str) else prompt_2
@@ -513,6 +520,28 @@ def encode_prompt(
                 [negative_pooled_prompt_embed, negative_pooled_prompt_2_embed], dim=-1
             )
 
+        # Apply `num_images_per_prompt` expansion to user-supplied embeddings to match
+        # what `_get_*_prompt_embeds` already does for freshly-encoded ones (#10712).
+        if prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = prompt_embeds.shape[-2], prompt_embeds.shape[-1]
+            prompt_embeds = prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            prompt_embeds = prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, hidden_dim)
+            pooled_dim = pooled_prompt_embeds.shape[-1]
+            pooled_prompt_embeds = pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            pooled_prompt_embeds = pooled_prompt_embeds.view(batch_size * num_images_per_prompt, pooled_dim)
+
+        if do_classifier_free_guidance and negative_prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = negative_prompt_embeds.shape[-2], negative_prompt_embeds.shape[-1]
+            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            negative_prompt_embeds = negative_prompt_embeds.view(
+                batch_size * num_images_per_prompt, seq_len, hidden_dim
+            )
+            pooled_dim = negative_pooled_prompt_embeds.shape[-1]
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.view(
+                batch_size * num_images_per_prompt, pooled_dim
+            )
+
         if self.text_encoder is not None:
             if isinstance(self, SD3LoraLoaderMixin) and USE_PEFT_BACKEND:
                 # Retrieve the original scale by scaling back the LoRA layers

diff --git a/src/diffusers/pipelines/pag/pipeline_pag_sd_3_img2img.py b/src/diffusers/pipelines/pag/pipeline_pag_sd_3_img2img.py
@@ -433,6 +433,13 @@ def encode_prompt(
         else:
             batch_size = prompt_embeds.shape[0]
 
+        # The internal `_get_*_prompt_embeds` helpers expand the encoded embeddings
+        # by `num_images_per_prompt`, but user-supplied embeddings bypass that path.
+        # Track that here so we can apply the same expansion at the end and keep the
+        # batch dimension consistent with `prepare_latents` (see #10712).
+        prompt_embeds_was_provided = prompt_embeds is not None
+        negative_prompt_embeds_was_provided = negative_prompt_embeds is not None
+
         if prompt_embeds is None:
             prompt_2 = prompt_2 or prompt
             prompt_2 = [prompt_2] if isinstance(prompt_2, str) else prompt_2
@@ -529,6 +536,28 @@ def encode_prompt(
                 [negative_pooled_prompt_embed, negative_pooled_prompt_2_embed], dim=-1
             )
 
+        # Apply `num_images_per_prompt` expansion to user-supplied embeddings to match
+        # what `_get_*_prompt_embeds` already does for freshly-encoded ones (#10712).
+        if prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = prompt_embeds.shape[-2], prompt_embeds.shape[-1]
+            prompt_embeds = prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            prompt_embeds = prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, hidden_dim)
+            pooled_dim = pooled_prompt_embeds.shape[-1]
+            pooled_prompt_embeds = pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            pooled_prompt_embeds = pooled_prompt_embeds.view(batch_size * num_images_per_prompt, pooled_dim)
+
+        if do_classifier_free_guidance and negative_prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = negative_prompt_embeds.shape[-2], negative_prompt_embeds.shape[-1]
+            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            negative_prompt_embeds = negative_prompt_embeds.view(
+                batch_size * num_images_per_prompt, seq_len, hidden_dim
+            )
+            pooled_dim = negative_pooled_prompt_embeds.shape[-1]
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.view(
+                batch_size * num_images_per_prompt, pooled_dim
+            )
+
         if self.text_encoder is not None:
             if isinstance(self, SD3LoraLoaderMixin) and USE_PEFT_BACKEND:
                 # Retrieve the original scale by scaling back the LoRA layers

diff --git a/src/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3.py b/src/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3.py
@@ -426,6 +426,13 @@ def encode_prompt(
         else:
             batch_size = prompt_embeds.shape[0]
 
+        # The internal `_get_*_prompt_embeds` helpers expand the encoded embeddings
+        # by `num_images_per_prompt`, but user-supplied embeddings bypass that path.
+        # Track that here so we can apply the same expansion at the end and keep the
+        # batch dimension consistent with `prepare_latents` (see #10712).
+        prompt_embeds_was_provided = prompt_embeds is not None
+        negative_prompt_embeds_was_provided = negative_prompt_embeds is not None
+
         if prompt_embeds is None:
             prompt_2 = prompt_2 or prompt
             prompt_2 = [prompt_2] if isinstance(prompt_2, str) else prompt_2
@@ -522,6 +529,28 @@ def encode_prompt(
                 [negative_pooled_prompt_embed, negative_pooled_prompt_2_embed], dim=-1
             )
 
+        # Apply `num_images_per_prompt` expansion to user-supplied embeddings to match
+        # what `_get_*_prompt_embeds` already does for freshly-encoded ones (#10712).
+        if prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = prompt_embeds.shape[-2], prompt_embeds.shape[-1]
+            prompt_embeds = prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            prompt_embeds = prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, hidden_dim)
+            pooled_dim = pooled_prompt_embeds.shape[-1]
+            pooled_prompt_embeds = pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            pooled_prompt_embeds = pooled_prompt_embeds.view(batch_size * num_images_per_prompt, pooled_dim)
+
+        if do_classifier_free_guidance and negative_prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = negative_prompt_embeds.shape[-2], negative_prompt_embeds.shape[-1]
+            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            negative_prompt_embeds = negative_prompt_embeds.view(
+                batch_size * num_images_per_prompt, seq_len, hidden_dim
+            )
+            pooled_dim = negative_pooled_prompt_embeds.shape[-1]
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.view(
+                batch_size * num_images_per_prompt, pooled_dim
+            )
+
         if self.text_encoder is not None:
             if isinstance(self, SD3LoraLoaderMixin) and USE_PEFT_BACKEND:
                 # Retrieve the original scale by scaling back the LoRA layers

diff --git a/src/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3_img2img.py b/src/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3_img2img.py
@@ -452,6 +452,13 @@ def encode_prompt(
         else:
             batch_size = prompt_embeds.shape[0]
 
+        # The internal `_get_*_prompt_embeds` helpers expand the encoded embeddings
+        # by `num_images_per_prompt`, but user-supplied embeddings bypass that path.
+        # Track that here so we can apply the same expansion at the end and keep the
+        # batch dimension consistent with `prepare_latents` (see #10712).
+        prompt_embeds_was_provided = prompt_embeds is not None
+        negative_prompt_embeds_was_provided = negative_prompt_embeds is not None
+
         if prompt_embeds is None:
             prompt_2 = prompt_2 or prompt
             prompt_2 = [prompt_2] if isinstance(prompt_2, str) else prompt_2
@@ -548,6 +555,28 @@ def encode_prompt(
                 [negative_pooled_prompt_embed, negative_pooled_prompt_2_embed], dim=-1
             )
 
+        # Apply `num_images_per_prompt` expansion to user-supplied embeddings to match
+        # what `_get_*_prompt_embeds` already does for freshly-encoded ones (#10712).
+        if prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = prompt_embeds.shape[-2], prompt_embeds.shape[-1]
+            prompt_embeds = prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            prompt_embeds = prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, hidden_dim)
+            pooled_dim = pooled_prompt_embeds.shape[-1]
+            pooled_prompt_embeds = pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            pooled_prompt_embeds = pooled_prompt_embeds.view(batch_size * num_images_per_prompt, pooled_dim)
+
+        if do_classifier_free_guidance and negative_prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = negative_prompt_embeds.shape[-2], negative_prompt_embeds.shape[-1]
+            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            negative_prompt_embeds = negative_prompt_embeds.view(
+                batch_size * num_images_per_prompt, seq_len, hidden_dim
+            )
+            pooled_dim = negative_pooled_prompt_embeds.shape[-1]
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.view(
+                batch_size * num_images_per_prompt, pooled_dim
+            )
+
         if self.text_encoder is not None:
             if isinstance(self, SD3LoraLoaderMixin) and USE_PEFT_BACKEND:
                 # Retrieve the original scale by scaling back the LoRA layers

diff --git a/src/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3_inpaint.py b/src/diffusers/pipelines/stable_diffusion_3/pipeline_stable_diffusion_3_inpaint.py
@@ -458,6 +458,13 @@ def encode_prompt(
         else:
             batch_size = prompt_embeds.shape[0]
 
+        # The internal `_get_*_prompt_embeds` helpers expand the encoded embeddings
+        # by `num_images_per_prompt`, but user-supplied embeddings bypass that path.
+        # Track that here so we can apply the same expansion at the end and keep the
+        # batch dimension consistent with `prepare_latents` (see #10712).
+        prompt_embeds_was_provided = prompt_embeds is not None
+        negative_prompt_embeds_was_provided = negative_prompt_embeds is not None
+
         if prompt_embeds is None:
             prompt_2 = prompt_2 or prompt
             prompt_2 = [prompt_2] if isinstance(prompt_2, str) else prompt_2
@@ -554,6 +561,28 @@ def encode_prompt(
                 [negative_pooled_prompt_embed, negative_pooled_prompt_2_embed], dim=-1
             )
 
+        # Apply `num_images_per_prompt` expansion to user-supplied embeddings to match
+        # what `_get_*_prompt_embeds` already does for freshly-encoded ones (#10712).
+        if prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = prompt_embeds.shape[-2], prompt_embeds.shape[-1]
+            prompt_embeds = prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            prompt_embeds = prompt_embeds.view(batch_size * num_images_per_prompt, seq_len, hidden_dim)
+            pooled_dim = pooled_prompt_embeds.shape[-1]
+            pooled_prompt_embeds = pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            pooled_prompt_embeds = pooled_prompt_embeds.view(batch_size * num_images_per_prompt, pooled_dim)
+
+        if do_classifier_free_guidance and negative_prompt_embeds_was_provided and num_images_per_prompt > 1:
+            seq_len, hidden_dim = negative_prompt_embeds.shape[-2], negative_prompt_embeds.shape[-1]
+            negative_prompt_embeds = negative_prompt_embeds.repeat(1, num_images_per_prompt, 1)
+            negative_prompt_embeds = negative_prompt_embeds.view(
+                batch_size * num_images_per_prompt, seq_len, hidden_dim
+            )
+            pooled_dim = negative_pooled_prompt_embeds.shape[-1]
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.repeat(1, num_images_per_prompt)
+            negative_pooled_prompt_embeds = negative_pooled_prompt_embeds.view(
+                batch_size * num_images_per_prompt, pooled_dim
+            )
+
         if self.text_encoder is not None:
             if isinstance(self, SD3LoraLoaderMixin) and USE_PEFT_BACKEND:
                 # Retrieve the original scale by scaling back the LoRA layers