smoothieAI
/

pipeline_animatediff_context_controlnet_v2

Model card Files Files and versions Community

smoothieAI commited on Feb 8, 2024

Commit

e728b58

verified ·

1 Parent(s): 127315d

Update pipeline.py

Browse files

Files changed (1) hide show

pipeline.py +5 -6

pipeline.py CHANGED Viewed

@@ -1426,6 +1426,10 @@ class AnimateDiffPipeline(DiffusionPipeline, TextualInversionLoaderMixin, IPAdap
                     # expand the latents if we are doing classifier free guidance
                     latent_model_input = torch.cat([current_context_latents] * 2) if do_classifier_free_guidance else current_context_latents
                     latent_model_input = self.scheduler.scale_model_input(latent_model_input, t)
                     if self.controlnet != None and i < int(control_end*num_inference_steps):
@@ -1456,11 +1460,6 @@ class AnimateDiffPipeline(DiffusionPipeline, TextualInversionLoaderMixin, IPAdap
                         control_model_input = control_model_input.reshape(
                             (-1, control_model_input.shape[2], control_model_input.shape[3], control_model_input.shape[4])
                         )
-                        # get the current prompt index based on the current context position (for blending between multiple prompts)
-                        context_position = current_context_indexes[0] % context_size
-                        current_prompt_index =  int(context_position / (context_size / num_prompts))
                         down_block_res_samples, mid_block_res_sample = self.controlnet(
                             control_model_input,
@@ -1488,7 +1487,7 @@ class AnimateDiffPipeline(DiffusionPipeline, TextualInversionLoaderMixin, IPAdap
                         noise_pred = self.unet(
                             latent_model_input,
                             t,
-                            encoder_hidden_states=prompt_embeds,
                             cross_attention_kwargs=cross_attention_kwargs,
                             added_cond_kwargs=added_cond_kwargs,
                         ).sample

                     # expand the latents if we are doing classifier free guidance
                     latent_model_input = torch.cat([current_context_latents] * 2) if do_classifier_free_guidance else current_context_latents
                     latent_model_input = self.scheduler.scale_model_input(latent_model_input, t)
+                    # get the current prompt index based on the current context position (for blending between multiple prompts)
+                    context_position = current_context_indexes[0] % context_size
+                    current_prompt_index =  int(context_position / (context_size / num_prompts))
                     if self.controlnet != None and i < int(control_end*num_inference_steps):
                         control_model_input = control_model_input.reshape(
                             (-1, control_model_input.shape[2], control_model_input.shape[3], control_model_input.shape[4])
                         )
                         down_block_res_samples, mid_block_res_sample = self.controlnet(
                             control_model_input,
                         noise_pred = self.unet(
                             latent_model_input,
                             t,
+                            encoder_hidden_states=prompt_embeds[current_prompt_index],
                             cross_attention_kwargs=cross_attention_kwargs,
                             added_cond_kwargs=added_cond_kwargs,
                         ).sample