smoothieAI
/

pipeline_animatediff_context_controlnet_v2

Model card Files Files and versions Community

smoothieAI commited on Feb 8, 2024

Commit

be549e2

verified ·

1 Parent(s): 2d17ea5

Update pipeline.py

Browse files

Files changed (1) hide show

pipeline.py +12 -8

pipeline.py CHANGED Viewed

@@ -1015,7 +1015,7 @@ class AnimateDiffPipeline(DiffusionPipeline, TextualInversionLoaderMixin, IPAdap
         latents: Optional[torch.FloatTensor] = None,
         prompt_embeds: Optional[torch.FloatTensor] = None,
         negative_prompt_embeds: Optional[torch.FloatTensor] = None,
-        ip_adapter_image: Optional[PipelineImageInput] = None,
         output_type: Optional[str] = "pil",
         output_path: Optional[str] = None,
         return_dict: bool = True,
@@ -1184,11 +1184,14 @@ class AnimateDiffPipeline(DiffusionPipeline, TextualInversionLoaderMixin, IPAdap
         if ip_adapter_image is not None:
             output_hidden_state = False if isinstance(self.unet.encoder_hid_proj, ImageProjection) else True
-            image_embeds, negative_image_embeds = self.encode_image(
-                ip_adapter_image, device, num_videos_per_prompt, output_hidden_state
-            )
-            if do_classifier_free_guidance:
-                image_embeds = torch.cat([negative_image_embeds, image_embeds])
         if self.controlnet != None:
             if isinstance(controlnet, ControlNetModel):
@@ -1352,8 +1355,6 @@ class AnimateDiffPipeline(DiffusionPipeline, TextualInversionLoaderMixin, IPAdap
         # 6. Prepare extra step kwargs. TODO: Logic should ideally just be moved out of the pipeline
         extra_step_kwargs = self.prepare_extra_step_kwargs(generator, eta)
-        # 7 Add image embeds for IP-Adapter
-        added_cond_kwargs = {"image_embeds": image_embeds} if ip_adapter_image is not None else None
         # 7.1 Create tensor stating which controlnets to keep
         if self.controlnet != None:
@@ -1430,6 +1431,9 @@ class AnimateDiffPipeline(DiffusionPipeline, TextualInversionLoaderMixin, IPAdap
                     print("avg", torch.mean(prompt_embeds[current_prompt_index][0]))
                     print("max", torch.max(prompt_embeds[current_prompt_index][0]))
                     if self.controlnet != None and i < int(control_end*num_inference_steps):
                         current_context_conditioning_frames = conditioning_frames[current_context_indexes, :, :, :]

         latents: Optional[torch.FloatTensor] = None,
         prompt_embeds: Optional[torch.FloatTensor] = None,
         negative_prompt_embeds: Optional[torch.FloatTensor] = None,
+        ip_adapter_image: Optional[Union[PipelineImageInput, List[PipelineImageInput]]] = None,
         output_type: Optional[str] = "pil",
         output_path: Optional[str] = None,
         return_dict: bool = True,
         if ip_adapter_image is not None:
             output_hidden_state = False if isinstance(self.unet.encoder_hid_proj, ImageProjection) else True
+            # foreach ip_adapter_image in ip_adapter_image
+            image_embeds = []
+            # if ip_adapter_image is not list, convert to list
+            ip_adapter_image = [ip_adapter_image] if not isinstance(ip_adapter_image, list) else ip_adapter_image
+            for image in ip_adapter_image:
+                image_embeds, negative_image_embeds = self.encode_image(image, device, num_videos_per_prompt, output_hidden_state)
+                if do_classifier_free_guidance:image_embeds = torch.cat([negative_image_embeds, image_embeds])
+                image_embeds.append(image_embeds)
         if self.controlnet != None:
             if isinstance(controlnet, ControlNetModel):
         # 6. Prepare extra step kwargs. TODO: Logic should ideally just be moved out of the pipeline
         extra_step_kwargs = self.prepare_extra_step_kwargs(generator, eta)
         # 7.1 Create tensor stating which controlnets to keep
         if self.controlnet != None:
                     print("avg", torch.mean(prompt_embeds[current_prompt_index][0]))
                     print("max", torch.max(prompt_embeds[current_prompt_index][0]))
+                    # 7 Add image embeds for IP-Adapter
+                    added_cond_kwargs = {"image_embeds": image_embeds[min(current_prompt_index, len(image_embeds) - 1)]} if ip_adapter_image is not None else None
                     if self.controlnet != None and i < int(control_end*num_inference_steps):
                         current_context_conditioning_frames = conditioning_frames[current_context_indexes, :, :, :]