Spaces:

Kunbyte
/

DRA-Ctrl

Running on Zero

App Files Files Community

caohy666 commited on 26 days ago

Commit

0e76ca0

1 Parent(s): a0ee85f

<fix> only leave lora weights loading in process_image_and_text.

Browse files

Files changed (1) hide show

app.py +16 -19

app.py CHANGED Viewed

@@ -52,6 +52,9 @@ def init_basemodel():
     current_task = None
     # init models
     scheduler = diffusers.FlowMatchEulerDiscreteScheduler()
     vae = diffusers.AutoencoderKLHunyuanVideo.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                               subfolder="vae")
@@ -69,12 +72,25 @@ def init_basemodel():
     device = "cuda" if torch.cuda.is_available() else "cpu"
     weight_dtype = torch.bfloat16
     vae.requires_grad_(False).to(device, dtype=weight_dtype)
     text_encoder.requires_grad_(False).to(device, dtype=weight_dtype)
     text_encoder_2.requires_grad_(False).to(device, dtype=weight_dtype)
     vae.enable_tiling()
     vae.enable_slicing()
 @spaces.GPU
 def process_image_and_text(condition_image, target_prompt, condition_image_prompt, task, random_seed, inpainting, fill_x1, fill_x2, fill_y1, fill_y2):
@@ -83,14 +99,6 @@ def process_image_and_text(condition_image, target_prompt, condition_image_promp
     if pipe is None or current_task != task:
         current_task = task
-        # init transformer
-        global transformer
-        transformer = HunyuanVideoTransformer3DModel.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
-                                                                     subfolder="transformer",
-                                                                     inference_subject_driven=task in ['subject_driven'])
-        transformer.requires_grad_(False)
-        transformer.to("cuda" if torch.cuda.is_available() else "cpu", dtype=torch.bfloat16)
         # insert LoRA
         lora_config = LoraConfig(
             r=16,
@@ -164,17 +172,6 @@ def process_image_and_text(condition_image, target_prompt, condition_image_promp
         transformer.requires_grad_(False)
-        pipe = HunyuanVideoImageToVideoPipeline(
-            text_encoder=text_encoder,
-            tokenizer=tokenizer,
-            transformer=transformer,
-            vae=vae,
-            scheduler=copy.deepcopy(scheduler),
-            text_encoder_2=text_encoder_2,
-            tokenizer_2=tokenizer_2,
-            image_processor=image_processor,
-        )
     # start generation
     c_txt = None if condition_image_prompt == "" else condition_image_prompt
     c_img = condition_image.resize((512, 512))

     current_task = None
     # init models
+    transformer = HunyuanVideoTransformer3DModel.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
+                                                                 subfolder="transformer",
+                                                                 inference_subject_driven=False)
     scheduler = diffusers.FlowMatchEulerDiscreteScheduler()
     vae = diffusers.AutoencoderKLHunyuanVideo.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                               subfolder="vae")
     device = "cuda" if torch.cuda.is_available() else "cpu"
     weight_dtype = torch.bfloat16
+    transformer.requires_grad_(False)
     vae.requires_grad_(False).to(device, dtype=weight_dtype)
     text_encoder.requires_grad_(False).to(device, dtype=weight_dtype)
     text_encoder_2.requires_grad_(False).to(device, dtype=weight_dtype)
+    transformer.to(device, dtype=weight_dtype)
     vae.enable_tiling()
     vae.enable_slicing()
+    pipe = HunyuanVideoImageToVideoPipeline(
+        text_encoder=text_encoder,
+        tokenizer=tokenizer,
+        transformer=transformer,
+        vae=vae,
+        scheduler=copy.deepcopy(scheduler),
+        text_encoder_2=text_encoder_2,
+        tokenizer_2=tokenizer_2,
+        image_processor=image_processor,
+    )
 @spaces.GPU
 def process_image_and_text(condition_image, target_prompt, condition_image_prompt, task, random_seed, inpainting, fill_x1, fill_x2, fill_y1, fill_y2):
     if pipe is None or current_task != task:
         current_task = task
         # insert LoRA
         lora_config = LoraConfig(
             r=16,
         transformer.requires_grad_(False)
     # start generation
     c_txt = None if condition_image_prompt == "" else condition_image_prompt
     c_img = condition_image.resize((512, 512))