Spaces:

Kunbyte
/

DRA-Ctrl

Running on Zero

App Files Files Community

caohy666 commited on Jun 17

Commit

459a249

1 Parent(s): f288790

<fix> move to gpu earlier.

Browse files

Files changed (1) hide show

app.py +14 -12

app.py CHANGED Viewed

@@ -52,20 +52,30 @@ def init_basemodel():
     current_task = None
     # init models
     transformer = HunyuanVideoTransformer3DModel.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                                  subfolder="transformer",
                                                                  inference_subject_driven=False,
-                                                                 low_cpu_mem_usage=True)
     scheduler = diffusers.FlowMatchEulerDiscreteScheduler()
     vae = diffusers.AutoencoderKLHunyuanVideo.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                               subfolder="vae",
-                                                              low_cpu_mem_usage=True)
     text_encoder = transformers.LlavaForConditionalGeneration.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                                               subfolder="text_encoder",
-                                                                              low_cpu_mem_usage=True)
     text_encoder_2 = transformers.CLIPTextModel.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                                 subfolder="text_encoder_2",
-                                                                low_cpu_mem_usage=True)
     tokenizer = transformers.AutoTokenizer.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                            subfolder="tokenizer")
     tokenizer_2 = transformers.CLIPTokenizer.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
@@ -73,14 +83,6 @@ def init_basemodel():
     image_processor = transformers.CLIPImageProcessor.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                                       subfolder="image_processor")
-    device = "cuda" if torch.cuda.is_available() else "cpu"
-    weight_dtype = torch.bfloat16
-    transformer.requires_grad_(False)
-    vae.requires_grad_(False).to(device, dtype=weight_dtype)
-    text_encoder.requires_grad_(False).to(device, dtype=weight_dtype)
-    text_encoder_2.requires_grad_(False).to(device, dtype=weight_dtype)
-    transformer.to(device, dtype=weight_dtype)
     vae.enable_tiling()
     vae.enable_slicing()

     current_task = None
     # init models
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    weight_dtype = torch.bfloat16
     transformer = HunyuanVideoTransformer3DModel.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                                  subfolder="transformer",
                                                                  inference_subject_driven=False,
+                                                                 low_cpu_mem_usage=True).requires_grad_(False).to(device, dtype=weight_dtype)
+    torch.cuda.empty_cache()
+    gc.collect()
     scheduler = diffusers.FlowMatchEulerDiscreteScheduler()
     vae = diffusers.AutoencoderKLHunyuanVideo.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                               subfolder="vae",
+                                                              low_cpu_mem_usage=True).requires_grad_(False).to(device, dtype=weight_dtype)
+    torch.cuda.empty_cache()
+    gc.collect()
     text_encoder = transformers.LlavaForConditionalGeneration.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                                               subfolder="text_encoder",
+                                                                              low_cpu_mem_usage=True).requires_grad_(False).to(device, dtype=weight_dtype)
+    torch.cuda.empty_cache()
+    gc.collect()
     text_encoder_2 = transformers.CLIPTextModel.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                                 subfolder="text_encoder_2",
+                                                                low_cpu_mem_usage=True).requires_grad_(False).to(device, dtype=weight_dtype)
+    torch.cuda.empty_cache()
+    gc.collect()
     tokenizer = transformers.AutoTokenizer.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                            subfolder="tokenizer")
     tokenizer_2 = transformers.CLIPTokenizer.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
     image_processor = transformers.CLIPImageProcessor.from_pretrained('hunyuanvideo-community/HunyuanVideo-I2V',
                                                                       subfolder="image_processor")
     vae.enable_tiling()
     vae.enable_slicing()