Spaces:

slabstech
/

dhwani-internal-api-server

Running on T4

sachin commited on 22 days ago

Commit

8bf941a

1 Parent(s): d1c9225

diable -torhc compile

Files changed (1) hide show

src/server/main.py CHANGED Viewed

@@ -95,14 +95,15 @@ class TTSModelManager:
         if description_tokenizer.pad_token is None:
             description_tokenizer.pad_token = description_tokenizer.eos_token
         # TODO - temporary disable -torch.compile
         # Update model configuration
         model.config.pad_token_id = tokenizer.pad_token_id
         # Update for deprecation: use max_batch_size instead of batch_size
-        #if hasattr(model.generation_config.cache_config, 'max_batch_size'):
-        #    model.generation_config.cache_config.max_batch_size = 1
-        #model.generation_config.cache_implementation = "static"
         # Compile the model
         ##compile_mode = "default"
@@ -126,7 +127,7 @@ class TTSModelManager:
         n_steps = 1 if compile_mode == "default" else 2
         for _ in range(n_steps):
             _ = model.generate(**model_kwargs)
         logger.info(
             f"Loaded {model_name} with Flash Attention and compilation in {time.perf_counter() - start:.2f} seconds"
         )

         if description_tokenizer.pad_token is None:
             description_tokenizer.pad_token = description_tokenizer.eos_token
+        '''
         # TODO - temporary disable -torch.compile
         # Update model configuration
         model.config.pad_token_id = tokenizer.pad_token_id
         # Update for deprecation: use max_batch_size instead of batch_size
+        if hasattr(model.generation_config.cache_config, 'max_batch_size'):
+            model.generation_config.cache_config.max_batch_size = 1
+        model.generation_config.cache_implementation = "static"
         # Compile the model
         ##compile_mode = "default"
         n_steps = 1 if compile_mode == "default" else 2
         for _ in range(n_steps):
             _ = model.generate(**model_kwargs)
+        '''
         logger.info(
             f"Loaded {model_name} with Flash Attention and compilation in {time.perf_counter() - start:.2f} seconds"
         )