Spaces:

medmekk
/

TorchAO_Quantization

Running on A100

MekkCyber commited on Oct 22, 2024

Commit

3d2f5ba

1 Parent(s): 1e73d78

try with cuda

Files changed (1) hide show

app.py CHANGED Viewed

@@ -66,7 +66,7 @@ def quantize_model(model_name, quantization_type, group_size=128, auth_token=Non
         model = AutoModelForCausalLM.from_pretrained(model_name, device_map="cuda", torch_dtype=torch.bfloat16, quantization_config=quantization_config, use_auth_token=auth_token.token)
     else :
         quantization_config = TorchAoConfig(quantization_type)
-        model = AutoModelForCausalLM.from_pretrained(model_name, device_map="cpu", torch_dtype=torch.bfloat16, quantization_config=quantization_config, use_auth_token=auth_token.token)
     return model

         model = AutoModelForCausalLM.from_pretrained(model_name, device_map="cuda", torch_dtype=torch.bfloat16, quantization_config=quantization_config, use_auth_token=auth_token.token)
     else :
         quantization_config = TorchAoConfig(quantization_type)
+        model = AutoModelForCausalLM.from_pretrained(model_name, device_map="cuda", torch_dtype=torch.bfloat16, quantization_config=quantization_config, use_auth_token=auth_token.token)
     return model