Spaces:

mlabonne
/

OrpoLlama-3-8B

Sleeping

mlabonne commited on Apr 20, 2024

Commit

8fa77d8

verified ·

1 Parent(s): cc449f6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -68,14 +68,14 @@ def predict(message, history, system_prompt, temperature, max_new_tokens, top_k,
 # Load model
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 quantization_config = BitsAndBytesConfig(
-    load_in_4bit=True,
-    bnb_4bit_compute_dtype=torch.bfloat16
 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     device_map="auto",
-    # quantization_config=quantization_config,
     attn_implementation="flash_attention_2",
 )

 # Load model
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 quantization_config = BitsAndBytesConfig(
+    load_in_8bit=True,
+    # bnb_4bit_compute_dtype=torch.bfloat16
 )
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     device_map="auto",
+    quantization_config=quantization_config,
     attn_implementation="flash_attention_2",
 )