granite-3.0-1b-a400m-instruct-CPU

Running

vilarin commited on May 23

Commit

289c0ee

•

1 Parent(s): d518d69

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -49,7 +49,7 @@ if USE_FLASH_ATTENTION:
   attn_implementation="flash_attention_2"
 model = AutoModelForCausalLM.from_pretrained(
-          MODEL_NAME,
           quantization_config=quantization_config,
           attn_implementation=attn_implementation,
           torch_dtype=torch.bfloat16,

   attn_implementation="flash_attention_2"
 model = AutoModelForCausalLM.from_pretrained(
+          MODEL_ID,
           quantization_config=quantization_config,
           attn_implementation=attn_implementation,
           torch_dtype=torch.bfloat16,