xriminact
/

llama-3-8b-instruct-openvino-int4

Text Generation

Inference Endpoints

Model card Files Files and versions Community

xriminact commited on Apr 23, 2024

Commit

3ca46c5

·

verified ·

1 Parent(s): 428a346

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -12,13 +12,13 @@ from optimum.intel.openvino import OVModelForCausalLM
 ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": "", "INFERENCE_PRECISION_HINT": "f16"}
-tok = AutoTokenizer.from_pretrained("xriminact/llama-3-8b-instruct-openvino", trust_remote_code=True)
 ov_model = OVModelForCausalLM.from_pretrained(
-    "xriminact/llama-3-8b-instruct-openvino",
     device="GPU",
     ov_config=ov_config,
-    config=AutoConfig.from_pretrained("xriminact/llama-3-8b-instruct-openvino", trust_remote_code=True),
     trust_remote_code=True,
 )

 ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": "", "INFERENCE_PRECISION_HINT": "f16"}
+tok = AutoTokenizer.from_pretrained("xriminact/llama-3-8b-instruct-openvino-int4", trust_remote_code=True)
 ov_model = OVModelForCausalLM.from_pretrained(
+    "xriminact/llama-3-8b-instruct-openvino-int4",
     device="GPU",
     ov_config=ov_config,
+    config=AutoConfig.from_pretrained("xriminact/llama-3-8b-instruct-openvino-int4", trust_remote_code=True),
     trust_remote_code=True,
 )