xriminact
/

llama-3-8b-instruct-openvino-int4

Text Generation

Inference Endpoints

Model card Files Files and versions Community

xriminact commited on Apr 23, 2024

Commit

428a346

·

verified ·

1 Parent(s): 2cb854b

Update README.md

Files changed (1) hide show

README.md +1 -10

README.md CHANGED Viewed

@@ -10,18 +10,9 @@ language:
 from transformers import AutoConfig, AutoTokenizer
 from optimum.intel.openvino import OVModelForCausalLM
-if model_to_run.value == "INT4":
-    model_dir = int4_model_dir
-elif model_to_run.value == "INT8":
-    model_dir = int8_model_dir
-else:
-    model_dir = fp16_model_dir
-print(f"Loading model from {model_dir}")
 ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": "", "INFERENCE_PRECISION_HINT": "f16"}
-model_name = model_configuration["model_id"]
-tok = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
 ov_model = OVModelForCausalLM.from_pretrained(
     "xriminact/llama-3-8b-instruct-openvino",

 from transformers import AutoConfig, AutoTokenizer
 from optimum.intel.openvino import OVModelForCausalLM
 ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": "", "INFERENCE_PRECISION_HINT": "f16"}
+tok = AutoTokenizer.from_pretrained("xriminact/llama-3-8b-instruct-openvino", trust_remote_code=True)
 ov_model = OVModelForCausalLM.from_pretrained(
     "xriminact/llama-3-8b-instruct-openvino",