yahavb
/

TinyLlama-1.1B-Chat-v1.0-neuron

Model card Files Files and versions

TinyLlama-1.1B-Chat-v1.0-neuron / README.md

yahavb's picture

README

53e5595 verified 9 months ago

|

history blame contribute delete

550 Bytes

	```python
	from optimum.neuron import NeuronModelForCausalLM
	from transformers import AutoTokenizer
	tokenizer = AutoTokenizer.from_pretrained(model_id)
	tokenizer.pad_token_id = tokenizer.eos_token_id if tokenizer.pad_token_id is None else tokenizer.pad_token_id
	inputs = tokenizer(prompt, return_tensors="pt")
	outputs = model.generate(**inputs,max_new_tokens=max_new_tokens,do_sample=True,use_cache=True,temperature=0.7,top_k=50,top_p=0.9)
	outputs = outputs[0, inputs.input_ids.size(-1):]
	response = tokenizer.decode(outputs, skip_special_tokens=True)