yahavb
/

DeepSeek-R1-Distill-Llama-70B-Neuron

Model card Files Files and versions

yahavb commited on Feb 2

Commit

ffc1431

·

verified ·

1 Parent(s): d099e08

Update README.md

Files changed (1) hide show

README.md +12 -31

README.md CHANGED Viewed

@@ -1,41 +1,22 @@
-Compiled:
-```paython
-sequence_length=32
-auto_cast_type="bf16"
-batch_size=8
-model_dir="/deepseek-ai/DeepSeek-R1-Distill-Llama-70B"
-model_id="deepseek-ai/DeepSeek-R1-Distill-Llama-70B"
-from huggingface_hub.hf_api import HfFolder
-from huggingface_hub import login
-from optimum.neuron import NeuronModelForCausalLM
-login(hf_token,add_to_git_credential=True)
 compiler_args = {"num_cores": 16, "auto_cast_type": auto_cast_type}
-input_shapes = {"batch_size": batch_size, "sequence_length": sequence_length}
-model = NeuronModelForCausalLM.from_pretrained(
-        model_id,
-        export=True,
-        **compiler_args,
-        **input_shapes)
-model.save_pretrained(model_dir)
-model.push_to_hub(model_dir,repository_id=hf_repo)
-```
-Serve:
 ```
 import torch
 from optimum.neuron import NeuronModelForCausalLM
 from transformers import AutoTokenizer
 model_id="deepseek-ai/DeepSeek-R1-Distill-Llama-70B"
-prompt="Who are you? what is the model that powers you?"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 tokenizer.pad_token_id = tokenizer.eos_token_id if tokenizer.pad_token_id is None else tokenizer.pad_token_id
 inputs = tokenizer(prompt, return_tensors="pt")
 model = NeuronModelForCausalLM.from_pretrained("yahavb/DeepSeek-R1-Distill-Llama-70B-Neuron")
-for i in range(10):
-  outputs = model.generate(**inputs,max_new_tokens=512,do_sample=True,use_cache=True,temperature=0.7,top_k=50,top_p=0.9)
-  outputs=outputs[0, inputs.input_ids.size(-1):]
-  response=tokenizer.decode(outputs, skip_special_tokens=True)
-  print(response)
-```

+Compiled with:
+```json
 compiler_args = {"num_cores": 16, "auto_cast_type": auto_cast_type}
+input_shapes = {"batch_size": 8, "sequence_length": 32}
 ```
+Usage:
+```python
 import torch
 from optimum.neuron import NeuronModelForCausalLM
 from transformers import AutoTokenizer
 model_id="deepseek-ai/DeepSeek-R1-Distill-Llama-70B"
+prompt="What is is the capital of France?"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 tokenizer.pad_token_id = tokenizer.eos_token_id if tokenizer.pad_token_id is None else tokenizer.pad_token_id
 inputs = tokenizer(prompt, return_tensors="pt")
 model = NeuronModelForCausalLM.from_pretrained("yahavb/DeepSeek-R1-Distill-Llama-70B-Neuron")
+outputs = model.generate(**inputs,max_new_tokens=512,do_sample=True,use_cache=True,temperature=0.7,top_k=50,top_p=0.9)
+outputs=outputs[0, inputs.input_ids.size(-1):]
+response=tokenizer.decode(outputs, skip_special_tokens=True)
+print(response)