EpistemeAI
/

Fireball-12B-v1.0-finance

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

legolasyiu commited on Aug 22

Commit

c1b8056

•

1 Parent(s): 49092a4

Update README.md

Files changed (1) hide show

README.md +0 -21

README.md CHANGED Viewed

@@ -114,27 +114,6 @@ outputs = model.generate(**inputs, max_new_tokens=20)
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ```
-## For 4bit, here is example
-[4bit inference](https://colab.research.google.com/drive/1e1QbonIhSNuv7nUhMU7MQV6FcSKTVzCN?usp=sharing)
-```py
-import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
-# load model in 4-bit
-quantization_config = BitsAndBytesConfig(
-    load_in_4bit=True,
-    bnb_4bit_compute_dtype=torch.float16
-)
-model_id = "EpistemeAI/Fireball-12B-v1.0f"
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto", quantization_config=quantization_config)
-inputs = tokenizer("Should we prepay our private student loans, given our particular profile?", return_tensors="pt")
-outputs = model.generate(**inputs, max_new_tokens=120)
-print(tokenizer.decode(outputs[0], skip_special_tokens=True))
-```
 > [!TIP]
 > Unlike previous Mistral models, Mistral Nemo requires smaller temperatures. We recommend to use a temperature of 0.3.

 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ```
 > [!TIP]
 > Unlike previous Mistral models, Mistral Nemo requires smaller temperatures. We recommend to use a temperature of 0.3.