INSAIT-Institute
/

BgGPT-Gemma-2-2.6B-IT-v1.0

Text Generation

text-generation-inference

Model card Files Files and versions Community

lordjimen commited on Nov 29, 2024

Commit

87def42

·

verified ·

1 Parent(s): 98d6429

Update README.md

Files changed (1) hide show

README.md +81 -0

README.md CHANGED Viewed

@@ -131,6 +131,87 @@ print(tokenizer.decode(outputs[0]))
 **Important Note:** Models based on Gemma 2 such as BgGPT-Gemma-2-2.6B-IT-v1.0 do not support flash attention. Using it results in degraded performance.
 # Use with GGML / llama.cpp
 The model and instructions for usage in GGUF format are available at [INSAIT-Institute/BgGPT-Gemma-2-2.6B-IT-v1.0-GGUF](https://huggingface.co/INSAIT-Institute/BgGPT-Gemma-2-2.6B-IT-v1.0-GGUF).

 **Important Note:** Models based on Gemma 2 such as BgGPT-Gemma-2-2.6B-IT-v1.0 do not support flash attention. Using it results in degraded performance.
+```python
+tokenizer = AutoTokenizer.from_pretrained(
+    "INSAIT-Institute/BgGPT-Gemma-2-27B-IT-v1.0",
+    use_default_system_prompt=False,
+)
+messages = [
+    {"role": "user", "content": "Кога е основан Софийският университет?"},
+]
+input_ids = tokenizer.apply_chat_template(
+  messages,
+  return_tensors="pt",
+  add_generation_prompt=True,
+  return_dict=True
+)
+outputs = model.generate(
+  **input_ids,
+  generation_config=generation_params
+)
+print(tokenizer.decode(outputs[0]))
+```
+**Important Note:** Models based on Gemma 2 such as BgGPT-Gemma-2-2.6B-IT-v1.0 do not support flash attention. Using it results in degraded performance.
+# Use with vLLM
+Example usage with vLLM:
+```python
+from vllm import LLM, SamplingParams
+from vllm.inputs import TokensPrompt
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained(
+    "INSAIT-Institute/BgGPT-Gemma-2-2.6B-IT-v1.0",
+    use_default_system_prompt=False,
+)
+sampling_params = SamplingParams(
+    max_tokens=2048,
+    temperature=0.1,
+    top_k=25,
+    top_p=1,
+    repetition_penalty=1.1,
+    stop_token_ids=[1, 107],
+)
+llm = LLM(
+    model="INSAIT-Institute/BgGPT-Gemma-2-2.6B-IT-v1.0",
+    dtype="bfloat16",
+    enforce_eager=True
+)
+messages = [
+    {"role": "user", "content": "Кога е основан Софийският университет?"},
+]
+formatted_prompt = tokenizer.apply_chat_template(
+    messages,
+    tokenize=False,
+    add_generation_prompt=True
+)
+input_ids = tokenizer(
+    formatted_prompt,
+    add_special_tokens=False
+).input_ids
+prompt = TokensPrompt(prompt_token_ids=input_ids)
+output = llm.generate(
+    prompt,
+    sampling_params
+)
+generated_text = output[0].outputs[0].text
+print(generated_text)
+```
 # Use with GGML / llama.cpp
 The model and instructions for usage in GGUF format are available at [INSAIT-Institute/BgGPT-Gemma-2-2.6B-IT-v1.0-GGUF](https://huggingface.co/INSAIT-Institute/BgGPT-Gemma-2-2.6B-IT-v1.0-GGUF).