Turkish-Llama-8b-DPO-v0.1

Sleeping

ysdede commited on Dec 20, 2024

Commit

012c0fa

1 Parent(s): b327205

Refactor app.py to integrate Turkish LLaMA 8B model

- Updated model loading to use bfloat16 precision.
- Added terminators for proper message handling.
- Included `add_generation_prompt=True` in the tokenizer's chat template application.
- Enhanced the system prompt with a default instruction for the AI assistant.
- Updated examples to reflect relevant Turkish language queries.

Files changed (1) hide show

app.py +17 -6

app.py CHANGED Viewed

@@ -40,10 +40,15 @@ if torch.cuda.is_available():
     model = AutoModelForCausalLM.from_pretrained(
         model_id,
         device_map="auto",
-        torch_dtype=torch.float16,
     )
     tokenizer = AutoTokenizer.from_pretrained(model_id)
     tokenizer.use_default_system_prompt = False
 @spaces.GPU
@@ -63,7 +68,11 @@ def generate(
     conversation += chat_history
     conversation.append({"role": "user", "content": message})
-    input_ids = tokenizer.apply_chat_template(conversation, return_tensors="pt")
     if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning(f"Trimmed input from conversation as it was longer than {MAX_INPUT_TOKEN_LENGTH} tokens.")
@@ -80,6 +89,7 @@ def generate(
         temperature=temperature,
         num_beams=1,
         repetition_penalty=repetition_penalty,
     )
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
@@ -93,7 +103,11 @@ def generate(
 chat_interface = gr.ChatInterface(
     fn=generate,
     additional_inputs=[
-        gr.Textbox(label="System prompt", lines=6),
         gr.Slider(
             label="Max new tokens",
             minimum=1,
@@ -133,10 +147,7 @@ chat_interface = gr.ChatInterface(
     stop_btn=None,
     examples=[
         ["Merhaba! Nasılsın?"],
-        ["Python programlama dilini kısaca açıklayabilir misin?"],
-        ["Külkedisi masalının özetini bir cümlede anlat."],
         ["Yapay zeka alanında açık kaynak kodun faydaları nelerdir?"],
-        ["İstanbul'un en ünlü turistik yerlerini sıralar mısın?"],
     ],
     cache_examples=False,
     type="messages",

     model = AutoModelForCausalLM.from_pretrained(
         model_id,
         device_map="auto",
+        torch_dtype=torch.bfloat16,
     )
     tokenizer = AutoTokenizer.from_pretrained(model_id)
     tokenizer.use_default_system_prompt = False
+    TERMINATORS = [
+        tokenizer.eos_token_id,
+        tokenizer.convert_tokens_to_ids("<|eot_id|>")
+    ]
 @spaces.GPU
     conversation += chat_history
     conversation.append({"role": "user", "content": message})
+    input_ids = tokenizer.apply_chat_template(
+        conversation,
+        add_generation_prompt=True,
+        return_tensors="pt"
+    )
     if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
         input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
         gr.Warning(f"Trimmed input from conversation as it was longer than {MAX_INPUT_TOKEN_LENGTH} tokens.")
         temperature=temperature,
         num_beams=1,
         repetition_penalty=repetition_penalty,
+        eos_token_id=TERMINATORS,
     )
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
 chat_interface = gr.ChatInterface(
     fn=generate,
     additional_inputs=[
+        gr.Textbox(
+            label="System prompt",
+            lines=6,
+            value="Sen bir yapay zeka asistanısın. Kullanıcı sana bir görev verecek. Amacın görevi olabildiğince sadık bir şekilde tamamlamak. Görevi yerine getirirken adım adım düşün ve adımlarını gerekçelendir.",
+        ),
         gr.Slider(
             label="Max new tokens",
             minimum=1,
     stop_btn=None,
     examples=[
         ["Merhaba! Nasılsın?"],
         ["Yapay zeka alanında açık kaynak kodun faydaları nelerdir?"],
     ],
     cache_examples=False,
     type="messages",