Spaces:

Heit39
/

iris

Sleeping

App Files Files Community

IST199655 commited on Dec 7, 2024

Commit

344f6f5

1 Parent(s): f7bf18e

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -55

app.py CHANGED Viewed

@@ -10,72 +10,19 @@ import torch
 from threading import Thread
 # Load model and tokenizer globally to avoid reloading for every request
 model_path = "Heit39/llama_lora_model_1"
 # Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=True, legacy=False)
 # Load the base model (e.g., LLaMA)
-base_model = AutoModelForCausalLM.from_pretrained("unsloth/Llama-3.2-3B-Instruct")
 # Load LoRA adapter
 from peft import PeftModel
 model = PeftModel.from_pretrained(base_model, model_path)
-# Define the response function
-# def respond(
-#     message: str,
-#     history: list[tuple[str, str]],
-#     system_message: str,
-#     max_tokens: int,
-#     temperature: float,
-#     top_p: float,
-# ):
-#     # Combine system message and history into a single prompt
-#     messages = [{"role": "system", "content": system_message}]
-#     for val in history:
-#         if val[0]:
-#             messages.append({"role": "user", "content": val[0]})
-#         if val[1]:
-#             messages.append({"role": "assistant", "content": val[1]})
-#     messages.append({"role": "user", "content": message})
-#     # Create a single text prompt from the messages
-#     prompt = ""
-#     for msg in messages:
-#         if msg["role"] == "system":
-#             prompt += f"[System]: {msg['content']}\n\n"
-#         elif msg["role"] == "user":
-#             prompt += f"[User]: {msg['content']}\n\n"
-#         elif msg["role"] == "assistant":
-#             prompt += f"[Assistant]: {msg['content']}\n\n"
-#     # Tokenize the prompt
-#     inputs = tokenizer(prompt, return_tensors="pt", truncation=True)
-#     input_ids = inputs.input_ids.to("cpu")  # Ensure input is on the CPU
-#     # Generate response
-#     output_ids = model.generate(
-#         input_ids,
-#         max_length=input_ids.shape[1] + max_tokens,
-#         temperature=temperature,
-#         top_p=top_p,
-#         do_sample=True,
-#     )
-#     # Decode the generated text
-#     generated_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
-#     # Extract the assistant's response from the generated text
-#     assistant_response = generated_text[len(prompt):].strip()
-#     # Yield responses incrementally (simulate streaming)
-#     response = ""
-#     for token in assistant_response.split():  # Split tokens by whitespace
-#         response += token + " "
-#         yield response.strip()
 def respond(
     message: str,
     history: list[tuple[str, str]],

 from threading import Thread
 # Load model and tokenizer globally to avoid reloading for every request
+base_model = "unsloth/Llama-3.2-3B-Instruct"
 model_path = "Heit39/llama_lora_model_1"
 # Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=True, legacy=False)
 # Load the base model (e.g., LLaMA)
+base_model = AutoModelForCausalLM.from_pretrained(base_model)
 # Load LoRA adapter
 from peft import PeftModel
 model = PeftModel.from_pretrained(base_model, model_path)
 def respond(
     message: str,
     history: list[tuple[str, str]],