Spaces:

daresearch
/

llama-70-merge-space

Runtime error

daresearch commited on Dec 25, 2024

Commit

1fddc84

verified ·

1 Parent(s): aef46fe

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,34 +3,37 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 from peft import PeftModel
 import gradio as gr
-# Step 1: Define the base model and LoRA adapter
-base_model_name = "meta-llama/Llama-3.3-70B-Instruct"  # Replace with correct model name
 adapter_repo = "daresearch/Llama-3.3-70B-ft-exec-roles"
-# Step 2: Load the base model
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
     device_map="auto",
-    torch_dtype=torch.float16,  # Use FP16 precision
 )
-# Step 3: Load the LoRA adapter
 model_with_adapter = PeftModel.from_pretrained(
     base_model,
     adapter_repo,
     device_map="auto",
 )
-# Step 4: Load the tokenizer
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
-# Step 5: Define the inference function
 def generate_text(prompt, max_length=1024):
     inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=1024).to("cuda")
     outputs = model_with_adapter.generate(**inputs, max_length=max_length)
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
-# Step 6: Create the Gradio interface
 iface = gr.Interface(
     fn=generate_text,
     inputs=[
@@ -42,6 +45,6 @@ iface = gr.Interface(
     description="Generate text using a LLaMA model with LoRA adapters."
 )
-# Step 7: Launch the Gradio app
 if __name__ == "__main__":
     iface.launch()

 from peft import PeftModel
 import gradio as gr
+# Step 1: Load base model
+base_model_name = "meta-llama/Llama-3.3-70B-Instruct"
 adapter_repo = "daresearch/Llama-3.3-70B-ft-exec-roles"
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
     device_map="auto",
+    torch_dtype=torch.float16,
 )
+# Step 2: Load LoRA adapter
 model_with_adapter = PeftModel.from_pretrained(
     base_model,
     adapter_repo,
     device_map="auto",
 )
+print(f"Loaded LoRA adapter from {adapter_repo}")
+# Verify adapter configuration
+print(model_with_adapter.config)
+# Step 3: Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
+# Step 4: Define inference function
 def generate_text(prompt, max_length=1024):
     inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=1024).to("cuda")
     outputs = model_with_adapter.generate(**inputs, max_length=max_length)
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
+# Step 5: Create Gradio interface
 iface = gr.Interface(
     fn=generate_text,
     inputs=[
     description="Generate text using a LLaMA model with LoRA adapters."
 )
+# Step 6: Launch Gradio app
 if __name__ == "__main__":
     iface.launch()