Spaces:

ryanpdwyer
/

instruction-tuning

Build error

App Files Files Community

ryanpdwyer commited on Sep 19, 2024

Commit

3618983

1 Parent(s): af6ac26

Add application file

Browse files

Files changed (1) hide show

app.py +43 -0

app.py ADDED Viewed

	@@ -0,0 +1,43 @@

+import streamlit as st
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+# Load models and tokenizers
+@st.cache_resource
+def load_model_and_tokenizer(model_name):
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    # Load the model in 8-bit quantization
+    model = AutoModelForCausalLM.from_pretrained(model_name, device_map="cpu", load_in_8bit=True)
+    return model, tokenizer
+model_8b, tokenizer_8b = load_model_and_tokenizer("huggyllama/llama-3.1-8b")
+model_8b_instruct, tokenizer_8b_instruct = load_model_and_tokenizer("huggyllama/llama-3.1-8b-instruct")
+def generate_text(model, tokenizer, prompt, max_length=100):
+    inputs = tokenizer(prompt, return_tensors="pt")
+    with torch.no_grad():
+        outputs = model.generate(**inputs, max_length=max_length, num_return_sequences=1)
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+st.title("LLaMA-3.1-8B vs LLaMA-3.1-8B-Instruct Comparison (CPU Version)")
+prompt = st.text_area("Enter your prompt:", height=100)
+max_length = st.slider("Max output length:", min_value=50, max_value=500, value=100)
+if st.button("Generate"):
+    if prompt:
+        st.warning("Generation may take several minutes. Please be patient.")
+        col1, col2 = st.columns(2)
+        with col1:
+            st.subheader("LLaMA-3.1-8B Output")
+            output_8b = generate_text(model_8b, tokenizer_8b, prompt, max_length)
+            st.write(output_8b)
+        with col2:
+            st.subheader("LLaMA-3.1-8B-Instruct Output")
+            output_8b_instruct = generate_text(model_8b_instruct, tokenizer_8b_instruct, prompt, max_length)
+            st.write(output_8b_instruct)
+    else:
+        st.warning("Please enter a prompt.")