Spaces:

Alaaeldin
/

llama-app

Sleeping

App Files Files Community

Alaaeldin commited on Jan 19

Commit

2e86fc7

verified ·

1 Parent(s): 8a0a858

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -37

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import torch
 import os
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel, PeftConfig
-from huggingface_hub import login, HfApi
 # Set page config for better display
 st.set_page_config(page_title="LLaMA Chatbot", page_icon="🦙")
@@ -16,7 +16,7 @@ if torch.cuda.is_available():
 else:
     st.sidebar.warning("⚠️ CUDA is not available. Using CPU.")
-# Debug token access and authentication
 try:
     # Try to get token
     hf_token = os.environ.get("HF_TOKEN")
@@ -25,17 +25,6 @@ try:
     if hf_token:
         st.info(f"Token found! First 4 characters: {hf_token[:4]}...")
-        # Test token validity
-        api = HfApi()
-        try:
-            user_info = api.whoami(token=hf_token)
-            st.success(f"Token validated! Associated with user: {user_info.name}")
-        except Exception as e:
-            st.error(f"Token validation failed: {str(e)}")
-            st.stop()
-        # Try login
         login(token=hf_token)
         status_placeholder.success("🔑 Successfully logged in to Hugging Face!")
     else:
@@ -94,7 +83,7 @@ if model and tokenizer:
             st.markdown(message["content"])
     # Chat input
-    if prompt := st.chat_input("Your message"):
         # Add user message to chat history
         st.session_state.messages.append({"role": "user", "content": prompt})
@@ -104,29 +93,32 @@ if model and tokenizer:
         # Generate response
         with st.chat_message("assistant"):
-            with st.spinner("🤔 Thinking..."):
-                # Prepare input
-                inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-                # Generate response
-                with torch.no_grad():
-                    outputs = model.generate(
-                        inputs["input_ids"],
-                        max_length=200,
-                        num_return_sequences=1,
-                        temperature=0.7,
-                        do_sample=True,
-                        pad_token_id=tokenizer.eos_token_id
-                    )
-                # Decode response
-                response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-                # Display response
-                st.markdown(response)
-                # Add assistant response to chat history
-                st.session_state.messages.append({"role": "assistant", "content": response})
 else:
     st.error("⚠️ Model loading failed. Please check the error messages above.")

 import os
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel, PeftConfig
+from huggingface_hub import login
 # Set page config for better display
 st.set_page_config(page_title="LLaMA Chatbot", page_icon="🦙")
 else:
     st.sidebar.warning("⚠️ CUDA is not available. Using CPU.")
+# Authentication with simplified token handling
 try:
     # Try to get token
     hf_token = os.environ.get("HF_TOKEN")
     if hf_token:
         st.info(f"Token found! First 4 characters: {hf_token[:4]}...")
         login(token=hf_token)
         status_placeholder.success("🔑 Successfully logged in to Hugging Face!")
     else:
             st.markdown(message["content"])
     # Chat input
+    if prompt := st.chat_input("Speak thy mind..."):
         # Add user message to chat history
         st.session_state.messages.append({"role": "user", "content": prompt})
         # Generate response
         with st.chat_message("assistant"):
+            with st.spinner("🤔 Composing a verse..."):
+                try:
+                    # Prepare input
+                    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+                    # Generate response
+                    with torch.no_grad():
+                        outputs = model.generate(
+                            inputs["input_ids"],
+                            max_length=200,
+                            num_return_sequences=1,
+                            temperature=0.7,
+                            do_sample=True,
+                            pad_token_id=tokenizer.eos_token_id
+                        )
+                    # Decode response
+                    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+                    # Display response
+                    st.markdown(response)
+                    # Add assistant response to chat history
+                    st.session_state.messages.append({"role": "assistant", "content": response})
+                except Exception as e:
+                    st.error(f"Error generating response: {str(e)}")
 else:
     st.error("⚠️ Model loading failed. Please check the error messages above.")