Spaces:

joermd
/

speedy-llm

Paused

App Files Files Community

joermd commited on Nov 11, 2024

Commit

9ccef71

verified ·

1 Parent(s): 74011b4

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -24

app.py CHANGED Viewed

@@ -3,56 +3,41 @@ import streamlit as st
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import os
 # Random dog images for error messages
 random_dog = [
     "0f476473-2d8b-415e-b944-483768418a95.jpg",
     "1bd75c81-f1d7-4e55-9310-a27595fa8762.jpg",
 ]
 def reset_conversation():
     '''Resets conversation'''
     st.session_state.conversation = []
     st.session_state.messages = []
     return None
 # Sidebar controls
 temp_values = st.sidebar.slider('Select a temperature value', 0.0, 1.0, 0.5)
 max_token_value = st.sidebar.slider('Select a max_token value', 1000, 9000, 5000)
 st.sidebar.button('Reset Chat', on_click=reset_conversation)
 # Initialize chat history
 if "messages" not in st.session_state:
     st.session_state.messages = []
 # Display chat messages from history on app rerun
 for message in st.session_state.messages:
     with st.chat_message(message["role"]):
         st.markdown(message["content"])
 # Set cache directory path to /data
-cache_dir = "/data"
 # Load model and tokenizer on-demand to save memory
 if prompt := st.chat_input(f"مرحبا انا سبيدي , كيف استطيع مساعدتك ؟"):
     with st.chat_message("user"):
         st.markdown(prompt)
     st.session_state.messages.append({"role": "user", "content": prompt})
     try:
-        # Load the tokenizer and model with specific configuration
-        tokenizer = AutoTokenizer.from_pretrained(
-            "joermd/llma-speedy",
-            cache_dir=cache_dir,
-            local_files_only=False  # السماح بتحميل الملفات المتوفرة فقط
-        )
-        model = AutoModelForCausalLM.from_pretrained(
-            "joermd/llma-speedy",
-            cache_dir=cache_dir,
-            local_files_only=False,  # السماح بتحميل الملفات المتوفرة فقط
-            ignore_missing_weights=True  # تجاهل الأوزان المفقودة
-        )
         # Generate response
         inputs = tokenizer(prompt, return_tensors="pt")
@@ -64,7 +49,7 @@ if prompt := st.chat_input(f"مرحبا انا سبيدي , كيف استطيع
         )
         assistant_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        # Clear memory
         if torch.cuda.is_available():
             torch.cuda.empty_cache()
         del model
@@ -74,7 +59,6 @@ if prompt := st.chat_input(f"مرحبا انا سبيدي , كيف استطيع
         st.image(f'https://random.dog/{random_dog[np.random.randint(len(random_dog))]}')
         st.write("Error message:")
         st.write(e)
     # Display assistant response
     with st.chat_message("assistant"):
         st.markdown(assistant_response)

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import os
 # Random dog images for error messages
 random_dog = [
     "0f476473-2d8b-415e-b944-483768418a95.jpg",
     "1bd75c81-f1d7-4e55-9310-a27595fa8762.jpg",
+    # Add more images as needed
 ]
+# Function to reset conversation
 def reset_conversation():
     '''Resets conversation'''
     st.session_state.conversation = []
     st.session_state.messages = []
     return None
 # Sidebar controls
 temp_values = st.sidebar.slider('Select a temperature value', 0.0, 1.0, 0.5)
 max_token_value = st.sidebar.slider('Select a max_token value', 1000, 9000, 5000)
 st.sidebar.button('Reset Chat', on_click=reset_conversation)
 # Initialize chat history
 if "messages" not in st.session_state:
     st.session_state.messages = []
 # Display chat messages from history on app rerun
 for message in st.session_state.messages:
     with st.chat_message(message["role"]):
         st.markdown(message["content"])
 # Set cache directory path to /data
+cache_dir = "/data"  # المسار المحدد للتخزين في مساحة Hugging Face
 # Load model and tokenizer on-demand to save memory
 if prompt := st.chat_input(f"مرحبا انا سبيدي , كيف استطيع مساعدتك ؟"):
     with st.chat_message("user"):
         st.markdown(prompt)
     st.session_state.messages.append({"role": "user", "content": prompt})
+    # Load model only when user submits a prompt
     try:
+        # Load the tokenizer and model with caching in the specified directory
+        tokenizer = AutoTokenizer.from_pretrained("joermd/llma-speedy", cache_dir=cache_dir)
+        model = AutoModelForCausalLM.from_pretrained("joermd/llma-speedy", cache_dir=cache_dir)
         # Generate response
         inputs = tokenizer(prompt, return_tensors="pt")
         )
         assistant_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        # Clear memory (for CUDA) and delete the model to free up RAM
         if torch.cuda.is_available():
             torch.cuda.empty_cache()
         del model
         st.image(f'https://random.dog/{random_dog[np.random.randint(len(random_dog))]}')
         st.write("Error message:")
         st.write(e)
     # Display assistant response
     with st.chat_message("assistant"):
         st.markdown(assistant_response)