Spaces:

steviel
/

ICML2025

Sleeping

App Files Files Community

stefanoviel commited on Jul 6

Commit

ce35c00

1 Parent(s): 70f287c

using tmp folder

Browse files

Files changed (1) hide show

src/streamlit_app.py +31 -17

src/streamlit_app.py CHANGED Viewed

@@ -1,20 +1,18 @@
 import os
 import streamlit as st
 import pandas as pd
 from sentence_transformers import SentenceTransformer, util
 import torch
-from spellchecker import SpellChecker # Import the spellchecker library
 from io import StringIO
 # --- Configuration ---
 EMBEDDING_MODEL = 'sentence-transformers/all-MiniLM-L6-v2'
-EMBEDDINGS_FILE = 'paper_embeddings.pt'
-DATA_FILE = 'papers_data.pkl'
 # --- Data Loading and Preparation ---
-# This is the raw data provided by the user.
-# In a real application, you might load this from a CSV file.
 CSV_FILE = 'papers_with_abstracts_parallel.csv'
 # --- Caching Functions ---
@@ -41,10 +39,14 @@ def create_and_save_embeddings(model, data_df):
     # Generate embeddings
     corpus_embeddings = model.encode(data_df['text_to_embed'].tolist(), convert_to_tensor=True, show_progress_bar=True)
-    # Save embeddings and dataframe
-    torch.save(corpus_embeddings, EMBEDDINGS_FILE)
-    data_df.to_pickle(DATA_FILE)
-    st.success("Embeddings and data saved successfully!")
     return corpus_embeddings, data_df
 def load_data_and_embeddings():
@@ -53,13 +55,26 @@ def load_data_and_embeddings():
     If files don't exist, it calls the creation function.
     """
     model = load_embedding_model()
     if os.path.exists(EMBEDDINGS_FILE) and os.path.exists(DATA_FILE):
-        corpus_embeddings = torch.load(EMBEDDINGS_FILE)
-        data_df = pd.read_pickle(DATA_FILE)
-    else:
-        # Load the raw data from the string
         data_df = pd.read_csv(CSV_FILE)
         corpus_embeddings, data_df = create_and_save_embeddings(model, data_df)
     return model, corpus_embeddings, data_df
@@ -91,7 +106,6 @@ def correct_query_spelling(query, spell_checker):
     return " ".join(corrected_words)
 def semantic_search(query, model, corpus_embeddings, data_df, top_k=10):
     """
     Performs semantic search on the loaded data.
@@ -142,7 +156,7 @@ try:
     with col1:
         search_query = st.text_input(
             "Enter your search query:",
-            placeholder="e.g., maschine lerning modles for time series"
         )
     with col2:
         top_k_results = st.number_input(
@@ -187,4 +201,4 @@ try:
 except Exception as e:
     st.error(f"An error occurred: {e}")
-    st.info("Please ensure all required libraries are installed (`pip install streamlit pandas sentence-transformers torch pyspellchecker`) and try again.")

 import os
 import streamlit as st
 import pandas as pd
 from sentence_transformers import SentenceTransformer, util
 import torch
+from spellchecker import SpellChecker
 from io import StringIO
 # --- Configuration ---
 EMBEDDING_MODEL = 'sentence-transformers/all-MiniLM-L6-v2'
+# Use /tmp directory for temporary files in Hugging Face Spaces
+EMBEDDINGS_FILE = '/tmp/paper_embeddings.pt'
+DATA_FILE = '/tmp/papers_data.pkl'
 # --- Data Loading and Preparation ---
 CSV_FILE = 'papers_with_abstracts_parallel.csv'
 # --- Caching Functions ---
     # Generate embeddings
     corpus_embeddings = model.encode(data_df['text_to_embed'].tolist(), convert_to_tensor=True, show_progress_bar=True)
+    # Save embeddings and dataframe to /tmp directory
+    try:
+        torch.save(corpus_embeddings, EMBEDDINGS_FILE)
+        data_df.to_pickle(DATA_FILE)
+        st.success("Embeddings and data saved successfully!")
+    except Exception as e:
+        st.warning(f"Could not save embeddings to disk: {e}. Will regenerate on each session.")
     return corpus_embeddings, data_df
 def load_data_and_embeddings():
     If files don't exist, it calls the creation function.
     """
     model = load_embedding_model()
+    # Check if files exist and are readable
     if os.path.exists(EMBEDDINGS_FILE) and os.path.exists(DATA_FILE):
+        try:
+            corpus_embeddings = torch.load(EMBEDDINGS_FILE)
+            data_df = pd.read_pickle(DATA_FILE)
+            return model, corpus_embeddings, data_df
+        except Exception as e:
+            st.warning(f"Could not load saved embeddings: {e}. Regenerating...")
+    # Load the raw data from CSV
+    try:
         data_df = pd.read_csv(CSV_FILE)
         corpus_embeddings, data_df = create_and_save_embeddings(model, data_df)
+    except FileNotFoundError:
+        st.error(f"CSV file '{CSV_FILE}' not found. Please ensure it's in your repository.")
+        st.stop()
+    except Exception as e:
+        st.error(f"Error loading data: {e}")
+        st.stop()
     return model, corpus_embeddings, data_df
     return " ".join(corrected_words)
 def semantic_search(query, model, corpus_embeddings, data_df, top_k=10):
     """
     Performs semantic search on the loaded data.
     with col1:
         search_query = st.text_input(
             "Enter your search query:",
+            placeholder="e.g., machine learning models for time series"
         )
     with col2:
         top_k_results = st.number_input(
 except Exception as e:
     st.error(f"An error occurred: {e}")
+    st.info("Please ensure all required libraries are installed and the CSV file is present in your repository.")