Spaces:

dsleo
/

math-dedup

Sleeping

App Files Files Community

dsleo commited on Feb 6

Commit

74d7b60

verified ·

1 Parent(s): 17186a1

fix filtering

Browse files

Files changed (1) hide show

app.py +30 -25

app.py CHANGED Viewed

@@ -15,6 +15,14 @@ st.set_page_config(
     initial_sidebar_state="expanded"
 )
 # Load a pre-trained model for embeddings with HF caching
 @st.cache_resource
 def load_model():
@@ -38,7 +46,6 @@ def load_data():
         return df[["uuid", "problem", "source", "question_type", "problem_type"]]
     except Exception as e:
         st.error(f"Error loading dataset: {e}")
-        # Return empty DataFrame with correct columns if loading fails
         return pd.DataFrame(columns=["uuid", "problem", "source", "question_type", "problem_type"])
 # Cache embeddings computation with error handling
@@ -51,13 +58,11 @@ def compute_embeddings(problems):
         st.error(f"Error computing embeddings: {e}")
         return np.array([])
-# ================== FUNCTION DEFINITIONS ==================
 def find_similar_problems(df, similarity_threshold=0.9, progress_bar=None):
     """Find similar problems using cosine similarity, optimized for speed."""
     if df.empty:
         return []
-    # Compute embeddings with progress tracking
     embeddings = compute_embeddings(df['problem'].tolist())
     if embeddings.size == 0:
         return []
@@ -65,17 +70,14 @@ def find_similar_problems(df, similarity_threshold=0.9, progress_bar=None):
     if progress_bar:
         progress_bar.progress(0.33, "Computing similarity matrix...")
-    # Compute similarity matrix
     similarity_matrix = util.cos_sim(embeddings, embeddings).numpy()
     if progress_bar:
         progress_bar.progress(0.66, "Finding similar pairs...")
-    # Use numpy operations for better performance
     num_problems = len(df)
     upper_triangle_indices = np.triu_indices(num_problems, k=1)
     similarity_scores = similarity_matrix[upper_triangle_indices]
-    # Filter based on threshold
     mask = similarity_scores > similarity_threshold
     filtered_indices = np.where(mask)[0]
@@ -121,19 +123,22 @@ def analyze_clusters(_df, pairs):
         })
     return detailed_analysis
-# ================== STREAMLIT UI ==================
 def main():
     st.title("🔍 Problem Deduplication Explorer")
-    # Check if model loaded successfully
     if model is None:
         st.error("Failed to load the model. Please try again later.")
         return
-    # Initialize session state for pagination
-    if 'page_number' not in st.session_state:
-        st.session_state.page_number = 0
     # Sidebar configuration
     with st.sidebar:
         st.header("Settings")
@@ -168,12 +173,13 @@ def main():
         )
     # Analysis section
-    if st.sidebar.button("Run Deduplication Analysis", type="primary"):
-        progress_bar = st.progress(0, "Starting analysis...")
-        # Run analysis
-        pairs = find_similar_problems(df, similarity_threshold, progress_bar)
-        results = analyze_clusters(df, pairs)
         if not results:
             st.warning("No similar problems found with the current threshold.")
@@ -189,18 +195,17 @@ def main():
         with col2:
             selected_qtype = st.selectbox("Filter by Question Type", [None] + question_types)
-        # Apply filters
-        if selected_source:
-            results = [r for r in results if df[df["uuid"] == r["base_uuid"]]["source"].values[0] == selected_source]
-        if selected_qtype:
-            results = [r for r in results if df[df["uuid"] == r["base_uuid"]]["question_type"].values[0] == selected_qtype]
-        if not results:
             st.warning("No results found with the current filters.")
             return
         # Pagination
-        total_pages = len(results) // items_per_page
         col1, col2, col3 = st.columns([1, 3, 1])
         with col1:
@@ -215,7 +220,7 @@ def main():
         # Display results
         start_idx = st.session_state.page_number * items_per_page
         end_idx = start_idx + items_per_page
-        page_results = results[start_idx:end_idx]
         for entry in page_results:
             with st.container():

     initial_sidebar_state="expanded"
 )
+# Initialize session state
+if 'page_number' not in st.session_state:
+    st.session_state.page_number = 0
+if 'analysis_results' not in st.session_state:
+    st.session_state.analysis_results = None
+if 'filtered_results' not in st.session_state:
+    st.session_state.filtered_results = None
 # Load a pre-trained model for embeddings with HF caching
 @st.cache_resource
 def load_model():
         return df[["uuid", "problem", "source", "question_type", "problem_type"]]
     except Exception as e:
         st.error(f"Error loading dataset: {e}")
         return pd.DataFrame(columns=["uuid", "problem", "source", "question_type", "problem_type"])
 # Cache embeddings computation with error handling
         st.error(f"Error computing embeddings: {e}")
         return np.array([])
 def find_similar_problems(df, similarity_threshold=0.9, progress_bar=None):
     """Find similar problems using cosine similarity, optimized for speed."""
     if df.empty:
         return []
     embeddings = compute_embeddings(df['problem'].tolist())
     if embeddings.size == 0:
         return []
     if progress_bar:
         progress_bar.progress(0.33, "Computing similarity matrix...")
     similarity_matrix = util.cos_sim(embeddings, embeddings).numpy()
     if progress_bar:
         progress_bar.progress(0.66, "Finding similar pairs...")
     num_problems = len(df)
     upper_triangle_indices = np.triu_indices(num_problems, k=1)
     similarity_scores = similarity_matrix[upper_triangle_indices]
     mask = similarity_scores > similarity_threshold
     filtered_indices = np.where(mask)[0]
         })
     return detailed_analysis
+def apply_filters(results, df, selected_source, selected_qtype):
+    """Apply filters to results."""
+    filtered = results.copy()
+    if selected_source:
+        filtered = [r for r in filtered if df[df["uuid"] == r["base_uuid"]]["source"].values[0] == selected_source]
+    if selected_qtype:
+        filtered = [r for r in filtered if df[df["uuid"] == r["base_uuid"]]["question_type"].values[0] == selected_qtype]
+    return filtered
 def main():
     st.title("🔍 Problem Deduplication Explorer")
     if model is None:
         st.error("Failed to load the model. Please try again later.")
         return
     # Sidebar configuration
     with st.sidebar:
         st.header("Settings")
         )
     # Analysis section
+    if st.sidebar.button("Run Deduplication Analysis", type="primary") or st.session_state.analysis_results is not None:
+        if st.session_state.analysis_results is None:
+            progress_bar = st.progress(0, "Starting analysis...")
+            pairs = find_similar_problems(df, similarity_threshold, progress_bar)
+            st.session_state.analysis_results = analyze_clusters(df, pairs)
+        results = st.session_state.analysis_results
         if not results:
             st.warning("No similar problems found with the current threshold.")
         with col2:
             selected_qtype = st.selectbox("Filter by Question Type", [None] + question_types)
+        # Apply filters and store in session state
+        filtered_results = apply_filters(results, df, selected_source, selected_qtype)
+        st.session_state.filtered_results = filtered_results
+        if not filtered_results:
             st.warning("No results found with the current filters.")
             return
         # Pagination
+        total_pages = (len(filtered_results) - 1) // items_per_page
+        st.session_state.page_number = min(st.session_state.page_number, total_pages)
         col1, col2, col3 = st.columns([1, 3, 1])
         with col1:
         # Display results
         start_idx = st.session_state.page_number * items_per_page
         end_idx = start_idx + items_per_page
+        page_results = filtered_results[start_idx:end_idx]
         for entry in page_results:
             with st.container():