Spaces:

stcoats
/

tspace

Sleeping

App Files Files Community

stcoats commited on Mar 14

Commit

4cf6559

1 Parent(s): af343b5

Add application file

Browse files

Files changed (1) hide show

app.py +47 -27

app.py CHANGED Viewed

@@ -2,52 +2,72 @@ import os
 import duckdb
 import streamlit as st
 from huggingface_hub import hf_hub_download
-HF_REPO_ID = "stcoats/temp-duckdb-upload"   # Replace with your actual dataset repo if needed
 HF_FILENAME = "ycsep.duckdb"
 LOCAL_PATH = "./ycsep.duckdb"
 st.title("YCSEP Audio Dataset Viewer")
-# Check if file exists
 if not os.path.exists(LOCAL_PATH):
-    st.write("Database not found locally. Downloading from HF Hub...")
-    try:
-        downloaded_path = hf_hub_download(
-            repo_id=HF_REPO_ID,
-            repo_type="dataset",
-            filename=HF_FILENAME,
-            local_dir="."  # Saves as ./ycsep.duckdb automatically
-        )
-        st.success(f"Downloaded: {downloaded_path}")
-    except Exception as e:
-        st.error(f"Download failed: {e}")
-        st.stop()
 else:
-    st.write("Found local DuckDB file.")
-# Try connecting to the DB
 try:
     con = duckdb.connect(LOCAL_PATH, read_only=True)
     st.success("Connected to DuckDB.")
 except Exception as e:
-    st.error(f"Failed to connect to DuckDB: {e}")
     st.stop()
-# Query first page without loading everything into memory
-st.write("Querying first 10 rows...")
 try:
-    cursor = con.execute("SELECT speaker, text, audio FROM data LIMIT 10")
-    rows = cursor.fetchall()
-    for speaker, text, audio in rows:
-        st.markdown(f"**Speaker:** {speaker}")
-        st.markdown(f"**Text:** {text}")
-        if isinstance(audio, str) and audio.startswith("http"):
-            st.audio(audio, format="audio/mp3")
         else:
-            st.warning("Audio not available")
         st.markdown("---")
 except Exception as e:
     st.error(f"DuckDB query failed: {e}")

 import duckdb
 import streamlit as st
 from huggingface_hub import hf_hub_download
+import pandas as pd
+import tempfile
+HF_REPO_ID = "stcoats/temp-duckdb-upload"
 HF_FILENAME = "ycsep.duckdb"
 LOCAL_PATH = "./ycsep.duckdb"
 st.title("YCSEP Audio Dataset Viewer")
 if not os.path.exists(LOCAL_PATH):
+    st.write("Downloading from HF Hub...")
+    downloaded_path = hf_hub_download(
+        repo_id=HF_REPO_ID,
+        repo_type="dataset",
+        filename=HF_FILENAME,
+        local_dir="."
+    )
+    st.success(f"Downloaded: {downloaded_path}")
 else:
+    st.write("DuckDB file already exists.")
 try:
     con = duckdb.connect(LOCAL_PATH, read_only=True)
     st.success("Connected to DuckDB.")
 except Exception as e:
+    st.error(f"Failed to connect: {e}")
     st.stop()
+query = st.text_input("Search text or speaker (case-insensitive)")
+if query:
+    query_sql = f"""
+        SELECT speaker, text, audio FROM data
+        WHERE LOWER(text) LIKE '%{query.lower()}%'
+           OR LOWER(speaker) LIKE '%{query.lower()}%'
+        LIMIT 25
+    """
+else:
+    query_sql = "SELECT speaker, text, audio FROM data LIMIT 25"
 try:
+    df = con.execute(query_sql).df()
+    st.write(f"Showing {len(df)} results")
+    # Display text/speaker table
+    st.dataframe(df[['speaker', 'text']], use_container_width=True)
+    st.write("---")
+    st.markdown("### Audio Previews:")
+    for i, row in df.iterrows():
+        st.markdown(f"**Speaker:** {row['speaker']}")
+        st.markdown(f"{row['text']}")
+        # Write audio bytes to temp file
+        audio_bytes = row['audio']
+        if isinstance(audio_bytes, (bytes, bytearray)):
+            with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp_audio:
+                tmp_audio.write(audio_bytes)
+                tmp_audio_path = tmp_audio.name
+            st.audio(tmp_audio_path, format="audio/mp3")
         else:
+            st.warning("Audio not available or in unexpected format.")
         st.markdown("---")
 except Exception as e:
     st.error(f"DuckDB query failed: {e}")