Spaces:

stcoats
/

tspace

Sleeping

App Files Files Community

stcoats commited on Mar 14

Commit

65c9ca0

1 Parent(s): 416c906

Add application file

Browse files

Files changed (1) hide show

app.py +41 -24

app.py CHANGED Viewed

@@ -5,17 +5,16 @@ from huggingface_hub import hf_hub_download
 import pandas as pd
 import tempfile
-# --- Config ---
-HF_REPO_ID = "stcoats/temp-duckdb-upload"  # Change if needed
 HF_FILENAME = "ycsep.duckdb"
 LOCAL_PATH = "./ycsep.duckdb"
 st.set_page_config(layout="wide")
 st.title("YCSEP Audio Dataset Viewer")
-# --- Download database if not present ---
 if not os.path.exists(LOCAL_PATH):
-    st.write("Downloading ycsep.duckdb from HF Hub...")
     hf_hub_download(
         repo_id=HF_REPO_ID,
         repo_type="dataset",
@@ -24,38 +23,56 @@ if not os.path.exists(LOCAL_PATH):
     )
     st.success("Download complete.")
-# --- Connect to DuckDB ---
-con = duckdb.connect(LOCAL_PATH, read_only=True)
-# --- Search input ---
-query = st.text_input("Search text or speaker (case-insensitive)", "")
-# --- Execute query ---
-if query.strip():
-    search_term = f"%{query.strip().lower()}%"
     sql = """
         SELECT speaker, text, audio
         FROM data
-        WHERE LOWER(speaker) LIKE ? OR LOWER(text) LIKE ?
         LIMIT 100
     """
-    df = con.execute(sql, [search_term, search_term]).df()
 else:
     df = con.execute("SELECT speaker, text, audio FROM data LIMIT 100").df()
-# --- Show results ---
-st.markdown("### Search Results")
-for idx, row in df.iterrows():
     col1, col2, col3 = st.columns([2, 5, 3])
     col1.markdown(f"**{row['speaker']}**")
     col2.markdown(row['text'])
-    audio_data = row['audio']
-    if isinstance(audio_data, (bytes, bytearray)):
-        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
-            tmp.write(audio_data)
-            tmp.flush()
-            col3.audio(tmp.name, format="audio/mp3")
-    else:
-        col3.warning("Audio not available or invalid format.")

 import pandas as pd
 import tempfile
+HF_REPO_ID = "stcoats/temp-duckdb-upload"
 HF_FILENAME = "ycsep.duckdb"
 LOCAL_PATH = "./ycsep.duckdb"
 st.set_page_config(layout="wide")
 st.title("YCSEP Audio Dataset Viewer")
+# Download database if missing
 if not os.path.exists(LOCAL_PATH):
+    st.write("Downloading from HF Hub...")
     hf_hub_download(
         repo_id=HF_REPO_ID,
         repo_type="dataset",
     )
     st.success("Download complete.")
+# Connect
+try:
+    con = duckdb.connect(LOCAL_PATH, read_only=True)
+    st.success("Connected to DuckDB.")
+except Exception as e:
+    st.error(f"DuckDB connection failed: {e}")
+    st.stop()
+# Search
+query = st.text_input("Search text or speaker", "")
+query = query.strip().lower()
+if query:
     sql = """
         SELECT speaker, text, audio
         FROM data
+        WHERE LOWER(CAST(speaker AS VARCHAR)) LIKE ? OR LOWER(CAST(text AS VARCHAR)) LIKE ?
         LIMIT 100
     """
+    df = con.execute(sql, [f"%{query}%", f"%{query}%"]).df()
 else:
     df = con.execute("SELECT speaker, text, audio FROM data LIMIT 100").df()
+st.markdown(f"### Showing {len(df)} results")
+if len(df) == 0:
+    st.warning("No matches found.")
+# Show table with inline audio players
+for i, row in df.iterrows():
     col1, col2, col3 = st.columns([2, 5, 3])
     col1.markdown(f"**{row['speaker']}**")
     col2.markdown(row['text'])
+    audio_data = row["audio"]
+    try:
+        if isinstance(audio_data, (bytes, bytearray, memoryview)):
+            audio_bytes = bytes(audio_data)
+        elif isinstance(audio_data, list):  # DuckDB sometimes gives list[int]
+            audio_bytes = bytes(audio_data)
+        else:
+            audio_bytes = None
+        if audio_bytes:
+            with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmpfile:
+                tmpfile.write(audio_bytes)
+                tmpfile.flush()
+                col3.audio(tmpfile.name, format="audio/mp3")
+        else:
+            col3.warning("Audio missing or invalid format.")
+    except Exception as e:
+        col3.error(f"Audio error: {e}")