Spaces:

stcoats
/

tspace

Sleeping

App Files Files Community

stcoats commited on Mar 14

Commit

0659f43

1 Parent(s): 65c9ca0

Add application file

Browse files

Files changed (1) hide show

app.py +20 -60

app.py CHANGED Viewed

@@ -2,77 +2,37 @@ import os
 import duckdb
 import streamlit as st
 from huggingface_hub import hf_hub_download
-import pandas as pd
-import tempfile
 HF_REPO_ID = "stcoats/temp-duckdb-upload"
 HF_FILENAME = "ycsep.duckdb"
 LOCAL_PATH = "./ycsep.duckdb"
-st.set_page_config(layout="wide")
-st.title("YCSEP Audio Dataset Viewer")
-# Download database if missing
 if not os.path.exists(LOCAL_PATH):
-    st.write("Downloading from HF Hub...")
     hf_hub_download(
         repo_id=HF_REPO_ID,
         repo_type="dataset",
         filename=HF_FILENAME,
         local_dir="."
     )
-    st.success("Download complete.")
-# Connect
-try:
-    con = duckdb.connect(LOCAL_PATH, read_only=True)
-    st.success("Connected to DuckDB.")
-except Exception as e:
-    st.error(f"DuckDB connection failed: {e}")
-    st.stop()
-# Search
-query = st.text_input("Search text or speaker", "")
-query = query.strip().lower()
-if query:
-    sql = """
-        SELECT speaker, text, audio
-        FROM data
-        WHERE LOWER(CAST(speaker AS VARCHAR)) LIKE ? OR LOWER(CAST(text AS VARCHAR)) LIKE ?
-        LIMIT 100
-    """
-    df = con.execute(sql, [f"%{query}%", f"%{query}%"]).df()
-else:
-    df = con.execute("SELECT speaker, text, audio FROM data LIMIT 100").df()
-st.markdown(f"### Showing {len(df)} results")
-if len(df) == 0:
-    st.warning("No matches found.")
-# Show table with inline audio players
-for i, row in df.iterrows():
-    col1, col2, col3 = st.columns([2, 5, 3])
-    col1.markdown(f"**{row['speaker']}**")
-    col2.markdown(row['text'])
-    audio_data = row["audio"]
-    try:
-        if isinstance(audio_data, (bytes, bytearray, memoryview)):
-            audio_bytes = bytes(audio_data)
-        elif isinstance(audio_data, list):  # DuckDB sometimes gives list[int]
-            audio_bytes = bytes(audio_data)
-        else:
-            audio_bytes = None
-        if audio_bytes:
-            with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmpfile:
-                tmpfile.write(audio_bytes)
-                tmpfile.flush()
-                col3.audio(tmpfile.name, format="audio/mp3")
-        else:
-            col3.warning("Audio missing or invalid format.")
-    except Exception as e:
-        col3.error(f"Audio error: {e}")

 import duckdb
 import streamlit as st
 from huggingface_hub import hf_hub_download
 HF_REPO_ID = "stcoats/temp-duckdb-upload"
 HF_FILENAME = "ycsep.duckdb"
 LOCAL_PATH = "./ycsep.duckdb"
+st.title("YCSEP Audio Debug")
 if not os.path.exists(LOCAL_PATH):
+    st.write("Downloading DB...")
     hf_hub_download(
         repo_id=HF_REPO_ID,
         repo_type="dataset",
         filename=HF_FILENAME,
         local_dir="."
     )
+    st.success("Downloaded.")
+con = duckdb.connect(LOCAL_PATH, read_only=True)
+st.markdown("### Raw Preview")
+df = con.execute("SELECT speaker, text, audio FROM data LIMIT 5").fetchall()
+for row in df:
+    speaker, text, audio = row
+    st.write(f"Speaker: {speaker}")
+    st.write(f"Text: {text}")
+    st.write(f"AUDIO TYPE: {type(audio)}")
+    st.write(f"AUDIO LENGTH: {len(audio) if hasattr(audio, '__len__') else 'n/a'}")
+    if isinstance(audio, (bytes, bytearray, memoryview)):
+        st.audio(audio, format="audio/mp3")
+    else:
+        st.warning("Audio not valid binary")
+    st.markdown("---")