Spaces:

FormosonBankDemos
/

paiwan_transcription

Sleeping

App Files Files Community

hunterschep commited on Apr 27

Commit

d954236

verified ·

1 Parent(s): df1c6c9

Update app.py

Browse files

Files changed (1) hide show

app.py +91 -231

app.py CHANGED Viewed

@@ -1,266 +1,126 @@
 import gradio as gr
-import torch
-import librosa
 from transformers import Wav2Vec2Processor, AutoModelForCTC
-import zipfile
-import os
 import firebase_admin
 from firebase_admin import credentials, firestore, storage
-from datetime import datetime, timedelta
-import json
-import tempfile
-import uuid
-# LOCAL INITIALIZATION - ONLY USE ON YOUR OWN DEVICE
-'''
-os.chdir(os.path.dirname(os.path.abspath(__file__)))
-cred = credentials.Certificate("serviceAccountKey.json")
-'''
-# Deployed Initialization
-firebase_config = json.loads(os.environ.get('firebase_creds'))
 cred = credentials.Certificate(firebase_config)
-firebase_admin.initialize_app(cred, {
-    "storageBucket": "amis-asr-corrections-dem-8cf3d.firebasestorage.app"
-})
 db = firestore.client()
 bucket = storage.bucket()
-# Load the ASR model and processor
 MODEL_NAME = "eleferrand/XLSR_paiwan"
 processor = Wav2Vec2Processor.from_pretrained(MODEL_NAME)
 model = AutoModelForCTC.from_pretrained(MODEL_NAME)
-# ────────────────────────────────
-# Core ASR helper functions
-# ────────────────────────────────
-def transcribe(audio_file: str):
-    """Run ASR on the uploaded audio file and return the raw transcription."""
     try:
-        audio, _ = librosa.load(audio_file, sr=16000)
-        input_values = processor(audio, sampling_rate=16000, return_tensors="pt").input_values
         with torch.no_grad():
-            logits = model(input_values).logits
-        predicted_ids = torch.argmax(logits, dim=-1)
-        transcription = processor.batch_decode(predicted_ids)[0]
-        return transcription.replace("[UNK]", "")
     except Exception as e:
         return f"處理文件錯誤: {e}"
-def transcribe_with_status(audio_file):
-    """Wrapper that provides UI‑friendly status messages."""
-    if audio_file is None:
-        return "", "", gr.update(value="請先上傳音訊 (Please upload audio first)", visible=True)
-    # Show processing message first
-    processing_msg = gr.update(value="處理中，請稍候… (Processing, please wait…)", visible=True)
-    transcription = transcribe(audio_file)
-    done_msg = gr.update(value="完成！(Done!)", visible=True)
-    return transcription, transcription, done_msg
-# ────────────────────────────────
-# Firebase helpers
-# ────────────────────────────────
-def store_correction(original_transcription, corrected_transcription, audio_file, age, native_speaker):
-    """Upload audio (if provided) + transcription pair to Firestore/Storage."""
     try:
-        audio_metadata, audio_file_url = {}, None
-        if audio_file and os.path.exists(audio_file):
-            audio, sr = librosa.load(audio_file, sr=44100)
-            audio_metadata = {
-                "duration": librosa.get_duration(y=audio, sr=sr),
-                "file_size": os.path.getsize(audio_file),
             }
-            uid = str(uuid.uuid4())
-            dst = f"audio/pai/{uid}.wav"
-            blob = bucket.blob(dst)
-            blob.upload_from_filename(audio_file)
-            audio_file_url = blob.generate_signed_url(expiration=timedelta(hours=1))
-        db.collection("paiwan_transcriptions").add({
-            "transcription_info": {
-                "original_text": original_transcription,
-                "corrected_text": corrected_transcription,
-                "language": "pai",
-            },
-            "audio_data": {
-                "audio_metadata": audio_metadata,
-                "audio_file_url": audio_file_url,
-            },
-            "user_info": {
-                "native_paiwan_speaker": native_speaker,
-                "age": age,
-            },
-            "timestamp": datetime.now().isoformat(),
-            "model_name": MODEL_NAME,
-        })
         return "校正保存成功! (Correction saved successfully!)"
     except Exception as e:
-        return f"保存失败: {e} (Error saving correction: {e})"
-def prepare_download(audio_file, original_transcription, corrected_transcription):
-    """Bundle audio + TXT files into a ZIP for download."""
-    if audio_file is None:
         return None
-    tmp_zip = tempfile.NamedTemporaryFile(delete=False, suffix=".zip").name
-    with zipfile.ZipFile(tmp_zip, "w") as zf:
-        if os.path.exists(audio_file):
-            zf.write(audio_file, arcname="audio.wav")
-        for name, content in [
-            ("original_transcription.txt", original_transcription),
-            ("corrected_transcription.txt", corrected_transcription),
-        ]:
             with open(name, "w", encoding="utf-8") as f:
-                f.write(content)
-            zf.write(name, arcname=name)
             os.remove(name)
-    return tmp_zip
-# ────────────────────────────────
-# Dynamic label switching – uses gr.update() so values aren’t overwritten
-# ────────────────────────────────
-def toggle_language(switch: bool):
-    """Return a tuple of updates for each UI component when the language toggle flips."""
-    if switch:  # Traditional Chinese UI
-        return (
-            "排灣語自動語音識別逐字稿與修正系統",  # Title (Markdown)
-            "步驟 1：音訊上傳與逐字稿",           # Step 1 (Markdown)
-            "步驟 2：審閱與編輯逐字稿",           # Step 2 (Markdown)
-            "步驟 3：使用者資訊",               # Step 3 (Markdown)
-            "步驟 4：儲存與下載",               # Step 4 (Markdown)
-            gr.update(label="音訊輸入"),          # Audio component label
-            gr.update(value="產生逐字稿"),        # Transcribe button text
-            gr.update(label="原始逐字稿"),        # Original transcription textbox label
-            gr.update(label="更正逐字稿"),        # Corrected transcription textbox label
-            gr.update(label="年齡"),              # Age slider label
-            gr.update(label="母語排灣語使用者?"),  # Native speaker checkbox label
-            gr.update(value="儲存"),              # Save button text
-            gr.update(label="儲存狀態"),          # Save‑status textbox label
-            gr.update(value="下載 ZIP 檔案"),      # Download button text
-            gr.update(value="處理中，請稍候…")     # Status message default
-        )
-    # English UI
-    return (
-        "Paiwan ASR Transcription & Correction System",
-        "Step 1: Audio Upload & Transcription",
-        "Step 2: Review & Edit Transcription",
-        "Step 3: User Information",
-        "Step 4: Save & Download",
-        gr.update(label="Audio Input"),
-        gr.update(value="Generate Transcript"),
-        gr.update(label="Original Transcription"),
-        gr.update(label="Corrected Transcription"),
-        gr.update(label="Age"),
-        gr.update(label="Native Paiwan Speaker?"),
-        gr.update(value="Save"),
-        gr.update(label="Save Status"),
-        gr.update(value="Download ZIP File"),
-        gr.update(value="Processing, please wait…"),
-    )
-# ────────────────────────────────
-# Gradio UI
-# ────────────────────────────────
 with gr.Blocks() as demo:
-    lang_switch = gr.Checkbox(label="切換到繁體中文 (Switch to Traditional Chinese)")
-    title = gr.Markdown()
-    step1 = gr.Markdown()
     with gr.Row():
-        audio_input = gr.Audio(sources=["upload", "microphone"], type="filepath")
-    status_message = gr.Markdown(visible=False)
-    step2 = gr.Markdown()
     with gr.Row():
-        transcribe_button = gr.Button()
-    original_text = gr.Textbox(interactive=False, lines=5)
-    corrected_text = gr.Textbox(interactive=True, lines=5)
-    step3 = gr.Markdown()
-    with gr.Row():
-        age_input = gr.Slider(minimum=0, maximum=100, step=1, value=25)
-        native_speaker_input = gr.Checkbox(value=True)
-    step4 = gr.Markdown()
     with gr.Row():
-        save_button = gr.Button()
-        save_status = gr.Textbox(interactive=False)
-    with gr.Row():
-        download_button = gr.Button()
-        download_output = gr.File()
-    # Initialize English labels
-    init_vals = toggle_language(False)
-    (title.value, step1.value, step2.value, step3.value, step4.value,
-     audio_input, transcribe_button, original_text, corrected_text,
-     age_input, native_speaker_input, save_button, save_status,
-     download_button, status_message_init) = init_vals
-    audio_input.label = "Audio Input"
-    transcribe_button.value = "Generate Transcript"
-    original_text.label = "Original Transcription"
-    corrected_text.label = "Corrected Transcription"
-    age_input.label = "Age"
-    native_speaker_input.label = "Native Paiwan Speaker?"
-    save_button.value = "Save"
-    save_status.label = "Save Status"
-    download_button.value = "Download ZIP File"
-    status_message.value = status_message_init.value
-    # Language switch – won’t overwrite component values anymore
-    lang_switch.change(
-        toggle_language,
-        inputs=lang_switch,
-        outputs=[title, step1, step2, step3, step4,
-                 audio_input, transcribe_button, original_text, corrected_text,
-                 age_input, native_speaker_input, save_button, save_status,
-                 download_button, status_message]
-    )
-    # Auto transcription on upload
-    audio_input.change(
-        transcribe_with_status,
-        inputs=audio_input,
-        outputs=[original_text, corrected_text, status_message]
-    )
-    # Manual transcription button
-    transcribe_button.click(
-        transcribe_with_status,
-        inputs=audio_input,
-        outputs=[original_text, corrected_text, status_message]
-    )
-    # Save to Firebase
-    save_button.click(
-        store_correction,
-        inputs=[original_text, corrected_text, audio_input, age_input, native_speaker_input],
-        outputs=save_status,
-    )
-    # Download ZIP
-    download_button.click(
-        prepare_download,
-        inputs=[audio_input, original_text, corrected_text],
-        outputs=download_output,
-    )
 demo.launch()

 import gradio as gr
+import torch, librosa, zipfile, os, json, tempfile, uuid
 from transformers import Wav2Vec2Processor, AutoModelForCTC
+from datetime import datetime, timedelta
 import firebase_admin
 from firebase_admin import credentials, firestore, storage
+# ---------- Firebase init ----------
+firebase_config = json.loads(os.environ.get("firebase_creds"))
 cred = credentials.Certificate(firebase_config)
+firebase_admin.initialize_app(
+    cred, {"storageBucket": "amis-asr-corrections-dem-8cf3d.firebasestorage.app"}
+)
 db = firestore.client()
 bucket = storage.bucket()
+# ---------- ASR model ----------
 MODEL_NAME = "eleferrand/XLSR_paiwan"
 processor = Wav2Vec2Processor.from_pretrained(MODEL_NAME)
 model = AutoModelForCTC.from_pretrained(MODEL_NAME)
+# ---------- Core helpers ----------
+def transcribe(path):
     try:
+        audio, _ = librosa.load(path, sr=16_000)
+        inputs = processor(audio, sampling_rate=16_000, return_tensors="pt").input_values
         with torch.no_grad():
+            logits = model(inputs).logits
+        ids = torch.argmax(logits, dim=-1)
+        text = processor.batch_decode(ids)[0]
+        return text.replace("[UNK]", "")
     except Exception as e:
         return f"處理文件錯誤: {e}"
+def transcribe_both(path):
+    txt = transcribe(path)
+    return txt, txt  # original & editable copies
+def store_correction(orig, corr, audio, age, native):
     try:
+        audio_meta, audio_url = {}, None
+        if audio and os.path.exists(audio):
+            a, sr = librosa.load(audio, sr=44_100)
+            audio_meta = {
+                "duration": librosa.get_duration(y=a, sr=sr),
+                "file_size": os.path.getsize(audio),
             }
+            uid = f"{uuid.uuid4()}.wav"
+            blob = bucket.blob(f"audio/pai/{uid}")
+            blob.upload_from_filename(audio)
+            audio_url = blob.generate_signed_url(expiration=timedelta(hours=1))
+        db.collection("paiwan_transcriptions").add(
+            {
+                "transcription_info": {
+                    "original_text": orig,
+                    "corrected_text": corr,
+                    "language": "pai",
+                },
+                "audio_data": {"audio_metadata": audio_meta, "audio_file_url": audio_url},
+                "user_info": {"native_paiwan_speaker": native, "age": age},
+                "timestamp": datetime.now().isoformat(),
+                "model_name": MODEL_NAME,
+            }
+        )
         return "校正保存成功! (Correction saved successfully!)"
     except Exception as e:
+        return f"保存失敗: {e} (Error saving correction: {e})"
+def prepare_download(audio, orig, corr):
+    if not audio:
         return None
+    tmp_zip = tempfile.NamedTemporaryFile(delete=False, suffix=".zip")
+    tmp_zip.close()
+    with zipfile.ZipFile(tmp_zip.name, "w") as z:
+        if os.path.exists(audio):
+            z.write(audio, arcname="audio.wav")
+        for name, txt in [("original_transcription.txt", orig),
+                          ("corrected_transcription.txt", corr)]:
             with open(name, "w", encoding="utf-8") as f:
+                f.write(txt)
+            z.write(name, arcname=name)
             os.remove(name)
+    return tmp_zip.name
+# ---------- Interface ----------
 with gr.Blocks() as demo:
+    gr.Markdown("# 排灣語自動語音識別逐字稿與修正系統 (Paiwan ASR Transcription & Correction System)")
+    # Step 1
+    gr.Markdown("### 步驟 1：音訊上傳 (Audio Upload)")
+    gr.Markdown("上傳後請至步驟 2 按「產生逐字稿」，系統處理時請耐心等待…")
+    audio_input = gr.Audio(["upload", "microphone"], type="filepath",
+                           label="音訊輸入 (Audio Input)")
+    # Step 2
+    gr.Markdown("### 步驟 2：產生與編輯逐字稿 (Generate & Edit Transcript)")
+    trans_btn = gr.Button("產生逐字稿 (Generate Transcript)")
+    original = gr.Textbox(label="原始逐字稿 (Original Transcription)",
+                          interactive=False, lines=6)
+    corrected = gr.Textbox(label="更正逐字稿 (Corrected Transcription)",
+                           interactive=True, lines=6)
+    # Step 3
+    gr.Markdown("### 步驟 3：使用者資訊 (User Information)")
     with gr.Row():
+        age = gr.Slider(0, 100, step=1, value=25, label="年齡 (Age)")
+        native = gr.Checkbox(value=True, label="母語排灣語使用者？(Native Paiwan Speaker?)")
+    # Step 4
+    gr.Markdown("### 步驟 4：儲存與下載 (Save & Download)")
     with gr.Row():
+        save_btn = gr.Button("儲存 (Save)")
+        save_msg = gr.Textbox(label="儲存狀態 (Save Status)", interactive=False)
     with gr.Row():
+        dl_btn = gr.Button("下載 ZIP 檔案 (Download ZIP File)")
+        dl_out = gr.File()
+    # --- wiring ---
+    trans_btn.click(transcribe_both, audio_input, [original, corrected])
+    save_btn.click(store_correction,
+                   [original, corrected, audio_input, age, native],
+                   save_msg)
+    dl_btn.click(prepare_download, [audio_input, original, corrected], dl_out)
 demo.launch()