Spaces:

MALIBA-AI
/

bambara-asr-leaderboard

Running

App Files Files Community

sudoping01 commited on Mar 25

Commit

f23d956

verified ·

1 Parent(s): fdebe26

Update app.py

Browse files

Files changed (1) hide show

app.py +87 -33

app.py CHANGED Viewed

@@ -13,20 +13,51 @@ token = os.environ.get("HG_TOKEN")
 login(token)
 print("Loading dataset...")
-dataset = load_dataset("sudoping01/bambara-speech-recognition-benchmark", name="default")["eval"]
-references = {row["id"]: row["text"] for row in dataset}
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
     pd.DataFrame(columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"]).to_csv(leaderboard_file, index=False)
 else:
     leaderboard_df = pd.read_csv(leaderboard_file)
     if "Combined_Score" not in leaderboard_df.columns:
         leaderboard_df["Combined_Score"] = leaderboard_df["WER"] * 0.7 + leaderboard_df["CER"] * 0.3 # WER 70% and CER 30%
         leaderboard_df.to_csv(leaderboard_file, index=False)
 def normalize_text(text):
     """
@@ -106,24 +137,28 @@ def calculate_metrics(predictions_df):
     return avg_wer, avg_cer, weighted_wer, weighted_cer, results
 def update_ranking(method):
-    current_lb = pd.read_csv(leaderboard_file)
-    if "Combined_Score" not in current_lb.columns:
-        current_lb["Combined_Score"] = current_lb["WER"] * 0.7 + current_lb["CER"] * 0.3 # 70% for WER
-    if method == "WER Only":
-        return current_lb.sort_values("WER")
-    elif method == "CER Only":
-        return current_lb.sort_values("CER")
-    else:  # Combined Score
-        return current_lb.sort_values("Combined_Score")
-def process_submission(submitter_name, csv_file):
     try:
         df = pd.read_csv(csv_file)
-        print(f"Processing submission from {submitter_name} with {len(df)} rows")
         if len(df) == 0:
             return "Error: Uploaded CSV is empty.", None
@@ -149,8 +184,6 @@ def process_submission(submitter_name, csv_file):
         try:
             avg_wer, avg_cer, weighted_wer, weighted_cer, detailed_results = calculate_metrics(df)
             # suspiciously low values
             if avg_wer < 0.001:
                 return "Error: WER calculation yielded suspicious results (near-zero). Please check your submission CSV.", None
@@ -165,8 +198,8 @@ def process_submission(submitter_name, csv_file):
         combined_score = avg_wer * 0.7 + avg_cer * 0.3
         new_entry = pd.DataFrame(
-            [[submitter_name, avg_wer, avg_cer, combined_score, timestamp]],
-            columns=["submitter", "WER", "CER", "Combined_Score", "timestamp"]
         )
         updated_leaderboard = pd.concat([leaderboard, new_entry]).sort_values("Combined_Score")
@@ -177,6 +210,22 @@ def process_submission(submitter_name, csv_file):
     except Exception as e:
         return f"Error processing submission: {str(e)}", None
 with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
     gr.Markdown(
@@ -190,12 +239,19 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
     with gr.Tabs() as tabs:
         with gr.TabItem("🏅 Current Rankings"):
-            current_leaderboard = pd.read_csv(leaderboard_file)
-            if "Combined_Score" not in current_leaderboard.columns:
-                current_leaderboard["Combined_Score"] = current_leaderboard["WER"] * 0.7 + current_leaderboard["CER"] * 0.3
-            current_leaderboard = current_leaderboard.sort_values("Combined_Score")
             gr.Markdown("### Current ASR Model Rankings")
@@ -237,7 +293,7 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
             )
             with gr.Row():
-                submitter = gr.Textbox(label="Submitter Name or Model Name", placeholder="e.g., MALIBA-AI/asr")
                 csv_upload = gr.File(label="Upload CSV File", file_types=[".csv"])
             submit_btn = gr.Button("Submit")
@@ -250,13 +306,11 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
             submit_btn.click(
                 fn=process_submission,
-                inputs=[submitter, csv_upload],
                 outputs=[output_msg, leaderboard_display]
             )
 print("Starting Bambara ASR Leaderboard app...")
 if __name__ == "__main__":
     demo.launch(share=True)

 login(token)
 print("Loading dataset...")
+try:
+    dataset = load_dataset("sudoping01/bambara-speech-recognition-benchmark", name="default")["eval"]
+    references = {row["id"]: row["text"] for row in dataset}
+    print(f"Successfully loaded dataset with {len(references)} samples")
+except Exception as e:
+    print(f"Error loading dataset: {str(e)}")
+    references = {}
+    print("WARNING: Using empty references dictionary due to dataset loading error")
+# Initialize leaderboard file with consistent column names
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
+    # Create with Model_Name consistently
     pd.DataFrame(columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"]).to_csv(leaderboard_file, index=False)
+    print("Created new leaderboard file")
+    # Add example entries for first-time visitors
+    example_data = [
+        ["Example Model 1", 0.35, 0.20, 0.305, "2023-01-01 00:00:00"],
+        ["Example Model 2", 0.40, 0.18, 0.334, "2023-01-02 00:00:00"],
+        ["Example Model 3", 0.32, 0.25, 0.299, "2023-01-03 00:00:00"]
+    ]
+    example_df = pd.DataFrame(
+        example_data,
+        columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"]
+    )
+    example_df.to_csv(leaderboard_file, index=False)
+    print("Added example data to empty leaderboard for demonstration")
 else:
+    # Load existing leaderboard
     leaderboard_df = pd.read_csv(leaderboard_file)
+    # Rename column if needed for consistency
+    if "submitter" in leaderboard_df.columns and "Model_Name" not in leaderboard_df.columns:
+        leaderboard_df = leaderboard_df.rename(columns={"submitter": "Model_Name"})
+        leaderboard_df.to_csv(leaderboard_file, index=False)
+        print("Renamed 'submitter' column to 'Model_Name' for consistency")
+    # Add Combined_Score column if it doesn't exist
     if "Combined_Score" not in leaderboard_df.columns:
         leaderboard_df["Combined_Score"] = leaderboard_df["WER"] * 0.7 + leaderboard_df["CER"] * 0.3 # WER 70% and CER 30%
         leaderboard_df.to_csv(leaderboard_file, index=False)
+        print("Added Combined_Score column to existing leaderboard")
+    print(f"Loaded existing leaderboard with {len(leaderboard_df)} entries")
 def normalize_text(text):
     """
     return avg_wer, avg_cer, weighted_wer, weighted_cer, results
 def update_ranking(method):
+    """Update leaderboard ranking based on selected method"""
     try:
+        current_lb = pd.read_csv(leaderboard_file)
+        if "Combined_Score" not in current_lb.columns:
+            current_lb["Combined_Score"] = current_lb["WER"] * 0.7 + current_lb["CER"] * 0.3 # 70% for WER
+        if method == "WER Only":
+            return current_lb.sort_values("WER")
+        elif method == "CER Only":
+            return current_lb.sort_values("CER")
+        else:  # Combined Score
+            return current_lb.sort_values("Combined_Score")
+    except Exception as e:
+        print(f"Error updating ranking: {str(e)}")
+        # Return empty dataframe if something goes wrong
+        return pd.DataFrame(columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"])
+def process_submission(model_name, csv_file):
+    try:
         df = pd.read_csv(csv_file)
+        print(f"Processing submission from {model_name} with {len(df)} rows")
         if len(df) == 0:
             return "Error: Uploaded CSV is empty.", None
         try:
             avg_wer, avg_cer, weighted_wer, weighted_cer, detailed_results = calculate_metrics(df)
             # suspiciously low values
             if avg_wer < 0.001:
                 return "Error: WER calculation yielded suspicious results (near-zero). Please check your submission CSV.", None
         combined_score = avg_wer * 0.7 + avg_cer * 0.3
         new_entry = pd.DataFrame(
+            [[model_name, avg_wer, avg_cer, combined_score, timestamp]],
+            columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"]
         )
         updated_leaderboard = pd.concat([leaderboard, new_entry]).sort_values("Combined_Score")
     except Exception as e:
         return f"Error processing submission: {str(e)}", None
+# Make sure we have at least some data for first-time visitors
+if os.path.exists(leaderboard_file):
+    leaderboard_df = pd.read_csv(leaderboard_file)
+    if len(leaderboard_df) == 0:
+        # Add example entries if leaderboard is empty
+        example_data = [
+            ["Example Model 1", 0.35, 0.20, 0.305, "2023-01-01 00:00:00"],
+            ["Example Model 2", 0.40, 0.18, 0.334, "2023-01-02 00:00:00"],
+            ["Example Model 3", 0.32, 0.25, 0.299, "2023-01-03 00:00:00"]
+        ]
+        example_df = pd.DataFrame(
+            example_data,
+            columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"]
+        )
+        example_df.to_csv(leaderboard_file, index=False)
+        print("Added example data to empty leaderboard for demonstration")
 with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
     gr.Markdown(
     with gr.Tabs() as tabs:
         with gr.TabItem("🏅 Current Rankings"):
+            try:
+                # Load and make sure we have current leaderboard data
+                current_leaderboard = pd.read_csv(leaderboard_file)
+                if "Combined_Score" not in current_leaderboard.columns:
+                    current_leaderboard["Combined_Score"] = current_leaderboard["WER"] * 0.7 + current_leaderboard["CER"] * 0.3
+                # Sort by combined score
+                current_leaderboard = current_leaderboard.sort_values("Combined_Score")
+            except Exception as e:
+                print(f"Error loading leaderboard: {str(e)}")
+                # Create empty dataframe if we can't load the file
+                current_leaderboard = pd.DataFrame(columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"])
             gr.Markdown("### Current ASR Model Rankings")
             )
             with gr.Row():
+                model_name_input = gr.Textbox(label="Model Name", placeholder="e.g., MALIBA-AI/asr")
                 csv_upload = gr.File(label="Upload CSV File", file_types=[".csv"])
             submit_btn = gr.Button("Submit")
             submit_btn.click(
                 fn=process_submission,
+                inputs=[model_name_input, csv_upload],
                 outputs=[output_msg, leaderboard_display]
             )
 print("Starting Bambara ASR Leaderboard app...")
 if __name__ == "__main__":
     demo.launch(share=True)