Spaces:

MALIBA-AI
/

bambara-asr-leaderboard

Running

App Files Files Community

sudoping01 commited on Mar 25

Commit

5f3b2ed

verified ·

1 Parent(s): 33f8987

Update app.py

Browse files

Files changed (1) hide show

app.py +79 -11

app.py CHANGED Viewed

@@ -37,12 +37,36 @@ except Exception as e:
         references = {}
         print("WARNING: Using empty references dictionary due to dataset loading error")
-# Initialize leaderboard file
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
-    pd.DataFrame(columns=["submitter", "WER", "CER", "timestamp"]).to_csv(leaderboard_file, index=False)
 else:
-    print(f"Loaded existing leaderboard with {len(pd.read_csv(leaderboard_file))} entries")
 def normalize_text(text):
     """
@@ -147,6 +171,21 @@ def calculate_metrics(predictions_df):
     return avg_wer, avg_cer, weighted_wer, weighted_cer, results
 def process_submission(submitter_name, csv_file):
     try:
         # Read and validate the uploaded CSV
@@ -194,14 +233,20 @@ def process_submission(submitter_name, csv_file):
         # Update the leaderboard
         leaderboard = pd.read_csv(leaderboard_file)
         timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
         new_entry = pd.DataFrame(
-            [[submitter_name, avg_wer, avg_cer, timestamp]],
-            columns=["submitter", "WER", "CER", "timestamp"]
         )
-        leaderboard = pd.concat([leaderboard, new_entry]).sort_values("WER")
-        leaderboard.to_csv(leaderboard_file, index=False)
-        return f"Submission processed successfully! WER: {avg_wer:.4f}, CER: {avg_cer:.4f}", leaderboard
     except Exception as e:
         print(f"Error processing submission: {str(e)}")
@@ -214,7 +259,7 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
         # Bambara ASR Leaderboard
         This leaderboard ranks and evaluates speech recognition models for the Bambara language.
-        Models are ranked based on their Word Error Rate (WER), from lowest to highest.
         """
     )
@@ -222,13 +267,35 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
     with gr.Tabs() as tabs:
         with gr.TabItem("🏅 Current Rankings"):
             # Show current leaderboard rankings
-            current_leaderboard = pd.read_csv(leaderboard_file).sort_values("WER")
             gr.Markdown("### Current ASR Model Rankings")
             leaderboard_view = gr.DataFrame(
                 value=current_leaderboard,
                 interactive=False,
-                label="Models are ranked by Word Error Rate (WER) - lower is better"
             )
             gr.Markdown(
@@ -236,6 +303,7 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
                 ## Metrics Explanation
                 - **WER**: Word Error Rate (lower is better) - measures word-level accuracy
                 - **CER**: Character Error Rate (lower is better) - measures character-level accuracy
                 """
             )

         references = {}
         print("WARNING: Using empty references dictionary due to dataset loading error")
+# Initialize leaderboard file with combined score
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
+    # Create empty leaderboard with necessary columns
+    pd.DataFrame(columns=["submitter", "WER", "CER", "Combined_Score", "timestamp"]).to_csv(leaderboard_file, index=False)
+    print("Created new leaderboard file")
+    # Add example entries so first-time visitors see something
+    example_data = [
+        ["Example Model 1", 0.35, 0.20, 0.305, "2023-01-01 00:00:00"],
+        ["Example Model 2", 0.40, 0.18, 0.334, "2023-01-02 00:00:00"],
+        ["Example Model 3", 0.32, 0.25, 0.299, "2023-01-03 00:00:00"]
+    ]
+    example_df = pd.DataFrame(
+        example_data,
+        columns=["submitter", "WER", "CER", "Combined_Score", "timestamp"]
+    )
+    example_df.to_csv(leaderboard_file, index=False)
+    print("Added example data to empty leaderboard for demonstration")
 else:
+    # Load existing leaderboard
+    leaderboard_df = pd.read_csv(leaderboard_file)
+    # Add Combined_Score column if it doesn't exist
+    if "Combined_Score" not in leaderboard_df.columns:
+        leaderboard_df["Combined_Score"] = leaderboard_df["WER"] * 0.7 + leaderboard_df["CER"] * 0.3
+        leaderboard_df.to_csv(leaderboard_file, index=False)
+        print("Added Combined_Score column to existing leaderboard")
+    print(f"Loaded existing leaderboard with {len(leaderboard_df)} entries")
 def normalize_text(text):
     """
     return avg_wer, avg_cer, weighted_wer, weighted_cer, results
+def update_ranking(method):
+    """Update leaderboard ranking based on selected method"""
+    current_lb = pd.read_csv(leaderboard_file)
+    # Calculate combined score if not present
+    if "Combined_Score" not in current_lb.columns:
+        current_lb["Combined_Score"] = current_lb["WER"] * 0.7 + current_lb["CER"] * 0.3
+    if method == "WER Only":
+        return current_lb.sort_values("WER")
+    elif method == "CER Only":
+        return current_lb.sort_values("CER")
+    else:  # Combined Score
+        return current_lb.sort_values("Combined_Score")
 def process_submission(submitter_name, csv_file):
     try:
         # Read and validate the uploaded CSV
         # Update the leaderboard
         leaderboard = pd.read_csv(leaderboard_file)
         timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+        # Calculate combined score (70% WER, 30% CER)
+        combined_score = avg_wer * 0.7 + avg_cer * 0.3
         new_entry = pd.DataFrame(
+            [[submitter_name, avg_wer, avg_cer, combined_score, timestamp]],
+            columns=["submitter", "WER", "CER", "Combined_Score", "timestamp"]
         )
+        # Add new entry to leaderboard
+        updated_leaderboard = pd.concat([leaderboard, new_entry]).sort_values("Combined_Score")
+        updated_leaderboard.to_csv(leaderboard_file, index=False)
+        return f"Submission processed successfully! WER: {avg_wer:.4f}, CER: {avg_cer:.4f}, Combined Score: {combined_score:.4f}", updated_leaderboard
     except Exception as e:
         print(f"Error processing submission: {str(e)}")
         # Bambara ASR Leaderboard
         This leaderboard ranks and evaluates speech recognition models for the Bambara language.
+        Models are ranked based on a combined score of WER and CER metrics.
         """
     )
     with gr.Tabs() as tabs:
         with gr.TabItem("🏅 Current Rankings"):
             # Show current leaderboard rankings
+            current_leaderboard = pd.read_csv(leaderboard_file)
+            # Calculate combined score if not present
+            if "Combined_Score" not in current_leaderboard.columns:
+                current_leaderboard["Combined_Score"] = current_leaderboard["WER"] * 0.7 + current_leaderboard["CER"] * 0.3
+            # Sort by combined score
+            current_leaderboard = current_leaderboard.sort_values("Combined_Score")
             gr.Markdown("### Current ASR Model Rankings")
+            # Add radio buttons for ranking method
+            ranking_method = gr.Radio(
+                ["Combined Score (WER 70%, CER 30%)", "WER Only", "CER Only"],
+                label="Ranking Method",
+                value="Combined Score (WER 70%, CER 30%)"
+            )
             leaderboard_view = gr.DataFrame(
                 value=current_leaderboard,
                 interactive=False,
+                label="Models are ranked by selected metric - lower is better"
+            )
+            # Update leaderboard based on ranking method selection
+            ranking_method.change(
+                fn=update_ranking,
+                inputs=[ranking_method],
+                outputs=[leaderboard_view]
             )
             gr.Markdown(
                 ## Metrics Explanation
                 - **WER**: Word Error Rate (lower is better) - measures word-level accuracy
                 - **CER**: Character Error Rate (lower is better) - measures character-level accuracy
+                - **Combined Score**: Weighted average of WER (70%) and CER (30%) - provides a balanced evaluation
                 """
             )