Spaces:

MALIBA-AI
/

bambara-asr-leaderboard

Running

App Files Files Community

sudoping01 commited on Mar 25

Commit

5815dce

verified ·

1 Parent(s): e8b48ca

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -20

app.py CHANGED Viewed

@@ -17,18 +17,12 @@ try:
 except Exception as e:
     references = {}
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
     pd.DataFrame(columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"]).to_csv(leaderboard_file, index=False)
 else:
     leaderboard_df = pd.read_csv(leaderboard_file)
-    # if "submitter" in leaderboard_df.columns and "Model_Name" not in leaderboard_df.columns:
-    #     leaderboard_df = leaderboard_df.rename(columns={"submitter": "Model_Name"})
-    #     leaderboard_df.to_csv(leaderboard_file, index=False)
     if "Combined_Score" not in leaderboard_df.columns:
         leaderboard_df["Combined_Score"] = leaderboard_df["WER"] * 0.7 + leaderboard_df["CER"] * 0.3
         leaderboard_df.to_csv(leaderboard_file, index=False)
@@ -95,16 +89,25 @@ def calculate_metrics(predictions_df):
     if not results:
         raise ValueError("No valid samples for WER/CER calculation")
     avg_wer = sum(item["wer"] for item in results) / len(results)
     avg_cer = sum(item["cer"] for item in results) / len(results)
-    # Calculate weighted average metrics based on reference length
     weighted_wer = sum(item["wer"] * item["ref_word_count"] for item in results) / total_ref_words
     weighted_cer = sum(item["cer"] * item["ref_char_count"] for item in results) / total_ref_chars
     return avg_wer, avg_cer, weighted_wer, weighted_cer, results
 def update_ranking(method):
     """Update leaderboard ranking based on selected method"""
     try:
@@ -113,14 +116,16 @@ def update_ranking(method):
         if "Combined_Score" not in current_lb.columns:
             current_lb["Combined_Score"] = current_lb["WER"] * 0.7 + current_lb["CER"] * 0.3
         if method == "WER Only":
-            return current_lb.sort_values("WER")
         elif method == "CER Only":
-            return current_lb.sort_values("CER")
-        else:  # Combined Score
-            return current_lb.sort_values("Combined_Score")
     except Exception:
-        return pd.DataFrame(columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"])
 def process_submission(model_name, csv_file):
     try:
@@ -136,7 +141,6 @@ def process_submission(model_name, csv_file):
             dup_ids = df[df["id"].duplicated()]["id"].unique()
             return f"Error: Duplicate IDs found: {', '.join(map(str, dup_ids[:5]))}", None
         missing_ids = set(references.keys()) - set(df["id"])
         extra_ids = set(df["id"]) - set(references.keys())
@@ -146,7 +150,6 @@ def process_submission(model_name, csv_file):
         if extra_ids:
             return f"Error: Found {len(extra_ids)} extra IDs not in reference dataset. First few extra: {', '.join(map(str, list(extra_ids)[:5]))}", None
         try:
             avg_wer, avg_cer, weighted_wer, weighted_cer, detailed_results = calculate_metrics(df)
@@ -160,7 +163,6 @@ def process_submission(model_name, csv_file):
         leaderboard = pd.read_csv(leaderboard_file)
         timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
-        # Calculate combined score (70% WER, 30% CER)
         combined_score = avg_wer * 0.7 + avg_cer * 0.3
         new_entry = pd.DataFrame(
@@ -168,10 +170,13 @@ def process_submission(model_name, csv_file):
             columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"]
         )
         updated_leaderboard = pd.concat([leaderboard, new_entry]).sort_values("Combined_Score")
         updated_leaderboard.to_csv(leaderboard_file, index=False)
-        return f"Submission processed successfully! WER: {avg_wer:.4f}, CER: {avg_cer:.4f}, Combined Score: {combined_score:.4f}", updated_leaderboard
     except Exception as e:
         return f"Error processing submission: {str(e)}", None
@@ -194,9 +199,10 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
                 if "Combined_Score" not in current_leaderboard.columns:
                     current_leaderboard["Combined_Score"] = current_leaderboard["WER"] * 0.7 + current_leaderboard["CER"] * 0.3
-                current_leaderboard = current_leaderboard.sort_values("Combined_Score")
             except Exception:
-                current_leaderboard = pd.DataFrame(columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"])
             gr.Markdown("### Current ASR Model Rankings")
@@ -256,4 +262,4 @@ with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
             )
 if __name__ == "__main__":
-    demo.launch(share=True)

 except Exception as e:
     references = {}
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
     pd.DataFrame(columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"]).to_csv(leaderboard_file, index=False)
 else:
     leaderboard_df = pd.read_csv(leaderboard_file)
     if "Combined_Score" not in leaderboard_df.columns:
         leaderboard_df["Combined_Score"] = leaderboard_df["WER"] * 0.7 + leaderboard_df["CER"] * 0.3
         leaderboard_df.to_csv(leaderboard_file, index=False)
     if not results:
         raise ValueError("No valid samples for WER/CER calculation")
     avg_wer = sum(item["wer"] for item in results) / len(results)
     avg_cer = sum(item["cer"] for item in results) / len(results)
     weighted_wer = sum(item["wer"] * item["ref_word_count"] for item in results) / total_ref_words
     weighted_cer = sum(item["cer"] * item["ref_char_count"] for item in results) / total_ref_chars
     return avg_wer, avg_cer, weighted_wer, weighted_cer, results
+def add_ranking_numbers(df, sort_by="Combined_Score"):
+    """Add ranking numbers to the dataframe based on the sort column"""
+    if len(df) == 0:
+        return pd.DataFrame(columns=["Rank"] + list(df.columns))
+    sorted_df = df.sort_values(sort_by)
+    sorted_df.insert(0, "Rank", range(1, len(sorted_df) + 1))
+    return sorted_df
 def update_ranking(method):
     """Update leaderboard ranking based on selected method"""
     try:
         if "Combined_Score" not in current_lb.columns:
             current_lb["Combined_Score"] = current_lb["WER"] * 0.7 + current_lb["CER"] * 0.3
+        sort_column = "Combined_Score"
         if method == "WER Only":
+            sort_column = "WER"
         elif method == "CER Only":
+            sort_column = "CER"
+        return add_ranking_numbers(current_lb, sort_column)
     except Exception:
+        return pd.DataFrame(columns=["Rank", "Model_Name", "WER", "CER", "Combined_Score", "timestamp"])
 def process_submission(model_name, csv_file):
     try:
             dup_ids = df[df["id"].duplicated()]["id"].unique()
             return f"Error: Duplicate IDs found: {', '.join(map(str, dup_ids[:5]))}", None
         missing_ids = set(references.keys()) - set(df["id"])
         extra_ids = set(df["id"]) - set(references.keys())
         if extra_ids:
             return f"Error: Found {len(extra_ids)} extra IDs not in reference dataset. First few extra: {', '.join(map(str, list(extra_ids)[:5]))}", None
         try:
             avg_wer, avg_cer, weighted_wer, weighted_cer, detailed_results = calculate_metrics(df)
         leaderboard = pd.read_csv(leaderboard_file)
         timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
         combined_score = avg_wer * 0.7 + avg_cer * 0.3
         new_entry = pd.DataFrame(
             columns=["Model_Name", "WER", "CER", "Combined_Score", "timestamp"]
         )
         updated_leaderboard = pd.concat([leaderboard, new_entry]).sort_values("Combined_Score")
         updated_leaderboard.to_csv(leaderboard_file, index=False)
+        ranked_leaderboard = add_ranking_numbers(updated_leaderboard)
+        return f"Submission processed successfully! WER: {avg_wer:.4f}, CER: {avg_cer:.4f}, Combined Score: {combined_score:.4f}", ranked_leaderboard
     except Exception as e:
         return f"Error processing submission: {str(e)}", None
                 if "Combined_Score" not in current_leaderboard.columns:
                     current_leaderboard["Combined_Score"] = current_leaderboard["WER"] * 0.7 + current_leaderboard["CER"] * 0.3
+                current_leaderboard = add_ranking_numbers(current_leaderboard.sort_values("Combined_Score"))
             except Exception:
+                current_leaderboard = pd.DataFrame(columns=["Rank", "Model_Name", "WER", "CER", "Combined_Score", "timestamp"])
             gr.Markdown("### Current ASR Model Rankings")
             )
 if __name__ == "__main__":
+    demo.launch()