Spaces:

CultriX
/

Tiny-LeaderBoard

Running

App Files Files Community

CultriX commited on Dec 23, 2024

Commit

4bcc990

verified ·

1 Parent(s): bdbadad

Update app.py

Browse files

Files changed (1) hide show

app.py +85 -1

app.py CHANGED Viewed

@@ -37,6 +37,70 @@ columns = ["Model Configuration", "tinyArc", "tinyHellaswag", "tinyMMLU", "tinyT
 # Convert to DataFrame
 df_full = pd.DataFrame(data_full, columns=columns)
 def summary_statistics():
     stats = df_full.iloc[:, 1:].describe().T  # Summary stats for each task
     stats['Std Dev'] = df_full.iloc[:, 1:].std(axis=0)
@@ -68,8 +132,28 @@ def plot_heatmap():
     return "performance_heatmap.png"
 with gr.Blocks() as demo:
-    gr.Markdown("# Enhanced Model Performance Analysis")
     with gr.Row():
         btn1 = gr.Button("Show Summary Statistics")
         stats_output = gr.Dataframe()

 # Convert to DataFrame
 df_full = pd.DataFrame(data_full, columns=columns)
+def plot_average_scores():
+    df_full["Average Score"] = df_full.iloc[:, 1:].mean(axis=1)
+    df_avg_sorted = df_full.sort_values(by="Average Score", ascending=False)
+    plt.figure(figsize=(12, 8))
+    plt.barh(df_avg_sorted["Model Configuration"], df_avg_sorted["Average Score"])
+    plt.title("Average Performance of Models Across Tasks", fontsize=16)
+    plt.xlabel("Average Score", fontsize=14)
+    plt.ylabel("Model Configuration", fontsize=14)
+    plt.gca().invert_yaxis()
+    plt.grid(axis='x', linestyle='--', alpha=0.7)
+    plt.tight_layout()
+    plt.savefig("average_performance.png")
+    return "average_performance.png"
+def plot_task_performance():
+    df_full_melted = df_full.melt(id_vars="Model Configuration", var_name="Task", value_name="Score")
+    plt.figure(figsize=(14, 10))
+    for model in df_full["Model Configuration"]:
+        model_data = df_full_melted[df_full_melted["Model Configuration"] == model]
+        plt.plot(model_data["Task"], model_data["Score"], marker="o", label=model)
+    plt.title("Performance of All Models Across Tasks", fontsize=16)
+    plt.xlabel("Task", fontsize=14)
+    plt.ylabel("Score", fontsize=14)
+    plt.xticks(rotation=45)
+    plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', fontsize=9)
+    plt.grid(axis='y', linestyle='--', alpha=0.7)
+    plt.tight_layout()
+    plt.savefig("task_performance.png")
+    return "task_performance.png"
+def plot_task_specific_top_models():
+    top_models = df_full.iloc[:, :-1].set_index("Model Configuration").idxmax()
+    top_scores = df_full.iloc[:, :-1].set_index("Model Configuration").max()
+    results = pd.DataFrame({"Top Model": top_models, "Score": top_scores}).reset_index().rename(columns={"index": "Task"})
+    plt.figure(figsize=(12, 6))
+    plt.bar(results["Task"], results["Score"])
+    plt.title("Task-Specific Top Models", fontsize=16)
+    plt.xlabel("Task", fontsize=14)
+    plt.ylabel("Score", fontsize=14)
+    plt.grid(axis="y", linestyle="--", alpha=0.7)
+    plt.tight_layout()
+    plt.savefig("task_specific_top_models.png")
+    return "task_specific_top_models.png"
+def top_3_models_per_task():
+    top_3_data = {
+        task: df_full.nlargest(3, task)[["Model Configuration", task]].values.tolist()
+        for task in df_full.columns[1:-1]
+    }
+    top_3_results = pd.DataFrame({
+        task: {
+            "Top 3 Models": [entry[0] for entry in top_3_data[task]],
+            "Scores": [entry[1] for entry in top_3_data[task]],
+        }
+        for task in top_3_data
+    }).T.rename_axis("Task").reset_index()
+    return top_3_results
 def summary_statistics():
     stats = df_full.iloc[:, 1:].describe().T  # Summary stats for each task
     stats['Std Dev'] = df_full.iloc[:, 1:].std(axis=0)
     return "performance_heatmap.png"
 with gr.Blocks() as demo:
+    gr.Markdown("# Model Performance Analysis")
+    with gr.Row():
+        btn1 = gr.Button("Show Average Performance")
+        img1 = gr.Image(type="filepath")
+        btn1.click(plot_average_scores, outputs=img1)
+    with gr.Row():
+        btn2 = gr.Button("Show Task Performance")
+        img2 = gr.Image(type="filepath")
+        btn2.click(plot_task_performance, outputs=img2)
+    with gr.Row():
+        btn3 = gr.Button("Task-Specific Top Models")
+        img3 = gr.Image(type="filepath")
+        btn3.click(plot_task_specific_top_models, outputs=img3)
+    with gr.Row():
+        btn4 = gr.Button("Top 3 Models Per Task")
+        output4 = gr.Dataframe()
+        btn4.click(top_3_models_per_task, outputs=output4)
     with gr.Row():
         btn1 = gr.Button("Show Summary Statistics")
         stats_output = gr.Dataframe()