Spaces:

SaylorTwift
/

OpenEvalsModelDetails

Runtime error

App Files Files Community

Linker1907 commited on Mar 10

Commit

9b8ac8f

1 Parent(s): bcda822

add app file

Browse files

Files changed (2) hide show

app.py +3 -9
experiments.json +94 -5

app.py CHANGED Viewed

@@ -5,19 +5,13 @@ import gradio as gr
 from functools import lru_cache
 # Load models and experiments
-MODELS = [
-    "deepseek-ai/DeepSeek-R1-Distill-Llama-70B",
-    "o3-mini-2025-01-31",
-    "meta-llama/Llama-3.3-70B-Instruct",
-    "moonshotai/Moonlight-16B-A3B-Instruct",
-    "gpt-4o",
-    "claude-3-7-sonnet-20250219",
-    "openai/gpt-4.5-preview-2025-02-27"
-]
 with open("experiments.json") as f:
     experiments = json.load(f)
 @lru_cache
 def load_details_and_results(model, benchmark, experiment_tag):
     def worker(example):

 from functools import lru_cache
 # Load models and experiments
 with open("experiments.json") as f:
     experiments = json.load(f)
+MODELS = list(experiments.keys())
+MODELS = [m for m in MODELS if m != "claude-3-7-sonnet-20250219"]
 @lru_cache
 def load_details_and_results(model, benchmark, experiment_tag):
     def worker(example):

experiments.json CHANGED Viewed

@@ -62,7 +62,8 @@
                     "extractive_match"
                 ],
                 "tags": {
-                    "latest": "2025-02-25T14-35-15.137825"
                 }
             },
             "gpqa_diamond": {
@@ -71,7 +72,8 @@
                     "extractive_match"
                 ],
                 "tags": {
-                    "latest": "2025-02-25T12-43-49.294245"
                 }
             },
             "aime_24": {
@@ -80,7 +82,8 @@
                     "extractive_match"
                 ],
                 "tags": {
-                    "latest": "2025-02-25T12-37-52.771787"
                 }
             },
             "aime_25": {
@@ -89,7 +92,8 @@
                     "extractive_match"
                 ],
                 "tags": {
-                    "latest": "2025-02-25T12-37-52.771787"
                 }
             },
             "ifeval": {
@@ -98,7 +102,8 @@
                     "prompt_level_strict_acc"
                 ],
                 "tags": {
-                    "latest": "2025-02-25T12-24-45.750753"
                 }
             }
         }
@@ -416,5 +421,89 @@
                 }
             }
         }
     }
 }

                     "extractive_match"
                 ],
                 "tags": {
+                    "default": "2025-02-25T14-35-15.137825",
+                    "thinking": "2025-03-05T10-14-44.802711"
                 }
             },
             "gpqa_diamond": {
                     "extractive_match"
                 ],
                 "tags": {
+                    "default": "2025-02-25T12-43-49.294245",
+                    "thinking": "2025-03-05T15-37-37.180318"
                 }
             },
             "aime_24": {
                     "extractive_match"
                 ],
                 "tags": {
+                    "default": "2025-02-25T12-37-52.771787",
+                    "thinking": "2025-03-05T12-39-13.627801"
                 }
             },
             "aime_25": {
                     "extractive_match"
                 ],
                 "tags": {
+                    "default": "2025-02-25T12-37-52.771787",
+                    "thinking": "2025-03-05T12-39-13.627801"
                 }
             },
             "ifeval": {
                     "prompt_level_strict_acc"
                 ],
                 "tags": {
+                    "default": "2025-02-25T12-24-45.750753",
+                    "thinking": "2025-03-05T15-37-37.180318"
                 }
             }
         }
                 }
             }
         }
+    },
+    "openai/deepseek-ai/DeepSeek-R1": {
+        "display_name": "DeepSeek R1",
+        "provider": "deepseek",
+        "open": true,
+        "benchmarks": {
+            "math_500": {
+                "subset": "lighteval|math_500|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-04T17-06-33.124766"
+                }
+            },
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-04T17-06-33.124766"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-04T14-52-35.594174"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-04T14-25-05.009799"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-03-04T15-24-42.488745"
+                }
+            }
+        }
+    },
+    "Qwen/QwQ-32B": {
+        "display_name": "QwQ 32B",
+        "provider": "Qwen",
+        "open": true,
+        "benchmarks": {
+            "math_500": {
+                "subset": "lighteval|math_500|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-07T11-04-40.089127"
+                }
+            },
+            "gpqa_diamond": {
+                "subset": "lighteval|gpqa:diamond|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-07T11-04-40.089127"
+                }
+            },
+            "aime_24": {
+                "subset": "lighteval|aime24|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-10T10-36-07.886033"
+                }
+            },
+            "aime_25": {
+                "subset": "lighteval|aime25|0",
+                "metrics": ["extractive_match"],
+                "tags": {
+                    "latest": "2025-03-10T10-36-07.886033"
+                }
+            },
+            "ifeval": {
+                "subset": "extended|ifeval|0",
+                "metrics": ["prompt_level_strict_acc"],
+                "tags": {
+                    "latest": "2025-03-07T11-04-40.089127"
+                }
+            }
+        }
     }
 }