test-suite

Running

daniel-de-leon commited on Aug 11, 2023

Commit

bfa693b

1 Parent(s): 46074bc

added more metrics

Files changed (1) hide show

test-suite.py CHANGED Viewed

@@ -1,6 +1,13 @@
 import evaluate
 from evaluate.evaluation_suite import SubTask
 class Suite(evaluate.EvaluationSuite):
@@ -11,9 +18,9 @@ class Suite(evaluate.EvaluationSuite):
             SubTask(
                 task_type="text-classification",
                 data="hate_speech18",
-                split="train[:10]",
                 args_for_task={
-                    "metric": "accuracy",
                     "input_column": "text",
                     "label_column": "label",
                     "label_mapping": {
@@ -27,9 +34,9 @@ class Suite(evaluate.EvaluationSuite):
             SubTask(
                 task_type="text-classification",
                 data="mteb/toxic_conversations_50k",
-                split="test[:10]",
                 args_for_task={
-                    "metric": "accuracy",
                     "input_column": "text",
                     "label_column": "label",
                     "label_mapping": {

 import evaluate
 from evaluate.evaluation_suite import SubTask
+# This is odd because the first dataset is multi-class and
+# the second dataset is binary. The model I'm using has 4 labels
+# and is finetuned to the first dataset.
+# So what does it mean for this model to be evaluated on the second
+# dataset?
+metric = evaluate.combine(["accuracy", "recall", "precision", "f1"])
 class Suite(evaluate.EvaluationSuite):
             SubTask(
                 task_type="text-classification",
                 data="hate_speech18",
+                split="train[:1000]",
                 args_for_task={
+                    "metric": metric,
                     "input_column": "text",
                     "label_column": "label",
                     "label_mapping": {
             SubTask(
                 task_type="text-classification",
                 data="mteb/toxic_conversations_50k",
+                split="test[:1000]",
                 args_for_task={
+                    "metric": metric,
                     "input_column": "text",
                     "label_column": "label",
                     "label_mapping": {