Spaces:

metunlp
/

model-eval-be

Paused

ecemumutlu commited on 25 days ago

Commit

d1b4b00

1 Parent(s): c12a803

Add acc_std_err

Files changed (1) hide show

src/deepeval/sentiment_analysis_task.py CHANGED Viewed

@@ -1,4 +1,6 @@
 from src.deepeval.base_task import BaseTask
 class SentimentAnalysisTask(BaseTask):
     def __init__(self, model_name):
@@ -8,10 +10,10 @@ class SentimentAnalysisTask(BaseTask):
         return super().load_dataset_from_hf()
-    def evaluate(self):
         responses = []
         total_count = len(self.dataset)
-        true = 0
         for row in self.dataset:
             sentence = row["sentence"]
             prompt = f"Verilen metin hangi duyguyu ifade ediyor? {sentence}"
@@ -19,8 +21,9 @@ class SentimentAnalysisTask(BaseTask):
             answer = self.generate_response_mcqa(messages, choices=["positive", "negative", "neutral"])
             responses.append(answer)
             if row["sentiment"] == answer:
-                true += 1
-        print(responses)
-        return true/total_count

 from src.deepeval.base_task import BaseTask
+from src.deepeval.utils import accuracy, accuracy_standard_error
+from typing import Any
 class SentimentAnalysisTask(BaseTask):
     def __init__(self, model_name):
         return super().load_dataset_from_hf()
+    def evaluate(self) -> dict[str, Any]:
         responses = []
         total_count = len(self.dataset)
+        n_correct = 0
         for row in self.dataset:
             sentence = row["sentence"]
             prompt = f"Verilen metin hangi duyguyu ifade ediyor? {sentence}"
             answer = self.generate_response_mcqa(messages, choices=["positive", "negative", "neutral"])
             responses.append(answer)
             if row["sentiment"] == answer:
+                n_correct += 1
+        acc = accuracy(n_correct, total_count)
+        acc_stderr = accuracy_standard_error(n_correct, total_count)
+        return {"acc": acc, "acc_stderr": acc_stderr}