Spaces:

metunlp
/

model-eval-be

Running on L4

Ahmet Kaan Sever commited on about 19 hours ago

Commit

f6890a5

1 Parent(s): 211b909

Changed dataset size to default and fixed imports

Files changed (12) hide show

src/deepeval/bias.py CHANGED Viewed

@@ -11,7 +11,7 @@ class BiasTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(1, len(dataset))))
     def evaluate(self) -> dict[str, Any]:

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:

src/deepeval/instruction_following_task.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from src.deepeval.base_task import BaseTask
 from deepeval.metrics import PromptAlignmentMetric
 from deepeval.test_case import LLMTestCase

+import datetime
 from src.deepeval.base_task import BaseTask
 from deepeval.metrics import PromptAlignmentMetric
 from deepeval.test_case import LLMTestCase

src/deepeval/math.py CHANGED Viewed

@@ -10,7 +10,7 @@ class MathTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(1, len(dataset))))
     def generate_response_oeqa_multi_token(self, msg,max_new_tokens: int = 128):
         """

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def generate_response_oeqa_multi_token(self, msg,max_new_tokens: int = 128):
         """

src/deepeval/mmlu.py CHANGED Viewed

@@ -15,7 +15,7 @@ class MMLUTask(BaseTask):
         super().__init__("metunlp/mmlu_tr", model_name=model_name)
     def load_dataset_from_hf(self):
-        evaluate_count = 1
         print("Loading dataset from Hugging Face.")
         dataset_dict = {}
         for subset in self.subsets:

         super().__init__("metunlp/mmlu_tr", model_name=model_name)
     def load_dataset_from_hf(self):
+        evaluate_count = 50
         print("Loading dataset from Hugging Face.")
         dataset_dict = {}
         for subset in self.subsets:

src/deepeval/ner.py CHANGED Viewed

@@ -10,7 +10,7 @@ class NERTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(1, len(dataset))))
     def generate_response_oeqa_multi_token(self, msg,max_new_tokens: int = 128):
         """

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def generate_response_oeqa_multi_token(self, msg,max_new_tokens: int = 128):
         """

src/deepeval/pos.py CHANGED Viewed

@@ -10,7 +10,7 @@ class POSTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(1, len(dataset))))
     def generate_response_oeqa_multi_token(self, msg,max_new_tokens: int = 128):
         """

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def generate_response_oeqa_multi_token(self, msg,max_new_tokens: int = 128):
         """

src/deepeval/sts.py CHANGED Viewed

@@ -17,7 +17,7 @@ class STSTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(1, len(dataset))))
     def generate_response_sts_multi_token(self, msg, max_new_tokens=5, choices: list = []):
         """

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def generate_response_sts_multi_token(self, msg, max_new_tokens=5, choices: list = []):
         """

src/deepeval/summarization_task.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import datetime
 from src.deepeval.base_task import BaseTask
 from deepeval.metrics import SummarizationMetric
 from deepeval.test_case import LLMTestCase

+from datetime import datetime
 from src.deepeval.base_task import BaseTask
 from deepeval.metrics import SummarizationMetric
 from deepeval.test_case import LLMTestCase

src/deepeval/topic_detection.py CHANGED Viewed

@@ -11,7 +11,7 @@ class TopicDetectionTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(10, len(dataset))))
     def evaluate(self) -> dict[str, Any]:

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:

src/deepeval/toxicity_task.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from src.deepeval.base_task import BaseTask
 from deepeval.metrics import ToxicityMetric
 from deepeval.test_case import LLMTestCase

+import datetime
 from src.deepeval.base_task import BaseTask
 from deepeval.metrics import ToxicityMetric
 from deepeval.test_case import LLMTestCase

src/deepeval/truthfulness_task.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import datetime
 from src.deepeval.base_task import BaseTask
 from deepeval.test_case import LLMTestCase
 from typing import Any

+from datetime import datetime
 from src.deepeval.base_task import BaseTask
 from deepeval.test_case import LLMTestCase
 from typing import Any

src/deepeval/turkish_vocabulary.py CHANGED Viewed

@@ -14,7 +14,7 @@ class TurkishVocabularyTask(BaseTask):
         super().__init__("metunlp/turkish_vocabulary", model_name=model_name)
     def load_dataset_from_hf(self):
-        evaluate_count = 1
         print("Loading dataset from Hugging Face.")
         dataset_dict = {}
         for subset in self.subsets:

         super().__init__("metunlp/turkish_vocabulary", model_name=model_name)
     def load_dataset_from_hf(self):
+        evaluate_count = 50
         print("Loading dataset from Hugging Face.")
         dataset_dict = {}
         for subset in self.subsets: