Spaces:

metunlp
/

model-eval-be

Sleeping

Ahmet Kaan Sever commited on 11 days ago

Commit

dbf76bc

1 Parent(s): 41affa9

Adjusted load dataset to get 25% of each dataset

Files changed (14) hide show

src/deepeval/base_task.py CHANGED Viewed

@@ -188,7 +188,12 @@ class BaseTask(ABC):
         print("Loading dataset from Hugging Face.")
         dataset= load_dataset(self.dataset_repo, token=HF_TOKEN, split="train")
         print("Dataset loaded.")
-        return dataset.select(range(min(3, len(dataset))))
     @abstractmethod
     def evaluate(self):

         print("Loading dataset from Hugging Face.")
         dataset= load_dataset(self.dataset_repo, token=HF_TOKEN, split="train")
         print("Dataset loaded.")
+        # Load %25 of each dataset
+        print("Original dataset size: ", len(dataset))
+        dataset = dataset.shuffle(seed=42).select(range(int(len(dataset) * 0.25)))
+        print("Reduced dataset size: ", len(dataset))
+        return dataset
     @abstractmethod
     def evaluate(self):

src/deepeval/bias_task.py CHANGED Viewed

@@ -10,7 +10,7 @@ class BiasTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(3, len(dataset))))
     def evaluate(self) -> dict[str, Any]:

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:

src/deepeval/commonsense_reasoning_task.py CHANGED Viewed

@@ -10,7 +10,7 @@ class CommonsenseReasoningTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(10, len(dataset))))
     def evaluate(self) -> dict[str, Any]:

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:

src/deepeval/complex_reasoning.py CHANGED Viewed

@@ -11,7 +11,7 @@ class ComplexReasoningTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(10, len(dataset))))
     def evaluate(self) -> dict[str, Any]:

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:

src/deepeval/faithfulness_task.py CHANGED Viewed

@@ -9,7 +9,7 @@ class FaithfulnessTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(3, len(dataset))))
     def evaluate(self) -> dict[str, Any]:

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:

src/deepeval/instruction_following_task.py CHANGED Viewed

@@ -10,7 +10,7 @@ class InstructionFollowingTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(3, len(dataset))))
     def evaluate(self) -> dict[str, Any]:
         results = []

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:
         results = []

src/deepeval/nli.py CHANGED Viewed

@@ -10,7 +10,7 @@ class NLITask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(10, len(dataset))))
     def evaluate(self) -> dict[str, Any]:

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:

src/deepeval/reading_comp_mc.py CHANGED Viewed

@@ -11,7 +11,7 @@ class ReadingComprehensionMCTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(10, len(dataset))))
     def evaluate(self) -> dict[str, Any]:

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:

src/deepeval/reading_comprehension_task.py CHANGED Viewed

@@ -28,7 +28,7 @@ class ReadingComprehensionTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(3, len(dataset))))
     def evaluate(self) -> dict[str, Any]:
         results = []

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:
         results = []

src/deepeval/sentiment_analysis_task.py CHANGED Viewed

@@ -9,7 +9,7 @@ class SentimentAnalysisTask(BaseTask):
     def load_dataset_from_hf(self):
         print("Loading the dataset")
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(10, len(dataset))))
     def evaluate(self) -> dict[str, Any]:

     def load_dataset_from_hf(self):
         print("Loading the dataset")
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:

src/deepeval/summarization_task.py CHANGED Viewed

@@ -9,7 +9,7 @@ class SummarizationTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(3, len(dataset))))
     def evaluate(self) -> dict[str, Any]:
         results = []

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:
         results = []

src/deepeval/toxicity_task.py CHANGED Viewed

@@ -9,7 +9,7 @@ class ToxicityTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(3, len(dataset))))
     def evaluate(self) -> dict[str, Any]:

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:

src/deepeval/truthfulness_task.py CHANGED Viewed

@@ -26,7 +26,7 @@ class TruthfulnessTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(3, len(dataset))))
     def evaluate(self) -> dict[str, Any]:
         results = []

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self) -> dict[str, Any]:
         results = []

src/deepeval/turkish_general_knowledge_task.py CHANGED Viewed

@@ -9,7 +9,7 @@ class TurkishGeneralKnowledgeTask(BaseTask):
     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
-        return dataset.select(range(min(10, len(dataset))))
     def evaluate(self):
         responses = []

     def load_dataset_from_hf(self):
         dataset = super().load_dataset_from_hf()
+        return dataset
     def evaluate(self):
         responses = []