Spaces:

metunlp
/

model-eval-be

Paused

App Files Files Community

Ahmet Kaan Sever commited on 11 days ago

Commit

8a3d32e

1 Parent(s): 66a11b3

Removed unnecessary debug prints and timestamps now return seconds.

Browse files

Files changed (9) hide show

src/deepeval/base_task.py +4 -4
src/deepeval/commonsense_reasoning_task.py +6 -6
src/deepeval/complex_reasoning.py +5 -5
src/deepeval/deepeval_task_manager.py +2 -2
src/deepeval/nli.py +6 -6
src/deepeval/reading_comp_mc.py +6 -6
src/deepeval/sentiment_analysis_task.py +1 -1
src/deepeval/summarization_task.py +4 -4
src/deepeval/turkish_general_knowledge_task.py +5 -5

src/deepeval/base_task.py CHANGED Viewed

@@ -41,7 +41,7 @@ class BaseTask(ABC):
             token=HF_TOKEN,  # Replace with actual token
         )
         end_time = datetime.now()
-        print(f"Model loaded in {end_time - start_time} seconds.")
         print("Model loaded.")
         tokenizer = AutoTokenizer.from_pretrained(model_name)
         return model, tokenizer
@@ -98,7 +98,7 @@ class BaseTask(ABC):
                 {"role": "user", "content": f"{msg}"},
             ]
         formatted_chat = self.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
-        print(formatted_chat)
         inputs = self.tokenizer(formatted_chat, return_tensors="pt", padding=True, truncation=True)
         input_ids = inputs.input_ids.to(self.model.device)
         attention_mask = inputs.attention_mask.to(self.model.device)
@@ -107,7 +107,7 @@ class BaseTask(ABC):
         letters = [chr(ord('A') + i) for i in range(len(choices))]  # Create option letters A, B, C, D, E, ...
         encoded_choices = [self.tokenizer.encode(letter, add_special_tokens=False) for letter in letters]
         flattened_encoded_choices = [item for sublist in encoded_choices for item in sublist]  # Flatten the list
-        print(flattened_encoded_choices)
         allowed_tokens = flattened_encoded_choices
         allowed_tokens += self.get_chat_template_tokens() # Get the special chat tokens
@@ -199,7 +199,7 @@ class BaseTask(ABC):
         dataset = dataset.shuffle(seed=42).select(range(int(len(dataset) * 0.25)))
         print("Reduced dataset size: ", len(dataset))
         end_time = datetime.now()
-        print(f"Dataset loaded in {end_time - start_time} seconds.")
         return dataset
     @abstractmethod

             token=HF_TOKEN,  # Replace with actual token
         )
         end_time = datetime.now()
+        print(f"Model loaded in {(end_time - start_time).seconds} seconds.")
         print("Model loaded.")
         tokenizer = AutoTokenizer.from_pretrained(model_name)
         return model, tokenizer
                 {"role": "user", "content": f"{msg}"},
             ]
         formatted_chat = self.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
+        #print(formatted_chat)
         inputs = self.tokenizer(formatted_chat, return_tensors="pt", padding=True, truncation=True)
         input_ids = inputs.input_ids.to(self.model.device)
         attention_mask = inputs.attention_mask.to(self.model.device)
         letters = [chr(ord('A') + i) for i in range(len(choices))]  # Create option letters A, B, C, D, E, ...
         encoded_choices = [self.tokenizer.encode(letter, add_special_tokens=False) for letter in letters]
         flattened_encoded_choices = [item for sublist in encoded_choices for item in sublist]  # Flatten the list
+        #print(flattened_encoded_choices)
         allowed_tokens = flattened_encoded_choices
         allowed_tokens += self.get_chat_template_tokens() # Get the special chat tokens
         dataset = dataset.shuffle(seed=42).select(range(int(len(dataset) * 0.25)))
         print("Reduced dataset size: ", len(dataset))
         end_time = datetime.now()
+        print(f"Dataset loaded in {(end_time - start_time).seconds} seconds.")
         return dataset
     @abstractmethod

src/deepeval/commonsense_reasoning_task.py CHANGED Viewed

@@ -32,9 +32,9 @@ class CommonsenseReasoningTask(BaseTask):
             context = row["context"]
             # Prints for debugging
-            print(f"Choices: {choices}")
-            print("Type of choices:", type(choices))
-            print("Type of answer:", type(answer))
             # Get answer index (starting from 0)
             if type(answer) == int:
@@ -62,9 +62,9 @@ class CommonsenseReasoningTask(BaseTask):
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper()
             # Print answers
-            print(f"Correct Answer: {correct_answer_letter}")
-            print(f"Model Answer: {model_answer}")
-            print(f"Model Answer Cleaned: {model_answer_cleaned}")
             # Check if correct based on metric
             if correct_answer_letter == model_answer_cleaned:

             context = row["context"]
             # Prints for debugging
+            # print(f"Choices: {choices}")
+            # print("Type of choices:", type(choices))
+            # print("Type of answer:", type(answer))
             # Get answer index (starting from 0)
             if type(answer) == int:
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper()
             # Print answers
+            # print(f"Correct Answer: {correct_answer_letter}")
+            # print(f"Model Answer: {model_answer}")
+            # print(f"Model Answer Cleaned: {model_answer_cleaned}")
             # Check if correct based on metric
             if correct_answer_letter == model_answer_cleaned:

src/deepeval/complex_reasoning.py CHANGED Viewed

@@ -33,8 +33,8 @@ class ComplexReasoningTask(BaseTask):
             correct_answers.append(correct_answer_letter)
             # Prints for debugging
-            print(f"Choices: {choices}")
-            print("Type of choices:", type(choices))
             # Construct the prompt/message
@@ -50,9 +50,9 @@ class ComplexReasoningTask(BaseTask):
             if correct_answer_letter == model_answer_cleaned:
                 true += 1
             # Print answers
-            print(f"Correct Answer: {correct_answer_letter}")
-            print(f"Model Answer: {model_answer}")
-            print(f"Model Answer Cleaned: {model_answer_cleaned}")
         print("Answers:", correct_answers)
         print("Results:", responses)

             correct_answers.append(correct_answer_letter)
             # Prints for debugging
+            # print(f"Choices: {choices}")
+            # print("Type of choices:", type(choices))
             # Construct the prompt/message
             if correct_answer_letter == model_answer_cleaned:
                 true += 1
             # Print answers
+            # print(f"Correct Answer: {correct_answer_letter}")
+            # print(f"Model Answer: {model_answer}")
+            # print(f"Model Answer Cleaned: {model_answer_cleaned}")
         print("Answers:", correct_answers)
         print("Results:", responses)

src/deepeval/deepeval_task_manager.py CHANGED Viewed

@@ -69,12 +69,12 @@ class DeepEvalTaskManager:
                 task_value = task_enum.value
                 results[task_value] = task_method()  # Call the stored method reference
                 end_time = datetime.now()
-                print(f"Task {task_name} completed in {end_time - start_time} seconds.")
             except Exception as e:
                 print(f"Error At Task: {task_name} - {e}")
                 continue
         total_end_time = datetime.now()
-        print(f"All tasks completed in {total_end_time - total_start_time} seconds.")
         print("All tasks completed.")
         return results

                 task_value = task_enum.value
                 results[task_value] = task_method()  # Call the stored method reference
                 end_time = datetime.now()
+                print(f"Task {task_name} completed in {(end_time - start_time).seconds} seconds.")
             except Exception as e:
                 print(f"Error At Task: {task_name} - {e}")
                 continue
         total_end_time = datetime.now()
+        print(f"All tasks completed in {(total_end_time - total_start_time).seconds} seconds.")
         print("All tasks completed.")
         return results

src/deepeval/nli.py CHANGED Viewed

@@ -36,9 +36,9 @@ class NLITask(BaseTask):
             # Prints for debugging
-            print(f"Choices: {choices}")
-            print("Type of choices:", type(choices))
-            print("Label:", label)
             # Construct the prompt/message
             instruction = ""
@@ -53,9 +53,9 @@ class NLITask(BaseTask):
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper()
             # Print answers
-            print(f"Correct Answer: {correct_answer_letter}")
-            print(f"Model Answer: {model_answer}")
-            print(f"Model Answer Cleaned: {model_answer_cleaned}")
             # Check if correct based on metric
             if correct_answer_letter == model_answer_cleaned:

             # Prints for debugging
+            # print(f"Choices: {choices}")
+            # print("Type of choices:", type(choices))
+            # print("Label:", label)
             # Construct the prompt/message
             instruction = ""
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper()
             # Print answers
+            # print(f"Correct Answer: {correct_answer_letter}")
+            # print(f"Model Answer: {model_answer}")
+            # print(f"Model Answer Cleaned: {model_answer_cleaned}")
             # Check if correct based on metric
             if correct_answer_letter == model_answer_cleaned:

src/deepeval/reading_comp_mc.py CHANGED Viewed

@@ -32,9 +32,9 @@ class ReadingComprehensionMCTask(BaseTask):
             question_about_the_text = row["question_about_the_text"]
             # Prints for debugging
-            print(f"Choices: {choices}")
-            print("Type of choices:", type(choices))
-            print("Type of answer:", type(answer))
             # Get answer index (starting from 0)
             if type(answer) == int:
@@ -57,9 +57,9 @@ class ReadingComprehensionMCTask(BaseTask):
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
             # Print answers
-            print(f"Correct Answer: {correct_answer_letter}")
-            print(f"Model Answer: {model_answer}")
-            print(f"Model Answer Cleaned: {model_answer_cleaned}")
             # Check if correct based on metric
             if correct_answer_letter == model_answer_cleaned:

             question_about_the_text = row["question_about_the_text"]
             # Prints for debugging
+            # print(f"Choices: {choices}")
+            # print("Type of choices:", type(choices))
+            # print("Type of answer:", type(answer))
             # Get answer index (starting from 0)
             if type(answer) == int:
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
             # Print answers
+            # print(f"Correct Answer: {correct_answer_letter}")
+            # print(f"Model Answer: {model_answer}")
+            # print(f"Model Answer Cleaned: {model_answer_cleaned}")
             # Check if correct based on metric
             if correct_answer_letter == model_answer_cleaned:

src/deepeval/sentiment_analysis_task.py CHANGED Viewed

@@ -23,7 +23,7 @@ class SentimentAnalysisTask(BaseTask):
             prompt = f"Verilen metin hangi duyguyu ifade ediyor? {sentence}\n {formatted_choices}"
             messages = prompt
             answer = self.generate_response_mcqa_multi_token(messages, choices=choices)
-            print("Answer:", answer)
             responses.append(answer)
             correct_answer_letter = "A" if row["sentiment"] == "positive" else "B" if row["sentiment"] == "negative" else "C" if row["sentiment"] == "neutral" else None
             model_answer_cleaned = answer.strip().replace('\n', '').replace(' ', '').upper()

             prompt = f"Verilen metin hangi duyguyu ifade ediyor? {sentence}\n {formatted_choices}"
             messages = prompt
             answer = self.generate_response_mcqa_multi_token(messages, choices=choices)
+            #print("Answer:", answer)
             responses.append(answer)
             correct_answer_letter = "A" if row["sentiment"] == "positive" else "B" if row["sentiment"] == "negative" else "C" if row["sentiment"] == "neutral" else None
             model_answer_cleaned = answer.strip().replace('\n', '').replace(' ', '').upper()

src/deepeval/summarization_task.py CHANGED Viewed

@@ -23,8 +23,8 @@ class SummarizationTask(BaseTask):
             )
             generated_summary = self.generate_response(prompt, max_new_tokens=200)
-            print(f"Text: {text_data}\n")
-            print(f"Summary: {generated_summary}\n")
             test_case = LLMTestCase(input=text_data, actual_output=generated_summary)
             metric = SummarizationMetric(
@@ -33,8 +33,8 @@ class SummarizationTask(BaseTask):
             )
             metric.measure(test_case)
-            print(f"Reason: {metric.reason}")
-            print(f"Score Breakdown: {metric.score_breakdown}")
             results.append({
                 "index": i,
                 "score": metric.score,

             )
             generated_summary = self.generate_response(prompt, max_new_tokens=200)
+            # print(f"Text: {text_data}\n")
+            # print(f"Summary: {generated_summary}\n")
             test_case = LLMTestCase(input=text_data, actual_output=generated_summary)
             metric = SummarizationMetric(
             )
             metric.measure(test_case)
+            # print(f"Reason: {metric.reason}")
+            # print(f"Score Breakdown: {metric.score_breakdown}")
             results.append({
                 "index": i,
                 "score": metric.score,

src/deepeval/turkish_general_knowledge_task.py CHANGED Viewed

@@ -24,8 +24,8 @@ class TurkishGeneralKnowledgeTask(BaseTask):
             answer_index = row["answer"]  # Assuming it's zero-based index
             difficulty = row["difficulty"]
-            print(f"Choices: {choices}")
-            print("Type of choices:", type(choices))
             # Categorize difficulty
             if difficulty <= 3:
                 category = 'easy'
@@ -44,15 +44,15 @@ class TurkishGeneralKnowledgeTask(BaseTask):
             #"""
             model_answer = self.generate_response_mcqa_multi_token(message, choices=choices, max_new_tokens=2)
             responses.append(model_answer)
-            print(f"Correct Answer: {choices[answer_index]}")
-            print(f"Model Answer: {model_answer}")
             #TODO: Make the cleaning in the mcqa function
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper()
             # Check if the answer is correct
             correct_answer_letter = chr(65 + answer_index)
-            print("Correct Answer Letter:", correct_answer_letter)
             if correct_answer_letter == model_answer_cleaned:
                 true += 1

             answer_index = row["answer"]  # Assuming it's zero-based index
             difficulty = row["difficulty"]
+            # print(f"Choices: {choices}")
+            # print("Type of choices:", type(choices))
             # Categorize difficulty
             if difficulty <= 3:
                 category = 'easy'
             #"""
             model_answer = self.generate_response_mcqa_multi_token(message, choices=choices, max_new_tokens=2)
             responses.append(model_answer)
+            # print(f"Correct Answer: {choices[answer_index]}")
+            # print(f"Model Answer: {model_answer}")
             #TODO: Make the cleaning in the mcqa function
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper()
             # Check if the answer is correct
             correct_answer_letter = chr(65 + answer_index)
+            # print("Correct Answer Letter:", correct_answer_letter)
             if correct_answer_letter == model_answer_cleaned:
                 true += 1