Spaces:

metunlp
/

model-eval-be

Paused

App Files Files Community

Ahmet Kaan Sever commited on about 20 hours ago

Commit

cd8917c

1 Parent(s): 52b6367

Removed logging from new tasks

Browse files

Files changed (9) hide show

src/deepeval/bias.py +1 -14
src/deepeval/math.py +0 -11
src/deepeval/metaphors_and_idioms.py +0 -12
src/deepeval/mmlu.py +0 -12
src/deepeval/ner.py +0 -11
src/deepeval/pos.py +0 -11
src/deepeval/sts.py +0 -12
src/deepeval/topic_detection.py +0 -11
src/deepeval/turkish_vocabulary.py +0 -16

src/deepeval/bias.py CHANGED Viewed

@@ -43,21 +43,13 @@ class BiasTask(BaseTask):
             disambiguated_correct_answer_letter = chr(64 + disambiguated_answer)  # 65 - 1 since we need the indexing to start from 0
             disambiguated_prompt = f"Bağlam: {disambiguated_context}\nSoru: {disambiguated_question}\nSeçenekler:{formatted_choices}"
-            # Prints for debugging
-            print(f"Choices: {choices}")
-            print("Type of choices:", type(choices))
             # STAGE 1
             instruction = ""
             prompt = f"Stage1:\n{ambiguous_prompt}\n{instruction}\n"
             message = prompt
             ambiguous_model_answer = self.generate_response_mcqa_multi_token(message, choices=choices, max_new_tokens=2)
             ambiguous_model_answer_cleaned = ambiguous_model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
-            ## Print answers
-            print(f"Correct Answer: {ambiguous_correct_answer_letter}")
-            print(f"Model Answer: {ambiguous_model_answer}")
-            print(f"Model Answer Cleaned: {ambiguous_model_answer_cleaned}")
-            print(f"Result: {ambiguous_correct_answer_letter == ambiguous_model_answer_cleaned}")
             ## Check if correct based on metric
             if ambiguous_correct_answer_letter == ambiguous_model_answer_cleaned:
                 true += 1
@@ -71,11 +63,6 @@ class BiasTask(BaseTask):
             message = prompt
             disambiguated_model_answer = self.generate_response_mcqa_multi_token(message, choices=choices, max_new_tokens=2)
             disambiguated_model_answer_cleaned = disambiguated_model_answer.strip().replace('\n', '').replace(' ','').upper().replace(':', '')
-            ## Print answers
-            print(f"Correct Answer: {disambiguated_correct_answer_letter}")
-            print(f"Model Answer: {disambiguated_model_answer}")
-            print(f"Model Answer Cleaned: {disambiguated_model_answer_cleaned}")
-            print(f"Result: {disambiguated_correct_answer_letter == disambiguated_model_answer_cleaned}")
             responses.append((ambiguous_model_answer_cleaned,disambiguated_model_answer_cleaned))
             ## Check if correct based on metric

             disambiguated_correct_answer_letter = chr(64 + disambiguated_answer)  # 65 - 1 since we need the indexing to start from 0
             disambiguated_prompt = f"Bağlam: {disambiguated_context}\nSoru: {disambiguated_question}\nSeçenekler:{formatted_choices}"
             # STAGE 1
             instruction = ""
             prompt = f"Stage1:\n{ambiguous_prompt}\n{instruction}\n"
             message = prompt
             ambiguous_model_answer = self.generate_response_mcqa_multi_token(message, choices=choices, max_new_tokens=2)
             ambiguous_model_answer_cleaned = ambiguous_model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
             ## Check if correct based on metric
             if ambiguous_correct_answer_letter == ambiguous_model_answer_cleaned:
                 true += 1
             message = prompt
             disambiguated_model_answer = self.generate_response_mcqa_multi_token(message, choices=choices, max_new_tokens=2)
             disambiguated_model_answer_cleaned = disambiguated_model_answer.strip().replace('\n', '').replace(' ','').upper().replace(':', '')
             responses.append((ambiguous_model_answer_cleaned,disambiguated_model_answer_cleaned))
             ## Check if correct based on metric

src/deepeval/math.py CHANGED Viewed

@@ -29,7 +29,6 @@ class MathTask(BaseTask):
             {"role": "user", "content": f"{msg}"},
         ]
         formatted_chat = self.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
-        print(formatted_chat)
         inputs = self.tokenizer(formatted_chat, return_tensors="pt", padding=True, truncation=True)
         input_ids = inputs.input_ids.to(self.model.device)
@@ -67,10 +66,6 @@ class MathTask(BaseTask):
             answer = row["final_answer"]
             question = row["question"]
-            # Prints for debugging
-            print(f"Answer: {answer}")
-            print("Type of answer:", type(answer))
             # Construct the prompt/message
             instruction = f"""Aşağıdaki matematik problemini verilen nihai cevap formatına uygun olacak şekilde çözün. Tüm adımları gösterdikten sonra, nihai cevabınızı sadece bir kez ve aşağıdaki kurallara uygun şekilde kutu (\\boxed{{}}) içinde verin.
@@ -103,12 +98,6 @@ Nihai cevap:
             responses.append(model_answer)
             model_answer_cleaned = re.search(r"\\boxed{([^}]*)}", model_answer)
-            # Print answers
-            print(f"Correct Answer: {answer}")
-            print(f"Model Answer: {model_answer}")
-            print(f"Model Answer Cleaned: {model_answer_cleaned}")
-            print(f"Result: {answer == model_answer_cleaned}")
             # Check if correct based on metric
             if answer == model_answer_cleaned:
                 true += 1

             {"role": "user", "content": f"{msg}"},
         ]
         formatted_chat = self.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
         inputs = self.tokenizer(formatted_chat, return_tensors="pt", padding=True, truncation=True)
         input_ids = inputs.input_ids.to(self.model.device)
             answer = row["final_answer"]
             question = row["question"]
             # Construct the prompt/message
             instruction = f"""Aşağıdaki matematik problemini verilen nihai cevap formatına uygun olacak şekilde çözün. Tüm adımları gösterdikten sonra, nihai cevabınızı sadece bir kez ve aşağıdaki kurallara uygun şekilde kutu (\\boxed{{}}) içinde verin.
             responses.append(model_answer)
             model_answer_cleaned = re.search(r"\\boxed{([^}]*)}", model_answer)
             # Check if correct based on metric
             if answer == model_answer_cleaned:
                 true += 1

src/deepeval/metaphors_and_idioms.py CHANGED Viewed

@@ -43,12 +43,6 @@ class MetaphorsAndIdiomsTask(BaseTask):
             else:
                 question = "Aşağıda verilen durum hangi atasözü ile en iyi ifade edilebilir?"
-            # Prints for debugging
-            print(f"Difficulty: {category}")
-            print("Type of difficulty:", type(category))
-            print(f"Answer: {correct_answer_letter}")
-            print("Type of answer:", type(answer_index))
             # Construct the prompt/message
             instruction = ""
             prompt = f"Soru: {question}\nBağlam: {context}\nSeçenekler:\n{formatted_choices}\n{instruction}\n"
@@ -59,12 +53,6 @@ class MetaphorsAndIdiomsTask(BaseTask):
             responses.append(model_answer)
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
-            # Print answers
-            print(f"Correct Answer: {correct_answer_letter}")
-            print(f"Model Answer: {model_answer}")
-            print(f"Model Answer Cleaned: {model_answer_cleaned}")
-            print(f"Result: {correct_answer_letter == model_answer_cleaned}")
             # Check if correct based on metric
             if correct_answer_letter == model_answer_cleaned:
                 true += 1

             else:
                 question = "Aşağıda verilen durum hangi atasözü ile en iyi ifade edilebilir?"
             # Construct the prompt/message
             instruction = ""
             prompt = f"Soru: {question}\nBağlam: {context}\nSeçenekler:\n{formatted_choices}\n{instruction}\n"
             responses.append(model_answer)
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
             # Check if correct based on metric
             if correct_answer_letter == model_answer_cleaned:
                 true += 1

src/deepeval/mmlu.py CHANGED Viewed

@@ -16,12 +16,10 @@ class MMLUTask(BaseTask):
     def load_dataset_from_hf(self):
         evaluate_count = 50
-        print("Loading dataset from Hugging Face.")
         dataset_dict = {}
         for subset in self.subsets:
             subset_data = load_dataset(self.dataset_repo, subset, token=HF_TOKEN, split="train")
             dataset_dict[subset] = subset_data.select(range(min(evaluate_count, len(subset_data))))
-        print("Dataset loaded.")
         return dataset_dict
@@ -48,10 +46,6 @@ class MMLUTask(BaseTask):
                 formatted_choices = "\n".join([f"{chr(65 + i)}: {choice}" for i, choice in enumerate(choices)])
-                # Prints for debugging
-                print(f"Answer: {correct_answer_letter}")
-                print("Type of answer:", type(answer_index))
                 # Construct the prompt/message
                 instruction = f"Aşağıda {subject} konusunda çoktan seçmeli bir soru verilmiştir."
                 prompt = f"{instruction}\n\nSoru: {question}\nSeçenekler:\n{formatted_choices}\n\n"
@@ -62,12 +56,6 @@ class MMLUTask(BaseTask):
                 responses.append(model_answer)
                 model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
-                # Print answers
-                print(f"Correct Answer: {correct_answer_letter}")
-                print(f"Model Answer: {model_answer}")
-                print(f"Model Answer Cleaned: {model_answer_cleaned}")
-                print(f"Result: {correct_answer_letter == model_answer_cleaned}")
                 # Check if correct based on metric
                 if correct_answer_letter == model_answer_cleaned:
                     true += 1

     def load_dataset_from_hf(self):
         evaluate_count = 50
         dataset_dict = {}
         for subset in self.subsets:
             subset_data = load_dataset(self.dataset_repo, subset, token=HF_TOKEN, split="train")
             dataset_dict[subset] = subset_data.select(range(min(evaluate_count, len(subset_data))))
         return dataset_dict
                 formatted_choices = "\n".join([f"{chr(65 + i)}: {choice}" for i, choice in enumerate(choices)])
                 # Construct the prompt/message
                 instruction = f"Aşağıda {subject} konusunda çoktan seçmeli bir soru verilmiştir."
                 prompt = f"{instruction}\n\nSoru: {question}\nSeçenekler:\n{formatted_choices}\n\n"
                 responses.append(model_answer)
                 model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
                 # Check if correct based on metric
                 if correct_answer_letter == model_answer_cleaned:
                     true += 1

src/deepeval/ner.py CHANGED Viewed

@@ -29,7 +29,6 @@ class NERTask(BaseTask):
             {"role": "user", "content": f"{msg}"},
         ]
         formatted_chat = self.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
-        print(formatted_chat)
         inputs = self.tokenizer(formatted_chat, return_tensors="pt", padding=True, truncation=True)
         input_ids = inputs.input_ids.to(self.model.device)
@@ -68,10 +67,6 @@ class NERTask(BaseTask):
             answer = row["final_answer"]
             question = row["question"]
-            # Prints for debugging
-            print(f"Answer: {answer}")
-            print("Type of answer:", type(answer))
             # Construct the prompt/message
             instruction = ("Aşağıdaki Named Entity Recognition (NER) için etiketlenmesi gereken cümleler vardır. "
                   "Cümlelerdeki varlıkları belirleyin ve şu kategorilere ayırın: CARDINAL, DATE, EVENT, FAC, GPE, LANGUAGE, LAW, LOC, MONEY, NORP, ORDINAL, ORG, PER, PERCENT, PERSON, PRODUCT, QUANTITY, TIME, TITLE, WORK_OF_ART. "
@@ -141,12 +136,6 @@ class NERTask(BaseTask):
             responses.append(model_answer)
             model_answer_cleaned = model_answer
-            # Print answers
-            print(f"Correct Answer: {answer}")
-            print(f"Model Answer: {model_answer}")
-            print(f"Model Answer Cleaned: {model_answer_cleaned}")
-            print(f"Result: {answer == model_answer_cleaned}")
             # Check if correct based on metric
             if answer == model_answer_cleaned:
                 true += 1

             {"role": "user", "content": f"{msg}"},
         ]
         formatted_chat = self.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
         inputs = self.tokenizer(formatted_chat, return_tensors="pt", padding=True, truncation=True)
         input_ids = inputs.input_ids.to(self.model.device)
             answer = row["final_answer"]
             question = row["question"]
             # Construct the prompt/message
             instruction = ("Aşağıdaki Named Entity Recognition (NER) için etiketlenmesi gereken cümleler vardır. "
                   "Cümlelerdeki varlıkları belirleyin ve şu kategorilere ayırın: CARDINAL, DATE, EVENT, FAC, GPE, LANGUAGE, LAW, LOC, MONEY, NORP, ORDINAL, ORG, PER, PERCENT, PERSON, PRODUCT, QUANTITY, TIME, TITLE, WORK_OF_ART. "
             responses.append(model_answer)
             model_answer_cleaned = model_answer
             # Check if correct based on metric
             if answer == model_answer_cleaned:
                 true += 1

src/deepeval/pos.py CHANGED Viewed

@@ -29,7 +29,6 @@ class POSTask(BaseTask):
             {"role": "user", "content": f"{msg}"},
         ]
         formatted_chat = self.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
-        print(formatted_chat)
         inputs = self.tokenizer(formatted_chat, return_tensors="pt", padding=True, truncation=True)
         input_ids = inputs.input_ids.to(self.model.device)
@@ -98,10 +97,6 @@ class POSTask(BaseTask):
             answer = row["final_answer"]
             question = row["question"]
-            # Prints for debugging
-            print(f"Answer: {answer}")
-            print("Type of answer:", type(answer))
             # Construct the prompt/message
             instruction = f"""Aşağıdaki matematik problemini verilen nihai cevap formatına uygun olacak şekilde çözün. Tüm adımları gösterdikten sonra, nihai cevabınızı sadece bir kez ve aşağıdaki kurallara uygun şekilde kutu (\\boxed{{}}) içinde verin.
@@ -134,12 +129,6 @@ Nihai cevap:
             responses.append(model_answer)
             model_answer_cleaned = re.search(r"\\boxed{([^}]*)}", model_answer)
-            # Print answers
-            print(f"Correct Answer: {answer}")
-            print(f"Model Answer: {model_answer}")
-            print(f"Model Answer Cleaned: {model_answer_cleaned}")
-            print(f"Result: {answer == model_answer_cleaned}")
             # Check if correct based on metric
             if answer == model_answer_cleaned:
                 true += 1

             {"role": "user", "content": f"{msg}"},
         ]
         formatted_chat = self.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
         inputs = self.tokenizer(formatted_chat, return_tensors="pt", padding=True, truncation=True)
         input_ids = inputs.input_ids.to(self.model.device)
             answer = row["final_answer"]
             question = row["question"]
             # Construct the prompt/message
             instruction = f"""Aşağıdaki matematik problemini verilen nihai cevap formatına uygun olacak şekilde çözün. Tüm adımları gösterdikten sonra, nihai cevabınızı sadece bir kez ve aşağıdaki kurallara uygun şekilde kutu (\\boxed{{}}) içinde verin.
             responses.append(model_answer)
             model_answer_cleaned = re.search(r"\\boxed{([^}]*)}", model_answer)
             # Check if correct based on metric
             if answer == model_answer_cleaned:
                 true += 1

src/deepeval/sts.py CHANGED Viewed

@@ -37,7 +37,6 @@ class STSTask(BaseTask):
             {"role": "user", "content": f"{msg}"},
         ]
         formatted_chat = self.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
-        print(formatted_chat)
         inputs = self.tokenizer(formatted_chat, return_tensors="pt", padding=True, truncation=True)
         input_ids = inputs.input_ids.to(self.model.device)
         attention_mask = inputs.attention_mask.to(self.model.device)
@@ -46,7 +45,6 @@ class STSTask(BaseTask):
         letters = ["0","1","2","3","4","5"]
         encoded_choices = [self.tokenizer.encode(letter, add_special_tokens=False) for letter in letters]
         flattened_encoded_choices = [item for sublist in encoded_choices for item in sublist]  # Flatten the list
-        print(flattened_encoded_choices)
         allowed_tokens = flattened_encoded_choices
         allowed_tokens += self.get_chat_template_tokens()  # Get the special chat tokens
@@ -93,10 +91,6 @@ class STSTask(BaseTask):
             sentence_1 = row["sentence_1"]
             sentence_2 = row["sentence_2"]
-            # Prints for debugging
-            print(f"Answer: {answer}")
-            print("Type of answer:", type(answer))
             # Construct the prompt/message
             instruction = f"Aşağıda verilen iki cümlenin birbirlerine olan anlamsal benzerliğini 0'dan 5'e kadar olan bir tam sayıyla söyleyin."
             prompt = f"""{instruction}\nCümle 1: {sentence_1}\nCümle 2: {sentence_2}\nSadece tek bir tam sayı söyleyin, ek bir kelime ya da sembol kullanmayın."""
@@ -107,12 +101,6 @@ class STSTask(BaseTask):
             responses.append(model_answer)
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
-            # Print answers
-            print(f"Correct Answer: {answer}")
-            print(f"Model Answer: {model_answer}")
-            print(f"Model Answer Cleaned: {model_answer_cleaned}")
-            print(f"Result: {answer == model_answer_cleaned}")
             # Check if correct based on metric
             if answer == model_answer_cleaned:
                 true += 1

             {"role": "user", "content": f"{msg}"},
         ]
         formatted_chat = self.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
         inputs = self.tokenizer(formatted_chat, return_tensors="pt", padding=True, truncation=True)
         input_ids = inputs.input_ids.to(self.model.device)
         attention_mask = inputs.attention_mask.to(self.model.device)
         letters = ["0","1","2","3","4","5"]
         encoded_choices = [self.tokenizer.encode(letter, add_special_tokens=False) for letter in letters]
         flattened_encoded_choices = [item for sublist in encoded_choices for item in sublist]  # Flatten the list
         allowed_tokens = flattened_encoded_choices
         allowed_tokens += self.get_chat_template_tokens()  # Get the special chat tokens
             sentence_1 = row["sentence_1"]
             sentence_2 = row["sentence_2"]
             # Construct the prompt/message
             instruction = f"Aşağıda verilen iki cümlenin birbirlerine olan anlamsal benzerliğini 0'dan 5'e kadar olan bir tam sayıyla söyleyin."
             prompt = f"""{instruction}\nCümle 1: {sentence_1}\nCümle 2: {sentence_2}\nSadece tek bir tam sayı söyleyin, ek bir kelime ya da sembol kullanmayın."""
             responses.append(model_answer)
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
             # Check if correct based on metric
             if answer == model_answer_cleaned:
                 true += 1

src/deepeval/topic_detection.py CHANGED Viewed

@@ -30,11 +30,6 @@ class TopicDetectionTask(BaseTask):
             answer = row["answer"]
             text = row["text"]
-            # Prints for debugging
-            print(f"Choices: {choices}")
-            print("Type of choices:", type(choices))
-            print("Type of answer:", type(answer))
             # Get answer index (starting from 0)
             if type(answer) == int:
                 answer_index = answer
@@ -53,12 +48,6 @@ class TopicDetectionTask(BaseTask):
             responses.append(model_answer)
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
-            # Print answers
-            print(f"Correct Answer: {correct_answer_letter}")
-            print(f"Model Answer: {model_answer}")
-            print(f"Model Answer Cleaned: {model_answer_cleaned}")
-            print(f"Result: {correct_answer_letter == model_answer_cleaned}")
             # Check if correct based on metric
             if correct_answer_letter == model_answer_cleaned:
                 true += 1

             answer = row["answer"]
             text = row["text"]
             # Get answer index (starting from 0)
             if type(answer) == int:
                 answer_index = answer
             responses.append(model_answer)
             model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
             # Check if correct based on metric
             if correct_answer_letter == model_answer_cleaned:
                 true += 1

src/deepeval/turkish_vocabulary.py CHANGED Viewed

@@ -15,12 +15,10 @@ class TurkishVocabularyTask(BaseTask):
     def load_dataset_from_hf(self):
         evaluate_count = 50
-        print("Loading dataset from Hugging Face.")
         dataset_dict = {}
         for subset in self.subsets:
             subset_data = load_dataset(self.dataset_repo, subset, token=HF_TOKEN, split="train")
             dataset_dict[subset] = subset_data.select(range(min(evaluate_count, len(subset_data))))
-        print("Dataset loaded.")
         return dataset_dict
@@ -54,14 +52,6 @@ class TurkishVocabularyTask(BaseTask):
                 choices = ast.literal_eval(row["choices"])  # Convert string to list
                 formatted_choices = "\n".join([f"{chr(65 + i)}: {choice}" for i, choice in enumerate(choices)])
-                # Prints for debugging
-                print(f"Difficulty: {category}")
-                print("Type of difficulty:", type(category))
-                print(f"Answer: {correct_answer_letter}")
-                print("Type of answer:", type(answer_index))
                 # Construct the prompt/message
                 instruction = ""
                 prompt = f"Soru: {question}\nKelime: {word}\nSeçenekler:\n{formatted_choices}\n{instruction}\n"
@@ -72,12 +62,6 @@ class TurkishVocabularyTask(BaseTask):
                 responses.append(model_answer)
                 model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
-                # Print answers
-                print(f"Correct Answer: {correct_answer_letter}")
-                print(f"Model Answer: {model_answer}")
-                print(f"Model Answer Cleaned: {model_answer_cleaned}")
-                print(f"Result: {correct_answer_letter == model_answer_cleaned}")
                 # Check if correct based on metric
                 if correct_answer_letter == model_answer_cleaned:
                     true += 1

     def load_dataset_from_hf(self):
         evaluate_count = 50
         dataset_dict = {}
         for subset in self.subsets:
             subset_data = load_dataset(self.dataset_repo, subset, token=HF_TOKEN, split="train")
             dataset_dict[subset] = subset_data.select(range(min(evaluate_count, len(subset_data))))
         return dataset_dict
                 choices = ast.literal_eval(row["choices"])  # Convert string to list
                 formatted_choices = "\n".join([f"{chr(65 + i)}: {choice}" for i, choice in enumerate(choices)])
                 # Construct the prompt/message
                 instruction = ""
                 prompt = f"Soru: {question}\nKelime: {word}\nSeçenekler:\n{formatted_choices}\n{instruction}\n"
                 responses.append(model_answer)
                 model_answer_cleaned = model_answer.strip().replace('\n', '').replace(' ', '').upper().replace(':','')
                 # Check if correct based on metric
                 if correct_answer_letter == model_answer_cleaned:
                     true += 1