Spaces:

igoracmorais
/

gerador_QA

Sleeping

App Files Files Community

igoracmorais commited on Aug 6, 2024

Commit

ba5b254

verified ·

1 Parent(s): d5ae2c2

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -7

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import PyPDF2
 import gradio as gr
 import json
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 # Função para extrair texto do PDF
 def extract_text_from_pdf(pdf_file):
@@ -11,8 +11,8 @@ def extract_text_from_pdf(pdf_file):
         text += page.extract_text()
     return text
-# Função para gerar perguntas e respostas usando um modelo da Hugging Face
-def generate_qa_pairs(text):
     tokenizer = AutoTokenizer.from_pretrained("valhalla/t5-base-qg-hl")
     model = AutoModelForSeq2SeqLM.from_pretrained("valhalla/t5-base-qg-hl")
@@ -20,9 +20,19 @@ def generate_qa_pairs(text):
     outputs = model.generate(inputs, max_length=512, num_beams=4, early_stopping=True)
     questions = [tokenizer.decode(output, skip_special_tokens=True) for output in outputs]
-    # O modelo retorna apenas as perguntas, então precisamos criar respostas fictícias para o exemplo
-    qas = [{"question": question, "answer": "answer", "answer_start": 0} for question in questions]
     return qas
 # Função para converter os pares de QA no formato SQuAD
@@ -53,7 +63,8 @@ def save_to_json(data, file_name):
 # Função principal para ser usada no Gradio
 def process_pdf(pdf_file, file_name):
     context = extract_text_from_pdf(pdf_file)
-    qas = generate_qa_pairs(context)
     squad_data = convert_to_squad_format(qas, context)
     file_path = save_to_json(squad_data, file_name)
     return file_path

 import PyPDF2
 import gradio as gr
 import json
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
 # Função para extrair texto do PDF
 def extract_text_from_pdf(pdf_file):
         text += page.extract_text()
     return text
+# Função para gerar perguntas usando um modelo da Hugging Face
+def generate_questions(text):
     tokenizer = AutoTokenizer.from_pretrained("valhalla/t5-base-qg-hl")
     model = AutoModelForSeq2SeqLM.from_pretrained("valhalla/t5-base-qg-hl")
     outputs = model.generate(inputs, max_length=512, num_beams=4, early_stopping=True)
     questions = [tokenizer.decode(output, skip_special_tokens=True) for output in outputs]
+    return questions
+# Função para responder perguntas usando um pipeline de perguntas e respostas
+def answer_questions(context, questions):
+    qa_pipeline = pipeline("question-answering")
+    qas = []
+    for question in questions:
+        answer = qa_pipeline(question=question, context=context)
+        qas.append({
+            "question": question,
+            "answer": answer['answer'],
+            "answer_start": answer['start']
+        })
     return qas
 # Função para converter os pares de QA no formato SQuAD
 # Função principal para ser usada no Gradio
 def process_pdf(pdf_file, file_name):
     context = extract_text_from_pdf(pdf_file)
+    questions = generate_questions(context)
+    qas = answer_questions(context, questions)
     squad_data = convert_to_squad_format(qas, context)
     file_path = save_to_json(squad_data, file_name)
     return file_path