Spaces:

igoracmorais
/

gerador_QA

Sleeping

igoracmorais commited on Aug 6, 2024

Commit

e5c536d

verified ·

1 Parent(s): ad45712

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,8 +1,7 @@
 import PyPDF2
 import gradio as gr
 import json
-from transformers import pipeline
-from datasets import DatasetDict, Dataset
 # Função para extrair texto do PDF
 def extract_text_from_pdf(pdf_file):
@@ -12,11 +11,17 @@ def extract_text_from_pdf(pdf_file):
         text += page.extract_text()
     return text
-# Função para gerar perguntas e respostas usando o pipeline da Hugging Face
 def generate_qa_pairs(text):
-    qa_pipeline = pipeline("question-generation")
-    qas = qa_pipeline(text)
-    return qas
 # Função para converter os pares de QA no formato SQuAD
 def convert_to_squad_format(qas, context):
@@ -61,4 +66,4 @@ with gr.Blocks() as demo:
     process_button.click(fn=process_pdf, inputs=[pdf_file, file_name], outputs=download_link)
-demo.launch()

 import PyPDF2
 import gradio as gr
 import json
+from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
 # Função para extrair texto do PDF
 def extract_text_from_pdf(pdf_file):
         text += page.extract_text()
     return text
+# Função para gerar perguntas e respostas usando um modelo da Hugging Face
 def generate_qa_pairs(text):
+    tokenizer = AutoTokenizer.from_pretrained("valhalla/t5-base-qg-hl")
+    model = AutoModelForSeq2SeqLM.from_pretrained("valhalla/t5-base-qg-hl")
+    input_text = "highlight: " + text
+    input_ids = tokenizer.encode(input_text, return_tensors="pt")
+    outputs = model.generate(input_ids)
+    questions = tokenizer.decode(outputs[0])
+    return questions
 # Função para converter os pares de QA no formato SQuAD
 def convert_to_squad_format(qas, context):
     process_button.click(fn=process_pdf, inputs=[pdf_file, file_name], outputs=download_link)
+demo.launch()