Spaces:
Sleeping
Sleeping
File size: 6,053 Bytes
6d5272f 56da2e5 0819d8c 6d5272f 56da2e5 0819d8c 56da2e5 0819d8c 56da2e5 0819d8c 56da2e5 0819d8c 56da2e5 0819d8c 56da2e5 0819d8c 56da2e5 0819d8c 56da2e5 3b5c554 56da2e5 3b5c554 56da2e5 3b5c554 56da2e5 3b5c554 56da2e5 0819d8c 56da2e5 0819d8c 56da2e5 0819d8c 56da2e5 6d5272f 56da2e5 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 |
import gradio as gr
from modules.extractive import TFIDFSummarizer, TextRankSummarizer, CombinedSummarizer, BERTSummarizer
from modules.abstractive import load_summarizers, abstractive_summary
from modules.preprocessing import Preprocessor, PDFProcessor
from modules.utils import handle_long_text
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
# Cargar modelos abstractivos finetuneados
summarizers = load_summarizers()
# Función principal para generar resúmenes
def summarize(input_text, file, summary_type, method, num_sentences, model_name, max_length, num_beams):
preprocessor = Preprocessor()
# Procesar archivo si se carga
if file is not None:
pdf_processor = PDFProcessor()
input_text = pdf_processor.pdf_to_text(file.name)
# Validar entrada de texto
if not input_text:
return "Por favor, ingrese texto o cargue un archivo válido."
# Limpiar texto de entrada
cleaned_text = preprocessor.clean_text(input_text)
if summary_type == "Extractivo":
if method == "TF-IDF":
summarizer = TFIDFSummarizer()
elif method == "TextRank":
summarizer = TextRankSummarizer()
elif method == "BERT":
summarizer = BERTSummarizer()
elif method == "TF-IDF + TextRank":
summarizer = CombinedSummarizer()
else:
return "Método no válido para resumen extractivo."
# Generar resumen extractivo
return summarizer.summarize(
preprocessor.split_into_sentences(cleaned_text),
preprocessor.clean_sentences(preprocessor.split_into_sentences(cleaned_text)),
num_sentences,
)
elif summary_type == "Abstractivo":
if model_name not in summarizers:
return "Modelo no disponible para resumen abstractivo."
model, tokenizer = summarizers[model_name]
return handle_long_text(
cleaned_text,
model,
tokenizer,
max_length=max_length,
stride=128,
)
elif summary_type == "Combinado":
if model_name not in summarizers:
return "Modelo no disponible para resumen abstractivo."
# Paso 1: Generar puntos clave con el método extractivo
extractive_keypoints = TFIDFSummarizer().summarize(
preprocessor.split_into_sentences(cleaned_text),
preprocessor.clean_sentences(preprocessor.split_into_sentences(cleaned_text)),
num_sentences,
)
# Paso 2: Generar el resumen abstractivo guiado por los puntos clave
combined_input = f"{cleaned_text}\n\nPuntos clave: {extractive_keypoints}"
return handle_long_text(
combined_input, # Texto completo + puntos clave
summarizers[model_name][0], # Modelo abstractivo seleccionado
summarizers[model_name][1], # Tokenizador del modelo abstractivo
max_length=max_length,
stride=128,
)
return "Seleccione un tipo de resumen válido."
# Interfaz dinámica
with gr.Blocks() as interface:
gr.Markdown("# Demo: Generador de Resúmenes Inteligente")
# Entrada de texto o archivo
with gr.Row():
input_text = gr.Textbox(lines=9, label="Ingrese texto")
file = gr.File(label="Subir archivo (PDF, TXT)")
# Selección de tipo de resumen
summary_type = gr.Radio(
["Extractivo", "Abstractivo", "Combinado"],
label="Tipo de resumen",
value="Extractivo",
)
# Opciones dinámicas
method = gr.Radio(
["TF-IDF", "TextRank", "BERT", "TF-IDF + TextRank"],
label="Método Extractivo",
visible=True,
)
num_sentences = gr.Slider(
1, 10, value=3, step=1, label="Número de oraciones (Extractivo)", visible=True
)
model_name = gr.Radio(
["Pegasus", "T5", "BART"],
label="Modelo Abstractivo",
visible=False,
)
max_length = gr.Slider(
50, 300, value=128, step=10, label="Longitud máxima (Abstractivo)", visible=False
)
num_beams = gr.Slider(
1, 10, value=4, step=1, label="Número de haces (Abstractivo)", visible=False
)
# Actualización dinámica de opciones
def update_options(summary_type):
if summary_type == "Extractivo":
return (
gr.update(visible=True), gr.update(visible=True), gr.update(visible=False), gr.update(visible=False),
gr.update(visible=False))
elif summary_type == "Abstractivo":
return (
gr.update(visible=False), gr.update(visible=False), gr.update(visible=True), gr.update(visible=True),
gr.update(visible=True))
elif summary_type == "Combinado":
return (gr.update(visible=True), gr.update(visible=True), gr.update(visible=True), gr.update(visible=True),
gr.update(visible=True))
else:
return (
gr.update(visible=False), gr.update(visible=False), gr.update(visible=False), gr.update(visible=False),
gr.update(visible=False))
summary_type.change(
update_options,
inputs=[summary_type],
outputs=[method, num_sentences, model_name, max_length, num_beams],
)
# Botón para generar resumen
summarize_button = gr.Button("Generar Resumen")
output = gr.Textbox(lines=10, label="Resumen generado", interactive=True)
copy_button = gr.Button("Copiar Resumen")
summarize_button.click(
summarize,
inputs=[input_text, file, summary_type, method, num_sentences, model_name, max_length, num_beams],
outputs=output,
)
# Funcionalidad para copiar resumen
def copy_summary(summary):
return summary
copy_button.click(
fn=copy_summary,
inputs=[output],
outputs=[output],
js="""function(summary) { navigator.clipboard.writeText(summary); return summary; }""",
)
if __name__ == "__main__":
interface.launch()
|