Spaces:

lossLopes
/

tclopess-bart_samsum_summarization

Sleeping

App Files Files Community

lossLopes commited on Dec 2, 2023

Commit

884e1bf

1 Parent(s): 65e4068

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -48

app.py CHANGED Viewed

@@ -1,57 +1,60 @@
-#import gradio as gr
-#gr.load("models/tclopess/bart_samsum").launch()
 import gradio as gr
 import nltk
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
-# Carregue o modelo e o tokenizer
 checkpoint = "tclopess/bart_samsum"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
-# Função para fragmentar o texto
-def fragment_text(text, tokenizer):
-  sentences = nltk.tokenize.sent_tokenize(text)
-  max_len = tokenizer.max_len_single_sentence
-  chunks = []
-  chunk = ""
-  count = -1
-  for sentence in sentences:
-    count += 1
-    combined_length = len(tokenizer.tokenize(sentence)) + len(chunk)
-    if combined_length <= max_len:
-      chunk += sentence + " "
-    else:
-      chunks.append(chunk.strip())
-      chunk = sentence + " "
-  if chunk != "":
-    chunks.append(chunk.strip())
-  return chunks
-# Função para gerar resumos
-def generate_summaries(text):
-  chunks = fragment_text(text, tokenizer)
-  summaries = []
-  for chunk in chunks:
-    input = tokenizer(chunk, return_tensors='pt')
-    output = model.generate(**input)
-    summary = tokenizer.decode(*output, skip_special_tokens=True)
-    summaries.append(summary)
-  return summaries
-# Função para exibir o resumo final
-def display_summary(summaries):
-  summary = " ".join(summaries)
-  gr.text("Resumo final:", summary)
-# Crie um campo de input do tipo text
-input_text = gr.inputs.Textbox(label="Insira ou cole o texto aqui:")
-# Lance o aplicativo Gradio
-gr.Interface(generate_summaries, input_text, display_summary).launch()

 import gradio as gr
 import nltk
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+nltk.download('punkt')
+def fragment_text(text, tokenizer):
+    sentences = nltk.tokenize.sent_tokenize(text)
+    max_len = tokenizer.max_len_single_sentence
+    chunks = []
+    chunk = ""
+    count = -1
+    for sentence in sentences:
+        count += 1
+        combined_length = len(tokenizer.tokenize(sentence)) + len(chunk)
+        if combined_length <= max_len:
+            chunk += sentence + " "
+        else:
+            chunks.append(chunk.strip())
+            chunk = sentence + " "
+    if chunk != "":
+        chunks.append(chunk.strip())
+    return chunks
+def summarize_text(text, tokenizer, model):
+    chunks = fragment_text(text, tokenizer)
+    summaries = []
+    for chunk in chunks:
+        input = tokenizer(chunk, return_tensors='pt')
+        output = model.generate(**input)
+        summary = tokenizer.decode(*output, skip_special_tokens=True)
+        summaries.append(summary)
+    final_summary = " ".join(summaries)
+    return final_summary
+# Load pre-trained model and tokenizer
 checkpoint = "tclopess/bart_samsum"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
+# Define Gradio Interface
+iface = gr.Interface(
+    fn=summarize_text,
+    inputs=gr.Textbox(),
+    outputs=gr.Textbox(),
+    live=True,
+    interpretation="default"
+)
+# Launch the Gradio Interface
+iface.launch()