Spaces:

histlearn
/

rule-based-captioning

Sleeping

App Files Files Community

histlearn commited on Jun 23, 2024

Commit

0314b2b

verified ·

1 Parent(s): a5b8d10

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -12

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import gradio as gr
-from transformers import AutoProcessor, AutoModelForCausalLM, MarianMTModel, MarianTokenizer
 from PIL import Image
 import torch
 from gtts import gTTS
@@ -8,6 +9,9 @@ import requests
 import nltk.tree
 import re
 # Carregar o modelo de português do spaCy
 nlp = spacy.load("pt_core_news_sm")
@@ -192,14 +196,10 @@ def reordenar_sentenca(sentenca):
 # Carregar os modelos
 processor = AutoProcessor.from_pretrained("histlearn/microsoft-git-portuguese-neuro-simbolic")
 model = AutoModelForCausalLM.from_pretrained("histlearn/microsoft-git-portuguese-neuro-simbolic")
-translation_model_name = 'Helsinki-NLP/opus-mt-tc-big-en-pt'
-translation_tokenizer = MarianTokenizer.from_pretrained(translation_model_name)
-translation_model = MarianMTModel.from_pretrained(translation_model_name)
 # Configurar o dispositivo (GPU ou CPU)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
-translation_model.to(device)
 # Funções auxiliares
 def prepare_image(image_path):
@@ -219,11 +219,6 @@ def generate_caption(pixel_values):
         )
     return processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
-def translate_to_portuguese(text):
-    inputs = translation_tokenizer(text, return_tensors="pt", truncation=True).to(device)
-    translated_ids = translation_model.generate(inputs["input_ids"], max_length=50, num_beams=4, early_stopping=True)
-    return translation_tokenizer.batch_decode(translated_ids, skip_special_tokens=True)[0]
 def text_to_speech_gtts(text, lang='pt'):
     tts = gTTS(text=text, lang=lang)
     tts.save("output.mp3")
@@ -232,8 +227,7 @@ def text_to_speech_gtts(text, lang='pt'):
 # Função principal para processar a imagem e gerar a voz
 def process_image(image):
     _, pixel_values = prepare_image(image)
-    caption_en = generate_caption(pixel_values)
-    caption_pt = translate_to_portuguese(caption_en)
     caption_pt = reordenar_sentenca(caption_pt)
     audio_file = text_to_speech_gtts(caption_pt)
     return caption_pt, audio_file

+import os
 import gradio as gr
+from transformers import AutoProcessor, AutoModelForCausalLM
 from PIL import Image
 import torch
 from gtts import gTTS
 import nltk.tree
 import re
+# Baixar o modelo de português do spaCy
+os.system("python -m spacy download pt_core_news_sm")
 # Carregar o modelo de português do spaCy
 nlp = spacy.load("pt_core_news_sm")
 # Carregar os modelos
 processor = AutoProcessor.from_pretrained("histlearn/microsoft-git-portuguese-neuro-simbolic")
 model = AutoModelForCausalLM.from_pretrained("histlearn/microsoft-git-portuguese-neuro-simbolic")
 # Configurar o dispositivo (GPU ou CPU)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
 # Funções auxiliares
 def prepare_image(image_path):
         )
     return processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
 def text_to_speech_gtts(text, lang='pt'):
     tts = gTTS(text=text, lang=lang)
     tts.save("output.mp3")
 # Função principal para processar a imagem e gerar a voz
 def process_image(image):
     _, pixel_values = prepare_image(image)
+    caption_pt = generate_caption(pixel_values)
     caption_pt = reordenar_sentenca(caption_pt)
     audio_file = text_to_speech_gtts(caption_pt)
     return caption_pt, audio_file