Spaces:

DHEIVER
/

IA-Toolbox-Hub

Sleeping

App Files Files Community

DHEIVER commited on Nov 23, 2024

Commit

317fb1f

verified ·

1 Parent(s): b4277da

Update app.py

Browse files

Files changed (1) hide show

app.py +171 -142

app.py CHANGED Viewed

@@ -1,171 +1,200 @@
 import gradio as gr
-from transformers import pipeline
-import cv2
-import numpy as np
 import torch
 from PIL import Image
-import easyocr
-import librosa
-import soundfile as sf
-from googletrans import Translator
-import spacy
-# 1. Reconhecimento de Texto em Imagens (OCR)
-def ocr_text(image):
-    reader = easyocr.Reader(['pt', 'en'])
-    result = reader.readtext(image)
-    return " ".join([text[1] for text in result])
-# 2. Detector de Objetos
-def detect_objects(image):
-    detector = pipeline('object-detection', model='facebook/detr-resnet-50')
-    results = detector(image)
-    annotated_image = Image.fromarray(np.array(image))
-    for result in results:
-        box = result['box']
-        label = f"{result['label']}: {result['score']:.2f}"
-        cv2.rectangle(
-            np.array(annotated_image),
-            (int(box['xmin']), int(box['ymin'])),
-            (int(box['xmax']), int(box['ymax'])),
-            (255, 0, 0),
-            2
-        )
-    return annotated_image
-# 3. Análise de Sentimentos
-def analyze_sentiment(text):
-    classifier = pipeline("sentiment-analysis", model="neuralmind/bert-base-portuguese-cased")
-    result = classifier(text)
-    return f"Sentimento: {result[0]['label']}, Confiança: {result[0]['score']:.2f}"
-# 4. Reconhecimento de Fala
-def speech_to_text(audio):
-    asr = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-base-960h")
-    return asr(audio)["text"]
-# 5. Resumo de Texto
-def summarize_text(text):
-    summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
-    summary = summarizer(text, max_length=130, min_length=30)
-    return summary[0]['summary_text']
-# 6. Geração de Legendas para Imagens
-def generate_caption(image):
-    captioner = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-captioning")
-    caption = captioner(image)[0]['generated_text']
-    return caption
-# 7. Tradução de Texto
-def translate_text(text, target_lang):
-    translator = Translator()
-    translation = translator.translate(text, dest=target_lang)
-    return translation.text
-# 8. Extração de Entidades Nomeadas (NER)
-def extract_entities(text):
-    nlp = spacy.load("pt_core_news_sm")
-    doc = nlp(text)
-    entities = [(ent.text, ent.label_) for ent in doc.ents]
-    return str(entities)
-# 9. Classificação de Imagens
-def classify_image(image):
-    classifier = pipeline("image-classification", model="google/vit-base-patch16-224")
-    results = classifier(image)
-    return f"{results[0]['label']}: {results[0]['score']:.2f}"
-# 10. Resposta a Perguntas
-def answer_question(context, question):
-    qa_pipeline = pipeline("question-answering", model="pierreguillou/bert-base-cased-squad-v1.1-portuguese")
-    result = qa_pipeline(question=question, context=context)
-    return result['answer']
 # Interface Gradio
-with gr.Blocks(title="Hub de Serviços IA Open Source") as demo:
-    gr.Markdown("# 🤖 Hub de Serviços de IA Open Source")
-    # 1. OCR
-    with gr.Tab("OCR"):
-        with gr.Row():
-            ocr_input = gr.Image(type="numpy", label="Imagem com Texto")
-            ocr_output = gr.Textbox(label="Texto Extraído")
-        ocr_button = gr.Button("Extrair Texto")
-        ocr_button.click(ocr_text, inputs=ocr_input, outputs=ocr_output)
-    # 2. Detecção de Objetos
-    with gr.Tab("Detector de Objetos"):
         with gr.Row():
-            obj_input = gr.Image(type="numpy", label="Imagem")
-            obj_output = gr.Image(label="Objetos Detectados")
-        obj_button = gr.Button("Detectar Objetos")
-        obj_button.click(detect_objects, inputs=obj_input, outputs=obj_output)
-    # 3. Análise de Sentimentos
-    with gr.Tab("Análise de Sentimentos"):
         with gr.Row():
-            sent_input = gr.Textbox(label="Texto para Análise")
-            sent_output = gr.Textbox(label="Sentimento")
-        sent_button = gr.Button("Analisar Sentimento")
-        sent_button.click(analyze_sentiment, inputs=sent_input, outputs=sent_output)
-    # 4. Reconhecimento de Fala
-    with gr.Tab("Reconhecimento de Fala"):
         with gr.Row():
-            speech_input = gr.Audio(type="numpy", label="Áudio")
-            speech_output = gr.Textbox(label="Texto Transcrito")
-        speech_button = gr.Button("Transcrever Áudio")
-        speech_button.click(speech_to_text, inputs=speech_input, outputs=speech_output)
-    # 5. Resumo de Texto
-    with gr.Tab("Resumo de Texto"):
         with gr.Row():
-            sum_input = gr.Textbox(label="Texto para Resumir")
-            sum_output = gr.Textbox(label="Resumo")
-        sum_button = gr.Button("Gerar Resumo")
-        sum_button.click(summarize_text, inputs=sum_input, outputs=sum_output)
-    # 6. Geração de Legendas
-    with gr.Tab("Legendas para Imagens"):
         with gr.Row():
-            cap_input = gr.Image(type="numpy", label="Imagem")
-            cap_output = gr.Textbox(label="Legenda")
-        cap_button = gr.Button("Gerar Legenda")
-        cap_button.click(generate_caption, inputs=cap_input, outputs=cap_output)
-    # 7. Tradução
-    with gr.Tab("Tradução"):
         with gr.Row():
-            trans_input = gr.Textbox(label="Texto para Traduzir")
-            trans_lang = gr.Dropdown(choices=["en", "es", "fr", "de", "it"], label="Idioma Alvo")
-            trans_output = gr.Textbox(label="Tradução")
         trans_button = gr.Button("Traduzir")
-        trans_button.click(translate_text, inputs=[trans_input, trans_lang], outputs=trans_output)
-    # 8. NER
-    with gr.Tab("Extração de Entidades"):
-        with gr.Row():
-            ner_input = gr.Textbox(label="Texto para Análise")
-            ner_output = gr.Textbox(label="Entidades Encontradas")
-        ner_button = gr.Button("Extrair Entidades")
-        ner_button.click(extract_entities, inputs=ner_input, outputs=ner_output)
-    # 9. Classificação de Imagens
-    with gr.Tab("Classificação de Imagens"):
-        with gr.Row():
-            class_input = gr.Image(type="numpy", label="Imagem")
-            class_output = gr.Textbox(label="Classificação")
-        class_button = gr.Button("Classificar Imagem")
-        class_button.click(classify_image, inputs=class_input, outputs=class_output)
-    # 10. Resposta a Perguntas
-    with gr.Tab("Resposta a Perguntas"):
         with gr.Row():
-            qa_context = gr.Textbox(label="Contexto")
-            qa_question = gr.Textbox(label="Pergunta")
-            qa_output = gr.Textbox(label="Resposta")
-        qa_button = gr.Button("Responder")
-        qa_button.click(answer_question, inputs=[qa_context, qa_question], outputs=qa_output)
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
+from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
+from transformers import MarianMTModel, MarianTokenizer
+from diffusers import StableDiffusionPipeline, DiffusionPipeline
 import torch
+import numpy as np
+import imageio
 from PIL import Image
+from modelscope.pipelines import pipeline as ms_pipeline
+from modelscope.outputs import OutputKeys
+class MultiModalServices:
+    def __init__(self):
+        self.device = "cuda" if torch.cuda.is_available() else "cpu"
+        self.image_generator = None
+        self.video_generator = None
+        self.translator = None
+        self.sentiment_analyzer = None
+    def load_image_generator(self):
+        if self.image_generator is None:
+            model_id = "CompVis/stable-diffusion-v1-4"
+            self.image_generator = StableDiffusionPipeline.from_pretrained(
+                model_id,
+                torch_dtype=torch.float32
+            ).to(self.device)
+        return self.image_generator
+    def load_video_generator(self):
+        if self.video_generator is None:
+            self.video_generator = ms_pipeline(
+                'text-to-video-synthesis',
+                'damo/text-to-video-synthesis'
+            )
+        return self.video_generator
+    def generate_image(self, prompt, num_images=1):
+        try:
+            generator = self.load_image_generator()
+            images = generator(
+                prompt,
+                num_images_per_prompt=num_images,
+                guidance_scale=7.5
+            ).images
+            return images[0] if num_images == 1 else images
+        except Exception as e:
+            return f"Erro na geração de imagem: {str(e)}"
+    def generate_video(self, prompt, duration=3):
+        try:
+            generator = self.load_video_generator()
+            output = generator({'text': prompt})
+            return output[OutputKeys.OUTPUT_VIDEO]
+        except Exception as e:
+            return f"Erro na geração de vídeo: {str(e)}"
+    def translate(self, text, src_lang, tgt_lang):
+        if self.translator is None:
+            model_name = f'Helsinki-NLP/opus-mt-{src_lang}-{tgt_lang}'
+            self.translator = pipeline('translation', model=model_name)
+        try:
+            result = self.translator(text)[0]['translation_text']
+            return result
+        except Exception as e:
+            return f"Erro na tradução: {str(e)}"
+    def analyze_sentiment(self, text):
+        if self.sentiment_analyzer is None:
+            self.sentiment_analyzer = pipeline(
+                'sentiment-analysis',
+                model='nlptown/bert-base-multilingual-uncased-sentiment'
+            )
+        try:
+            result = self.sentiment_analyzer(text)[0]
+            return f"Sentimento: {result['label']}, Confiança: {result['score']:.2f}"
+        except Exception as e:
+            return f"Erro na análise: {str(e)}"
+# Instância global dos serviços
+services = MultiModalServices()
 # Interface Gradio
+with gr.Blocks(title="Serviços de IA Multimodal") as demo:
+    gr.Markdown("""
+    # 🎨 Hub de Serviços de IA Multimodal
+    Esta aplicação oferece serviços de geração de imagem, vídeo e processamento de texto.
+    """)
+    # 1. Geração de Imagem
+    with gr.Tab("Geração de Imagem"):
+        gr.Markdown("### Gerador de Imagens com Stable Diffusion")
         with gr.Row():
+            img_prompt = gr.Textbox(
+                label="Descrição da imagem",
+                placeholder="Descreva a imagem que deseja gerar...",
+                lines=3
+            )
+            img_output = gr.Image(label="Imagem Gerada")
         with gr.Row():
+            img_num = gr.Slider(
+                minimum=1,
+                maximum=4,
+                value=1,
+                step=1,
+                label="Número de imagens"
+            )
+        img_button = gr.Button("Gerar Imagem")
+        img_button.click(
+            services.generate_image,
+            inputs=[img_prompt, img_num],
+            outputs=img_output
+        )
+    # 2. Geração de Vídeo
+    with gr.Tab("Geração de Vídeo"):
+        gr.Markdown("### Gerador de Vídeos")
         with gr.Row():
+            vid_prompt = gr.Textbox(
+                label="Descrição do vídeo",
+                placeholder="Descreva o vídeo que deseja gerar...",
+                lines=3
+            )
+            vid_output = gr.Video(label="Vídeo Gerado")
         with gr.Row():
+            vid_duration = gr.Slider(
+                minimum=1,
+                maximum=10,
+                value=3,
+                step=1,
+                label="Duração (segundos)"
+            )
+        vid_button = gr.Button("Gerar Vídeo")
+        vid_button.click(
+            services.generate_video,
+            inputs=[vid_prompt, vid_duration],
+            outputs=vid_output
+        )
+    # 3. Tradução
+    with gr.Tab("Tradutor"):
+        gr.Markdown("### Tradutor Multilíngue")
         with gr.Row():
+            trans_input = gr.Textbox(
+                label="Texto para traduzir",
+                placeholder="Digite o texto aqui...",
+                lines=3
+            )
+            trans_output = gr.Textbox(
+                label="Tradução",
+                lines=3
+            )
         with gr.Row():
+            src_lang = gr.Dropdown(
+                choices=["en", "pt", "es", "fr", "de"],
+                value="en",
+                label="Idioma de origem"
+            )
+            tgt_lang = gr.Dropdown(
+                choices=["pt", "en", "es", "fr", "de"],
+                value="pt",
+                label="Idioma de destino"
+            )
         trans_button = gr.Button("Traduzir")
+        trans_button.click(
+            services.translate,
+            inputs=[trans_input, src_lang, tgt_lang],
+            outputs=trans_output
+        )
+    # 4. Análise de Sentimentos
+    with gr.Tab("Análise de Sentimentos"):
+        gr.Markdown("### Análise de Sentimentos Multilíngue")
         with gr.Row():
+            sent_input = gr.Textbox(
+                label="Texto para análise",
+                placeholder="Digite o texto para analisar o sentimento...",
+                lines=3
+            )
+            sent_output = gr.Textbox(
+                label="Resultado da análise",
+                lines=2
+            )
+        sent_button = gr.Button("Analisar Sentimento")
+        sent_button.click(
+            services.analyze_sentiment,
+            inputs=sent_input,
+            outputs=sent_output
+        )
+    gr.Markdown("""
+    ### Notas:
+    - A geração de imagens e vídeos requer GPU para melhor performance
+    - Os modelos são carregados sob demanda para economizar memória
+    - Primeira execução pode ser mais lenta devido ao download dos modelos
+    - Todos os modelos são open source
+    """)
 if __name__ == "__main__":
     demo.launch()