Spaces:

marioluciofjr
/

voxsense

Sleeping

File size: 2,678 Bytes

784afc6
bccef6e
784afc6
 
8d4e3a2
 
 
cd73846
784afc6
 
adf6934
cd73846
adf6934
cd73846
 
784afc6
 
bccef6e
 
 
 
 
 
 
8d4e3a2
 
 
bccef6e
8d4e3a2
784afc6
 
 
cd73846
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
784afc6
cd73846
784afc6
 
8d4e3a2
784afc6
 
8d4e3a2
784afc6
5c4b08e
8d4e3a2
784afc6

import gradio as gr
from transformers import pipeline, AutoTokenizer
import torch

# Verificando se a GPU está disponível
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# Carregando o modelo Whisper avançado para transcrição de áudio
transcriber = pipeline(
    task="automatic-speech-recognition",
    model="openai/whisper-medium",  # Modelo mais avançado
    device=device,
    chunk_length_s=20,
    stride_length_s=5,
    generate_kwargs={"language": "Portuguese", "task": "transcribe"}
)

# Carregando o tokenizer lento para o classificador
tokenizer = AutoTokenizer.from_pretrained(
    "joeddav/xlm-roberta-large-xnli",
    use_fast=False  # Desativando o tokenizer rápido
)

# Carregando o pipeline de classificação zero-shot com o tokenizer lento
classifier = pipeline(
    "zero-shot-classification",
    model="joeddav/xlm-roberta-large-xnli",
    tokenizer=tokenizer,
    device=device
)

def transcribe_and_analyze(audio_file):
    with gr.Progress(track_tqdm=True) as progress:
        progress(0, desc="Iniciando transcrição...")

        # Transcrevendo o áudio
        transcription_result = transcriber(audio_file)
        transcription = transcription_result["text"]
        progress(50, desc="Transcrição concluída. Analisando emoções...")

        # Lista atualizada de emoções para a classificação
        emotions = ["alegria", "tristeza", "raiva", "nojo", "medo", "ansiedade", "vergonha", "tédio", "inveja"]

        # Realizando a classificação zero-shot na transcrição
        classification = classifier(transcription, emotions, multi_label=True)

        # Formatando os resultados
        results = []
        for label, score in zip(classification["labels"], classification["scores"]):
            results.append(f"{label.capitalize()}: {score:.2f}")

        # Ordenando os resultados por score decrescente
        results.sort(key=lambda x: float(x.split(": ")[1]), reverse=True)

        # Unindo os resultados em uma string
        emotion_output = "\n".join(results)

        progress(100, desc="Processamento concluído.")

        return transcription, emotion_output

# Criando a interface Gradio com barra de progresso
interface = gr.Interface(
    fn=transcribe_and_analyze,
    inputs=gr.Audio(type="filepath", label="Faça upload do seu áudio"),
    outputs=[
        gr.Textbox(label="Transcrição do Áudio"),
        gr.Textbox(label="Emoções Detectadas")
    ],
    title="Voxsense 🗣️❣️",
    description="Envie um arquivo de áudio de até 1 hora para transcrição e análise de emoções.",
    theme="default"
)

if __name__ == "__main__":
    interface.launch()