Spaces:

Woziii
/

scribe

Sleeping

App Files Files Community

Woziii commited on Aug 19, 2024

Commit

74b6521

verified ·

1 Parent(s): 393d49a

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -12

app.py CHANGED Viewed

@@ -24,7 +24,7 @@ try:
         "pyannote/speaker-diarization-3.1",
         use_auth_token=os.environ["HF_TOKEN"]
     )
-    device = torch.device('cuda' if torch.cuda.is_available() else "cpu")
     diarization_pipeline.to(device)
 except Exception as e:
     print(f"Error initializing diarization pipeline: {e}")
@@ -49,7 +49,6 @@ pipe = pipeline(
 def associate_speakers_with_timestamps(transcription_result, diarization, tolerance=0.1, min_segment_duration=0.5):
     word_segments = transcription_result['chunks']
     diarization_segments = list(diarization.itertracks(yield_label=True))
@@ -315,8 +314,7 @@ demo = gr.Blocks(
 with demo:
-    gr.Markdown("""# 🎙️ **Scribe** : L'assistant de Transcription Audio Intelligent 📝
-    ### ⚠️ Cette version est une maquette publique. Ne pas mettre de données sensibles, privées ou confidentielles.""")
     gr.HTML(
         """
         <div class="logo">
@@ -341,18 +339,18 @@ with demo:
        - Utilise des techniques d'apprentissage profond pour l'extraction de caractéristiques vocales
        - Applique un algorithme de clustering pour regrouper les segments par locuteur
     ### 💡 **Conseils pour de Meilleurs Résultats**
     - Utilisez des enregistrements de haute qualité avec peu de bruit de fond.
     - Pour les longs enregistrements, il est recommandé de segmenter votre audio.
     - Vérifiez toujours la transcription, en particulier pour les termes techniques ou les noms propres.
     - Utilisez des microphones externes pour les enregistrements en direct si possible.
-        ### ⚙️ Spécifications Techniques :
-    - Modèle de transcription : Whisper Medium
-    - Pipeline de diarisation : pyannote/speaker-diarization-3.1
-    - Limite de taille de fichier : _(Nous n'avons, à ce jour, pas de limite précise. Cependant, nous vous recommandons de ne pas dépasser 5 minutes. )_
-    - Durée maximale pour les vidéos YouTube : _(Nous n'avons, à ce jour, pas de limite précise. Cependant, pour une utilisation optimale, l'audio ne doit pas dépasser 30 minutes. )_
-    - Formats audio supportés : MP3, WAV, M4A, et plus
     """)
     with gr.Accordion("🔐 Sécurité des Données et Pipelines", open=False):
         gr.Markdown("""
@@ -453,6 +451,13 @@ with demo:
     - Identification précise des changements de locuteurs
     - Traitement de fichiers audio, enregistrements en direct et vidéos YouTube
     - Gestion de divers formats audio et qualités d'enregistrement
     """)
     with gr.Accordion("❓ README :", open=False):
@@ -506,4 +511,4 @@ with demo:
 if __name__ == "__main__":
-    demo.queue().launch()

         "pyannote/speaker-diarization-3.1",
         use_auth_token=os.environ["HF_TOKEN"]
     )
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     diarization_pipeline.to(device)
 except Exception as e:
     print(f"Error initializing diarization pipeline: {e}")
 def associate_speakers_with_timestamps(transcription_result, diarization, tolerance=0.1, min_segment_duration=0.5):
     word_segments = transcription_result['chunks']
     diarization_segments = list(diarization.itertracks(yield_label=True))
 with demo:
+    gr.Markdown("# 🎙️ **Scribe** : L'assistant de Transcription Audio Intelligent 📝 ⚠️ Cette version est une maquette publique. Ne pas mettre de données sensibles, privées ou confidentielles.")
     gr.HTML(
         """
         <div class="logo">
        - Utilise des techniques d'apprentissage profond pour l'extraction de caractéristiques vocales
        - Applique un algorithme de clustering pour regrouper les segments par locuteur
+    Le processus complet implique :
+    a) Prétraitement de l'audio
+    b) Transcription du contenu
+    c) Segmentation et identification des locuteurs
+    d) Fusion des résultats pour une sortie structurée
     ### 💡 **Conseils pour de Meilleurs Résultats**
     - Utilisez des enregistrements de haute qualité avec peu de bruit de fond.
     - Pour les longs enregistrements, il est recommandé de segmenter votre audio.
     - Vérifiez toujours la transcription, en particulier pour les termes techniques ou les noms propres.
     - Utilisez des microphones externes pour les enregistrements en direct si possible.
     """)
     with gr.Accordion("🔐 Sécurité des Données et Pipelines", open=False):
         gr.Markdown("""
     - Identification précise des changements de locuteurs
     - Traitement de fichiers audio, enregistrements en direct et vidéos YouTube
     - Gestion de divers formats audio et qualités d'enregistrement
+    ### ⚙️ Spécifications Techniques :
+    - Modèle de transcription : Whisper Medium
+    - Pipeline de diarisation : pyannote/speaker-diarization-3.1
+    - Limite de taille de fichier : _(Nous n'avons, à ce jour, pas de limite précise. Cependant, nous vous recommandons de ne pas dépasser 6 minutes. )_
+    - Durée maximale pour les vidéos YouTube : _(Nous n'avons, à ce jour, pas de limite précise. Cependant, pour une utilisation optimale, l'audio ne doit pas dépasser 30 minutes. )_
+    - Formats audio supportés : MP3, WAV, M4A, et plus
     """)
     with gr.Accordion("❓ README :", open=False):
 if __name__ == "__main__":
+    demo.queue().launch()