Spaces:

orai-nlp
/

Sermas

Running

imorcillo commited on 29 days ago

Commit

ad75ddd

verified ·

1 Parent(s): 48bba9a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -40,7 +40,16 @@ def transcribe_mic(audio_microphone, language):
     print("Transcription microphone")
     transcription = transcribe_base(audio_microphone, language)
     if language=="it":
-        transcription=re.sub(r"\b([ldvc]) ([aeiouáéíóúàèìòù])", r"\1'\2", transcription)
     return transcription
     #return transcribe_base(audio_microphone, language)

     print("Transcription microphone")
     transcription = transcribe_base(audio_microphone, language)
     if language=="it":
+        no_elision_cases = {
+            "un autore", "un artista", "un uomo", "un amico", "un imperatore",
+            "uno studente", "uno psicologo", "uno zio",
+            "di autore", "a uomo", "su imperatore", "con amico", "per artista"
+        }
+        transcription = re.sub(r"\b(un|l|d|s|t|m|c|n|quest|all|dall|nell|sull|coll|pell)\s+(?=[aeiouhàèìòùáéíóú])", r"\1'", transcription)
+        transcription = re.sub(r"\b(s|t|m|c|n)\s+(?=è\b|ha\b|hanno\b)", r"\1'", transcription)
+        for phrase in no_elision_cases:
+            fixed = phrase.replace(" ", "'")
+            transcription = transcription.replace(fixed, phrase)
     return transcription
     #return transcribe_base(audio_microphone, language)