Spaces:

orai-nlp
/

Sermas

Sleeping

App Files Files

imorcillo commited on 10 days ago

Commit

eaf5bbe

verified ·

1 Parent(s): 7541c50

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -15

app.py CHANGED Viewed

@@ -36,25 +36,30 @@ def transcribe_base(audio, language):
         speaker_class_string = f'Speaker found in database, ID {speaker}'
     return transcription#, speaker_class_string
 def transcribe_mic(audio_microphone, language):
     print("Transcription microphone")
     transcription = transcribe_base(audio_microphone, language)
     if language=="it":
-        no_elision_cases = {
-            "un autore", "un artista", "un uomo", "un amico", "un imperatore",
-            "uno studente", "uno psicologo", "uno zio",
-            "di autore", "a uomo", "su imperatore", "con amico", "per artista"
-        }
-        transcription = re.sub(r"\b(un|l|d|s|t|m|c|n|quest|all|dall|nell|sull|coll|pell)\s+(?=[aeiouhàèìòùáéíóú])", r"\1'", transcription)
-        transcription = re.sub(r"\b(s|t|m|c|n)\s+(?=è\b|ha\b|hanno\b)", r"\1'", transcription)
-        transcription = re.sub(r"\bpo\b", "po'", transcription)
-        transcription = re.sub(r"\b(senz) ([aeiou])", r"\1'\2", transcription)
-        pattern_numbers = r"\b(trenta|quaranta|cinquanta|sessanta|settanta|ottanta|novanta)\s+(?=anni|ore)\b"
-        replacement_numbers = lambda m: m.group(1)[:-1] + "’" + m.group(0).split()[1]
-        transcription = re.sub(pattern_numbers, replacement_numbers, transcription)
-        for phrase in no_elision_cases:
-            fixed = phrase.replace(" ", "'")
-            transcription = transcription.replace(fixed, phrase)
     return transcription
     #return transcribe_base(audio_microphone, language)

         speaker_class_string = f'Speaker found in database, ID {speaker}'
     return transcription#, speaker_class_string
+def fix_italian_transcription(transcription):
+    no_elision_cases = {
+        "un autore", "un artista", "un uomo", "un amico", "un imperatore",
+        "uno studente", "uno psicologo", "uno zio",
+        "di autore", "a uomo", "su imperatore", "con amico", "per artista"
+    }
+    transcription = re.sub(r"\b(un|l|d|s|t|m|c|n|quest|all|dall|nell|sull|coll|pell)\s+(?=[aeiouhàèìòùáéíóú])", r"\1'", transcription)
+    transcription = re.sub(r"\b(s|t|m|c|n)\s+(?=è\b|ha\b|hanno\b)", r"\1'", transcription)
+    transcription = re.sub(r"\bpo\b", "po'", transcription)
+    transcription = re.sub(r"\b(senz) ([aeiou])", r"\1'\2", transcription)
+    pattern_numbers = r"\b(trenta|quaranta|cinquanta|sessanta|settanta|ottanta|novanta)\s+(?=anni|ore)\b"
+    replacement_numbers = lambda m: m.group(1)[:-1] + "’" + m.group(0).split()[1]
+    transcription = re.sub(pattern_numbers, replacement_numbers, transcription)
+    for phrase in no_elision_cases:
+        fixed = phrase.replace(" ", "'")
+        transcription = transcription.replace(fixed, phrase)
 def transcribe_mic(audio_microphone, language):
     print("Transcription microphone")
     transcription = transcribe_base(audio_microphone, language)
     if language=="it":
+        transcription = fix_italian_transcription(transcription)
     return transcription
     #return transcribe_base(audio_microphone, language)