Spaces:

orai-nlp
/

Sermas

Sleeping

imorcillo commited on 10 days ago

Commit

e04575a

verified ·

1 Parent(s): 143de70

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -42,24 +42,29 @@ def fix_italian_transcription(transcription):
         "uno studente", "uno psicologo", "uno zio",
         "di autore", "a uomo", "su imperatore", "con amico", "per artista"
     }
     transcription = re.sub(r"\b(un|l|d|s|t|m|c|n|quest|all|dall|nell|sull|coll|pell)\s+(?=[aeiouhàèìòùáéíóú])", r"\1'", transcription)
     transcription = re.sub(r"\b(s|t|m|c|n)\s+(?=è\b|ha\b|hanno\b)", r"\1'", transcription)
     transcription = re.sub(r"\bpo\b", "po'", transcription)
     transcription = re.sub(r"\b(senz) ([aeiou])", r"\1'\2", transcription)
-    pattern_numbers = r"\b(trenta|quaranta|cinquanta|sessanta|settanta|ottanta|novanta)\s+(?=anni|ore)\b"
-    replacement_numbers = lambda m: m.group(1)[:-1] + "’" + m.group(0).split()[1]
     transcription = re.sub(pattern_numbers, replacement_numbers, transcription)
     for phrase in no_elision_cases:
         fixed = phrase.replace(" ", "'")
         transcription = transcription.replace(fixed, phrase)
     return transcription
 def transcribe_mic(audio_microphone, language):
     print("Transcription microphone")
     transcription = transcribe_base(audio_microphone, language)
     if language=="it":
         transcription = fix_italian_transcription(transcription)
     return transcription
     #return transcribe_base(audio_microphone, language)

         "uno studente", "uno psicologo", "uno zio",
         "di autore", "a uomo", "su imperatore", "con amico", "per artista"
     }
     transcription = re.sub(r"\b(un|l|d|s|t|m|c|n|quest|all|dall|nell|sull|coll|pell)\s+(?=[aeiouhàèìòùáéíóú])", r"\1'", transcription)
     transcription = re.sub(r"\b(s|t|m|c|n)\s+(?=è\b|ha\b|hanno\b)", r"\1'", transcription)
     transcription = re.sub(r"\bpo\b", "po'", transcription)
     transcription = re.sub(r"\b(senz) ([aeiou])", r"\1'\2", transcription)
+    pattern_numbers = r"\b(trenta|quaranta|cinquanta|sessanta|settanta|ottanta|novanta)\s+(anni|ore)\b"
+    replacement_numbers = lambda m: m.group(1)[:-1] + "’" + m.group(2)
     transcription = re.sub(pattern_numbers, replacement_numbers, transcription)
     for phrase in no_elision_cases:
         fixed = phrase.replace(" ", "'")
         transcription = transcription.replace(fixed, phrase)
     return transcription
 def transcribe_mic(audio_microphone, language):
     print("Transcription microphone")
     transcription = transcribe_base(audio_microphone, language)
+    print(transcription)
     if language=="it":
         transcription = fix_italian_transcription(transcription)
+        print(transcription)
     return transcription
     #return transcribe_base(audio_microphone, language)