Spaces:

lelafav502
/

wisper

Runtime error

App Files Files Community

lelafav502 commited on Feb 3, 2024

Commit

fee32f6

verified ·

1 Parent(s): a82912e

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -15

app.py CHANGED Viewed

@@ -1,28 +1,76 @@
-import gradio as gr
-from faster_whisper import WhisperModel
 import json
-def transcribe_audio(audiofile):
     model_size = "medium"
     model = WhisperModel(model_size)
-    segments, info = model.transcribe(audiofile, word_timestamps=True)
     segments = list(segments)  # The transcription will actually run here.
     wordlevel_info = []
     for segment in segments:
         for word in segment.words:
-            wordlevel_info.append({'word':word.word,'start':word.start,'end':word.end})
-    # Save wordlevel_info to data.json
-    with open('data.json', 'w') as f:
-        json.dump(wordlevel_info, f)
-    return "Transcription complete. Check data.json for results."
-# Define the Gradio interface
-audiofile_input = gr.inputs.Audio(label="Upload your audio file")
-output_text = gr.outputs.Textbox(label="Transcription")
-# Create Gradio interface
-gr.Interface(transcribe_audio, inputs=audiofile_input, outputs=output_text).launch()

 import json
+import gradio as gr
+from faster_whisper import WhisperModel  # Assuming you have installed this library
+def split_text_into_lines(data):
+    MaxChars = 30
+    MaxDuration = 2.5
+    MaxGap = 1.5
+    subtitles = []
+    line = []
+    line_duration = 0
+    for idx, word_data in enumerate(data):
+        word = word_data["word"]
+        start = word_data["start"]
+        end = word_data["end"]
+        line.append(word_data)
+        line_duration += end - start
+        temp = " ".join(item["word"] for item in line)
+        duration_exceeded = line_duration > MaxDuration
+        chars_exceeded = len(temp) > MaxChars
+        maxgap_exceeded = (word_data['start'] - data[idx - 1]['end']) > MaxGap if idx > 0 else False
+        if duration_exceeded or chars_exceeded or maxgap_exceeded:
+            if line:
+                subtitle_line = {
+                    "word": temp,
+                    "start": line[0]["start"],
+                    "end": line[-1]["end"],
+                    "textcontents": line
+                }
+                subtitles.append(subtitle_line)
+                line = []
+                line_duration = 0
+    if line:
+        subtitle_line = {
+            "word": " ".join(item["word"] for item in line),
+            "start": line[0]["start"],
+            "end": line[-1]["end"],
+            "textcontents": line
+        }
+        subtitles.append(subtitle_line)
+    return subtitles
+def transcribe_audio(audiofilename):
     model_size = "medium"
     model = WhisperModel(model_size)
+    segments, info = model.transcribe(audiofilename, word_timestamps=True)
     segments = list(segments)  # The transcription will actually run here.
     wordlevel_info = []
     for segment in segments:
         for word in segment.words:
+            wordlevel_info.append({'word': word.word, 'start': word.start, 'end': word.end})
+    linelevel_subtitles = split_text_into_lines(wordlevel_info)
+    return linelevel_subtitles
+def audio_transcription(audiofile):
+    transcription = transcribe_audio(audiofile.name)
+    return transcription
+inputs = gr.inputs.Audio(label="Upload Audio File")
+outputs = gr.outputs.Json(label="Transcription Output")
+title = "Audio Transcription"
+description = "Upload an audio file and get the transcription in JSON format."
+gr.Interface(fn=audio_transcription, inputs=inputs, outputs=outputs, title=title, description=description).launch()