Spaces:

karthi311
/

deep

Sleeping

karthi311 commited on Dec 26, 2024

Commit

56ef556

verified ·

1 Parent(s): 051bb1b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import os
 import tempfile
 from subprocess import Popen, PIPE
 import torch
 import gradio as gr
@@ -58,17 +59,27 @@ def transcribe_audio(audio_path):
         if not os.path.exists(audio_path):
             raise FileNotFoundError(f"Audio file not found: {audio_path}")
-        # Read the audio file and prepare inputs for Whisper
-        inputs = ffmpeg_read(audio_path, whisper_pipeline.feature_extractor.sampling_rate)
-        inputs = {"array": inputs, "sampling_rate": whisper_pipeline.feature_extractor.sampling_rate}
-        # Perform transcription using Whisper
-        inputs["array"] = inputs["array"].astype(float)
         result = whisper_pipeline(inputs, batch_size=BATCH_SIZE, return_timestamps=False)
         return result["text"]
     except Exception as e:
         return f"Error during transcription: {e}"
 # Classify the sentence to the correct SOAP section
 def classify_sentence(sentence):
     similarities = {section: util.pytorch_cos_sim(embedder.encode(sentence), soap_embeddings[section]) for section in soap_prompts.keys()}

 import os
 import tempfile
+import numpy as np
 from subprocess import Popen, PIPE
 import torch
 import gradio as gr
         if not os.path.exists(audio_path):
             raise FileNotFoundError(f"Audio file not found: {audio_path}")
+        # Read and process the audio file
+        audio_array = ffmpeg_read(audio_path, whisper_pipeline.feature_extractor.sampling_rate)
+        # Ensure audio data is a numpy array of type float32
+        if not isinstance(audio_array, np.ndarray):
+            raise TypeError("Audio data should be a numpy array.")
+        audio_array = audio_array.astype(np.float32)
+        # Create input dictionary for Whisper
+        inputs = {
+            "array": audio_array,
+            "sampling_rate": whisper_pipeline.feature_extractor.sampling_rate,
+        }
+        # Perform transcription
         result = whisper_pipeline(inputs, batch_size=BATCH_SIZE, return_timestamps=False)
         return result["text"]
     except Exception as e:
         return f"Error during transcription: {e}"
 # Classify the sentence to the correct SOAP section
 def classify_sentence(sentence):
     similarities = {section: util.pytorch_cos_sim(embedder.encode(sentence), soap_embeddings[section]) for section in soap_prompts.keys()}