Devops-hestabit
/

Emotion-detection

Inference Endpoints

Model card Files Files and versions Community

Devops-hestabit commited on Sep 24, 2024

Commit

cdc083e

verified ·

1 Parent(s): 1b8f67c

Update handler.py

Browse files

Files changed (1) hide show

handler.py +22 -14

handler.py CHANGED Viewed

@@ -21,7 +21,7 @@ class EndpointHandler():
         emotion_prediction, depression_prediction = self.perform_emotion_analysis(audio_features)
         return {
             "emotion": emotion_prediction,
-            "depression": depression_prediction
         }
     def get_mfcc_features(self, features, padding):
@@ -34,25 +34,33 @@ class EndpointHandler():
     def preprocess_audio_data(self, base64_string, duration=2.5, desired_sr=22050*2, offset=0.5):
         # audio_base64 = base64_string.replace("data:audio/webm;codecs=opus;base64,", "")
-        audio_bytes = base64.b64decode(base64_string)
         audio_io = io.BytesIO(audio_bytes)
-        audio = AudioSegment.from_file(audio_io, format="webm")
-        byte_io = io.BytesIO()
-        audio.export(byte_io, format="wav")
-        byte_io.seek(0)
-        sample_rate, audio_array = wavfile.read(byte_io)
-        audio_array = librosa.resample(audio_array.astype(float), orig_sr=sample_rate, target_sr=desired_sr)
-        start_sample = int(offset * desired_sr)
-        end_sample = start_sample + int(duration * desired_sr)
-        audio_array = audio_array[start_sample:end_sample]
-        # X, sample_rate = librosa.load(audio_io, duration=duration, sr=desired_sr, offset=offset)
-        X = librosa.util.normalize(audio_array)
-        return librosa.feature.mfcc(y=X, sr=desired_sr, n_mfcc=30)
     def perform_emotion_analysis(self, features, emotion_padding=216, depression_padding=2584):
         emotion_features = self.get_mfcc_features(features, emotion_padding)

         emotion_prediction, depression_prediction = self.perform_emotion_analysis(audio_features)
         return {
             "emotion": emotion_prediction,
+            "depression": float(depression_prediction[0])
         }
     def get_mfcc_features(self, features, padding):
     def preprocess_audio_data(self, base64_string, duration=2.5, desired_sr=22050*2, offset=0.5):
         # audio_base64 = base64_string.replace("data:audio/webm;codecs=opus;base64,", "")
+        audio_base64 = base64_string.split(',')[-1] if ',' in base64_string else base64_string
+        audio_bytes = base64.b64decode(audio_base64)
         audio_io = io.BytesIO(audio_bytes)
+        y, sr = librosa.load(audio_io, sr=desired_sr, duration=duration, offset=offset)
+        y = librosa.util.normalize(y)
+        y = librosa.util.normalize(y)
+        return mfcc
+        # audio_bytes = base64.b64decode(base64_string)
+        # audio_io = io.BytesIO(audio_bytes)
+        # audio = AudioSegment.from_file(audio_io, format="webm")
+        # byte_io = io.BytesIO()
+        # audio.export(byte_io, format="wav")
+        # byte_io.seek(0)
+        # sample_rate, audio_array = wavfile.read(byte_io)
+        # audio_array = librosa.resample(audio_array.astype(float), orig_sr=sample_rate, target_sr=desired_sr)
+        # start_sample = int(offset * desired_sr)
+        # end_sample = start_sample + int(duration * desired_sr)
+        # audio_array = audio_array[start_sample:end_sample]
+        # # X, sample_rate = librosa.load(audio_io, duration=duration, sr=desired_sr, offset=offset)
+        # X = librosa.util.normalize(audio_array)
+        # return librosa.feature.mfcc(y=X, sr=desired_sr, n_mfcc=30)
     def perform_emotion_analysis(self, features, emotion_padding=216, depression_padding=2584):
         emotion_features = self.get_mfcc_features(features, emotion_padding)