v1

Files changed (14) hide show

.gitattributes +8 -0
README.md +5 -4
female_1.wav +3 -0
female_2.wav +3 -0
female_3.wav +3 -0
female_4.wav +3 -0
main.py +13 -0
male_1.wav +3 -0
male_2.wav +3 -0
male_3.wav +3 -0
male_4.wav +3 -0
model.onnx +3 -0
model.py +64 -0
requirements.txt +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,11 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+male_1.wav filter=lfs diff=lfs merge=lfs -text
+male_2.wav filter=lfs diff=lfs merge=lfs -text
+male_3.wav filter=lfs diff=lfs merge=lfs -text
+male_4.wav filter=lfs diff=lfs merge=lfs -text
+female_1.wav filter=lfs diff=lfs merge=lfs -text
+female_2.wav filter=lfs diff=lfs merge=lfs -text
+female_3.wav filter=lfs diff=lfs merge=lfs -text
+female_4.wav filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,13 +1,14 @@
 ---
 title: Cnn Voice Classifier
-emoji: 👀
-colorFrom: gray
-colorTo: blue
 sdk: gradio
 sdk_version: 5.35.0
-app_file: app.py
 pinned: false
 license: apache-2.0
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 title: Cnn Voice Classifier
+emoji: 🧑‍💼🤵‍♀️
+colorFrom: yellow
+colorTo: indigo
 sdk: gradio
 sdk_version: 5.35.0
+app_file: main.py
 pinned: false
 license: apache-2.0
+short_description: Voice gender classification model trained with many datasets
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

female_1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:690abe805180c50c0784f8721f7577707fac609566fe789adf6573f28d627a38
+size 331050

female_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23367a63c4966046aa8626dabb486cda8dcdd5554f01d74c6fa08179efd1078b
+size 67480

female_3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:088ef297b02fbbb7f5606364b806cc4ac5dbf1ad0f6a7736584ca3b67cf34ca1
+size 330828

female_4.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10d6dc49ad7bfa6e5da8f6203564e358fb367bc71215ab27a7037a4014147972
+size 330828

main.py ADDED Viewed

	@@ -0,0 +1,13 @@

+import gradio as gr
+from model import CnnVoiceClassifier
+model = CnnVoiceClassifier()
+audio_component = gr.Audio(type='filepath', label='Upload your audio file here')
+label_component = gr.Label(label='Gender classification result')
+sample_female = [f'female_{i}.wav' for i in range(1, 5)]
+sample_male = [f'male_{i}.wav' for i in range(1, 5)]
+demo = gr.Interface(fn=model.inference, inputs=audio_component, outputs=label_component, examples=sample_female + sample_male)
+demo.launch()

male_1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b3e3539feeb7acddd0648e49529d5dcd017da380abe06eb898d13ecbf8a7ad4
+size 330828

male_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e4cad1f12d071951045f763b89e68166617a5187ee66676bfc007993c5268db
+size 330828

male_3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd2a730eb06133800165c03ec672da271430d236fa547dc71ec8270c17d0d6c7
+size 330828

male_4.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd70dc5223a1acf0073eb3ab589c9699f0cabc1e4f3bd77d030054943846dd10
+size 330828

model.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2a828584699ca3b798aa47fa0e95447637e6607bf703b3cfde8cccc25974c46
+size 4609037

model.py ADDED Viewed

	@@ -0,0 +1,64 @@

+import onnxruntime as ort
+import librosa
+import numpy as np
+import scipy
+SR = 22050
+LENGTH_SEC = 1.5
+def resample(audio_data, original_sr, target_sr):
+    num_samples = int(len(audio_data) * target_sr / original_sr)
+    return scipy.signal.resample(audio_data, num_samples)
+def load_audio_slices(af):
+    audio, sr = librosa.load(af, sr=None)
+    if sr != SR:
+        audio = resample(audio, sr, SR)
+    LENGTH_SAMPLES = int(LENGTH_SEC * SR)
+    slices = []
+    if len(audio) < LENGTH_SAMPLES:
+        padding_needed = LENGTH_SAMPLES - len(audio)
+        audio = np.pad(audio, (0, padding_needed), mode='constant')
+        slices.append(audio)
+    else:
+        num_chunks = len(audio) / LENGTH_SAMPLES
+        if num_chunks > 2:
+            num_chunks = 5
+        elif num_chunks > 1.5:
+            num_chunks = 3
+        elif num_chunks > 1:
+            num_chunks = 2
+        end = len(audio) - LENGTH_SAMPLES
+        idxs_split = np.arange(0, end, end // num_chunks, dtype=int)
+        for idx_split in idxs_split:
+            sl = slice(idx_split, idx_split+LENGTH_SAMPLES)
+            slices.append(audio[sl])
+    slices = np.vstack(slices)
+    return slices / np.max(slices, axis=1)[:, np.newaxis]
+class CnnVoiceClassifier:
+    def __init__(self):
+        self.session = ort.InferenceSession('model.onnx')
+        self.input_name = self.session.get_inputs()[0].name
+        self.output_name = self.session.get_outputs()[0].name
+    def inference(self, audio_path):
+        audio = load_audio_slices(audio_path)
+        input_feed = {self.input_name: np.expand_dims(audio, axis=-1)}
+        outputs = self.session.run([self.output_name], input_feed)
+        probs = outputs[0].flatten()
+        w = np.abs((probs - 0.5)*2)
+        final_prob = np.average(probs, weights=w)
+        return {'Male': final_prob, 'Female': 1-final_prob}

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+huggingface_hub
+librosa
+onnxruntime