voice_clone_detection

Runtime error

App Files Files Community

Kabatubare commited on Mar 13, 2024

Commit

30c595f

verified ·

1 Parent(s): 8d34e4a

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -12

app.py CHANGED Viewed

@@ -10,20 +10,43 @@ logging.basicConfig(level=logging.INFO)
 model_path = "./"
 model = AutoModelForAudioClassification.from_pretrained(model_path)
-def preprocess_audio(audio_file_path, sr=16000):
-    waveform, _ = librosa.load(audio_file_path, sr=sr)
-    waveform = librosa.effects.trim(waveform)[0]  # Trim silence
-    return waveform
-def extract_features(waveform, sr=16000, n_mels=128, n_fft=2048, hop_length=512):
-    S = librosa.feature.melspectrogram(y=waveform, sr=sr, n_mels=n_mels, n_fft=n_fft, hop_length=hop_length)
-    S_DB = librosa.power_to_db(S, ref=np.max)
-    return torch.tensor(S_DB).float().unsqueeze(0)  # Add batch dimension
 def predict_voice(audio_file_path):
     try:
-        waveform = preprocess_audio(audio_file_path)
-        features = extract_features(waveform)
         with torch.no_grad():
             outputs = model(features)
@@ -42,10 +65,10 @@ def predict_voice(audio_file_path):
 iface = gr.Interface(
     fn=predict_voice,
-    inputs=gr.Audio(label="Upload Audio File", type="filepath"),  # Corrected 'type' parameter
     outputs=gr.Text(label="Prediction"),
     title="Voice Authenticity Detection",
-    description="Detects whether a voice is real or AI-generated. Upload an audio file to see the results."
 )
 iface.launch()

 model_path = "./"
 model = AutoModelForAudioClassification.from_pretrained(model_path)
+def preprocess_audio(audio_path, sr=22050):
+    # Load audio file
+    audio, sr = librosa.load(audio_path, sr=sr)
+    # Trim silence
+    audio, _ = librosa.effects.trim(audio)
+    return audio, sr
+def extract_features(audio, sr):
+    # Get Mel-spectrogram
+    S = librosa.feature.melspectrogram(y=audio, sr=sr, n_mels=128)
+    log_S = librosa.power_to_db(S, ref=np.max)
+    # Harmonic-Percussive source separation
+    y_harmonic, y_percussive = librosa.effects.hpss(audio)
+    # Tempo, beat frames
+    tempo, beat_frames = librosa.beat.beat_track(y=audio, sr=sr)
+    # Chroma feature
+    chroma = librosa.feature.chroma_cqt(y=y_harmonic, sr=sr)
+    # Spectral contrast
+    contrast = librosa.feature.spectral_contrast(S=S, sr=sr)
+    # Tonnetz
+    tonnetz = librosa.feature.tonnetz(y=librosa.effects.harmonic(audio), sr=sr)
+    # Concatenate all features
+    features = np.vstack([log_S, chroma, contrast, tonnetz])
+    features = torch.tensor(features).float().unsqueeze(0)  # Add batch dimension
+    return features
 def predict_voice(audio_file_path):
     try:
+        audio, sr = preprocess_audio(audio_file_path)
+        features = extract_features(audio, sr)
         with torch.no_grad():
             outputs = model(features)
 iface = gr.Interface(
     fn=predict_voice,
+    inputs=gr.Audio(label="Upload Audio File", type="filepath"),
     outputs=gr.Text(label="Prediction"),
     title="Voice Authenticity Detection",
+    description="This system uses advanced audio processing to detect whether a voice is real or AI-generated. Upload an audio file to see the results."
 )
 iface.launch()