voice_clone_detection

Runtime error

Kabatubare commited on Mar 14, 2024

Commit

86776b4

verified ·

1 Parent(s): 30c595f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,43 +11,32 @@ model_path = "./"
 model = AutoModelForAudioClassification.from_pretrained(model_path)
 def preprocess_audio(audio_path, sr=22050):
-    # Load audio file
     audio, sr = librosa.load(audio_path, sr=sr)
-    # Trim silence
     audio, _ = librosa.effects.trim(audio)
     return audio, sr
 def extract_features(audio, sr):
-    # Get Mel-spectrogram
     S = librosa.feature.melspectrogram(y=audio, sr=sr, n_mels=128)
     log_S = librosa.power_to_db(S, ref=np.max)
-    # Harmonic-Percussive source separation
     y_harmonic, y_percussive = librosa.effects.hpss(audio)
-    # Tempo, beat frames
-    tempo, beat_frames = librosa.beat.beat_track(y=audio, sr=sr)
-    # Chroma feature
     chroma = librosa.feature.chroma_cqt(y=y_harmonic, sr=sr)
-    # Spectral contrast
     contrast = librosa.feature.spectral_contrast(S=S, sr=sr)
-    # Tonnetz
     tonnetz = librosa.feature.tonnetz(y=librosa.effects.harmonic(audio), sr=sr)
-    # Concatenate all features
     features = np.vstack([log_S, chroma, contrast, tonnetz])
-    features = torch.tensor(features).float().unsqueeze(0)  # Add batch dimension
-    return features
 def predict_voice(audio_file_path):
     try:
         audio, sr = preprocess_audio(audio_file_path)
         features = extract_features(audio, sr)
         with torch.no_grad():
             outputs = model(features)
             logits = outputs.logits

 model = AutoModelForAudioClassification.from_pretrained(model_path)
 def preprocess_audio(audio_path, sr=22050):
+    # Load and trim the audio file
     audio, sr = librosa.load(audio_path, sr=sr)
     audio, _ = librosa.effects.trim(audio)
     return audio, sr
 def extract_features(audio, sr):
+    # Extract various features from the audio
     S = librosa.feature.melspectrogram(y=audio, sr=sr, n_mels=128)
     log_S = librosa.power_to_db(S, ref=np.max)
     y_harmonic, y_percussive = librosa.effects.hpss(audio)
     chroma = librosa.feature.chroma_cqt(y=y_harmonic, sr=sr)
     contrast = librosa.feature.spectral_contrast(S=S, sr=sr)
     tonnetz = librosa.feature.tonnetz(y=librosa.effects.harmonic(audio), sr=sr)
+    # Stack features and add batch dimension
     features = np.vstack([log_S, chroma, contrast, tonnetz])
+    features_tensor = torch.tensor(features).float().unsqueeze(0)  # (1, feature_dim, time_steps)
+    return features_tensor
 def predict_voice(audio_file_path):
     try:
         audio, sr = preprocess_audio(audio_file_path)
         features = extract_features(audio, sr)
+        # Model prediction
         with torch.no_grad():
             outputs = model(features)
             logits = outputs.logits