Spaces:

reagvis
/

audio-detector

Running

reagvis commited on 25 days ago

Commit

b9ec101

verified ·

1 Parent(s): 824db7b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 import torch
 import torchaudio
 from transformers import AutoFeatureExtractor, AutoModelForAudioClassification
 # Load the HF feature extractor and model
@@ -11,17 +12,24 @@ model = AutoModelForAudioClassification.from_pretrained(
     "MelodyMachine/Deepfake-audio-detection-V2"
 )
 def detect_deepfake_audio(audio_path: str) -> str:
     # Load audio file
-    waveform, sample_rate = torchaudio.load(audio_path)
     # Mix to mono if necessary
     if waveform.shape[0] > 1:
         waveform = torch.mean(waveform, dim=0, keepdim=True)
     # Prepare inputs
     inputs = feature_extractor(
-        waveform, sampling_rate=sample_rate, return_tensors="pt"
     )
     with torch.no_grad():
         outputs = model(**inputs)

 import gradio as gr
 import torch
 import torchaudio
+from torchaudio.transforms import Resample
 from transformers import AutoFeatureExtractor, AutoModelForAudioClassification
 # Load the HF feature extractor and model
     "MelodyMachine/Deepfake-audio-detection-V2"
 )
+TARGET_SR = feature_extractor.sampling_rate  # should be 16000
 def detect_deepfake_audio(audio_path: str) -> str:
     # Load audio file
+    waveform, orig_sr = torchaudio.load(audio_path)
     # Mix to mono if necessary
     if waveform.shape[0] > 1:
         waveform = torch.mean(waveform, dim=0, keepdim=True)
+    # Resample if not already 16 kHz
+    if orig_sr != TARGET_SR:
+        resampler = Resample(orig_sr, TARGET_SR)
+        waveform = resampler(waveform)
     # Prepare inputs
     inputs = feature_extractor(
+        waveform, sampling_rate=TARGET_SR, return_tensors="pt"
     )
     with torch.no_grad():
         outputs = model(**inputs)