Spaces:

Hiya-ai
/

loccus-audio-fake-detection

Running on CPU Upgrade

App Files Files Community

DavidLoccus commited on Nov 7, 2023

Commit

2e81dfe

1 Parent(s): af58e15

Batch of files processing.

Browse files

Audio from video processing.

Files changed (2) hide show

app.py +87 -19
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -8,6 +8,8 @@ from pytube import YouTube
 import os
 import random
 from huggingface_hub import HfApi
 FS=16000
 MAX_SIZE = FS * 30
@@ -15,6 +17,7 @@ MAX_SIZE = FS * 30
 HF_TOKEN_DEMO=os.getenv("HF_TOKEN_DEMO")
 MODEL_REPO=os.getenv("MODEL_REPO")
 MODELNAME=os.getenv("MODELNAME")
 username=os.getenv("username")
 password=os.getenv("password")
@@ -23,7 +26,7 @@ hf_api = HfApi(
     token=HF_TOKEN_DEMO, # Token is not persisted on the machine.
 )
-modelfile = hf_api.hf_hub_download(MODEL_REPO,MODELNAME)
 MODEL = torch.jit.load(modelfile)
@@ -79,7 +82,7 @@ def process_youtube_address(youtube_address):
 def process_micro(micro):
     x=preprocess_audio(micro)
-    output = MODEL(x)
     print(output)
     result = postprocess_output(output)
@@ -89,12 +92,51 @@ def process_file(file):
     x,fs = librosa.load(file, sr=FS)
     x=preprocess_audio((fs,x))
     print("Running model")
-    output = MODEL(x)
     print(output)
     result = postprocess_output(output)
     return result
 def process_youtube(youtube_address):
     audiofile=process_youtube_address(youtube_address)
@@ -110,27 +152,53 @@ def process_youtube(youtube_address):
 with gr.Blocks(title="Audio Fake Detector") as demo:
-    gr.Markdown("# Welcome to Loccus.ai synthetic voice detection demo!")
-    with gr.Row():
-        with gr.Column():
-            m = gr.Audio(source="microphone", type="numpy",label="Micro")
-            f = gr.Audio(source="upload", type="filepath", label="Audio file")
-            y = gr.Textbox(label="Enter YouTube address here")
-        with gr.Column():
-            with gr.Row(equal_height=True):
-                text = gr.Textbox(label="Probability of Real Voice")
         #file= gr.Audio(source="upload", type="filepath", optional=True)
-    button_clear = gr.ClearButton([m,f,y,text])
-    m.stop_recording(process_micro, inputs=[m], outputs=text)
-    f.upload(process_file,inputs=[f], outputs=text)
-    y.submit(process_youtube, inputs=[y], outputs=text)
     #btn = gr.Button("Run")

 import os
 import random
 from huggingface_hub import HfApi
+import pandas as pd
+from moviepy.editor import *
 FS=16000
 MAX_SIZE = FS * 30
 HF_TOKEN_DEMO=os.getenv("HF_TOKEN_DEMO")
 MODEL_REPO=os.getenv("MODEL_REPO")
 MODELNAME=os.getenv("MODELNAME")
+MODELNAME2=os.getenv("MODELNAME2")
 username=os.getenv("username")
 password=os.getenv("password")
     token=HF_TOKEN_DEMO, # Token is not persisted on the machine.
 )
+modelfile = hf_api.hf_hub_download(MODEL_REPO,MODELNAME2)
 MODEL = torch.jit.load(modelfile)
 def process_micro(micro):
     x=preprocess_audio(micro)
+    output,_ = MODEL(x)
     print(output)
     result = postprocess_output(output)
     x,fs = librosa.load(file, sr=FS)
     x=preprocess_audio((fs,x))
     print("Running model")
+    output,_ = MODEL(x)
     print(output)
     result = postprocess_output(output)
     return result
+def process_files(files):
+    resout=[]
+    res2out=[]
+    fnames=[]
+    for f in files:
+        file=f.name
+        x,fs = librosa.load(file, sr=FS)
+        x=preprocess_audio((fs,x))
+        print("Running model")
+        output,_ = MODEL(x)
+        print(output)
+        result, res2 = postprocess_output(output)
+        resout.append(result)
+        res2out.append(res2)
+        fnames.append(os.path.basename(file))
+    resout = pd.DataFrame({"File":fnames, "Probability of Real": resout})
+    #return resout, res2out
+    return resout
+def process_video(file):
+    video = VideoFileClip(file)
+    audio = video.audio
+    if not os.path.isdir('tmp'):
+        os.makedirs('tmp')
+    nrand=round(random.random()*1000)
+    audiowav="tmp/audio-"+str(nrand)+".wav"
+    audio.to_audiofile(audiowav)
+    result = process_file(audiowav)
+    os.remove(audiowav)
+    return result
 def process_youtube(youtube_address):
     audiofile=process_youtube_address(youtube_address)
 with gr.Blocks(title="Audio Fake Detector") as demo:
+    with gr.Tab("Individual Processing"):
+        gr.Markdown("# Welcome to Loccus.ai synthetic voice detection demo!")
+        with gr.Row():
+            with gr.Column():
+                m = gr.Audio(source="microphone", type="numpy",label="Micro")
+                f = gr.Audio(source="upload", type="filepath", label="Audio file")
+                y = gr.Textbox(label="Enter YouTube address here")
+                v = gr.Video(label="Enter a video", include_audio=True, scale=0.5)
+            with gr.Column():
+                with gr.Row(equal_height=True):
+                    text = gr.Textbox(label="Probability of Real Voice")
         #file= gr.Audio(source="upload", type="filepath", optional=True)
+        button_clear = gr.ClearButton([m,f,y,v,text])
+        m.stop_recording(process_micro, inputs=[m], outputs=text)
+        f.upload(process_file,inputs=[f], outputs=text)
+        y.submit(process_youtube, inputs=[y], outputs=text)
+        v.upload(process_video, inputs=[v], outputs=[text])
+    with gr.Tab("Batch Processing"):
+        gr.Markdown("# Welcome to Loccus.ai synthetic voice detection demo!")
+        with gr.Row():
+            with gr.Column():
+                f = gr.File(file_types=["audio"], label="Audio file", file_count="multiple")
+            with gr.Column():
+                with gr.Row(equal_height=True):
+                    textbatch = gr.Dataframe(
+                        headers=["File", "Probability of Real"],
+                        datatype=["str", "str"],
+                    )
+                    #text = gr.Textbox(label="Probability of Real Voice")
+                    #text2 = gr.Textbox(label="Amp Mean Score")
+        button_clear = gr.ClearButton([f,textbatch])
+        f.upload(process_files,inputs=[f], outputs=[textbatch])
     #btn = gr.Button("Run")

requirements.txt CHANGED Viewed

@@ -4,4 +4,5 @@ soundfile
 librosa
 numpy
 pytube
-huggingface_hub

 librosa
 numpy
 pytube
+huggingface_hub
+moviepy