Spaces:

desiree
/

Qwen2-Audio-7B

Running on Zero

desiree commited on Dec 4, 2024

Commit

c69cd11

verified ·

1 Parent(s): 0a24813

Upload app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ import os
 import sys
 from pathlib import Path
 import base64
 # Model and Tokenizer Loading
 MODEL_ID = "Qwen/Qwen-Audio-Chat"
@@ -38,9 +39,15 @@ def process_audio(audio_path):
         # Ensure float32 format
         audio_data = audio_data.astype(np.float32)
-        # Convert to base64
-        audio_bytes = sf.write(file=None, data=audio_data, samplerate=sample_rate, format='WAV')
-        audio_base64 = base64.b64encode(audio_bytes).decode('utf-8')
         print(f"Audio processed successfully. Sample rate: {sample_rate}, Shape: {audio_data.shape}")
         return {
@@ -49,6 +56,8 @@ def process_audio(audio_path):
         }
     except Exception as e:
         print(f"Error processing audio: {e}")
         return None
 @spaces.GPU
@@ -142,7 +151,8 @@ demo = gr.Interface(
         gr.Audio(
             type="filepath",
             label="Audio Input",
-            sources=["upload", "microphone"]
         ),
         gr.Textbox(
             label="Question",

 import sys
 from pathlib import Path
 import base64
+from io import BytesIO
 # Model and Tokenizer Loading
 MODEL_ID = "Qwen/Qwen-Audio-Chat"
         # Ensure float32 format
         audio_data = audio_data.astype(np.float32)
+        # Create in-memory buffer
+        audio_buffer = BytesIO()
+        # Write audio to buffer in WAV format
+        sf.write(audio_buffer, audio_data, sample_rate, format='WAV')
+        # Get the buffer content and encode to base64
+        audio_buffer.seek(0)
+        audio_base64 = base64.b64encode(audio_buffer.read()).decode('utf-8')
         print(f"Audio processed successfully. Sample rate: {sample_rate}, Shape: {audio_data.shape}")
         return {
         }
     except Exception as e:
         print(f"Error processing audio: {e}")
+        import traceback
+        traceback.print_exc()
         return None
 @spaces.GPU
         gr.Audio(
             type="filepath",
             label="Audio Input",
+            sources=["upload", "microphone"],
+            format="mp3"  # Specify format to ensure consistent audio format
         ),
         gr.Textbox(
             label="Question",