Spaces:

yasserrmd
/

ggwave

Sleeping

yasserrmd commited on Feb 25

Commit

7db8704

verified ·

1 Parent(s): f7390ea

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import os
 from pydantic import BaseModel
 from groq import Groq
 import io
 app = FastAPI()
@@ -46,13 +47,23 @@ async def speech_to_text(file: UploadFile = File(...)):
 @app.post("/tts/")
 def text_to_speech(input_text: TextInput):
-    instance = ggwave.init()
-    print("input_text:-")
-    print(input_text)
     """Convert text to a WAV audio file using ggwave and return as response."""
-    encoded_waveform = ggwave.encode(instance, input_text.text)
     buffer = io.BytesIO()
-    wav.write(buffer, 44100, np.frombuffer(encoded_waveform, dtype=np.uint8))
     buffer.seek(0)
     return Response(content=buffer.getvalue(), media_type="audio/wav")

 from pydantic import BaseModel
 from groq import Groq
 import io
+import wave
 app = FastAPI()
 @app.post("/tts/")
 def text_to_speech(input_text: TextInput):
     """Convert text to a WAV audio file using ggwave and return as response."""
+    encoded_waveform = ggwave.encode(instance, input_text.text.encode('utf-8'), protocolId=1, volume=100)
+    # Convert byte data into float32 array
+    waveform_float32 = np.frombuffer(encoded_waveform, dtype=np.float32)
+    # Normalize float32 data to the range of int16
+    waveform_int16 = np.int16(waveform_float32 * 32767)
+    # Save to buffer instead of a file
     buffer = io.BytesIO()
+    with wave.open(buffer, "wb") as wf:
+        wf.setnchannels(1)                  # Mono audio
+        wf.setsampwidth(2)                  # 2 bytes per sample (16-bit PCM)
+        wf.setframerate(48000)              # Sample rate
+        wf.writeframes(waveform_int16.tobytes())  # Write waveform as bytes
     buffer.seek(0)
     return Response(content=buffer.getvalue(), media_type="audio/wav")