Spaces:

shukdevdatta123
/

VoiceChat

Running

shukdevdatta123 commited on Jan 7

Commit

0cfe2ed

verified ·

1 Parent(s): f290fac

Update text_speech_utils.py

Files changed (1) hide show

text_speech_utils.py CHANGED Viewed

@@ -1,52 +1,41 @@
-import openai
-import sounddevice as sd
-import audiofile as af
-from scipy.io.wavfile import write
 from gtts import gTTS
-import multiprocessing
-import pyttsx3
-import keyboard
-def say(text):
-		p = multiprocessing.Process(target=pyttsx3.speak, args=(text,))
-		p.start()
-		while p.is_alive():
-			if keyboard.is_pressed('enter'):
-				p.terminate()
-			else:
-				continue
-		p.join()
-def record_audio(filename, sec, sr = 44100):
-    audio = sd.rec(int(sec * sr), samplerate=sr, channels=2, blocking=False)
-    sd.wait()
-    write(filename, sr, audio)
-def record_audio_manual(filename, sr = 44100):
-    input("  ** Press enter to start recording **")
-    audio = sd.rec(int(10 * sr), samplerate=sr, channels=2)
-    input("  ** Press enter to stop recording **")
-    sd.stop()
-    write(filename, sr, audio)
-def play_audio(filename):
-    signal, sr = af.read(filename)
-    sd.play(signal, sr)
 def transcribe_audio(filename):
-    audio_file= open(filename, "rb")
-    transcript = openai.Audio.transcribe("whisper-1", audio_file)
-    audio_file.close()
-    return transcript
-def translate_audio(filename):
-    audio_file= open(filename, "rb")
-    translation = openai.Audio.translate("whisper-1", audio_file)
-    audio_file.close()
-    return translation
 def save_text_as_audio(text, audio_filename):
-    myobj = gTTS(text=text, lang='en', slow=False)
-    myobj.save(audio_filename)

+import speech_recognition as sr
 from gtts import gTTS
+import os
+import wave
+def record_audio(filename, sec=5, sr=44100):
+    # Initialize recognizer class (for recognizing speech)
+    recognizer = sr.Recognizer()
+    # Set the microphone for recording
+    with sr.Microphone() as source:
+        print("Recording... Speak now!")
+        recognizer.adjust_for_ambient_noise(source)  # Adjust for ambient noise
+        audio = recognizer.listen(source, timeout=sec)
+        # Save the audio to a file
+        with open(filename, "wb") as f:
+            f.write(audio.get_wav_data())
 def transcribe_audio(filename):
+    recognizer = sr.Recognizer()
+    with sr.AudioFile(filename) as source:
+        audio = recognizer.record(source)
+    try:
+        # Recognize speech using Google's speech recognition
+        transcript = recognizer.recognize_google(audio)
+        return {"text": transcript}
+    except sr.UnknownValueError:
+        return {"text": "Sorry, I could not understand the audio."}
+    except sr.RequestError as e:
+        return {"text": f"Request failed; {e}"}
 def save_text_as_audio(text, audio_filename):
+    tts = gTTS(text=text, lang='en', slow=False)
+    tts.save(audio_filename)
+def play_audio(filename):
+    # Play audio using the default system player (e.g., vlc, mplayer)
+    os.system(f"start {filename}")  # For Windows; on Linux/macOS use `os.system(f"mpg321 {filename}")`