Spaces:

DrishtiSharma
/

chat-w-docs-via-speech-or-text

Running

App Files Files Community

DrishtiSharma commited on Dec 9, 2024

Commit

35fd0cd

verified ·

1 Parent(s): 53714cc

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -26

app.py CHANGED Viewed

@@ -12,6 +12,8 @@ from PyPDF2 import PdfReader
 from groq import Groq
 from streamlit_webrtc import webrtc_streamer, AudioProcessorBase, WebRtcMode
 import av
 # Clear ChromaDB cache to fix tenant issue
 chromadb.api.client.SharedSystemClient.clear_system_cache()
@@ -67,9 +69,23 @@ def transcribe_audio(file_path):
 # Audio Processor Class for Recording
 class AudioProcessor(AudioProcessorBase):
     def recv(self, frame: av.AudioFrame) -> av.AudioFrame:
         return frame
 # Streamlit UI
 st.title("Chat with PDFs via Speech/Text 🗣️📝📚")
@@ -93,38 +109,36 @@ if uploaded_files:
     # Record Audio
     elif input_method == "Record Audio":
         st.write("Record your audio query:")
         webrtc_ctx = webrtc_streamer(
             key="record",
             mode=WebRtcMode.SENDONLY,
-            audio_receiver_size=1024,
-            audio_processor_factory=AudioProcessor,
             media_stream_constraints={"audio": True, "video": False},
         )
-        if webrtc_ctx.audio_receiver:
-            st.write("Recording...")
-            audio_frames = []
-            while True:
-                frame = webrtc_ctx.audio_receiver.recv()
-                audio_frames.append(frame)
-                if len(audio_frames) > 5:  # Stop recording after a few frames
-                    break
-            # Save the recorded audio
-            audio_file_path = "recorded_audio.wav"
-            with av.open(audio_file_path, "w") as f:
-                for frame in audio_frames:
-                    f.write(frame)
-            st.success("Recording complete!")
-            # Transcribe and Generate Response
-            st.write("Transcribing audio...")
-            transcription = transcribe_audio(audio_file_path)
-            st.write(f"**You said:** {transcription}")
-            with st.spinner("Generating response..."):
-                response = chain({"question": transcription})["answer"]
-                st.write(f"**Response:** {response}")
     # Upload Audio File Mode
     elif input_method == "Upload Audio File":

 from groq import Groq
 from streamlit_webrtc import webrtc_streamer, AudioProcessorBase, WebRtcMode
 import av
+from pydub import AudioSegment
+from io import BytesIO
 # Clear ChromaDB cache to fix tenant issue
 chromadb.api.client.SharedSystemClient.clear_system_cache()
 # Audio Processor Class for Recording
 class AudioProcessor(AudioProcessorBase):
+    def __init__(self):
+        self.audio_buffer = BytesIO()
     def recv(self, frame: av.AudioFrame) -> av.AudioFrame:
+        # Append audio data to buffer
+        audio_segment = AudioSegment(
+            data=frame.to_ndarray().tobytes(),
+            sample_width=2,
+            frame_rate=frame.sample_rate,
+            channels=1
+        )
+        self.audio_buffer.write(audio_segment.raw_data)
         return frame
+    def get_audio_data(self):
+        return self.audio_buffer
 # Streamlit UI
 st.title("Chat with PDFs via Speech/Text 🗣️📝📚")
     # Record Audio
     elif input_method == "Record Audio":
         st.write("Record your audio query:")
+        audio_processor = AudioProcessor()
         webrtc_ctx = webrtc_streamer(
             key="record",
             mode=WebRtcMode.SENDONLY,
+            audio_processor_factory=lambda: audio_processor,
             media_stream_constraints={"audio": True, "video": False},
         )
+        # Stop recording when session ends
+        if webrtc_ctx.state.playing:
+            st.write("Recording... Speak now.")
+        elif webrtc_ctx.state.stopped:
+            st.write("Recording stopped. Processing...")
+            audio_data = audio_processor.get_audio_data()
+            if audio_data:
+                # Save audio to a file
+                audio_file_path = "recorded_audio.wav"
+                audio_segment = AudioSegment.from_file(BytesIO(audio_data.getvalue()), format="raw", frame_rate=48000, channels=1, sample_width=2)
+                audio_segment.export(audio_file_path, format="wav")
+                st.success("Recording saved successfully!")
+                # Transcribe and Generate Response
+                st.write("Transcribing audio...")
+                transcription = transcribe_audio(audio_file_path)
+                st.write(f"**You said:** {transcription}")
+                with st.spinner("Generating response..."):
+                    response = chain({"question": transcription})["answer"]
+                    st.write(f"**Response:** {response}")
     # Upload Audio File Mode
     elif input_method == "Upload Audio File":