Spaces:

DrishtiSharma
/

chat-w-docs-via-speech-or-text

Running

App Files Files Community

DrishtiSharma commited on Dec 9, 2024

Commit

af77c7a

verified ·

1 Parent(s): 130b915

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -42

app.py CHANGED Viewed

@@ -10,9 +10,7 @@ from langchain_groq import ChatGroq
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
 from PyPDF2 import PdfReader
-from gtts import gTTS
-from pydub import AudioSegment
-from pydub.playback import play
 # Clear ChromaDB cache to fix tenant issue
 chromadb.api.client.SharedSystemClient.clear_system_cache()
@@ -23,6 +21,10 @@ if not GROQ_API_KEY:
     st.error("GROQ_API_KEY is not set. Please configure it in Hugging Face Spaces secrets.")
     st.stop()
 # Function to process PDFs and set up the vectorstore
 def process_and_store_pdfs(uploaded_files):
     texts = []
@@ -37,7 +39,6 @@ def process_and_store_pdfs(uploaded_files):
 # Function to set up the chat chain
 def chat_chain(vectorstore):
-    llm = ChatGroq(model="llama-3.1-70b-versatile", temperature=0, groq_api_key=GROQ_API_KEY)
     retriever = vectorstore.as_retriever()
     memory = ConversationBufferMemory(output_key="answer", memory_key="chat_history", return_messages=True)
@@ -51,7 +52,7 @@ def chat_chain(vectorstore):
     )
     return chain
-# Function to record audio using JavaScript
 RECORD_JS = """
 const sleep = time => new Promise(resolve => setTimeout(resolve, time));
 const b2text = blob => new Promise(resolve => {
@@ -77,70 +78,60 @@ var record = time => new Promise(async resolve => {
 def record_audio(seconds=5):
     """Record audio via JavaScript and save it as a .wav file."""
-    st.write("Recording...")
     from streamlit.components.v1 import html
-    html(f'<script>{RECORD_JS}</script>', height=0)
-    b64_audio = st.experimental_js("record", seconds * 1000)
-    audio_bytes = b64decode(b64_audio.split(",")[1])
-    with open("recorded_audio.wav", "wb") as f:
         f.write(audio_bytes)
-    st.success("Audio recorded and saved!")
-    return "recorded_audio.wav"
-# Transcribe audio using Groq Whisper
-from groq import Groq
-def transcribe_audio(filepath):
-    client = Groq(api_key=GROQ_API_KEY)
-    with open(filepath, "rb") as file:
-        transcription = client.audio.transcriptions.create(
-            file=(filepath, file.read()),
             model="distil-whisper-large-v3-en",
             response_format="json",
             language="en"
         )
-    return transcription.text
-# Text-to-Speech Function
-def text_to_speech(response):
-    tts = gTTS(text=response, lang='en')
-    tts.save("response.mp3")
-    sound = AudioSegment.from_file("response.mp3")
-    play(sound)
 # Streamlit UI
 st.title("Chat with PDFs via Audio 🎙️📚")
 uploaded_files = st.file_uploader("Upload PDF Files", accept_multiple_files=True, type=["pdf"])
 if uploaded_files:
     vectorstore = process_and_store_pdfs(uploaded_files)
     chain = chat_chain(vectorstore)
     st.success("PDFs processed! Ready to chat.")
-    # User options for input
-    input_mode = st.radio("Choose input method:", ["Text", "Audio"])
-    # Text input
-    if input_mode == "Text":
-        user_input = st.text_input("Ask your question:")
-        if user_input:
             with st.spinner("Thinking..."):
-                response = chain({"question": user_input})["answer"]
                 st.write(f"**Response:** {response}")
-                text_to_speech(response)
-    # Audio input
-    elif input_mode == "Audio":
         if st.button("Record Audio"):
             audio_file = record_audio(5)
             st.audio(audio_file)
             st.write("Transcribing audio...")
-            question = transcribe_audio(audio_file)
-            st.write(f"**You said:** {question}")
-            with st.spinner("Thinking..."):
-                response = chain({"question": question})["answer"]
                 st.write(f"**Response:** {response}")
-                text_to_speech(response)
 else:
     st.info("Please upload PDF files to start chatting.")

 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
 from PyPDF2 import PdfReader
+from groq import Groq
 # Clear ChromaDB cache to fix tenant issue
 chromadb.api.client.SharedSystemClient.clear_system_cache()
     st.error("GROQ_API_KEY is not set. Please configure it in Hugging Face Spaces secrets.")
     st.stop()
+# Initialize Groq Client for transcription and LLM
+groq_client = Groq(api_key=GROQ_API_KEY)
+llm = ChatGroq(model="llama-3.1-70b-versatile", temperature=0, groq_api_key=GROQ_API_KEY)
 # Function to process PDFs and set up the vectorstore
 def process_and_store_pdfs(uploaded_files):
     texts = []
 # Function to set up the chat chain
 def chat_chain(vectorstore):
     retriever = vectorstore.as_retriever()
     memory = ConversationBufferMemory(output_key="answer", memory_key="chat_history", return_messages=True)
     )
     return chain
+# JavaScript for recording audio
 RECORD_JS = """
 const sleep = time => new Promise(resolve => setTimeout(resolve, time));
 const b2text = blob => new Promise(resolve => {
 def record_audio(seconds=5):
     """Record audio via JavaScript and save it as a .wav file."""
+    st.write("Recording audio...")
     from streamlit.components.v1 import html
+    audio_b64 = st.experimental_js("record", seconds * 1000)
+    audio_bytes = b64decode(audio_b64.split(",")[1])
+    audio_file_path = "recorded_audio.wav"
+    with open(audio_file_path, "wb") as f:
         f.write(audio_bytes)
+    return audio_file_path
+def transcribe_audio(file_path):
+    """Transcribe audio using Groq Whisper."""
+    with open(file_path, "rb") as file:
+        transcription = groq_client.audio.transcriptions.create(
+            file=(file_path, file.read()),
             model="distil-whisper-large-v3-en",
             response_format="json",
             language="en"
         )
+    return transcription['text']
 # Streamlit UI
 st.title("Chat with PDFs via Audio 🎙️📚")
 uploaded_files = st.file_uploader("Upload PDF Files", accept_multiple_files=True, type=["pdf"])
 if uploaded_files:
     vectorstore = process_and_store_pdfs(uploaded_files)
     chain = chat_chain(vectorstore)
     st.success("PDFs processed! Ready to chat.")
+    input_method = st.radio("Choose Input Method", ["Text Input", "Audio Input"])
+    # Text Input Mode
+    if input_method == "Text Input":
+        query = st.text_input("Ask your question:")
+        if query:
             with st.spinner("Thinking..."):
+                response = chain({"question": query})["answer"]
                 st.write(f"**Response:** {response}")
+    # Audio Input Mode
+    elif input_method == "Audio Input":
         if st.button("Record Audio"):
             audio_file = record_audio(5)
             st.audio(audio_file)
+            # Transcription
             st.write("Transcribing audio...")
+            transcription = transcribe_audio(audio_file)
+            st.write(f"**You said:** {transcription}")
+            # Generate Response
+            with st.spinner("Generating response..."):
+                response = chain({"question": transcription})["answer"]
                 st.write(f"**Response:** {response}")
 else:
     st.info("Please upload PDF files to start chatting.")