Spaces:

harshpatel080503
/

yougpt

Sleeping

App Files Files Community

harshpatel080503 commited on May 26

Commit

f60fca3

verified ·

1 Parent(s): a75d25d

Update rag_chain.py

Browse files

Files changed (1) hide show

rag_chain.py +22 -7

rag_chain.py CHANGED Viewed

@@ -2,7 +2,8 @@
 import os
 from dotenv import load_dotenv
-from youtube_transcript_api import YouTubeTranscriptApi
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import FAISS
@@ -23,6 +24,7 @@ os.environ["OPENAI_API_KEY"] = openai_token
 # Hugging Face Embeddings
 os.environ['HF_HOME'] = 'Embedding Models'
 embedding = HuggingFaceEmbeddings(
     model_name="Embedding Models/hub/models--sentence-transformers--all-MiniLM-L6-v2/snapshots/c9745ed1d9f207416be6d2e6f8de32d1f16199bf",
     model_kwargs={"local_files_only": True}
@@ -49,14 +51,27 @@ Answer:""",
     input_variables=["context", "question"],
 )
-# Fetch transcript using YouTubeTranscriptApi
-def fetch_transcript(video_id: str) -> str:
-    transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=["en", "hi"])
-    return " ".join([t["text"] for t in transcript])
 # Build RAG chain from transcript
-def build_chain(video_id: str) -> RetrievalQA:
-    text = fetch_transcript(video_id)
     splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
     docs = splitter.create_documents([text])

 import os
 from dotenv import load_dotenv
+from youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled, NoTranscriptFound, VideoUnavailable
+import requests
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import FAISS
 # Hugging Face Embeddings
 os.environ['HF_HOME'] = 'Embedding Models'
 embedding = HuggingFaceEmbeddings(
     model_name="Embedding Models/hub/models--sentence-transformers--all-MiniLM-L6-v2/snapshots/c9745ed1d9f207416be6d2e6f8de32d1f16199bf",
     model_kwargs={"local_files_only": True}
     input_variables=["context", "question"],
 )
+# Updated to optionally accept proxies
+def fetch_transcript(video_id: str, proxies: dict = None) -> str:
+    try:
+        # If proxies are provided, patch requests.Session to use them
+        if proxies:
+            session = requests.Session()
+            session.proxies.update(proxies)
+            # Monkey patch the YouTubeTranscriptApi's internal session to use proxy
+            YouTubeTranscriptApi._requests = session
+        transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=["en", "hi"])
+        return " ".join([t["text"] for t in transcript])
+    except (TranscriptsDisabled, NoTranscriptFound, VideoUnavailable) as e:
+        raise Exception(f"Transcript not available for video_id {video_id}: {str(e)}")
+    except Exception as e:
+        raise Exception(f"Error fetching transcript: {str(e)}")
 # Build RAG chain from transcript
+def build_chain(video_id: str, proxies: dict = None) -> RetrievalQA:
+    text = fetch_transcript(video_id, proxies=proxies)
     splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
     docs = splitter.create_documents([text])