Spaces:

harshpatel080503
/

yougpt

Sleeping

App Files Files Community

harshpatel080503 commited on May 26

Commit

6ed6cba

verified ·

1 Parent(s): d72f98a

Create rag_chain.py

Browse files

Files changed (1) hide show

rag_chain.py +76 -0

rag_chain.py ADDED Viewed

	@@ -0,0 +1,76 @@

+# rag_chain.py
+import os
+from dotenv import load_dotenv
+from youtube_transcript_api import YouTubeTranscriptApi
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.chat_models import ChatOpenAI
+from langchain.chains import RetrievalQA
+from langchain.memory import ConversationBufferMemory
+from langchain.prompts import PromptTemplate
+load_dotenv()
+os.environ["HUGGINGFACEHUB_API_TOKEN"] = os.getenv("HUGGINGFACEHUB_ACCESS_TOKEN")
+os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")
+# Hugging Face Embeddings
+os.environ['HF_HOME'] = 'E:/Generative AI/AI Models/Embedding Models'
+embedding = HuggingFaceEmbeddings(model_name='sentence-transformers/all-MiniLM-L6-v2')
+# OpenRouter LLM (Meta LLaMA 3.3)
+llm = ChatOpenAI(
+    openai_api_base="https://openrouter.ai/api/v1",
+    model="meta-llama/llama-3.3-70b-instruct:free",
+)
+# Custom prompt for RAG
+qa_prompt = PromptTemplate(
+    template="""
+You are a helpful assistant answering questions based on YouTube video content.
+Context:
+{context}
+Question:
+{question}
+Answer:""",
+    input_variables=["context", "question"],
+)
+# Fetch transcript using YouTubeTranscriptApi
+def fetch_transcript(video_id: str) -> str:
+    transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=["en", "hi"])
+    return " ".join([t["text"] for t in transcript])
+# Build RAG chain from transcript
+def build_chain(video_id: str) -> RetrievalQA:
+    text = fetch_transcript(video_id)
+    splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    docs = splitter.create_documents([text])
+    vectorstore = FAISS.from_documents(docs, embedding)
+    retriever = vectorstore.as_retriever()
+    memory = ConversationBufferMemory(
+        memory_key="chat_history",
+        return_messages=True,
+        output_key="result"
+    )
+    qa_chain = RetrievalQA.from_chain_type(
+        llm=llm,
+        chain_type="stuff",
+        retriever=retriever,
+        memory=memory,
+        return_source_documents=True,
+        output_key="result",
+        chain_type_kwargs={"prompt": qa_prompt}
+    )
+    return qa_chain