Spaces:

amiguel
/

RAG

Sleeping

amiguel commited on Jun 1

Commit

2db00ad

verified ·

1 Parent(s): ae4177c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import streamlit as st
 import torch
 import os
 import time
 from threading import Thread
 from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer
 from langchain_community.document_loaders import PyPDFLoader, TextLoader
@@ -34,7 +34,7 @@ if "messages" not in st.session_state or clear_chat:
 # --- Load Model + Tokenizer ---
 @st.cache_resource
 def load_model():
-    model_id = "amiguel/GM_Qwen1.8B_Finetune" #"tiiuae/falcon-7b-instruct"
     tokenizer = AutoTokenizer.from_pretrained(model_id, token=HF_TOKEN)
     model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto", token=HF_TOKEN)
     return tokenizer, model
@@ -45,10 +45,15 @@ tokenizer, model = load_model()
 def process_documents(files):
     documents = []
     for file in files:
-        if file.name.endswith(".pdf"):
-            loader = PyPDFLoader(file)
         else:
-            loader = TextLoader(file)
         docs = loader.load()
         documents.extend(docs)
     return documents

 import streamlit as st
 import torch
 import os
 import time
+import tempfile
 from threading import Thread
 from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer
 from langchain_community.document_loaders import PyPDFLoader, TextLoader
 # --- Load Model + Tokenizer ---
 @st.cache_resource
 def load_model():
+    model_id = "tiiuae/falcon-7b-instruct"
     tokenizer = AutoTokenizer.from_pretrained(model_id, token=HF_TOKEN)
     model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto", token=HF_TOKEN)
     return tokenizer, model
 def process_documents(files):
     documents = []
     for file in files:
+        suffix = ".pdf" if file.name.endswith(".pdf") else ".txt"
+        with tempfile.NamedTemporaryFile(delete=False, suffix=suffix) as tmp_file:
+            tmp_file.write(file.read())
+            tmp_file_path = tmp_file.name
+        if suffix == ".pdf":
+            loader = PyPDFLoader(tmp_file_path)
         else:
+            loader = TextLoader(tmp_file_path)
         docs = loader.load()
         documents.extend(docs)
     return documents