Spaces:

Hantr
/

RAG_AI_Chatbot_with_chatGPT

Sleeping

Hantr commited on Nov 21, 2023

Commit

84d8fdc

1 Parent(s): 8f64ec9

finish

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,7 +13,7 @@ from langchain.llms import HuggingFaceHub, LlamaCpp, CTransformers  # For loadin
 from langchain.document_loaders import PyPDFLoader, TextLoader, JSONLoader, CSVLoader
 import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
 import os
 # PDF 문서로부터 텍스트를 추출하는 함수입니다.
 def get_pdf_text(pdf_docs):
@@ -25,9 +25,6 @@ def get_pdf_text(pdf_docs):
     pdf_doc = pdf_loader.load() # 텍스트를 추출합니다.
     return pdf_doc # 추출한 텍스트를 반환합니다.
-# 과제
-# 아래 텍스트 추출 함수를 작성
 def get_text_file(txt_docs):
     temp_dir = tempfile.TemporaryDirectory()
@@ -78,7 +75,24 @@ def get_vectorstore(text_chunks):
     # OpenAI 임베딩 모델을 로드합니다. (Embedding models - Ada v2)
     embeddings = OpenAIEmbeddings()
-    vectorstore = FAISS.from_documents(text_chunks, embeddings) # FAISS 벡터 스토어를 생성합니다.
     return vectorstore # 생성된 벡터 스토어를 반환합니다.

 from langchain.document_loaders import PyPDFLoader, TextLoader, JSONLoader, CSVLoader
 import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
 import os
+import numpy as np
 # PDF 문서로부터 텍스트를 추출하는 함수입니다.
 def get_pdf_text(pdf_docs):
     pdf_doc = pdf_loader.load() # 텍스트를 추출합니다.
     return pdf_doc # 추출한 텍스트를 반환합니다.
 def get_text_file(txt_docs):
     temp_dir = tempfile.TemporaryDirectory()
     # OpenAI 임베딩 모델을 로드합니다. (Embedding models - Ada v2)
     embeddings = OpenAIEmbeddings()
+    chunk_embeddings = []
+    for chunk in text_chunks:
+        chunk_embedding = embeddings.encode(chunk)
+        chunk_embeddings.append(chunk_embedding)
+    # FAISS에 적합한 형태로 벡터들을 재구성합니다.
+    flat_embeddings = [emb for chunk in chunk_embeddings for emb in chunk]
+    # 임베딩 차원 수를 확인합니다.
+    num_dims = len(flat_embeddings[0]) if flat_embeddings else 0
+    # FAISS에 전달할 수 있는 형태로 벡터들을 재정렬합니다.
+    vectors = np.array(flat_embeddings).astype('float32')
+    vectors = vectors.reshape(len(flat_embeddings), num_dims)
+    # FAISS 인덱스를 생성합니다.
+    vectorstore = FAISS.from_numpy(vectors)
     return vectorstore # 생성된 벡터 스토어를 반환합니다.