Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
@@ -14,6 +14,7 @@ from langchain.document_loaders import PyPDFLoader, TextLoader, JSONLoader, CSVL
|
|
14 |
import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
|
15 |
import json
|
16 |
import os
|
|
|
17 |
|
18 |
|
19 |
|
@@ -66,17 +67,19 @@ def get_json_file(json_docs):
|
|
66 |
return [json_string]
|
67 |
|
68 |
|
|
|
69 |
# 문서들을 처리하여 텍스트 청크로 나누는 함수입니다.
|
70 |
def get_text_chunks(documents):
|
|
|
71 |
text_splitter = RecursiveCharacterTextSplitter(
|
72 |
chunk_size=1000, # 청크의 크기를 지정합니다.
|
73 |
chunk_overlap=200, # 청크 사이의 중복을 지정합니다.
|
74 |
length_function=len # 텍스트의 길이를 측정하는 함수를 지정합니다.
|
75 |
)
|
76 |
|
77 |
-
|
78 |
-
|
79 |
-
|
80 |
|
81 |
# 텍스트 청크들로부터 벡터 스토어를 생성하는 함수입니다.
|
82 |
def get_vectorstore(text_chunks):
|
|
|
14 |
import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
|
15 |
import json
|
16 |
import os
|
17 |
+
from langchain.text_splitter import RecursiveCharacterTextSplitter
|
18 |
|
19 |
|
20 |
|
|
|
67 |
return [json_string]
|
68 |
|
69 |
|
70 |
+
|
71 |
# 문서들을 처리하여 텍스트 청크로 나누는 함수입니다.
|
72 |
def get_text_chunks(documents):
|
73 |
+
# RecursiveCharacterTextSplitter를 직접 초기화합니다.
|
74 |
text_splitter = RecursiveCharacterTextSplitter(
|
75 |
chunk_size=1000, # 청크의 크기를 지정합니다.
|
76 |
chunk_overlap=200, # 청크 사이의 중복을 지정합니다.
|
77 |
length_function=len # 텍스트의 길이를 측정하는 함수를 지정합니다.
|
78 |
)
|
79 |
|
80 |
+
# 문서를 청크로 나눕니다.
|
81 |
+
text_chunks = text_splitter.split_text(documents)
|
82 |
+
return text_chunks
|
83 |
|
84 |
# 텍스트 청크들로부터 벡터 스토어를 생성하는 함수입니다.
|
85 |
def get_vectorstore(text_chunks):
|