Daoneeee commited on
Commit
df187da
·
1 Parent(s): 230406f

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +6 -3
app.py CHANGED
@@ -14,6 +14,7 @@ from langchain.document_loaders import PyPDFLoader, TextLoader, JSONLoader, CSVL
14
  import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
15
  import json
16
  import os
 
17
 
18
 
19
 
@@ -66,17 +67,19 @@ def get_json_file(json_docs):
66
  return [json_string]
67
 
68
 
 
69
  # 문서들을 처리하여 텍스트 청크로 나누는 함수입니다.
70
  def get_text_chunks(documents):
 
71
  text_splitter = RecursiveCharacterTextSplitter(
72
  chunk_size=1000, # 청크의 크기를 지정합니다.
73
  chunk_overlap=200, # 청크 사이의 중복을 지정합니다.
74
  length_function=len # 텍스트의 길이를 측정하는 함수를 지정합니다.
75
  )
76
 
77
- documents = text_splitter.split_documents(documents) # 문서들을 청크로 나눕니다
78
- return documents # 나눈 청크를 반환합니다.
79
-
80
 
81
  # 텍스트 청크들로부터 벡터 스토어를 생성하는 함수입니다.
82
  def get_vectorstore(text_chunks):
 
14
  import tempfile # 임시 파일을 생성하기 위한 라이브러리입니다.
15
  import json
16
  import os
17
+ from langchain.text_splitter import RecursiveCharacterTextSplitter
18
 
19
 
20
 
 
67
  return [json_string]
68
 
69
 
70
+
71
  # 문서들을 처리하여 텍스트 청크로 나누는 함수입니다.
72
  def get_text_chunks(documents):
73
+ # RecursiveCharacterTextSplitter를 직접 초기화합니다.
74
  text_splitter = RecursiveCharacterTextSplitter(
75
  chunk_size=1000, # 청크의 크기를 지정합니다.
76
  chunk_overlap=200, # 청크 사이의 중복을 지정합니다.
77
  length_function=len # 텍스트의 길이를 측정하는 함수를 지정합니다.
78
  )
79
 
80
+ # 문서를 청크로 나눕니다.
81
+ text_chunks = text_splitter.split_text(documents)
82
+ return text_chunks
83
 
84
  # 텍스트 청크들로부터 벡터 스토어를 생성하는 함수입니다.
85
  def get_vectorstore(text_chunks):