Spaces:

DDingcheol
/

DagAIChatbotStreamlitSpace

Sleeping

DDingcheol commited on Nov 17, 2023

Commit

ba2ba98

1 Parent(s): d32b31c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,6 +13,7 @@ import os
 from huggingface_hub import hf_hub_download # Hugging Face Hub에서 모델을 다운로드하기 위한 함수입니다.
 from transformers import pipeline
 from io import BytesIO
 # PDF 문서로부터 텍스트를 추출하는 함수입니다.
 def get_pdf_text(pdf_docs):
@@ -30,16 +31,34 @@ def get_pdf_text(pdf_docs):
 def get_text_file(docs):
     text_list = []
     for doc in docs:
-        text = doc.decode('utf-8')  # 'bytes' 객체를 'utf-8'로 디코딩하여 텍스트를 추출합니다.
         text_list.append(text)
     return text_list
 def get_csv_file(docs):
-    pass
 def get_json_file(docs):
-    pass
 def get_text_chunks(documents):
     text_splitter = RecursiveCharacterTextSplitter(

 from huggingface_hub import hf_hub_download # Hugging Face Hub에서 모델을 다운로드하기 위한 함수입니다.
 from transformers import pipeline
 from io import BytesIO
+import pandas as pd
 # PDF 문서로부터 텍스트를 추출하는 함수입니다.
 def get_pdf_text(pdf_docs):
 def get_text_file(docs):
     text_list = []
     for doc in docs:
+        text = doc.getvalue().decode('utf-8')  # 'BytesIO' 객체에서 텍스트를 추출합니다.
         text_list.append(text)
     return text_list
 def get_csv_file(docs):
+    text_list = []
+    for doc in docs:
+        df = pd.read_csv(doc)
+        for column in df.columns:
+            text_list.extend(df[column].astype(str).tolist())
+    return text_list
 def get_json_file(docs):
+    text_list = []
+    for doc in docs:
+        json_data = doc.read().decode('utf-8')
+        data = json.loads(json_data)
+        if isinstance(data, dict):
+            text_list.extend(list(data.values()))
+        elif isinstance(data, list):
+            for item in data:
+                if isinstance(item, str):
+                    text_list.append(item)
+                elif isinstance(item, dict):
+                    text_list.extend(list(item.values()))
+    return text_list
 def get_text_chunks(documents):
     text_splitter = RecursiveCharacterTextSplitter(