myezrag

Running

App Files Files Community

ginipick commited on Oct 25, 2024

Commit

ffb5b8d

verified ·

1 Parent(s): 12e6818

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -11

app.py CHANGED Viewed

@@ -119,29 +119,62 @@ def upload_parquet(file_path: str) -> Tuple[str, str, str]:
 def text_to_parquet(text: str) -> Tuple[str, str, str]:
     try:
         from io import StringIO
-        # CSV 데이터를 StringIO를 통해 읽기
-        csv_data = StringIO(text)
         df = pd.read_csv(
-            csv_data,
             sep=',',
-            dtype=str,
-            quoting=csv.QUOTE_ALL,  # 모든 필드를 큰따옴표로 감싸는 것으로 처리
-            escapechar='\\',        # 이스케이프 문자 설정
-            engine='python',        # Python 엔진 사용
-            header=None,            # 첫 번째 행을 열 이름으로 사용하지 않음
-            names=['id', 'text', 'label', 'metadata']  # 열 이름 지정
         )
         # 데이터 유형 최적화
         df = df.astype({'id': 'int32', 'text': 'string', 'label': 'string', 'metadata': 'string'})
         # Parquet 파일로 변환
         parquet_filename = 'text_to_parquet.parquet'
         df.to_parquet(parquet_filename, engine='pyarrow', compression='snappy')
         # Parquet 파일 내용 미리보기
         parquet_content = load_parquet(parquet_filename)
         return f"{parquet_filename} 파일이 성공적으로 변환되었습니다.", parquet_content, parquet_filename
     except Exception as e:
-        error_message = f"텍스트 변환 중 오류가 발생했습니다: {str(e)}\n{traceback.format_exc()}"
-        print(error_message)
         return error_message, "", ""
 def preprocess_text_with_llm(input_text: str) -> str:

 def text_to_parquet(text: str) -> Tuple[str, str, str]:
     try:
         from io import StringIO
+        import csv
+        # 입력 텍스트 정제
+        lines = text.strip().split('\n')
+        cleaned_lines = []
+        for line in lines:
+            # 빈 줄 건너뛰기
+            if not line.strip():
+                continue
+            # 쌍따옴표 정규화
+            line = line.replace('""', '"')  # 중복 쌍따옴표 처리
+            # CSV 파싱을 위한 임시 StringIO 객체 생성
+            temp_buffer = StringIO(line)
+            try:
+                # CSV 라인 파싱 시도
+                reader = csv.reader(temp_buffer, quoting=csv.QUOTE_ALL)
+                parsed_line = next(reader)
+                if len(parsed_line) == 4:  # id, text, label, metadata
+                    # 각 필드를 적절히 포맷팅
+                    formatted_line = f'{parsed_line[0]},"{parsed_line[1]}","{parsed_line[2]}","{parsed_line[3]}"'
+                    cleaned_lines.append(formatted_line)
+            except:
+                continue
+            finally:
+                temp_buffer.close()
+        # 정제된 CSV 데이터 생성
+        cleaned_csv = '\n'.join(cleaned_lines)
+        # DataFrame 생성
         df = pd.read_csv(
+            StringIO(cleaned_csv),
             sep=',',
+            quoting=csv.QUOTE_ALL,
+            escapechar='\\',
+            names=['id', 'text', 'label', 'metadata']
         )
         # 데이터 유형 최적화
         df = df.astype({'id': 'int32', 'text': 'string', 'label': 'string', 'metadata': 'string'})
         # Parquet 파일로 변환
         parquet_filename = 'text_to_parquet.parquet'
         df.to_parquet(parquet_filename, engine='pyarrow', compression='snappy')
         # Parquet 파일 내용 미리보기
         parquet_content = load_parquet(parquet_filename)
         return f"{parquet_filename} 파일이 성공적으로 변환되었습니다.", parquet_content, parquet_filename
     except Exception as e:
+        error_message = f"텍스트 변환 중 오류가 발생했습니다: {str(e)}"
+        print(f"{error_message}\n{traceback.format_exc()}")
         return error_message, "", ""
 def preprocess_text_with_llm(input_text: str) -> str: