myezrag

Running

App Files Files Community

ginipick commited on Oct 25, 2024

Commit

b50c10b

verified ·

1 Parent(s): 6182aa1

Update app.py

Browse files

Files changed (1) hide show

app.py +118 -50

app.py CHANGED Viewed

@@ -145,49 +145,56 @@ def text_to_parquet(text: str) -> Tuple[str, str, str]:
         return error_message, "", ""
 def preprocess_text_with_llm(input_text: str) -> str:
-    # LLM에게 입력 텍스트를 전처리하도록 요청
-    system_prompt = """당신은 데이터 전처리 전문가입니다. 입력된 긴 텍스트를 아래와 같은 데이터셋 형식으로 전처리하세요:
-- **데이터셋 형식:** `id,text,label,metadata`
-- **각 행은 새로운 줄로 구분되고**, 필드는 쉼표로 구분됩니다.
-- **텍스트나 다른 필드 내에 쉼표가 있을 경우**, 해당 필드를 큰따옴표(")로 감싸세요.
-- **필드 내에 큰따옴표가 있을 경우**, 백슬래시(\\)로 이스케이프 처리하세요. 예: \"
-- 텍스트를 **의미 단위로 분할**하고, 각 문장에 대해 **1부터 시작하는 연속된 id**를 부여하세요.
-- 각 문장에 대해 **적절한 label(카테고리)**을 지정하세요. 예: "기술", "사회", "경제"
-- **metadata**에는 출처나 날짜 등의 추가 정보를 포함하세요.
-- 최종 결과는 **각 행이 `id,text,label,metadata` 형식의 CSV**가 되도록 하세요.
-**예시:**
 입력 텍스트:
-"오늘은 날씨가 좋다. 내일은 비가 올 예정이다."
-전처리된 데이터셋:
-1,"오늘은 날씨가 좋다.","날씨","2023-10-05"
-2,"내일은 비가 올 예정이다.","날씨","2023-10-05"
-**이제 아래의 입력 텍스트를 처리하세요:**
-""" + input_text
-    # LLM 호출 및 응답 처리
     try:
         response = ""
         stream = hf_client.text_generation(
-            prompt=system_prompt,
-            max_new_tokens=2000,
-            temperature=0.5,
             top_p=0.9,
             stream=True,
         )
         for msg in stream:
             if msg:
                 response += msg
-        # 디버깅: LLM의 응답 출력
-        print("LLM 응답:\n", response)
         processed_text = response.strip()
-        return processed_text
     except Exception as e:
         error_message = f"전처리 중 오류가 발생했습니다: {str(e)}\n{traceback.format_exc()}"
         print(error_message)
@@ -221,8 +228,6 @@ textarea, input[type="text"] {
 }
 """
 # Gradio Blocks 인터페이스 설정
 with gr.Blocks(css=css) as demo:
     gr.Markdown("# My RAG: LLM이 나만의 데이터로 학습한 콘텐츠 생성/답변", elem_id="initial-description")
@@ -232,6 +237,8 @@ with gr.Blocks(css=css) as demo:
         elem_id="initial-description"
     )
     # 첫 번째 탭: 챗봇 데이터 업로드 (탭 이름 변경: "My 데이터셋+LLM")
     with gr.Tab("My 데이터셋+LLM"):
         gr.Markdown("### LLM과 대화하기")
@@ -386,7 +393,7 @@ with gr.Blocks(css=css) as demo:
                     outputs=[convert_status, parquet_preview_convert, download_parquet_convert]
                 )
-    # 네 번째 탭: 텍스트를 데이터셋 형식으로 전처리 (탭 이름: "Text Preprocessing with LLM")
     with gr.Tab("Text Preprocessing with LLM"):
         gr.Markdown("### 텍스트를 입력하면 LLM이 데이터셋 형식에 맞게 전처리하여 출력합니다.")
         with gr.Row():
@@ -396,37 +403,98 @@ with gr.Blocks(css=css) as demo:
                     lines=15,
                     placeholder="여기에 전처리할 텍스트를 입력하세요..."
                 )
-                preprocess_button = gr.Button("전처리 실행")
-                preprocess_status = gr.Textbox(label="전처리 상태", interactive=False)
                 processed_text_output = gr.Textbox(
                     label="전처리된 데이터셋 출력",
                     lines=15,
                     interactive=False
                 )
                 def handle_text_preprocessing(input_text: str):
-                    preprocess_status.value = "전처리 중입니다. 잠시만 기다려주세요..."
-                    processed_text = preprocess_text_with_llm(input_text)
-                    preprocess_status.value = "전처리가 완료되었습니다."
-                    return preprocess_status.value, processed_text
                 preprocess_button.click(
                     handle_text_preprocessing,
                     inputs=[raw_text_input],
-                    outputs=[preprocess_status, processed_text_output]
                 )
-    gr.Markdown("### [email protected]", elem_id="initial-description")
-if __name__ == "__main__":
-    demo.launch()

         return error_message, "", ""
 def preprocess_text_with_llm(input_text: str) -> str:
+    if not input_text.strip():
+        return "입력 텍스트가 비어있습니다."
+    system_prompt = """당신은 데이터 전처리 전문가입니다. 입력된 텍스트를 CSV 데이터셋 형식으로 변환하세요.
+규칙:
+1. 출력 형식: id,text,label,metadata
+2. id: 1부터 시작하는 순차적 번호
+3. text: 의미 있는 단위로 분리된 텍스트
+4. label: 텍스트의 주제나 카테고리
+5. metadata: 추가 정보(날짜, 출처 등)
+주의사항:
+- 텍스트에 쉼표가 있으면 큰따옴표로 감싸기
+- 큰따옴표는 백슬래시로 이스케이프 처리
+- 각 행은 새로운 줄로 구분
+- 모든 필드는 쉼표로 구분
 입력 텍스트:
+"""
+    full_prompt = f"{system_prompt}\n\n{input_text}\n\n출력:"
     try:
         response = ""
         stream = hf_client.text_generation(
+            prompt=full_prompt,
+            max_new_tokens=4000,  # 토큰 수 증가
+            temperature=0.3,      # 더 결정적인 출력을 위해 낮춤
             top_p=0.9,
             stream=True,
         )
         for msg in stream:
             if msg:
                 response += msg
+        # 응답 정제
         processed_text = response.strip()
+        # CSV 형식 검증
+        try:
+            # StringIO를 사용하여 CSV 형식 검증
+            from io import StringIO
+            import csv
+            csv.reader(StringIO(processed_text))
+            return processed_text
+        except csv.Error:
+            return "LLM이 올바른 CSV 형식을 생성하지 못했습니다. 다시 시도해주세요."
     except Exception as e:
         error_message = f"전처리 중 오류가 발생했습니다: {str(e)}\n{traceback.format_exc()}"
         print(error_message)
 }
 """
 # Gradio Blocks 인터페이스 설정
 with gr.Blocks(css=css) as demo:
     gr.Markdown("# My RAG: LLM이 나만의 데이터로 학습한 콘텐츠 생성/답변", elem_id="initial-description")
         elem_id="initial-description"
     )
     # 첫 번째 탭: 챗봇 데이터 업로드 (탭 이름 변경: "My 데이터셋+LLM")
     with gr.Tab("My 데이터셋+LLM"):
         gr.Markdown("### LLM과 대화하기")
                     outputs=[convert_status, parquet_preview_convert, download_parquet_convert]
                 )
+    # 네 번째 탭: 텍스트를 데이터셋 형식으로 전처리 (개선된 버전)
     with gr.Tab("Text Preprocessing with LLM"):
         gr.Markdown("### 텍스트를 입력하면 LLM이 데이터셋 형식에 맞게 전처리하여 출력합니다.")
         with gr.Row():
                     lines=15,
                     placeholder="여기에 전처리할 텍스트를 입력하세요..."
                 )
+                with gr.Row():
+                    preprocess_button = gr.Button("전처리 실행", variant="primary")
+                    clear_button = gr.Button("초기화")
+                preprocess_status = gr.Textbox(
+                    label="전처리 상태",
+                    interactive=False,
+                    value="대기 중..."
+                )
                 processed_text_output = gr.Textbox(
                     label="전처리된 데이터셋 출력",
                     lines=15,
                     interactive=False
                 )
+                # Parquet 변환 및 다운로드 섹션
+                with gr.Row():
+                    convert_to_parquet_button = gr.Button("Parquet으로 변환", visible=True)
+                    download_parquet = gr.File(
+                        label="변환된 Parquet 파일 다운로드",
+                        visible=False
+                    )
                 def handle_text_preprocessing(input_text: str):
+                    if not input_text.strip():
+                        return "입력 텍스트가 없습니다.", ""
+                    try:
+                        preprocess_status_msg = "전처리를 시작합니다..."
+                        yield preprocess_status_msg, ""
+                        processed_text = preprocess_text_with_llm(input_text)
+                        if processed_text:
+                            preprocess_status_msg = "전처리가 완료되었습니다."
+                            yield preprocess_status_msg, processed_text
+                        else:
+                            preprocess_status_msg = "전처리 결과가 없습니다."
+                            yield preprocess_status_msg, ""
+                    except Exception as e:
+                        error_msg = f"처리 중 오류가 발생했습니다: {str(e)}"
+                        yield error_msg, ""
+                def clear_inputs():
+                    return "", "대기 중...", ""
+                def convert_to_parquet_file(processed_text: str):
+                    if not processed_text.strip():
+                        return "변환할 텍스트가 없습니다.", None
+                    try:
+                        message, parquet_content, parquet_filename = text_to_parquet(processed_text)
+                        if parquet_filename:
+                            return message, parquet_filename
+                        return message, None
+                    except Exception as e:
+                        return f"Parquet 변환 중 오류 발생: {str(e)}", None
+                # 이벤트 핸들러 연결
                 preprocess_button.click(
                     handle_text_preprocessing,
                     inputs=[raw_text_input],
+                    outputs=[preprocess_status, processed_text_output],
+                    queue=True
                 )
+                clear_button.click(
+                    clear_inputs,
+                    outputs=[raw_text_input, preprocess_status, processed_text_output]
+                )
+                convert_to_parquet_button.click(
+                    convert_to_parquet_file,
+                    inputs=[processed_text_output],
+                    outputs=[preprocess_status, download_parquet]
+                )
+                # 예제 텍스트 추가
+                with gr.Accordion("예제 텍스트", open=False):
+                    gr.Examples(
+                        examples=[
+                            ["이순신은 조선 중기의 무신이다. 그는 임진왜란 당시 해군을 이끌었다. 거북선을 만들어 왜군과 싸웠다."],
+                            ["인공지능은 컴퓨터 과학의 한 분야이다. 기계학습은 인공지능의 하위 분야이다. 딥러닝은 기계학습의 한 방법이다."]
+                        ],
+                        inputs=raw_text_input,
+                        label="예제 선택"
+                    )
+    gr.Markdown("### [email protected]", elem_id="initial-description")
+if __name__ == "__main__":
+    demo.launch(share=True)