Update app.py
Browse files
app.py
CHANGED
@@ -117,9 +117,10 @@ def upload_parquet(file_path: str) -> Tuple[str, str, str]:
|
|
117 |
|
118 |
def text_to_parquet(text: str) -> Tuple[str, str, str]:
|
119 |
try:
|
120 |
-
|
121 |
-
|
122 |
-
|
|
|
123 |
# ๋ฐ์ดํฐ ์ ํ ์ต์ ํ
|
124 |
df = df.astype({'id': 'int32', 'text': 'string', 'label': 'string', 'metadata': 'string'})
|
125 |
# Parquet ํ์ผ๋ก ๋ณํ
|
@@ -135,7 +136,7 @@ def preprocess_text_with_llm(input_text: str) -> str:
|
|
135 |
# LLM์๊ฒ ์
๋ ฅ ํ
์คํธ๋ฅผ ์ ์ฒ๋ฆฌํ๋๋ก ์์ฒญ
|
136 |
system_prompt = """๋น์ ์ ์
๋ ฅ๋ ๊ธด ํ
์คํธ๋ฅผ ๋ฐ์ดํฐ์
ํ์์ ๋ง๊ฒ ์ ์ฒ๋ฆฌํ๋ ์ญํ ์ ํฉ๋๋ค.
|
137 |
- ๋ฐ์ดํฐ์
ํ์์ id,text,label,metadata์
๋๋ค.
|
138 |
-
- ๊ฐ ํ์ ์ผํ๋ก ๊ตฌ๋ถ๋๋ฉฐ,
|
139 |
- ํ
์คํธ๋ฅผ ์๋ฏธ ๋จ์๋ก ๋ถํ ํ๊ณ , ์ ์ ํ ๋ฌธ์ฅ์ ์ฌ๊ตฌ์ฑํ๊ณ ํธ์งํ์ฌ ์ต์ ํ๋ ๋ฌธ์ฅ์ผ๋ก ๋ง๋ญ๋๋ค.
|
140 |
- ๊ฐ ๋ฌธ์ฅ์ ๋ํด id๋ฅผ ๋ถ์ฌํ๊ณ , ์ ์ ํ label(์นดํ
๊ณ ๋ฆฌ)์ ์ง์ ํฉ๋๋ค.
|
141 |
- metadata์๋ ์ถ์ฒ๋ ๋ ์ง ๋ฑ์ ์ถ๊ฐ ์ ๋ณด๋ฅผ ํฌํจํ ์ ์์ต๋๋ค.
|
|
|
117 |
|
118 |
def text_to_parquet(text: str) -> Tuple[str, str, str]:
|
119 |
try:
|
120 |
+
from io import StringIO
|
121 |
+
# CSV ๋ฐ์ดํฐ๋ฅผ StringIO๋ฅผ ํตํด ์ฝ๊ธฐ
|
122 |
+
csv_data = StringIO(text)
|
123 |
+
df = pd.read_csv(csv_data, sep=',', dtype=str)
|
124 |
# ๋ฐ์ดํฐ ์ ํ ์ต์ ํ
|
125 |
df = df.astype({'id': 'int32', 'text': 'string', 'label': 'string', 'metadata': 'string'})
|
126 |
# Parquet ํ์ผ๋ก ๋ณํ
|
|
|
136 |
# LLM์๊ฒ ์
๋ ฅ ํ
์คํธ๋ฅผ ์ ์ฒ๋ฆฌํ๋๋ก ์์ฒญ
|
137 |
system_prompt = """๋น์ ์ ์
๋ ฅ๋ ๊ธด ํ
์คํธ๋ฅผ ๋ฐ์ดํฐ์
ํ์์ ๋ง๊ฒ ์ ์ฒ๋ฆฌํ๋ ์ญํ ์ ํฉ๋๋ค.
|
138 |
- ๋ฐ์ดํฐ์
ํ์์ id,text,label,metadata์
๋๋ค.
|
139 |
+
- ๊ฐ ํ์ ์ผํ๋ก ๊ตฌ๋ถ๋๋ฉฐ, **ํ
์คํธ๋ ๋ค๋ฅธ ํ๋ ๋ด์ ์ผํ๊ฐ ์์ ๊ฒฝ์ฐ ํด๋น ํ๋๋ฅผ ํฐ๋ฐ์ดํ(")๋ก ๊ฐ์๋๋ค.**
|
140 |
- ํ
์คํธ๋ฅผ ์๋ฏธ ๋จ์๋ก ๋ถํ ํ๊ณ , ์ ์ ํ ๋ฌธ์ฅ์ ์ฌ๊ตฌ์ฑํ๊ณ ํธ์งํ์ฌ ์ต์ ํ๋ ๋ฌธ์ฅ์ผ๋ก ๋ง๋ญ๋๋ค.
|
141 |
- ๊ฐ ๋ฌธ์ฅ์ ๋ํด id๋ฅผ ๋ถ์ฌํ๊ณ , ์ ์ ํ label(์นดํ
๊ณ ๋ฆฌ)์ ์ง์ ํฉ๋๋ค.
|
142 |
- metadata์๋ ์ถ์ฒ๋ ๋ ์ง ๋ฑ์ ์ถ๊ฐ ์ ๋ณด๋ฅผ ํฌํจํ ์ ์์ต๋๋ค.
|