Spaces:
Runtime error
Runtime error
Update app.py
Browse files
app.py
CHANGED
@@ -70,7 +70,20 @@ def manual_data_entry():
|
|
70 |
return None
|
71 |
|
72 |
def preprocess_data(data):
|
73 |
-
#
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
74 |
if data.isnull().sum().sum() > 0:
|
75 |
st.write("결측치 처리:")
|
76 |
for column in data.columns:
|
@@ -81,24 +94,21 @@ def preprocess_data(data):
|
|
81 |
if method == "제거":
|
82 |
data = data.dropna(subset=[column])
|
83 |
elif method == "평균으로 대체":
|
84 |
-
|
|
|
|
|
|
|
85 |
elif method == "중앙값으로 대체":
|
86 |
-
|
|
|
|
|
|
|
87 |
elif method == "최빈값으로 대체":
|
88 |
data[column].fillna(data[column].mode()[0], inplace=True)
|
89 |
|
90 |
-
# 데이터 타입 변환
|
91 |
-
for column in data.columns:
|
92 |
-
if data[column].dtype == 'object':
|
93 |
-
try:
|
94 |
-
data[column] = pd.to_numeric(data[column])
|
95 |
-
st.write(f"{column} 열을 숫자형으로 변환했습니다.")
|
96 |
-
except ValueError:
|
97 |
-
st.write(f"{column} 열은 범주형으로 유지됩니다.")
|
98 |
-
|
99 |
# 숫자형 열과 범주형 열 분리
|
100 |
st.session_state.numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns.tolist()
|
101 |
-
st.session_state.categorical_columns = data.select_dtypes(
|
102 |
|
103 |
return data
|
104 |
|
@@ -124,10 +134,14 @@ def apply_slicers(data):
|
|
124 |
return filtered_data
|
125 |
|
126 |
def plot_correlation_heatmap(data):
|
127 |
-
|
128 |
-
|
129 |
-
|
130 |
-
|
|
|
|
|
|
|
|
|
131 |
|
132 |
def plot_scatter_with_regression(data, x_var, y_var):
|
133 |
fig = px.scatter(data, x=x_var, y=y_var, color='반' if '반' in data.columns else None)
|
|
|
70 |
return None
|
71 |
|
72 |
def preprocess_data(data):
|
73 |
+
# 데이터 타입 추론 및 변환
|
74 |
+
for column in data.columns:
|
75 |
+
if data[column].dtype == 'object':
|
76 |
+
try:
|
77 |
+
# NaN 값을 무시하고 숫자로 변환 시도
|
78 |
+
numeric_converted = pd.to_numeric(data[column], errors='coerce')
|
79 |
+
# 모든 값이 NaN이 아니라면 변환된 열을 사용
|
80 |
+
if not numeric_converted.isna().all():
|
81 |
+
data[column] = numeric_converted
|
82 |
+
st.write(f"'{column}' 열을 숫자형으로 변환했습니다.")
|
83 |
+
except:
|
84 |
+
st.write(f"'{column}' 열은 범주형으로 유지됩니다.")
|
85 |
+
|
86 |
+
# 결측치 처리 (기존 코드 유지)
|
87 |
if data.isnull().sum().sum() > 0:
|
88 |
st.write("결측치 처리:")
|
89 |
for column in data.columns:
|
|
|
94 |
if method == "제거":
|
95 |
data = data.dropna(subset=[column])
|
96 |
elif method == "평균으로 대체":
|
97 |
+
if pd.api.types.is_numeric_dtype(data[column]):
|
98 |
+
data[column].fillna(data[column].mean(), inplace=True)
|
99 |
+
else:
|
100 |
+
st.warning(f"{column} 열은 숫자형이 아니어서 평균값으로 대체할 수 없습니다.")
|
101 |
elif method == "중앙값으로 대체":
|
102 |
+
if pd.api.types.is_numeric_dtype(data[column]):
|
103 |
+
data[column].fillna(data[column].median(), inplace=True)
|
104 |
+
else:
|
105 |
+
st.warning(f"{column} 열은 숫자형이 아니어서 중앙값으로 대체할 수 없습니다.")
|
106 |
elif method == "최빈값으로 대체":
|
107 |
data[column].fillna(data[column].mode()[0], inplace=True)
|
108 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
109 |
# 숫자형 열과 범주형 열 분리
|
110 |
st.session_state.numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns.tolist()
|
111 |
+
st.session_state.categorical_columns = data.select_dtypes(exclude=['float64', 'int64']).columns.tolist()
|
112 |
|
113 |
return data
|
114 |
|
|
|
134 |
return filtered_data
|
135 |
|
136 |
def plot_correlation_heatmap(data):
|
137 |
+
numeric_data = data[st.session_state.numeric_columns]
|
138 |
+
if not numeric_data.empty:
|
139 |
+
corr = numeric_data.corr()
|
140 |
+
fig = px.imshow(corr, color_continuous_scale='RdBu_r', zmin=-1, zmax=1)
|
141 |
+
fig.update_layout(title='상관관계 히트맵')
|
142 |
+
st.plotly_chart(fig)
|
143 |
+
else:
|
144 |
+
st.warning("상관관계 히트맵을 그릴 수 있는 숫자형 열이 없습니다.")
|
145 |
|
146 |
def plot_scatter_with_regression(data, x_var, y_var):
|
147 |
fig = px.scatter(data, x=x_var, y=y_var, color='반' if '반' in data.columns else None)
|