Spaces:

JUNGU
/

PPPDC_example

Build error

App Files Files Community

JUNGU commited on Jul 19, 2024

Commit

5d89abf

verified ·

1 Parent(s): cc156a3

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -17

app.py CHANGED Viewed

@@ -70,7 +70,20 @@ def manual_data_entry():
     return None
 def preprocess_data(data):
-    # 결측치 처리
     if data.isnull().sum().sum() > 0:
         st.write("결측치 처리:")
         for column in data.columns:
@@ -81,24 +94,21 @@ def preprocess_data(data):
                 if method == "제거":
                     data = data.dropna(subset=[column])
                 elif method == "평균으로 대체":
-                    data[column].fillna(data[column].mean(), inplace=True)
                 elif method == "중앙값으로 대체":
-                    data[column].fillna(data[column].median(), inplace=True)
                 elif method == "최빈값으로 대체":
                     data[column].fillna(data[column].mode()[0], inplace=True)
-    # 데이터 타입 변환
-    for column in data.columns:
-        if data[column].dtype == 'object':
-            try:
-                data[column] = pd.to_numeric(data[column])
-                st.write(f"{column} 열을 숫자형으로 변환했습니다.")
-            except ValueError:
-                st.write(f"{column} 열은 범주형으로 유지됩니다.")
     # 숫자형 열과 범주형 열 분리
     st.session_state.numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns.tolist()
-    st.session_state.categorical_columns = data.select_dtypes(include=['object']).columns.tolist()
     return data
@@ -124,10 +134,14 @@ def apply_slicers(data):
     return filtered_data
 def plot_correlation_heatmap(data):
-    corr = data[st.session_state.numeric_columns].corr()
-    fig = px.imshow(corr, color_continuous_scale='RdBu_r', zmin=-1, zmax=1)
-    fig.update_layout(title='상관관계 히트맵')
-    st.plotly_chart(fig)
 def plot_scatter_with_regression(data, x_var, y_var):
     fig = px.scatter(data, x=x_var, y=y_var, color='반' if '반' in data.columns else None)

     return None
 def preprocess_data(data):
+    # 데이터 타입 추론 및 변환
+    for column in data.columns:
+        if data[column].dtype == 'object':
+            try:
+                # NaN 값을 무시하고 숫자로 변환 시도
+                numeric_converted = pd.to_numeric(data[column], errors='coerce')
+                # 모든 값이 NaN이 아니라면 변환된 열을 사용
+                if not numeric_converted.isna().all():
+                    data[column] = numeric_converted
+                    st.write(f"'{column}' 열을 숫자형으로 변환했습니다.")
+            except:
+                st.write(f"'{column}' 열은 범주형으로 유지됩니다.")
+    # 결측치 처리 (기존 코드 유지)
     if data.isnull().sum().sum() > 0:
         st.write("결측치 처리:")
         for column in data.columns:
                 if method == "제거":
                     data = data.dropna(subset=[column])
                 elif method == "평균으로 대체":
+                    if pd.api.types.is_numeric_dtype(data[column]):
+                        data[column].fillna(data[column].mean(), inplace=True)
+                    else:
+                        st.warning(f"{column} 열은 숫자형이 아니어서 평균값으로 대체할 수 없습니다.")
                 elif method == "중앙값으로 대체":
+                    if pd.api.types.is_numeric_dtype(data[column]):
+                        data[column].fillna(data[column].median(), inplace=True)
+                    else:
+                        st.warning(f"{column} 열은 숫자형이 아니어서 중앙값으로 대체할 수 없습니다.")
                 elif method == "최빈값으로 대체":
                     data[column].fillna(data[column].mode()[0], inplace=True)
     # 숫자형 열과 범주형 열 분리
     st.session_state.numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns.tolist()
+    st.session_state.categorical_columns = data.select_dtypes(exclude=['float64', 'int64']).columns.tolist()
     return data
     return filtered_data
 def plot_correlation_heatmap(data):
+    numeric_data = data[st.session_state.numeric_columns]
+    if not numeric_data.empty:
+        corr = numeric_data.corr()
+        fig = px.imshow(corr, color_continuous_scale='RdBu_r', zmin=-1, zmax=1)
+        fig.update_layout(title='상관관계 히트맵')
+        st.plotly_chart(fig)
+    else:
+        st.warning("상관관계 히트맵을 그릴 수 있는 숫자형 열이 없습니다.")
 def plot_scatter_with_regression(data, x_var, y_var):
     fig = px.scatter(data, x=x_var, y=y_var, color='반' if '반' in data.columns else None)