Spaces:

JUNGU
/

PPPDC_example

Build error

App Files Files Community

JUNGU commited on Jul 19, 2024

Commit

6607e79

verified ·

1 Parent(s): 7abab37

Update app.py

Browse files

Files changed (1) hide show

app.py +150 -73

app.py CHANGED Viewed

@@ -1,28 +1,107 @@
-def initialize_session_state():
     if 'data' not in st.session_state:
         st.session_state.data = None
     if 'processed_data' not in st.session_state:
         st.session_state.processed_data = None
-    if 'slicers' not in st.session_state:
-        st.session_state.slicers = {}
     if 'x_var' not in st.session_state:
         st.session_state.x_var = None
     if 'y_var' not in st.session_state:
         st.session_state.y_var = None
-    if 'analysis_performed' not in st.session_state:
-        st.session_state.analysis_performed = False
-def create_slicers(data):
-    categorical_columns = data.select_dtypes(include=['object', 'category']).columns
-    for col in categorical_columns:
         if data[col].nunique() <= 10:  # 고유값이 10개 이하인 경우에만 슬라이서 생성
-            if col not in st.session_state.slicers:
-                st.session_state.slicers[col] = sorted(data[col].unique())
             st.session_state.slicers[col] = st.multiselect(
                 f"{col} 선택",
                 options=sorted(data[col].unique()),
-                default=st.session_state.slicers[col]
             )
 def apply_slicers(data):
@@ -31,6 +110,46 @@ def apply_slicers(data):
             data = data[data[col].isin(selected_values)]
     return data
 def perform_analysis(data):
     st.header("탐색적 데이터 분석")
@@ -43,82 +162,40 @@ def perform_analysis(data):
     st.write(filtered_data.describe())
     # 상관관계 히트맵
-    st.write("상관관계 히트맵:")
-    numeric_data = filtered_data.select_dtypes(include=['float64', 'int64'])
-    if not numeric_data.empty:
-        fig = px.imshow(numeric_data.corr(), color_continuous_scale='RdBu_r', zmin=-1, zmax=1)
-        fig.update_layout(title='상관관계 히트맵')
-        st.plotly_chart(fig)
-    else:
-        st.write("상관관계 히트맵을 그릴 수 있는 숫자형 열이 없습니다.")
     # 사용자가 선택한 두 변수에 대한 산점도 및 회귀 분석
     st.subheader("두 변수 간의 관계 분석")
-    numeric_columns = filtered_data.select_dtypes(include=['float64', 'int64']).columns
-    st.session_state.x_var = st.selectbox("X축 변수 선택", options=numeric_columns, key='x_var_select', index=numeric_columns.get_loc(st.session_state.x_var) if st.session_state.x_var in numeric_columns else 0)
-    y_options = [col for col in numeric_columns if col != st.session_state.x_var]
-    st.session_state.y_var = st.selectbox("Y축 변수 선택", options=y_options, key='y_var_select', index=y_options.index(st.session_state.y_var) if st.session_state.y_var in y_options else 0)
-    if st.session_state.x_var and st.session_state.y_var:
-        fig = px.scatter(filtered_data, x=st.session_state.x_var, y=st.session_state.y_var, color='반' if '반' in filtered_data.columns else None)
-        # 회귀선 추가
-        x = filtered_data[st.session_state.x_var]
-        y = filtered_data[st.session_state.y_var]
-        slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
-        line_x = np.array([x.min(), x.max()])
-        line_y = slope * line_x + intercept
-        fig.add_trace(go.Scatter(x=line_x, y=line_y, mode='lines', name='회귀선'))
-        r_squared = r_value ** 2
-        fig.update_layout(
-            title=f'{st.session_state.x_var}와 {st.session_state.y_var}의 관계 (R-squared: {r_squared:.4f})',
-            xaxis_title=st.session_state.x_var,
-            yaxis_title=st.session_state.y_var,
-            annotations=[
-                dict(
-                    x=0.5,
-                    y=1.05,
-                    xref='paper',
-                    yref='paper',
-                    text=f'R-squared: {r_squared:.4f}',
-                    showarrow=False,
-                )
-            ]
-        )
-        st.plotly_chart(fig)
-        # 추가 통계 정보
-        st.write(f"상관계수: {r_value:.4f}")
-        st.write(f"p-value: {p_value:.4f}")
-        st.write(f"표준 오차: {std_err:.4f}")
-    st.session_state.analysis_performed = True
 def main():
     st.title("인터랙티브 EDA 툴킷")
-    initialize_session_state()
-    if st.session_state.data is None:
-        data_input_method = st.radio("데이터 입력 방법 선택:", ("파일 업로드", "수동 입력"))
-        if data_input_method == "파일 업로드":
-            uploaded_file = st.file_uploader("CSV, XLS, 또는 XLSX 파일을 선택하세요", type=["csv", "xls", "xlsx"])
-            if uploaded_file is not None:
-                st.session_state.data = load_data(uploaded_file)
         else:
-            st.session_state.data = manual_data_entry()
     if st.session_state.data is not None:
         st.subheader("데이터 미리보기 및 수정")
         st.write("데이터를 확인하고 필요한 경우 수정하세요:")
         edited_data = st.data_editor(st.session_state.data, num_rows="dynamic")
-        if st.button("데이터 분석 시작") or st.session_state.analysis_performed:
-            if not st.session_state.analysis_performed:
-                st.session_state.processed_data = preprocess_data(edited_data)
             perform_analysis(st.session_state.processed_data)
 if __name__ == "__main__":

+import streamlit as st
+import pandas as pd
+import numpy as np
+import plotly.express as px
+import plotly.graph_objects as go
+from io import StringIO
+import openpyxl
+import matplotlib.font_manager as fm
+from scipy import stats
+# 한글 폰트 설정
+def set_font():
+    font_path = "Pretendard-Bold.ttf"  # 실제 폰트 파일 경로로 변경해주세요
+    fm.fontManager.addfont(font_path)
+    return {'font.family': 'Pretendard-Bold', 'axes.unicode_minus': False}
+# 폰트 설정을 가져옵니다
+font_settings = set_font()
+# 세션 상태 초기화
+def init_session_state():
     if 'data' not in st.session_state:
         st.session_state.data = None
     if 'processed_data' not in st.session_state:
         st.session_state.processed_data = None
+    if 'numeric_columns' not in st.session_state:
+        st.session_state.numeric_columns = []
+    if 'categorical_columns' not in st.session_state:
+        st.session_state.categorical_columns = []
     if 'x_var' not in st.session_state:
         st.session_state.x_var = None
     if 'y_var' not in st.session_state:
         st.session_state.y_var = None
+    if 'slicers' not in st.session_state:
+        st.session_state.slicers = {}
+# 데이터 로드
+@st.cache_data
+def load_data(file):
+    file_extension = file.name.split('.')[-1].lower()
+    if file_extension == 'csv':
+        data = pd.read_csv(file)
+    elif file_extension in ['xls', 'xlsx']:
+        data = pd.read_excel(file)
+    else:
+        st.error("지원되지 않는 파일 형식입니다. CSV, XLS, 또는 XLSX 파일을 업로드해주세요.")
+        return None
+    return data
+def manual_data_entry():
+    st.subheader("수동 데이터 입력")
+    col_names = st.text_input("열 이름을 쉼표로 구분하여 입력하세요:").split(',')
+    col_names = [name.strip() for name in col_names if name.strip()]
+    if col_names:
+        num_rows = st.number_input("초기 행의 수를 입력하세요:", min_value=1, value=5)
+        data = pd.DataFrame(columns=col_names, index=range(num_rows))
+        edited_data = st.data_editor(data, num_rows="dynamic")
+        return edited_data
+    return None
+def preprocess_data(data):
+    st.subheader("데이터 전처리")
+    # 결측치 처리
+    if data.isnull().sum().sum() > 0:
+        st.write("결측치 처리:")
+        for column in data.columns:
+            if data[column].isnull().sum() > 0:
+                method = st.selectbox(f"{column} 열의 처리 방법 선택:",
+                                      ["제거", "평균으로 대체", "중앙값으로 대체", "최빈값으로 대체"])
+                if method == "제거":
+                    data = data.dropna(subset=[column])
+                elif method == "평균으로 대체":
+                    data[column].fillna(data[column].mean(), inplace=True)
+                elif method == "중앙값으로 대체":
+                    data[column].fillna(data[column].median(), inplace=True)
+                elif method == "최빈값으로 대체":
+                    data[column].fillna(data[column].mode()[0], inplace=True)
+    # 데이터 타입 변환
+    for column in data.columns:
+        if data[column].dtype == 'object':
+            try:
+                data[column] = pd.to_numeric(data[column])
+                st.write(f"{column} 열을 숫자형으로 변환했습니다.")
+            except ValueError:
+                st.write(f"{column} 열은 범주형으로 유지됩니다.")
+    # 숫자형 열과 범주형 열 분리
+    st.session_state.numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns.tolist()
+    st.session_state.categorical_columns = data.select_dtypes(include=['object']).columns.tolist()
+    return data
+def create_slicers(data):
+    for col in st.session_state.categorical_columns:
         if data[col].nunique() <= 10:  # 고유값이 10개 이하인 경우에만 슬라이서 생성
             st.session_state.slicers[col] = st.multiselect(
                 f"{col} 선택",
                 options=sorted(data[col].unique()),
+                default=sorted(data[col].unique())
             )
 def apply_slicers(data):
             data = data[data[col].isin(selected_values)]
     return data
+def plot_correlation_heatmap(data):
+    corr = data[st.session_state.numeric_columns].corr()
+    fig = px.imshow(corr, color_continuous_scale='RdBu_r', zmin=-1, zmax=1)
+    fig.update_layout(title='상관관계 히트맵')
+    st.plotly_chart(fig)
+def plot_scatter_with_regression(data, x_var, y_var):
+    fig = px.scatter(data, x=x_var, y=y_var, color='반' if '반' in data.columns else None)
+    # 회귀선 추가
+    x = data[x_var]
+    y = data[y_var]
+    slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
+    line_x = np.array([x.min(), x.max()])
+    line_y = slope * line_x + intercept
+    fig.add_trace(go.Scatter(x=line_x, y=line_y, mode='lines', name='회귀선'))
+    r_squared = r_value ** 2
+    fig.update_layout(
+        title=f'{x_var}와 {y_var}의 관계 (R-squared: {r_squared:.4f})',
+        xaxis_title=x_var,
+        yaxis_title=y_var,
+        annotations=[
+            dict(
+                x=0.5,
+                y=1.05,
+                xref='paper',
+                yref='paper',
+                text=f'R-squared: {r_squared:.4f}',
+                showarrow=False,
+            )
+        ]
+    )
+    st.plotly_chart(fig)
+    # 추가 통계 정보
+    st.write(f"상관계수: {r_value:.4f}")
+    st.write(f"p-value: {p_value:.4f}")
+    st.write(f"표준 오차: {std_err:.4f}")
 def perform_analysis(data):
     st.header("탐색적 데이터 분석")
     st.write(filtered_data.describe())
     # 상관관계 히트맵
+    st.subheader("상관관계 히트맵")
+    plot_correlation_heatmap(filtered_data)
     # 사용자가 선택한 두 변수에 대한 산점도 및 회귀 분석
     st.subheader("두 변수 간의 관계 분석")
+    x_var = st.selectbox("X축 변수 선택", options=st.session_state.numeric_columns, key='x_var')
+    y_var = st.selectbox("Y축 변수 선택", options=[col for col in st.session_state.numeric_columns if col != x_var], key='y_var')
+    if x_var and y_var:
+        plot_scatter_with_regression(filtered_data, x_var, y_var)
 def main():
     st.title("인터랙티브 EDA 툴킷")
+    init_session_state()
+    data_input_method = st.radio("데이터 입력 방법 선택:", ("파일 업로드", "수동 입력"))
+    if data_input_method == "파일 업로드":
+        uploaded_file = st.file_uploader("CSV, XLS, 또는 XLSX 파일을 선택하세요", type=["csv", "xls", "xlsx"])
+        if uploaded_file is not None:
+            st.session_state.data = load_data(uploaded_file)
         else:
+            st.session_state.data = None
+    else:
+        st.session_state.data = manual_data_entry()
     if st.session_state.data is not None:
         st.subheader("데이터 미리보기 및 수정")
         st.write("데이터를 확인하고 필요한 경우 수정하세요:")
         edited_data = st.data_editor(st.session_state.data, num_rows="dynamic")
+        if st.button("데이터 분석 시작"):
+            st.session_state.processed_data = preprocess_data(edited_data)
             perform_analysis(st.session_state.processed_data)
 if __name__ == "__main__":