Spaces:

JERNGOC
/

TEST_FeatureImportanceAnalysis

Sleeping

App Files Files Community

TEST_FeatureImportanceAnalysis / app.py

JERNGOC

Update app.py

c72b33d verified 10 months ago

raw

history blame

3.41 kB

	import streamlit as st
	import pandas as pd
	import numpy as np
	import matplotlib.pyplot as plt
	from sklearn.model_selection import train_test_split
	from sklearn.linear_model import LinearRegression
	from sklearn.tree import DecisionTreeClassifier
	from sklearn.ensemble import RandomForestClassifier
	from sklearn.preprocessing import StandardScaler

	# 讓使用者上傳 CSV 檔案
	uploaded_file = st.file_uploader("上傳一個 CSV 檔案", type="csv")

	if uploaded_file is not None:
	# 讀取上傳的 CSV 檔案
	df = pd.read_csv(uploaded_file)

	# 確保數據裡有 "target" 欄位
	if 'target' in df.columns:
	# 準備特徵和目標變量
	X = df.drop('target', axis=1)
	y = df['target']

	# 分割數據
	X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

	# 標準化特徵
	scaler = StandardScaler()
	X_train_scaled = scaler.fit_transform(X_train)
	X_test_scaled = scaler.transform(X_test)

	# 計算特徵重要性
	def calculate_importance():
	# Linear Regression
	lr = LinearRegression()
	lr.fit(X_train_scaled, y_train)
	lr_importance = np.abs(lr.coef_)

	# CART
	cart = DecisionTreeClassifier(random_state=42)
	cart.fit(X_train, y_train)
	cart_importance = cart.feature_importances_

	# Random Forest
	rf = RandomForestClassifier(n_estimators=100, random_state=42)
	rf.fit(X_train, y_train)
	rf_importance = rf.feature_importances_

	return lr_importance, cart_importance, rf_importance

	# 創建特徵重要性 DataFrame
	lr_importance, cart_importance, rf_importance = calculate_importance()
	feature_importance = pd.DataFrame({
	'Feature': X.columns,
	'Linear Regression': lr_importance,
	'CART': cart_importance,
	'Random Forest': rf_importance
	})

	# 排序
	feature_importance = feature_importance.sort_values('Random Forest', ascending=False)

	# 繪製特徵重要性圖表
	def plot_importance():
	plt.figure(figsize=(12, 8))
	width = 0.25 # 條形圖寬度
	indices = np.arange(len(feature_importance['Feature']))

	plt.bar(indices - width, feature_importance['Linear Regression'], width=width, label='Linear Regression')
	plt.bar(indices, feature_importance['CART'], width=width, label='CART')
	plt.bar(indices + width, feature_importance['Random Forest'], width=width, label='Random Forest')

	plt.title('Feature Importance Comparison Across Models')
	plt.xlabel('Features')
	plt.ylabel('Importance')
	plt.xticks(indices, feature_importance['Feature'], rotation=45, ha='right')
	plt.legend()
	st.pyplot(plt)

	# Streamlit UI
	st.title("自定義CSV檔案分析 - 特徵重要性分析")
	st.write("以下是 Linear Regression、CART 和 Random Forest 的特徵重要性對比圖表：")

	# 顯示圖表
	plot_importance()

	# 顯示數據框
	st.write("特徵重要性數據：")
	st.dataframe(feature_importance)

	else:
	st.error("上傳的檔案中找不到 'target' 欄位，請確認檔案格式。")