Spaces:

badr-mardi
/

streamlit_badr

Sleeping

App Files Files Community

streamlit_badr / app.py

badr-mardi

Update app.py

20469e3 verified 10 months ago

raw

history blame

3.42 kB


	import streamlit as st
	import numpy as np
	import pandas as pd
	import matplotlib.pyplot as plt
	from sklearn.model_selection import train_test_split
	from sklearn.linear_model import LinearRegression
	from sklearn.metrics import mean_squared_error, r2_score
	from sklearn import datasets
	import io

	def main():
	st.title("California Housing Analysis")

	# Load the California housing dataset
	california = datasets.fetch_california_housing()
	df = pd.DataFrame(california.data, columns=california.feature_names)
	df['MedHouseVal'] = california.target

	# Displaying initial data information
	st.write("## Data Sample")
	st.write(df.head())

	st.write("## Data Statistics")
	st.write(df.describe())

	st.write("## Data Info")
	buffer = io.StringIO()
	df.info(buf=buffer)
	s = buffer.getvalue()
	st.text(s)

	st.write("## Missing Values")
	st.write(df.isnull().sum())

	# Fixed target variable
	target = 'MedHouseVal'
	st.write(f"## Target Variable: {target}")

	# Drop the target from the predictors list
	predictor_options = df.columns.drop(target).tolist()

	# Multiselect widget to select predictor variables for regression
	predictors = st.multiselect(
	'Select predictor variables for regression:',
	options=predictor_options,
	default=predictor_options # default to all predictors for MLR
	)

	# Splitting data for regression
	X = df[predictors]
	y = df[target]
	X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

	# Perform multilinear regression
	mlr_model = LinearRegression()
	mlr_model.fit(X_train, y_train)
	mlr_y_pred = mlr_model.predict(X_test)
	mlr_rmse = np.sqrt(mean_squared_error(y_test, mlr_y_pred))
	mlr_r2 = r2_score(y_test, mlr_y_pred)

	# Perform simple linear regression using only one predictor if possible
	if 'AveRooms' in predictors:
	slr_model = LinearRegression()
	slr_X_train = X_train[['AveRooms']]
	slr_X_test = X_test[['AveRooms']]
	slr_model.fit(slr_X_train, y_train)
	slr_y_pred = slr_model.predict(slr_X_test)
	slr_rmse = np.sqrt(mean_squared_error(y_test, slr_y_pred))
	slr_r2 = r2_score(y_test, slr_y_pred)

	# Display RMSE and R-squared comparisons
	st.write("## Regression Performance Comparison")
	st.write(f"### Multilinear Regression (using all selected predictors)")
	st.write(f'RMSE: {mlr_rmse}')
	st.write(f'R-squared: {mlr_r2}')

	st.write(f"### Simple Linear Regression (using 'AveRooms')")
	st.write(f'RMSE: {slr_rmse}')
	st.write(f'R-squared: {slr_r2}')

	# Plotting both regressions
	fig, ax = plt.subplots(1, 2, figsize=(15, 6))

	ax[0].scatter(y_test, mlr_y_pred, color='blue')
	ax[0].plot(y_test, y_test, color='red')
	ax[0].set_title('Multilinear Regression: Actual vs Predicted')
	ax[0].set_xlabel('Actual Values')
	ax[0].set_ylabel('Predicted Values')

	ax[1].scatter(y_test, slr_y_pred, color='green')
	ax[1].plot(y_test, y_test, color='red')
	ax[1].set_title("Simple Linear Regression ('AveRooms'): Actual vs Predicted")
	ax[1].set_xlabel('Actual Values')
	ax[1].set_ylabel('Predicted Values')

	st.pyplot(fig)

	if __name__ == "__main__":
	main()