Spaces:

badr-mardi
/

streamlit_badr

Sleeping

App Files Files Community

badr-mardi commited on Jun 5, 2024

Commit

5bfff87

verified ·

1 Parent(s): 0009b97

Update app.py

Browse files

Files changed (1) hide show

app.py +91 -125

app.py CHANGED Viewed

@@ -1,134 +1,100 @@
-import os
 import numpy as np
 import pandas as pd
 import matplotlib.pyplot as plt
-from sklearn import datasets
 from sklearn.model_selection import train_test_split
 from sklearn.linear_model import LinearRegression
 from sklearn.metrics import mean_squared_error, r2_score
-import streamlit as st
-# Spécifiez le chemin du cache de données scikit-learn
-data_home = os.path.expanduser('~/.scikit_learn_data')
-# Si le dossier de cache n'existe pas, créez-le
-if not os.path.exists(data_home):
-    os.makedirs(data_home)
-# Titre de l'application
-st.title('California Housing Price Prediction')
-# Charger le jeu de données California housing
-california = datasets.fetch_california_housing(data_home=data_home, download_if_missing=True)
-df = pd.DataFrame(california.data, columns=california.feature_names)
-df['MedHouseVal'] = california.target
-# Afficher le jeu de données
-st.write("Aperçu du jeu de données :", df.head())
-# Sélectionner la variable de caractéristique et la cible
-X = df[['AveRooms']]
-y = df['MedHouseVal']
-# Afficher le graphique de dispersion
-st.write("Relation entre le nombre moyen de pièces par logement et la valeur médiane des maisons :")
-fig, ax = plt.subplots()
-ax.scatter(df['AveRooms'], df['MedHouseVal'])
-ax.set_xlabel('Nombre moyen de pièces par logement')
-ax.set_ylabel('Valeur médiane des maisons')
-ax.set_title('Relation entre le nombre moyen de pièces et la valeur médiane des maisons')
-st.pyplot(fig)
-# Diviser les données en ensembles d'entraînement et de test
-X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
-# Entraîner le modèle de régression linéaire
-model = LinearRegression()
-model.fit(X_train, y_train)
-# Prédire et évaluer les résultats
-y_pred = model.predict(X_test)
-mse_single = mean_squared_error(y_test, y_pred)
-r2_single = r2_score(y_test, y_pred)
-st.write(f"Erreur quadratique moyenne : {mse_single}")
-st.write(f"Score R^2 : {r2_single}")
-# Afficher la ligne de régression sur les données d'entraînement
-st.write("Ligne de régression sur les données d'entraînement :")
-fig, ax = plt.subplots()
-ax.scatter(X_train, y_train, color='blue', label='Données d\'entraînement')
-ax.plot(X_train, model.predict(X_train), color='red', linewidth=2, label='Ligne de régression')
-ax.set_xlabel('Nombre moyen de pièces par logement')
-ax.set_ylabel('Valeur médiane des maisons')
-ax.set_title('Ajustement de la régression linéaire sur les données d\'entraînement')
-ax.legend()
-st.pyplot(fig)
-# # Afficher les valeurs réelles vs prédites sur les données de test
-# st.write("Valeurs réelles vs prédites sur les données de test :")
-# fig, ax = plt.subplots()
-# ax.scatter(X_test, y_test, color='green', label='Valeurs réelles')
-# ax.scatter(X_test, y_pred, color='red', marker='x', label='Valeurs prédites')
-# ax.set_xlabel('Nombre moyen de pièces par logement')
-# ax.set_ylabel('Valeur médiane des maisons')
-# ax.set_title('Valeurs réelles vs prédites sur les données de test')
-# ax.legend()
-# st.pyplot(fig)
-# Multirégression linéaire
-# df.columns
-X_multi = df[['MedInc', 'AveRooms', 'AveOccup', 'HouseAge', 'AveBedrms', 'Population', 'Latitude', 'Longitude']]
-X_train_multi, X_test_multi, y_train_multi, y_test_multi = train_test_split(X_multi, y, test_size=0.2, random_state=42)
-lr_multi = LinearRegression()
-lr_multi.fit(X_train_multi, y_train_multi)
-y_pred_multi = lr_multi.predict(X_test_multi)
-mse_multi = mean_squared_error(y_test_multi, y_pred_multi)
-r2_multi = r2_score(y_test_multi, y_pred_multi)
-# st.write(f"Multirégression linéaire - Erreur quadratique moyenne : {mse_multi}")
-# st.write(f"Multirégression linéaire - Score R^2 : {r2_multi}")
-# Comparaison
-st.write("Comparaison des modèles de régression linéaire simple et multiple :")
-st.write(f"Régression linéaire simple - RMSE: {np.sqrt(mse_single)}, R2: {r2_single}")
-st.write(f"Régression linéaire multiple - RMSE: {np.sqrt(mse_multi)}, R2: {r2_multi}")
-# Afficher l'écart entre le prix réel et le prix prédit pour la régression simple
-# residuals_single = y_test - y_pred
-fig, ax = plt.subplots()
-ax.scatter(X_train, y_train_multi, color='blue', label='Données d\'entraînement')
-ax.plot(X_train_multi, model.predict(X_train_multi), color='red', linewidth=2, label='Ligne de régression')
-ax.set_xlabel('Nombre moyen de pièces par logement')
-ax.set_ylabel('Valeur médiane des maisons')
-ax.set_title('Ajustement de la régression linéaire sur les données d\'entraînement')
-ax.legend()
-st.pyplot(fig)
-# fig, ax = plt.subplots(figsize=(10, 6))
-# ax.scatter(y_test, residuals_single, c="blue", label="Écarts régression simple")
-# ax.axhline(0, color='black', linewidth=1)
-# ax.set_xlabel('Valeur réelle')
-# ax.set_ylabel('Écarts')
-# ax.set_title('Écarts entre le prix réel et le prix prédit pour la régression simple')
-# ax.legend()
-# st.pyplot(fig)
-# # Afficher l'écart entre le prix réel et le prix prédit pour la régression multiple
-# residuals_multi = y_test_multi - y_pred_multi
-# fig, ax = plt.subplots(figsize=(10, 6))
-# ax.scatter(y_test_multi, residuals_multi, c="red", label="Écarts régression multiple")
-# ax.axhline(0, color='black', linewidth=1)
-# ax.set_xlabel('Valeur réelle')
-# ax.set_ylabel('Écarts')
-# ax.set_title('Écarts entre le prix réel et le prix prédit pour la régression multiple')
-# ax.legend()
-# st.pyplot(fig)

+import streamlit as st
 import numpy as np
 import pandas as pd
 import matplotlib.pyplot as plt
 from sklearn.model_selection import train_test_split
 from sklearn.linear_model import LinearRegression
 from sklearn.metrics import mean_squared_error, r2_score
+from sklearn import datasets
+import io
+def main():
+    st.title("California Housing Analysis")
+    california = datasets.fetch_california_housing()
+    df = pd.DataFrame(california.data, columns=california.feature_names)
+    df['MedHouseVal'] = california.target
+    st.write("## Data Sample")
+    st.write(df.head())
+    st.write("## Data Statistics")
+    st.write(df.describe())
+    st.write("## Data Info")
+    buffer = io.StringIO()
+    df.info(buf=buffer)
+    s = buffer.getvalue()
+    st.text(s)
+    st.write("## Missing Values")
+    st.write(df.isnull().sum())
+    # Fixed target variable
+    target = 'MedHouseVal'
+    st.write(f"## Target Variable: {target}")
+    # Drop the target from the predictors list
+    predictor_options = df.columns.drop(target).tolist()
+    # Add multiselect for user to choose predictor variables
+    predictors = st.multiselect(
+        'Select predictor variables for regression:',
+        options=predictor_options,
+        default=['AveRooms']
+    )
+    if not predictors:
+        st.error("Please select at least one predictor variable.")
+        return
+    st.write("## Scatter Plot")
+    if len(predictors) == 1:
+        fig, ax = plt.subplots()
+        ax.scatter(df[predictors[0]], df[target])
+        ax.set_xlabel(predictors[0])
+        ax.set_ylabel(target)
+        ax.set_title(f'Relationship between {predictors[0]} and {target}')
+        st.pyplot(fig)
+    else:
+        st.write("Scatter plot is only available for a single predictor.")
+    # Regression analysis
+    X = df[predictors]
+    y = df[target]
+    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
+    model = LinearRegression()
+    model.fit(X_train, y_train)
+    y_pred = model.predict(X_test)
+    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
+    r2 = r2_score(y_test, y_pred)
+    st.write(f'## Regression Analysis')
+    st.write(f'RMSE: {rmse}')
+    st.write(f'R-squared: {r2}')
+    if len(predictors) == 1:
+        fig, ax = plt.subplots()
+        ax.scatter(X_train, y_train, color='blue', label='Training data')
+        ax.scatter(X_test, y_test, color='green', label='Testing data')
+        ax.plot(X_test, y_pred, color='red', linewidth=2, label='Regression line')
+        ax.set_xlabel(predictors[0])
+        ax.set_ylabel(target)
+        ax.set_title(f'Linear Regression: {predictors[0]} vs {target}')
+        ax.legend()
+        st.pyplot(fig)
+    else:
+        fig, ax = plt.subplots(figsize=(10, 6))
+        ax.scatter(y_test, y_pred, color='blue', label='Predicted vs Actual')
+        ax.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linewidth=2, label='Ideal fit')
+        ax.set_xlabel('Actual ' + target)
+        ax.set_ylabel('Predicted ' + target)
+        ax.set_title('Multilinear Regression: Actual vs Predicted')
+        ax.legend()
+        st.pyplot(fig)
+if _name_ == "_main_":
+    main()