Spaces:

louiecerv
/

ch4_streamlit_datascience

Sleeping

louiecerv commited on Jul 9

Commit

2b3c03c

1 Parent(s): fa94ea3

save

Files changed (2) hide show

requirements.txt CHANGED Viewed

@@ -1,3 +1,4 @@
 altair
 pandas
-streamlit

 altair
 pandas
+streamlit
+sklearn

src/streamlit_app.py CHANGED Viewed

@@ -1,5 +1,9 @@
 import streamlit as st
 import pandas as pd
 penguin_df = pd.read_csv('src/penguins.csv')
 st.write(penguin_df.head())
@@ -16,4 +20,24 @@ features = pd.get_dummies(features)
 st.write('Here are our output variables')
 st.write(output.head())
 st.write('Here are our feature variables')
-st.write(features.head())

 import streamlit as st
 import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.metrics import accuracy_score
+from sklearn.ensemble import RandomForestClassifier
 penguin_df = pd.read_csv('src/penguins.csv')
 st.write(penguin_df.head())
 st.write('Here are our output variables')
 st.write(output.head())
 st.write('Here are our feature variables')
+st.write(features.head())
+st.subheader('Model Training')
+output = penguin_df['species']
+features = penguin_df[['island', 'bill_length_mm', 'bill_depth_mm',
+'flipper_length_mm', 'body_mass_g', 'sex']]
+features = pd.get_dummies(features)
+output, uniques = pd.factorize(output)
+x_train, x_test, y_train, y_test = train_test_split(
+features, output, test_size=.8)
+rfc = RandomForestClassifier(random_state=15)
+rfc.fit(x_train.values, y_train)
+y_pred = rfc.predict(x_test.values)
+score = accuracy_score(y_pred, y_test)
+st.write('Our accuracy score for this model is {}'.format(score))