Spaces:

matsammut
/

ICS5110-Applied_ML

Sleeping

matsammut commited on Jan 13

Commit

8af6ce4

verified ·

1 Parent(s): 1bb20ca

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ import pandas as pd
 import numpy as np
 from sklearn.preprocessing import LabelEncoder, StandardScaler, OneHotEncoder
 from sklearn.impute import KNNImputer
 # Load your saved model
 # model = joblib.load("ann_model.joblib")
@@ -42,10 +43,21 @@ def cleaning_features(data):
     # Binarize native country
     data['native-country'] = data['native-country'].apply(lambda x: x == 'United-States')
     data['native-country'] = data['native-country'].astype(int)
-    print(data.head(10))
-    return data, encoder, scaler
 # Create the Gradio interface
 interface = gr.Interface(

 import numpy as np
 from sklearn.preprocessing import LabelEncoder, StandardScaler, OneHotEncoder
 from sklearn.impute import KNNImputer
+from sklearn.decomposition import PCA
 # Load your saved model
 # model = joblib.load("ann_model.joblib")
     # Binarize native country
     data['native-country'] = data['native-country'].apply(lambda x: x == 'United-States')
     data['native-country'] = data['native-country'].astype(int)
+    data = pca(data)
+    return data
+def pca(data):
+    encoder = OneHotEncoder(sparse_output=False)
+    one_hot_encoded = encoder.fit_transform(data[['workclass', 'occupation']])
+    encoded_columns_df = pd.DataFrame(one_hot_encoded, columns=encoder.get_feature_names_out())
+    pca_net = PCA(n_components=10)
+    pca_result_net = pca_net.fit_transform(encoded_columns_df)
+    pca_columns = [f'pca_component_{i+1}' for i in range(10)]
+    pca_df = pd.DataFrame(pca_result_net, columns=pca_columns)
+    data = data.drop(columns=['workclass', 'occupation'], axis=1) #remove the original columns
+    data = pd.concat([data, pca_df], axis=1)
+    return data
 # Create the Gradio interface
 interface = gr.Interface(