Spaces:

matsammut
/

ICS5110-Applied_ML

Sleeping

matsammut commited on Jan 14

Commit

79b1800

verified ·

1 Parent(s): 63ec3bc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -51,16 +51,29 @@ def cleaning_features(data):
     data = pca(data)
     return data
 def pca(data):
-    encoder = OneHotEncoder(sparse_output=False)
-    one_hot_encoded = encoder.fit_transform(data[['workclass', 'occupation']])
     encoded_columns_df = pd.DataFrame(one_hot_encoded, columns=encoder.get_feature_names_out())
-    pca_net = PCA(n_components=10)
-    pca_result_net = pca_net.fit_transform(encoded_columns_df)
-    pca_columns = [f'pca_component_{i+1}' for i in range(10)]
     pca_df = pd.DataFrame(pca_result_net, columns=pca_columns)
-    data = data.drop(columns=['workclass', 'occupation'], axis=1) #remove the original columns
-    data = pd.concat([data, pca_df], axis=1)
     return data
 def hbdscan_tranform(df_transformed):

     data = pca(data)
     return data
+# def pca(data):
+#     encoder = OneHotEncoder(sparse_output=False)
+#     one_hot_encoded = encoder.fit_transform(data[['workclass', 'occupation']])
+#     encoded_columns_df = pd.DataFrame(one_hot_encoded, columns=encoder.get_feature_names_out())
+#     pca_net = PCA(n_components=10)
+#     pca_result_net = pca_net.fit_transform(encoded_columns_df)
+#     pca_columns = [f'pca_component_{i+1}' for i in range(10)]
+#     pca_df = pd.DataFrame(pca_result_net, columns=pca_columns)
+#     data = data.drop(columns=['workclass', 'occupation'], axis=1) #remove the original columns
+#     data = pd.concat([data, pca_df], axis=1)
+#     return data
 def pca(data):
+    encoder = joblib.load('onehot_encoder.joblib')
+    pca_model = joblib.load('pca.joblib')
+    one_hot_encoded = encoder.transform(data[['workclass', 'occupation']])
     encoded_columns_df = pd.DataFrame(one_hot_encoded, columns=encoder.get_feature_names_out())
+    pca_result_net = pca_model.transform(encoded_columns_df)
+    pca_columns = [f'pca_component_{i+1}' for i in range(pca_model.n_components_)]
     pca_df = pd.DataFrame(pca_result_net, columns=pca_columns)
+    data = data.drop(columns=['workclass', 'occupation'], axis=1)
+    data = pd.concat([data, pca_df], axis=1)
     return data
 def hbdscan_tranform(df_transformed):