Spaces:

matsammut
/

ICS5110-Applied_ML

Sleeping

matsammut commited on Jan 15

Commit

932646c

verified ·

1 Parent(s): 008605e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -32,8 +32,8 @@ def predict(age, workclass, education, marital_status, occupation, relationship,
     return "Income >50K" if prediction == 1 else "Income <=50K"
 def cleaning_features(data):
-    with open('race_onehot_encoder.pkl', 'rb') as enc_file:
-        encoder = pickle.load(enc_file)
     with open('label_encoder_work.pkl', 'rb') as le_file:
         le_work = pickle.load(le_file)
@@ -61,7 +61,7 @@ def cleaning_features(data):
         "Doctorate": 15,
         "Prof-school": 16
     }
     gender_mapping = {"Male":1,"Female":0}
     country_mapping = {"United-States":1,"Other":0}
@@ -77,12 +77,18 @@ def cleaning_features(data):
     data[numeric_cols] = scaler.transform(data[numeric_cols])
-    for N in columns_to_encode:
-        race_encoded = encoder.transform(data[[N]])
-        race_encoded_cols = encoder.get_feature_names_out([N])
-        race_encoded_df = pd.DataFrame(race_encoded, columns=race_encoded_cols, index=data.index)
-        # Combine the encoded data with original dataframe
-        data = pd.concat([data.drop(N, axis=1), race_encoded_df], axis=1)
     data = pca(data)
     return data

     return "Income >50K" if prediction == 1 else "Income <=50K"
 def cleaning_features(data):
+    # with open('race_onehot_encoder.pkl', 'rb') as enc_file:
+    #     encoder = pickle.load(enc_file)
     with open('label_encoder_work.pkl', 'rb') as le_file:
         le_work = pickle.load(le_file)
         "Doctorate": 15,
         "Prof-school": 16
     }
+    race_categories = ["Amer-Indian-Eskimo", "Asian-Pac-Islander","Black", "Other","White"]
     gender_mapping = {"Male":1,"Female":0}
     country_mapping = {"United-States":1,"Other":0}
     data[numeric_cols] = scaler.transform(data[numeric_cols])
+    for races in race_categories:
+        if data['race'] == race:
+            df[f'race_{races}'] = 1
+        else:
+            df[f'race_{races}'] = 0
+    # for N in columns_to_encode:
+    #     race_encoded = encoder.transform(data[[N]])
+    #     race_encoded_cols = encoder.get_feature_names_out([N])
+    #     race_encoded_df = pd.DataFrame(race_encoded, columns=race_encoded_cols, index=data.index)
+    #     # Combine the encoded data with original dataframe
+    #     data = pd.concat([data.drop(N, axis=1), race_encoded_df], axis=1)
+    df = df.drop(columns=['race'])
     data = pca(data)
     return data