Spaces:

andreamalhera
/

igedi

Running

App Files Files Community

Andrea Maldonado commited on Jan 30

Commit

96c9671

1 Parent(s): f4bce6d

Moves parameters to param_keys

Browse files

Files changed (2) hide show

gedi/utils/io_helpers.py +6 -113
gedi/utils/param_keys/features.py +106 -0

gedi/utils/io_helpers.py CHANGED Viewed

@@ -6,6 +6,7 @@ import re
 import shutil
 import numpy as np
 from collections import defaultdict
 from pathlib import PurePath
 from scipy.spatial.distance import euclidean
@@ -89,19 +90,19 @@ def normalize_value(value, min_val, max_val):
 def compute_similarity(v1, v2):
     feature_ranges = bpic_feature_values()
     # Convert all values to float except for the "log" key
     v1 = {k: (float(v) if k != "log" else v) for k, v in v1.items()}
     v2 = {k: (float(v) if k != "log" else v) for k, v in v2.items()}
     # Identify common numeric keys
     common_keys = set(v1.keys()).intersection(set(v2.keys()), set(feature_ranges.keys()))
     numeric_keys = [k for k in common_keys if isinstance(v1[k], (int, float)) and isinstance(v2[k], (int, float))]
     if not numeric_keys:
         print("[ERROR]: No common numeric keys found for similarity calculation.")
         return None
     # Normalize values and compute differences
     differences = []
     for key in numeric_keys:
@@ -109,115 +110,7 @@ def compute_similarity(v1, v2):
         norm_v1 = normalize_value(v1[key], min_val, max_val)
         norm_v2 = normalize_value(v2[key], min_val, max_val)
         differences.append(abs(norm_v1 - norm_v2))
     # Compute average difference as similarity metric
     target_similarity = 1 - np.mean(differences)
     return target_similarity
-def bpic_feature_values():
-    data_dict = {
-        "n_traces": [226.0, 251734.0],
-        "n_variants": [6.0, 28457.0],
-        "ratio_variants_per_number_of_traces": [0.0, 1.0],
-        "trace_len_min": [1.0, 24.0],
-        "trace_len_max": [1.0, 2973.0],
-        "trace_len_mean": [1.0, 131.49],
-        "trace_len_median": [1.0, 55.0],
-        "trace_len_mode": [1.0, 61.0],
-        "trace_len_std": [0.0, 202.53],
-        "trace_len_variance": [0.0, 41017.89],
-        "trace_len_q1": [1.0, 44.0],
-        "trace_len_q3": [1.0, 169.0],
-        "trace_len_iqr": [0.0, 161.0],
-        "trace_len_geometric_mean": [1.0, 53.78],
-        "trace_len_geometric_std": [1.0, 5.65],
-        "trace_len_harmonic_mean": [1.0, 51.65],
-        "trace_len_skewness": [-0.58, 111.97],
-        "trace_len_kurtosis": [-0.97, 14006.75],
-        "trace_len_coefficient_variation": [0.0, 4.74],
-        "trace_len_entropy": [5.33, 12.04],
-        "trace_len_hist1": [0.0, 1.99],
-        "trace_len_hist2": [0.0, 0.42],
-        "trace_len_hist3": [0.0, 0.4],
-        "trace_len_hist4": [0.0, 0.19],
-        "trace_len_hist5": [0.0, 0.14],
-        "trace_len_hist6": [0.0, 10.0],
-        "trace_len_hist7": [0.0, 0.02],
-        "trace_len_hist8": [0.0, 0.04],
-        "trace_len_hist9": [0.0, 0.0],
-        "trace_len_hist10": [0.0, 2.7],
-        "trace_len_skewness_hist": [-0.58, 111.97],
-        "trace_len_kurtosis_hist": [-0.97, 14006.75],
-        "ratio_most_common_variant": [0.0, 0.79],
-        "ratio_top_1_variants": [0.0, 0.87],
-        "ratio_top_5_variants": [0.0, 0.98],
-        "ratio_top_10_variants": [0.0, 0.99],
-        "ratio_top_20_variants": [0.2, 1.0],
-        "ratio_top_50_variants": [0.5, 1.0],
-        "ratio_top_75_variants": [0.75, 1.0],
-        "mean_variant_occurrence": [1.0, 24500.67],
-        "std_variant_occurrence": [0.04, 42344.04],
-        "skewness_variant_occurrence": [1.54, 64.77],
-        "kurtosis_variant_occurrence": [0.66, 5083.46],
-        "n_unique_activities": [1.0, 1152.0],
-        "activities_min": [1.0, 66058.0],
-        "activities_max": [34.0, 466141.0],
-        "activities_mean": [4.13, 66058.0],
-        "activities_median": [2.0, 66058.0],
-        "activities_std": [0.0, 120522.25],
-        "activities_variance": [0.0, 14525612122.34],
-        "activities_q1": [1.0, 66058.0],
-        "activities_q3": [4.0, 79860.0],
-        "activities_iqr": [0.0, 77290.0],
-        "activities_skewness": [-0.06, 15.21],
-        "activities_kurtosis": [-1.5, 315.84],
-        "n_unique_start_activities": [1.0, 809.0],
-        "start_activities_min": [1.0, 150370.0],
-        "start_activities_max": [27.0, 199867.0],
-        "start_activities_mean": [3.7, 150370.0],
-        "start_activities_median": [1.0, 150370.0],
-        "start_activities_std": [0.0, 65387.49],
-        "start_activities_variance": [0.0, 4275524278.19],
-        "start_activities_q1": [1.0, 150370.0],
-        "start_activities_q3": [4.0, 150370.0],
-        "start_activities_iqr": [0.0, 23387.25],
-        "start_activities_skewness": [0.0, 9.3],
-        "start_activities_kurtosis": [-2.0, 101.82],
-        "n_unique_end_activities": [1.0, 757.0],
-        "end_activities_min": [1.0, 16653.0],
-        "end_activities_max": [28.0, 181328.0],
-        "end_activities_mean": [3.53, 24500.67],
-        "end_activities_median": [1.0, 16653.0],
-        "end_activities_std": [0.0, 42344.04],
-        "end_activities_variance": [0.0, 1793017566.89],
-        "end_activities_q1": [1.0, 16653.0],
-        "end_activities_q3": [3.0, 39876.0],
-        "end_activities_iqr": [0.0, 39766.0],
-        "end_activities_skewness": [-0.7, 13.82],
-        "end_activities_kurtosis": [-2.0, 255.39],
-        "eventropy_trace": [0.0, 13.36],
-        "eventropy_prefix": [0.0, 16.77],
-        "eventropy_global_block": [0.0, 24.71],
-        "eventropy_lempel_ziv": [0.0, 685.0],
-        "eventropy_k_block_diff_1": [-328.0, 962.0],
-        "eventropy_k_block_diff_3": [0.0, 871.0],
-        "eventropy_k_block_diff_5": [0.0, 881.0],
-        "eventropy_k_block_ratio_1": [0.0, 935.0],
-        "eventropy_k_block_ratio_3": [0.0, 7.11],
-        "eventropy_k_block_ratio_5": [0.0, 7.11],
-        "eventropy_knn_3": [0.0, 8.93],
-        "eventropy_knn_5": [0.0, 648.0],
-        "eventropy_knn_7": [0.0, 618.0],
-        "epa_variant_entropy": [0.0, 11563842.15],
-        "epa_normalized_variant_entropy": [0.0, 0.9],
-        "epa_sequence_entropy": [0.0, 21146257.12],
-        "epa_normalized_sequence_entropy": [0.0, 0.76],
-        "epa_sequence_entropy_linear_forgetting": [0.0, 14140225.9],
-        "epa_normalized_sequence_entropy_linear_forgetting": [0.0, 0.42],
-        "epa_sequence_entropy_exponential_forgetting": [0.0, 15576076.83],
-        "epa_normalized_sequence_entropy_exponential_forgetting": [0.0, 0.51]
-    }
-    return data_dict

 import shutil
 import numpy as np
 from collections import defaultdict
+from gedi.utils.param_keys.features import bpic_feature_values
 from pathlib import PurePath
 from scipy.spatial.distance import euclidean
 def compute_similarity(v1, v2):
     feature_ranges = bpic_feature_values()
     # Convert all values to float except for the "log" key
     v1 = {k: (float(v) if k != "log" else v) for k, v in v1.items()}
     v2 = {k: (float(v) if k != "log" else v) for k, v in v2.items()}
     # Identify common numeric keys
     common_keys = set(v1.keys()).intersection(set(v2.keys()), set(feature_ranges.keys()))
     numeric_keys = [k for k in common_keys if isinstance(v1[k], (int, float)) and isinstance(v2[k], (int, float))]
     if not numeric_keys:
         print("[ERROR]: No common numeric keys found for similarity calculation.")
         return None
     # Normalize values and compute differences
     differences = []
     for key in numeric_keys:
         norm_v1 = normalize_value(v1[key], min_val, max_val)
         norm_v2 = normalize_value(v2[key], min_val, max_val)
         differences.append(abs(norm_v1 - norm_v2))
     # Compute average difference as similarity metric
     target_similarity = 1 - np.mean(differences)
     return target_similarity

gedi/utils/param_keys/features.py CHANGED Viewed

@@ -1,3 +1,109 @@
 # Features params
 FEATURE_PARAMS = 'feature_params'
 FEATURE_SET = 'feature_set'

 # Features params
 FEATURE_PARAMS = 'feature_params'
 FEATURE_SET = 'feature_set'
+def bpic_feature_values():
+    data_dict = {
+        "n_traces": [226.0, 251734.0],
+        "n_variants": [6.0, 28457.0],
+        "ratio_variants_per_number_of_traces": [0.0, 1.0],
+        "trace_len_min": [1.0, 24.0],
+        "trace_len_max": [1.0, 2973.0],
+        "trace_len_mean": [1.0, 131.49],
+        "trace_len_median": [1.0, 55.0],
+        "trace_len_mode": [1.0, 61.0],
+        "trace_len_std": [0.0, 202.53],
+        "trace_len_variance": [0.0, 41017.89],
+        "trace_len_q1": [1.0, 44.0],
+        "trace_len_q3": [1.0, 169.0],
+        "trace_len_iqr": [0.0, 161.0],
+        "trace_len_geometric_mean": [1.0, 53.78],
+        "trace_len_geometric_std": [1.0, 5.65],
+        "trace_len_harmonic_mean": [1.0, 51.65],
+        "trace_len_skewness": [-0.58, 111.97],
+        "trace_len_kurtosis": [-0.97, 14006.75],
+        "trace_len_coefficient_variation": [0.0, 4.74],
+        "trace_len_entropy": [5.33, 12.04],
+        "trace_len_hist1": [0.0, 1.99],
+        "trace_len_hist2": [0.0, 0.42],
+        "trace_len_hist3": [0.0, 0.4],
+        "trace_len_hist4": [0.0, 0.19],
+        "trace_len_hist5": [0.0, 0.14],
+        "trace_len_hist6": [0.0, 10.0],
+        "trace_len_hist7": [0.0, 0.02],
+        "trace_len_hist8": [0.0, 0.04],
+        "trace_len_hist9": [0.0, 0.0],
+        "trace_len_hist10": [0.0, 2.7],
+        "trace_len_skewness_hist": [-0.58, 111.97],
+        "trace_len_kurtosis_hist": [-0.97, 14006.75],
+        "ratio_most_common_variant": [0.0, 0.79],
+        "ratio_top_1_variants": [0.0, 0.87],
+        "ratio_top_5_variants": [0.0, 0.98],
+        "ratio_top_10_variants": [0.0, 0.99],
+        "ratio_top_20_variants": [0.2, 1.0],
+        "ratio_top_50_variants": [0.5, 1.0],
+        "ratio_top_75_variants": [0.75, 1.0],
+        "mean_variant_occurrence": [1.0, 24500.67],
+        "std_variant_occurrence": [0.04, 42344.04],
+        "skewness_variant_occurrence": [1.54, 64.77],
+        "kurtosis_variant_occurrence": [0.66, 5083.46],
+        "n_unique_activities": [1.0, 1152.0],
+        "activities_min": [1.0, 66058.0],
+        "activities_max": [34.0, 466141.0],
+        "activities_mean": [4.13, 66058.0],
+        "activities_median": [2.0, 66058.0],
+        "activities_std": [0.0, 120522.25],
+        "activities_variance": [0.0, 14525612122.34],
+        "activities_q1": [1.0, 66058.0],
+        "activities_q3": [4.0, 79860.0],
+        "activities_iqr": [0.0, 77290.0],
+        "activities_skewness": [-0.06, 15.21],
+        "activities_kurtosis": [-1.5, 315.84],
+        "n_unique_start_activities": [1.0, 809.0],
+        "start_activities_min": [1.0, 150370.0],
+        "start_activities_max": [27.0, 199867.0],
+        "start_activities_mean": [3.7, 150370.0],
+        "start_activities_median": [1.0, 150370.0],
+        "start_activities_std": [0.0, 65387.49],
+        "start_activities_variance": [0.0, 4275524278.19],
+        "start_activities_q1": [1.0, 150370.0],
+        "start_activities_q3": [4.0, 150370.0],
+        "start_activities_iqr": [0.0, 23387.25],
+        "start_activities_skewness": [0.0, 9.3],
+        "start_activities_kurtosis": [-2.0, 101.82],
+        "n_unique_end_activities": [1.0, 757.0],
+        "end_activities_min": [1.0, 16653.0],
+        "end_activities_max": [28.0, 181328.0],
+        "end_activities_mean": [3.53, 24500.67],
+        "end_activities_median": [1.0, 16653.0],
+        "end_activities_std": [0.0, 42344.04],
+        "end_activities_variance": [0.0, 1793017566.89],
+        "end_activities_q1": [1.0, 16653.0],
+        "end_activities_q3": [3.0, 39876.0],
+        "end_activities_iqr": [0.0, 39766.0],
+        "end_activities_skewness": [-0.7, 13.82],
+        "end_activities_kurtosis": [-2.0, 255.39],
+        "eventropy_trace": [0.0, 13.36],
+        "eventropy_prefix": [0.0, 16.77],
+        "eventropy_global_block": [0.0, 24.71],
+        "eventropy_lempel_ziv": [0.0, 685.0],
+        "eventropy_k_block_diff_1": [-328.0, 962.0],
+        "eventropy_k_block_diff_3": [0.0, 871.0],
+        "eventropy_k_block_diff_5": [0.0, 881.0],
+        "eventropy_k_block_ratio_1": [0.0, 935.0],
+        "eventropy_k_block_ratio_3": [0.0, 7.11],
+        "eventropy_k_block_ratio_5": [0.0, 7.11],
+        "eventropy_knn_3": [0.0, 8.93],
+        "eventropy_knn_5": [0.0, 648.0],
+        "eventropy_knn_7": [0.0, 618.0],
+        "epa_variant_entropy": [0.0, 11563842.15],
+        "epa_normalized_variant_entropy": [0.0, 0.9],
+        "epa_sequence_entropy": [0.0, 21146257.12],
+        "epa_normalized_sequence_entropy": [0.0, 0.76],
+        "epa_sequence_entropy_linear_forgetting": [0.0, 14140225.9],
+        "epa_normalized_sequence_entropy_linear_forgetting": [0.0, 0.42],
+        "epa_sequence_entropy_exponential_forgetting": [0.0, 15576076.83],
+        "epa_normalized_sequence_entropy_exponential_forgetting": [0.0, 0.51]
+    }
+    return data_dict