Spaces:

andreamalhera
/

igedi

Running

Andrea Maldonado commited on Aug 21, 2024

Commit

78d7948

1 Parent(s): 9b8cb42

Computes eucledean similarity

Files changed (6) hide show

data/validation/genELexperiment1_04_02.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"ratio_top_20_variants": 0.20017714791851196, "epa_normalized_sequence_entropy_linear_forgetting": 0.052097205658647734, "log": "genELexperiment1_04_02"}


1	+ {"ratio_top_20_variants": 0.20017714791851196, "epa_normalized_sequence_entropy_linear_forgetting": 0.052097205658647734, "log": "genELexperiment1_04_02", "target_similarity": 0.6520972056586477}

data/validation/genELexperiment2_07_04.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"ratio_top_20_variants": 0.38863337713534823, "epa_normalized_sequence_entropy_linear_forgetting": 0.052097205658647734, "log": "genELexperiment2_07_04"}


1	+ {"ratio_top_20_variants": 0.38863337713534823, "epa_normalized_sequence_entropy_linear_forgetting": 0.052097205658647734, "log": "genELexperiment2_07_04", "target_similarity": 0.3520969938410784}

data/validation/genELexperiment3_04_nan.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"epa_normalized_sequence_entropy_linear_forgetting": 0.052097205658647734, "log": "genELexperiment3_04_nan"}


1	+ {"epa_normalized_sequence_entropy_linear_forgetting": 0.052097205658647734, "log": "genELexperiment3_04_nan", "target_similarity": 0.6520972056586477}

data/validation/genELexperiment4_nan_02.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"ratio_top_20_variants": 0.2, "log": "genELexperiment4_nan_02"}


1	+ {"ratio_top_20_variants": 0.2, "log": "genELexperiment4_nan_02", "target_similarity": 1.0}

gedi/generator.py CHANGED Viewed

@@ -19,7 +19,7 @@ from pm4py.sim import play_out
 from smac import HyperparameterOptimizationFacade, Scenario
 from utils.param_keys import OUTPUT_PATH, INPUT_PATH
 from utils.param_keys.generator import GENERATOR_PARAMS, EXPERIMENT, CONFIG_SPACE, N_TRIALS
-from gedi.utils.io_helpers import get_output_key_value_location, dump_features_json, calculate_manhattan_distance
 from gedi.utils.io_helpers import read_csvs
 import xml.etree.ElementTree as ET
 import re
@@ -222,7 +222,8 @@ class GenerateEventLogs():
             features_to_dump['ratio_variants_per_number_of_traces']=features_to_dump.pop('ratio_unique_traces_per_trace')
         features_to_dump['log']= os.path.split(save_path)[1].split(".")[0]
         # calculating the manhattan distance of the generated log to the target features
-        features_to_dump['distance_to_target'] = calculate_manhattan_distance(self.objectives, features_to_dump)
         dump_features_json(features_to_dump, save_path)
         return log_config

 from smac import HyperparameterOptimizationFacade, Scenario
 from utils.param_keys import OUTPUT_PATH, INPUT_PATH
 from utils.param_keys.generator import GENERATOR_PARAMS, EXPERIMENT, CONFIG_SPACE, N_TRIALS
+from gedi.utils.io_helpers import get_output_key_value_location, dump_features_json, compute_similarity
 from gedi.utils.io_helpers import read_csvs
 import xml.etree.ElementTree as ET
 import re
             features_to_dump['ratio_variants_per_number_of_traces']=features_to_dump.pop('ratio_unique_traces_per_trace')
         features_to_dump['log']= os.path.split(save_path)[1].split(".")[0]
         # calculating the manhattan distance of the generated log to the target features
+        #features_to_dump['distance_to_target'] = calculate_manhattan_distance(self.objectives, features_to_dump)
+        features_to_dump['target_similarity'] = compute_similarity(self.objectives, features_to_dump)
         dump_features_json(features_to_dump, save_path)
         return log_config

gedi/utils/io_helpers.py CHANGED Viewed

@@ -7,6 +7,7 @@ import shutil
 import numpy as np
 from collections import defaultdict
 from pathlib import Path, PurePath
 def select_instance(source_dir, log_path, destination=os.path.join("output","generated","instance_selection")):
     os.makedirs(destination, exist_ok=True)
@@ -83,12 +84,12 @@ def dump_features_json(features: dict, output_path, content_type="features"):
         json.dump(features, fp, default=int)
         print(f"SUCCESS: Saved {len(features)-1} {content_type} in {json_path}")#-1 because 'log' is not a feature
-def calculate_manhattan_distance(v1, v2):
     # HOTFIX: Rename 'ratio_unique_traces_per_trace
     if 'ratio_unique_traces_per_trace' in v1:
         v1['ratio_variants_per_number_of_traces'] = v1.pop('ratio_unique_traces_per_trace')
     # Filter out non-numeric values and ensure the same keys exist in both dictionaries
     common_keys = set(v1.keys()).intersection(set(v2.keys()))
     numeric_keys = [k for k in common_keys if isinstance(v1[k], (int, float)) and isinstance(v2[k], (int, float))]
@@ -98,11 +99,12 @@ def calculate_manhattan_distance(v1, v2):
     vec2 = np.array([v2[k] for k in numeric_keys])
     if len(vec1) == 0 or len(vec2) == 0:
-        print("[ERROR]: No common numeric keys found for (Manhattan) Distance calculation.")
         return None
     else:
-        # Calculate Manhattan Distance
-        manhattan_distance = np.sum(np.abs(vec1 - vec2))
-        return manhattan_distance

 import numpy as np
 from collections import defaultdict
 from pathlib import Path, PurePath
+from scipy.spatial.distance import euclidean
 def select_instance(source_dir, log_path, destination=os.path.join("output","generated","instance_selection")):
     os.makedirs(destination, exist_ok=True)
         json.dump(features, fp, default=int)
         print(f"SUCCESS: Saved {len(features)-1} {content_type} in {json_path}")#-1 because 'log' is not a feature
+def compute_similarity(v1, v2):
     # HOTFIX: Rename 'ratio_unique_traces_per_trace
     if 'ratio_unique_traces_per_trace' in v1:
         v1['ratio_variants_per_number_of_traces'] = v1.pop('ratio_unique_traces_per_trace')
     # Filter out non-numeric values and ensure the same keys exist in both dictionaries
     common_keys = set(v1.keys()).intersection(set(v2.keys()))
     numeric_keys = [k for k in common_keys if isinstance(v1[k], (int, float)) and isinstance(v2[k], (int, float))]
     vec2 = np.array([v2[k] for k in numeric_keys])
     if len(vec1) == 0 or len(vec2) == 0:
+        print("[ERROR]: No common numeric keys found for (Edit) Distance calculation.")
         return None
     else:
+        # Calculate Euclidean Similarity
+        target_similarity = 1-euclidean(vec1, vec2)
+        #print("VECTORS: ", vec1, vec2, target_similarity)
+        return target_similarity