Spaces:

andreamalhera
/

igedi

Sleeping

App Files Files Community

Andrea Maldonado commited on Aug 16, 2024

Commit

a451e02

1 Parent(s): fd6f629

directory structure

Browse files

Files changed (4) hide show

.conda.yml +0 -1
gedi/generator.py +6 -4
gedi/utils/io_helpers.py +5 -4
utils/merge_jsons.py +5 -5

.conda.yml CHANGED Viewed

@@ -55,7 +55,6 @@ dependencies:
       - pydotplus==2.0.2
       - pynisher==1.0.10
       - pyrfr==0.9.0
-      - pywin32==306
       - pyyaml==6.0.1
       - rapidfuzz==3.8.1
       - referencing==0.35.1

       - pydotplus==2.0.2
       - pynisher==1.0.10
       - pyrfr==0.9.0
       - pyyaml==6.0.1
       - rapidfuzz==3.8.1
       - referencing==0.35.1

gedi/generator.py CHANGED Viewed

@@ -19,7 +19,8 @@ from pm4py.sim import play_out
 from smac import HyperparameterOptimizationFacade, Scenario
 from utils.param_keys import OUTPUT_PATH, INPUT_PATH
 from utils.param_keys.generator import GENERATOR_PARAMS, EXPERIMENT, CONFIG_SPACE, N_TRIALS
-from gedi.utils.io_helpers import get_output_key_value_location, dump_features_json, read_csvs
 import xml.etree.ElementTree as ET
 import re
 from xml.dom import minidom
@@ -80,7 +81,7 @@ def removeextralines(elem):
             element.tail=""
         if not re.search(hasWords,str(element.text)):
             element.text = ""
 def add_extension_before_traces(xes_file):
     # Register the namespace
     ET.register_namespace('', "http://www.xes-standard.org/")
@@ -158,6 +159,7 @@ class GenerateEventLogs():
             tasks=tasks.rename(columns={"ratio_variants_per_number_of_traces": "ratio_unique_traces_per_trace"})
         if tasks is not None:
             num_cores = multiprocessing.cpu_count() if len(tasks) >= multiprocessing.cpu_count() else len(tasks)
             #self.generator_wrapper([*tasks.iterrows()][0])# For testing
             with multiprocessing.Pool(num_cores) as p:
@@ -208,7 +210,7 @@ class GenerateEventLogs():
             self.objectives['ratio_variants_per_number_of_traces']=self.objectives.pop('ratio_unique_traces_per_trace')
         save_path = get_output_key_value_location(self.objectives,
-                                         self.output_path, identifier)+".xes"
         write_xes(log_config['log'], save_path)
         add_extension_before_traces(save_path)
@@ -219,7 +221,7 @@ class GenerateEventLogs():
         if features_to_dump.get('ratio_unique_traces_per_trace'):#HOTFIX
             features_to_dump['ratio_variants_per_number_of_traces']=features_to_dump.pop('ratio_unique_traces_per_trace')
         features_to_dump['log'] = identifier.replace('genEL', '')
-        dump_features_json(features_to_dump, self.output_path, identifier, objectives=self.objectives)
         return log_config
     def generate_optimized_log(self, config):

 from smac import HyperparameterOptimizationFacade, Scenario
 from utils.param_keys import OUTPUT_PATH, INPUT_PATH
 from utils.param_keys.generator import GENERATOR_PARAMS, EXPERIMENT, CONFIG_SPACE, N_TRIALS
+from gedi.utils.io_helpers import get_output_key_value_location, dump_features_json
+from gedi.utils.io_helpers import read_csvs
 import xml.etree.ElementTree as ET
 import re
 from xml.dom import minidom
             element.tail=""
         if not re.search(hasWords,str(element.text)):
             element.text = ""
 def add_extension_before_traces(xes_file):
     # Register the namespace
     ET.register_namespace('', "http://www.xes-standard.org/")
             tasks=tasks.rename(columns={"ratio_variants_per_number_of_traces": "ratio_unique_traces_per_trace"})
         if tasks is not None:
+            self.feature_keys = tasks.columns.tolist()
             num_cores = multiprocessing.cpu_count() if len(tasks) >= multiprocessing.cpu_count() else len(tasks)
             #self.generator_wrapper([*tasks.iterrows()][0])# For testing
             with multiprocessing.Pool(num_cores) as p:
             self.objectives['ratio_variants_per_number_of_traces']=self.objectives.pop('ratio_unique_traces_per_trace')
         save_path = get_output_key_value_location(self.objectives,
+                                         self.output_path, identifier, self.feature_keys)+".xes"
         write_xes(log_config['log'], save_path)
         add_extension_before_traces(save_path)
         if features_to_dump.get('ratio_unique_traces_per_trace'):#HOTFIX
             features_to_dump['ratio_variants_per_number_of_traces']=features_to_dump.pop('ratio_unique_traces_per_trace')
         features_to_dump['log'] = identifier.replace('genEL', '')
+        dump_features_json(features_to_dump, self.output_path, identifier, objectives=self.objectives, obj_keys=self.feature_keys)
         return log_config
     def generate_optimized_log(self, config):

gedi/utils/io_helpers.py CHANGED Viewed

@@ -52,9 +52,10 @@ def get_keys_abbreviation(obj_keys):
         abbreviated_keys.append(abbreviated_key)
     return '_'.join(abbreviated_keys)
-def get_output_key_value_location(obj, output_path, identifier):
     obj_sorted = dict(sorted(obj.items()))
-    obj_keys = [*obj_sorted.keys()]
     obj_values = [round(x, 4) for x in [*obj_sorted.values()]]
@@ -71,13 +72,13 @@ def get_output_key_value_location(obj, output_path, identifier):
     save_path = os.path.join(folder_path, generated_file_name)
     return save_path
-def dump_features_json(features: dict, output_path, identifier, objectives=None, content_type="features"):
     output_parts = PurePath(output_path).parts
     feature_dir = os.path.join(output_parts[0], content_type,
                                    *output_parts[1:])
     if objectives is not None:
         json_path = get_output_key_value_location(objectives,
-                                                feature_dir, identifier)+".json"
     else:
         json_path = os.path.join(feature_dir, identifier)+".json"

         abbreviated_keys.append(abbreviated_key)
     return '_'.join(abbreviated_keys)
+def get_output_key_value_location(obj, output_path, identifier, obj_keys=None):
     obj_sorted = dict(sorted(obj.items()))
+    if obj_keys is None:
+        obj_keys = [*obj_sorted.keys()]
     obj_values = [round(x, 4) for x in [*obj_sorted.values()]]
     save_path = os.path.join(folder_path, generated_file_name)
     return save_path
+def dump_features_json(features: dict, output_path, identifier, objectives=None, content_type="features", obj_keys=None):
     output_parts = PurePath(output_path).parts
     feature_dir = os.path.join(output_parts[0], content_type,
                                    *output_parts[1:])
     if objectives is not None:
         json_path = get_output_key_value_location(objectives,
+                                                feature_dir, identifier, obj_keys)+".json"
     else:
         json_path = os.path.join(feature_dir, identifier)+".json"

utils/merge_jsons.py CHANGED Viewed

@@ -4,12 +4,12 @@ import csv
 import os
 """
-Run using:
 python merge_jsons.py path_to_your_json_directory output.csv
 """
 def json_to_csv(json_dir, output_csv):
     json_files = [os.path.join(json_dir, file) for file in os.listdir(json_dir) if file.endswith('.json')]
     # Collect data from all JSON files
@@ -18,13 +18,13 @@ def json_to_csv(json_dir, output_csv):
         with open(json_file, 'r') as f:
             data = json.load(f)
             all_data.append(data)
     # Extract the headers from the first JSON object
     if all_data:
-        headers = all_data[0].keys()
     else:
         raise ValueError("No data found in JSON files")
     # Write data to CSV
     with open(output_csv, 'w', newline='') as f:
         writer = csv.DictWriter(f, fieldnames=headers)

 import os
 """
+Run using:
 python merge_jsons.py path_to_your_json_directory output.csv
 """
 def json_to_csv(json_dir, output_csv):
     json_files = [os.path.join(json_dir, file) for file in os.listdir(json_dir) if file.endswith('.json')]
     # Collect data from all JSON files
         with open(json_file, 'r') as f:
             data = json.load(f)
             all_data.append(data)
     # Extract the headers from the first JSON object
     if all_data:
+        headers = {elem for s in [set(i) for i in [d.keys() for d in all_data]] for elem in s}
     else:
         raise ValueError("No data found in JSON files")
     # Write data to CSV
     with open(output_csv, 'w', newline='') as f:
         writer = csv.DictWriter(f, fieldnames=headers)