infinite-dataset-hub

Running

lhoestq HF Staff commited on Aug 15, 2024

Commit

d615ba4

1 Parent(s): de383a5

again

Files changed (1) hide show

app.py CHANGED Viewed

@@ -365,7 +365,7 @@ with gr.Blocks(css=css) as demo:
                 continue
             break
         # for debugging
-        # with open(f"output{indices_to_generate[0]}.txt", "w") as f:
         #     f.write(generated_text)
@@ -399,9 +399,9 @@ with gr.Blocks(css=css) as demo:
     def parse_csv_df(csv: str, csv_header: Optional[str] = None) -> pd.DataFrame:
         # Fix generation mistake when providing a list that is not in quotes
-        for match in re.finditer(r'\[("[\w ]+"[, ]?)+\]', csv):
             span = match.string[match.start() : match.end()]
-            csv = csv.replace(span, '"' + span.replace('"', "'") + '"')
         # Add header if missing
         if csv_header and csv.strip().split("\n")[0] != csv_header:
             csv = csv_header + "\n" + csv
@@ -539,6 +539,8 @@ with gr.Blocks(css=css) as demo:
     @generate_full_dataset_button.click(inputs=[dataset_title, dataset_content, search_bar], outputs=[dataset_dataframe, generate_full_dataset_button, save_dataset_button])
     def generate_full_dataset(title, content, search_query):
         csv_header, preview_df = parse_preview_df(content)
         # Remove dummy "id" columns
         for column_name, values in preview_df.to_dict(orient="series").items():

                 continue
             break
         # for debugging
+        # with open(f".output{indices_to_generate[0]}.txt", "w") as f:
         #     f.write(generated_text)
     def parse_csv_df(csv: str, csv_header: Optional[str] = None) -> pd.DataFrame:
         # Fix generation mistake when providing a list that is not in quotes
+        for match in re.finditer(r'''(?!")\[(["'][\w ]+["'][, ]*)+\](?!")''', csv):
             span = match.string[match.start() : match.end()]
+            csv = csv.replace(span, '"' + span.replace('"', "'") + '"', 1)
         # Add header if missing
         if csv_header and csv.strip().split("\n")[0] != csv_header:
             csv = csv_header + "\n" + csv
     @generate_full_dataset_button.click(inputs=[dataset_title, dataset_content, search_bar], outputs=[dataset_dataframe, generate_full_dataset_button, save_dataset_button])
     def generate_full_dataset(title, content, search_query):
+        dataset_name, tags = title.strip("# ").split("\ntags:", 1)
+        dataset_name, tags = dataset_name.strip(), tags.strip()
         csv_header, preview_df = parse_preview_df(content)
         # Remove dummy "id" columns
         for column_name, values in preview_df.to_dict(orient="series").items():