Spaces:

ramalMr
/

data_gen

Sleeping

App Files Files Community

ramalMr commited on Apr 1, 2024

Commit

7b026a2

verified ·

1 Parent(s): 9cbb806

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -25

app.py CHANGED Viewed

@@ -20,37 +20,42 @@ def generate_synthetic_data(file, temperature, max_new_tokens, top_p, repetition
     sentences = extract_sentences_from_excel(file)
     random.shuffle(sentences)
-    with tempfile.NamedTemporaryFile(mode='w', newline='', delete=False, suffix='.csv') as tmp:
-        fieldnames = ['Original Sentence', 'Synthetic Data']
-        writer = csv.DictWriter(tmp, fieldnames=fieldnames)
-        writer.writeheader()
-        for sentence in sentences:
-            sentence = sentence.strip()
-            if not sentence:
-                continue
-            generate_kwargs = {
-                "temperature": temperature,
-                "max_new_tokens": max_new_tokens,
-                "top_p": top_p,
-                "repetition_penalty": repetition_penalty,
-                "do_sample": True,
-                "seed": 42,
-            }
-            try:
-                output = client.generate(sentence, **generate_kwargs, return_full_text=True)
-                generated_data = output.text.strip()
-                generated_sentences = re.split(r'(?<=[\.\!\?:])[\s\n]+', generated_data)
-                generated_sentences = [s.strip() for s in generated_sentences if s.strip() and s != '.']
-                for generated_sentence in generated_sentences:
-                    writer.writerow({'Original Sentence': sentence, 'Synthetic Data': generated_sentence})
-            except Exception as e:
-                print(f"Error generating data for sentence '{sentence}': {e}")
         tmp_path = tmp.name

     sentences = extract_sentences_from_excel(file)
     random.shuffle(sentences)
+    generated_data = []
+    for sentence in sentences:
+        sentence = sentence.strip()
+        if not sentence:
+            continue
+        generate_kwargs = {
+            "temperature": temperature,
+            "max_new_tokens": max_new_tokens,
+            "top_p": top_p,
+            "repetition_penalty": repetition_penalty,
+            "do_sample": True,
+            "seed": 42,
+        }
+        try:
+            output = client.generate(sentence, **generate_kwargs, return_full_text=True)
+            synthetic_data = output.text.strip()
+            generated_sentences = re.split(r'(?<=[\.\!\?:])[\s\n]+', synthetic_data)
+            generated_sentences = [s.strip() for s in generated_sentences if s.strip() and s != '.']
+            for generated_sentence in generated_sentences:
+                generated_data.append({'Original Sentence': sentence, 'Synthetic Data': generated_sentence})
+        except Exception as e:
+            print(f"Error generating data for sentence '{sentence}': {e}")
+    with tempfile.NamedTemporaryFile(mode='w', newline='', delete=False, suffix='.csv') as tmp:
+        fieldnames = ['Original Sentence', 'Synthetic Data']
+        writer = csv.DictWriter(tmp, fieldnames=fieldnames)
+        writer.writeheader()
+        for data in generated_data:
+            writer.writerow(data)
         tmp_path = tmp.name