Spaces:

ramalMr
/

data_gen

Sleeping

App Files Files Community

ramalMr commited on Apr 2, 2024

Commit

79a6f49

verified ·

1 Parent(s): 09b14bf

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -3

app.py CHANGED Viewed

@@ -1,6 +1,5 @@
 from huggingface_hub import InferenceClient
 import gradio as gr
-import PyPDF2
 import random
 import pandas as pd
 from io import BytesIO
@@ -22,7 +21,7 @@ def save_to_csv(sentence, output, filename="synthetic_data.csv"):
         writer = csv.writer(file)
         writer.writerow([sentence, output])
-def generate(file, temperature, max_new_tokens, top_p, repetition_penalty):
     text = extract_text_from_excel(file)
     sentences = text.split('.')
     random.shuffle(sentences)  # Shuffle sentences
@@ -55,7 +54,10 @@ def generate(file, temperature, max_new_tokens, top_p, repetition_penalty):
                 generated_sentences = re.split(r'(?<=[\.\!\?:])[\s\n]+', output)
                 generated_sentences = [s.strip() for s in generated_sentences if s.strip() and s != '.']
-                for generated_sentence in generated_sentences:
                     writer.writerow({'Original Sentence': sentence, 'Generated Sentence': generated_sentence})
             except Exception as e:
@@ -73,6 +75,7 @@ gr.Interface(
         gr.Slider(label="Max new tokens", value=256, minimum=0, maximum=5120, step=64, interactive=True, info="The maximum numbers of new tokens"),
         gr.Slider(label="Top-p (nucleus sampling)", value=0.95, minimum=0.0, maximum=1, step=0.05, interactive=True, info="Higher values sample more low-probability tokens"),
         gr.Slider(label="Repetition penalty", value=1.0, minimum=1.0, maximum=2.0, step=0.1, interactive=True, info="Penalize repeated tokens"),
     ],
     outputs=gr.File(label="Synthetic Data "),
     title="SDG",

 from huggingface_hub import InferenceClient
 import gradio as gr
 import random
 import pandas as pd
 from io import BytesIO
         writer = csv.writer(file)
         writer.writerow([sentence, output])
+def generate(file, temperature, max_new_tokens, top_p, repetition_penalty, num_similar_sentences):
     text = extract_text_from_excel(file)
     sentences = text.split('.')
     random.shuffle(sentences)  # Shuffle sentences
                 generated_sentences = re.split(r'(?<=[\.\!\?:])[\s\n]+', output)
                 generated_sentences = [s.strip() for s in generated_sentences if s.strip() and s != '.']
+                for _ in range(num_similar_sentences):
+                    if not generated_sentences:
+                        break
+                    generated_sentence = generated_sentences.pop(random.randrange(len(generated_sentences)))
                     writer.writerow({'Original Sentence': sentence, 'Generated Sentence': generated_sentence})
             except Exception as e:
         gr.Slider(label="Max new tokens", value=256, minimum=0, maximum=5120, step=64, interactive=True, info="The maximum numbers of new tokens"),
         gr.Slider(label="Top-p (nucleus sampling)", value=0.95, minimum=0.0, maximum=1, step=0.05, interactive=True, info="Higher values sample more low-probability tokens"),
         gr.Slider(label="Repetition penalty", value=1.0, minimum=1.0, maximum=2.0, step=0.1, interactive=True, info="Penalize repeated tokens"),
+        gr.Slider(label="Number of similar sentences", value=10, minimum=1, maximum=20, step=1, interactive=True, info="Number of similar sentences to generate for each original sentence"),
     ],
     outputs=gr.File(label="Synthetic Data "),
     title="SDG",