Spaces:

ramalMr
/

data_gen

Sleeping

App Files Files Community

ramalMr commited on Apr 1, 2024

Commit

1fd65af

verified ·

1 Parent(s): adba430

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -31

app.py CHANGED Viewed

@@ -8,14 +8,6 @@ from io import StringIO
 # Initialize the inference client with your chosen model
 client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
-def format_prompt(message, history):
-    prompt = "<s>"
-    for user_prompt, bot_response in history:
-        prompt += f"[INST] {user_prompt} [/INST]"
-        prompt += f" {bot_response}</s> "
-    prompt += f"[INST] {message} [/INST]"
-    return prompt
 def extract_text_from_pdf(file):
     pdf_reader = PyPDF2.PdfReader(file)
     text = ""
@@ -23,10 +15,18 @@ def extract_text_from_pdf(file):
         text += pdf_reader.pages[page].extract_text()
     return text
-def generate_synthetic_data(sentences, generate_kwargs):
     synthetic_data = []
     for sentence in sentences:
-        formatted_prompt = format_prompt(sentence, [])
         stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
         output = ""
         for response in stream:
@@ -34,22 +34,13 @@ def generate_synthetic_data(sentences, generate_kwargs):
         synthetic_data.append(output)
     return synthetic_data
-def generate(file, system_prompt, temperature, max_new_tokens, top_p, repetition_penalty):
     # Extract text and split into sentences
     text = extract_text_from_pdf(file)
     sentences = text.split('.')
     random.shuffle(sentences)  # Shuffle sentences
-    generate_kwargs = dict(
-        temperature=temperature,
-        max_new_tokens=max_new_tokens,
-        top_p=top_p,
-        repetition_penalty=repetition_penalty,
-        do_sample=True,
-        seed=42,
-    )
-    synthetic_data = generate_synthetic_data(sentences, generate_kwargs)
     # Convert synthetic data to CSV
     df = pd.DataFrame(synthetic_data, columns=["Synthetic Data"])
@@ -57,19 +48,16 @@ def generate(file, system_prompt, temperature, max_new_tokens, top_p, repetition
     df.to_csv(csv_buffer, index=False)
     return gr.File(value=csv_buffer.getvalue(), file_name="synthetic_data.csv")
-additional_inputs = [
-    gr.Slider(label="Temperature", value=0.9, minimum=0.0, maximum=1.0, step=0.05, interactive=True, info="Higher values produce more diverse outputs"),
-    gr.Slider(label="Max new tokens", value=256, minimum=0, maximum=5120, step=64, interactive=True, info="The maximum numbers of new tokens"),
-    gr.Slider(label="Top-p (nucleus sampling)", value=0.90, minimum=0.0, maximum=1, step=0.05, interactive=True, info="Higher values sample more low-probability tokens"),
-    gr.Slider(label="Repetition penalty", value=1.2, minimum=1.0, maximum=2.0, step=0.05, interactive=True, info="Penalize repeated tokens"),
-    gr.File(label="Upload PDF File", file_count="single", file_types=[".pdf"]),
-]
 gr.Interface(
     fn=generate,
-    inputs=[gr.File(label="Upload PDF File", file_count="single", file_types=[".pdf"]), "state", "number", "number", "number", "number"],
     outputs="file",
-    additional_inputs=additional_inputs,
     title="Synthetic Data Generation",
     description="This tool generates synthetic data from the sentences in your PDF.",
     allow_flagging="never",

 # Initialize the inference client with your chosen model
 client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
 def extract_text_from_pdf(file):
     pdf_reader = PyPDF2.PdfReader(file)
     text = ""
         text += pdf_reader.pages[page].extract_text()
     return text
+def generate_synthetic_data(sentences, temperature, max_new_tokens, top_p, repetition_penalty):
     synthetic_data = []
     for sentence in sentences:
+        generate_kwargs = {
+            "temperature": temperature,
+            "max_new_tokens": max_new_tokens,
+            "top_p": top_p,
+            "repetition_penalty": repetition_penalty,
+            "do_sample": True,
+            "seed": 42,
+        }
+        formatted_prompt = sentence  # Using the sentence directly as the prompt
         stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
         output = ""
         for response in stream:
         synthetic_data.append(output)
     return synthetic_data
+def generate(file, temperature, max_new_tokens, top_p, repetition_penalty):
     # Extract text and split into sentences
     text = extract_text_from_pdf(file)
     sentences = text.split('.')
     random.shuffle(sentences)  # Shuffle sentences
+    synthetic_data = generate_synthetic_data(sentences, temperature, max_new_tokens, top_p, repetition_penalty)
     # Convert synthetic data to CSV
     df = pd.DataFrame(synthetic_data, columns=["Synthetic Data"])
     df.to_csv(csv_buffer, index=False)
     return gr.File(value=csv_buffer.getvalue(), file_name="synthetic_data.csv")
 gr.Interface(
     fn=generate,
+    inputs=[
+        gr.File(label="Upload PDF File", file_count="single", file_types=[".pdf"]),
+        gr.Slider(label="Temperature", value=0.9, minimum=0.0, maximum=1.0, step=0.05, interactive=True, info="Higher values produce more diverse outputs"),
+        gr.Slider(label="Max new tokens", value=256, minimum=0, maximum=5120, step=64, interactive=True, info="The maximum numbers of new tokens"),
+        gr.Slider(label="Top-p (nucleus sampling)", value=0.95, minimum=0.0, maximum=1, step=0.05, interactive=True, info="Higher values sample more low-probability tokens"),
+        gr.Slider(label="Repetition penalty", value=1.0, minimum=1.0, maximum=2.0, step=0.1, interactive=True, info="Penalize repeated tokens"),
+    ],
     outputs="file",
     title="Synthetic Data Generation",
     description="This tool generates synthetic data from the sentences in your PDF.",
     allow_flagging="never",