Spaces:

ramalMr
/

data_gen

Sleeping

App Files Files Community

ramalMr commited on Apr 2, 2024

Commit

57e7335

verified ·

1 Parent(s): 7242619

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -14

app.py CHANGED Viewed

@@ -2,27 +2,19 @@ from huggingface_hub import InferenceClient
 import gradio as gr
 import random
 import pandas as pd
-from io import BytesIO
 import csv
-import os
-import io
 import tempfile
 import re
 client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
-def extract_text_from_excel(file):
     df = pd.read_excel(file)
-    text = ' '.join(df['Unnamed: 1'].astype(str))
     return text
-def save_to_csv(sentence, output, filename="synthetic_data.csv"):
-    with open(filename, mode='a', newline='', encoding='utf-8') as file:
-        writer = csv.writer(file)
-        writer.writerow([sentence, output])
-def generate(file, temperature, max_new_tokens, top_p, repetition_penalty, num_similar_sentences):
-    text = extract_text_from_excel(file)
     sentences = text.split('.')
     random.shuffle(sentences)  # Shuffle sentences
@@ -46,10 +38,10 @@ def generate(file, temperature, max_new_tokens, top_p, repetition_penalty, num_s
             }
             try:
-                stream = client.text_generation(sentence, **generate_kwargs, stream=True, details=True, return_full_text=False)
                 output = ""
                 for response in stream:
-                    output += response.token.text
                 generated_sentences = re.split(r'(?<=[\.\!\?:])[\s\n]+', output)
                 generated_sentences = [s.strip() for s in generated_sentences if s.strip() and s != '.']
@@ -71,6 +63,7 @@ gr.Interface(
     fn=generate,
     inputs=[
         gr.File(label="Upload Excel File", file_count="single", file_types=[".xlsx"]),
         gr.Slider(label="Temperature", value=0.9, minimum=0.0, maximum=1.0, step=0.05, interactive=True, info="Higher values produce more diverse outputs"),
         gr.Slider(label="Max new tokens", value=256, minimum=0, maximum=5120, step=64, interactive=True, info="The maximum numbers of new tokens"),
         gr.Slider(label="Top-p (nucleus sampling)", value=0.95, minimum=0.0, maximum=1, step=0.05, interactive=True, info="Higher values sample more low-probability tokens"),

 import gradio as gr
 import random
 import pandas as pd
 import csv
 import tempfile
 import re
 client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
+def extract_text_from_excel(file, column_name):
     df = pd.read_excel(file)
+    text = ' '.join(df[column_name].astype(str))
     return text
+def generate(file, column_name, temperature, max_new_tokens, top_p, repetition_penalty, num_similar_sentences):
+    text = extract_text_from_excel(file, column_name)
     sentences = text.split('.')
     random.shuffle(sentences)  # Shuffle sentences
             }
             try:
+                stream = client.text_generation(sentence, **generate_kwargs, stream=True, return_full_text=False)
                 output = ""
                 for response in stream:
+                    output += response.text
                 generated_sentences = re.split(r'(?<=[\.\!\?:])[\s\n]+', output)
                 generated_sentences = [s.strip() for s in generated_sentences if s.strip() and s != '.']
     fn=generate,
     inputs=[
         gr.File(label="Upload Excel File", file_count="single", file_types=[".xlsx"]),
+        gr.TextAreaInput(label="Column Name", placeholder="Enter the column name"),
         gr.Slider(label="Temperature", value=0.9, minimum=0.0, maximum=1.0, step=0.05, interactive=True, info="Higher values produce more diverse outputs"),
         gr.Slider(label="Max new tokens", value=256, minimum=0, maximum=5120, step=64, interactive=True, info="The maximum numbers of new tokens"),
         gr.Slider(label="Top-p (nucleus sampling)", value=0.95, minimum=0.0, maximum=1, step=0.05, interactive=True, info="Higher values sample more low-probability tokens"),