Spaces:

ramalMr
/

data_gen

Sleeping

App Files Files Community

ramalMr commited on Apr 2, 2024

Commit

beea405

verified ·

1 Parent(s): eb1c35b

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -22

app.py CHANGED Viewed

@@ -2,43 +2,24 @@ from huggingface_hub import InferenceClient
 import gradio as gr
 import random
 import pandas as pd
-from io import BytesIO
 import csv
 import os
 import io
 import tempfile
 import re
-from transformers import M2M100Tokenizer, M2M100ForConditionalGeneration
 client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
-tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_1.2B")
-model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_1.2B")
-def translate_to_english(text, source_lang):
-    encoded_input = tokenizer(text, return_tensors="pt")
-    generated_tokens = model.generate(**encoded_input, forced_bos_token_id=tokenizer.get_lang_id("en"))
-    translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
-    return translated_text
-def translate_to_azerbaijani(text):
-    encoded_input = tokenizer(text, return_tensors="pt")
-    generated_tokens = model.generate(**encoded_input, forced_bos_token_id=tokenizer.get_lang_id("az"))
-    translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
-    return translated_text
 def extract_text_from_excel(file):
     df = pd.read_excel(file)
     text = ' '.join(df['Unnamed: 1'].astype(str))
-    source_lang = "az"  # Azerbaijani
-    english_text = translate_to_english(text, source_lang)
-    return english_text
 def save_to_csv(sentence, output, filename="synthetic_data.csv"):
-    azerbaijani_output = translate_to_azerbaijani(output)
     with open(filename, mode='a', newline='', encoding='utf-8') as file:
         writer = csv.writer(file)
-        writer.writerow([sentence, azerbaijani_output])
 def generate(file, temperature, max_new_tokens, top_p, repetition_penalty, num_similar_sentences):
     text = extract_text_from_excel(file)

 import gradio as gr
 import random
 import pandas as pd
+from io import BytesIO
 import csv
 import os
 import io
 import tempfile
 import re
 client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
 def extract_text_from_excel(file):
     df = pd.read_excel(file)
     text = ' '.join(df['Unnamed: 1'].astype(str))
+    return text
 def save_to_csv(sentence, output, filename="synthetic_data.csv"):
     with open(filename, mode='a', newline='', encoding='utf-8') as file:
         writer = csv.writer(file)
+        writer.writerow([sentence, output])
 def generate(file, temperature, max_new_tokens, top_p, repetition_penalty, num_similar_sentences):
     text = extract_text_from_excel(file)