Spaces:

ramalMr
/

data_gen

Sleeping

App Files Files Community

ramalMr commited on Apr 1, 2024

Commit

56c5fd5

verified ·

1 Parent(s): 18cb91d

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -3

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ import os
 import io
 import tempfile
 import re
 client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
 def extract_text_from_excel(file):
@@ -21,6 +21,16 @@ def save_to_csv(sentence, output, filename="synthetic_data.csv"):
         writer = csv.writer(file)
         writer.writerow([sentence, output])
 def generate(file, temperature, max_new_tokens, top_p, repetition_penalty):
     text = extract_text_from_excel(file)
     sentences = text.split('.')
@@ -29,7 +39,7 @@ def generate(file, temperature, max_new_tokens, top_p, repetition_penalty):
     with tempfile.NamedTemporaryFile(mode='w', newline='', delete=False, suffix='.csv') as tmp:
         fieldnames = ['Original Sentence', 'Generated Sentence']
         writer = csv.DictWriter(tmp, fieldnames=fieldnames)
-        writer.writeheader()
         for sentence in sentences:
             sentence = sentence.strip()
@@ -55,7 +65,9 @@ def generate(file, temperature, max_new_tokens, top_p, repetition_penalty):
                 generated_sentences = [s.strip() for s in generated_sentences if s.strip() and s != '.']
                 for generated_sentence in generated_sentences:
-                    writer.writerow({'Original Sentence': sentence, 'Generated Sentence': generated_sentence})
             except Exception as e:
                 print(f"Error generating data for sentence '{sentence}': {e}")

 import io
 import tempfile
 import re
+from transformers import MarianMTModel, MarianTokenizer
 client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
 def extract_text_from_excel(file):
         writer = csv.writer(file)
         writer.writerow([sentence, output])
+def translate_english_to_azerbaijani(text):
+    model_name = 'Helsinki-NLP/opus-mt-en-az'
+    tokenizer = MarianTokenizer.from_pretrained(model_name)
+    model = MarianMTModel.from_pretrained(model_name)
+    translated = model.generate(**tokenizer.prepare_translation_batch([text]))
+    translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
+    return translated_text
 def generate(file, temperature, max_new_tokens, top_p, repetition_penalty):
     text = extract_text_from_excel(file)
     sentences = text.split('.')
     with tempfile.NamedTemporaryFile(mode='w', newline='', delete=False, suffix='.csv') as tmp:
         fieldnames = ['Original Sentence', 'Generated Sentence']
         writer = csv.DictWriter(tmp, fieldnames=fieldnames)
+        writer.writeheader()
         for sentence in sentences:
             sentence = sentence.strip()
                 generated_sentences = [s.strip() for s in generated_sentences if s.strip() and s != '.']
                 for generated_sentence in generated_sentences:
+                    translated_original = translate_english_to_azerbaijani(sentence)
+                    translated_generated = translate_english_to_azerbaijani(generated_sentence)
+                    writer.writerow({'Original Sentence': translated_original, 'Generated Sentence': translated_generated})
             except Exception as e:
                 print(f"Error generating data for sentence '{sentence}': {e}")