Spaces:

mohdelgaar
/

LingConv

Running

App Files Files Community

mohdelgaar commited on Aug 6, 2024

Commit

54ba470

1 Parent(s): 01ac9fe

implement imputation

Browse files

Files changed (1) hide show

app.py +27 -7

app.py CHANGED Viewed

@@ -13,6 +13,9 @@ from model import get_model
 from options import parse_args
 from transformers import T5Tokenizer
 from compute_lng import compute_lng
 def process_examples(samples, full_names):
@@ -35,10 +38,12 @@ examples = process_examples(examples, lng_names)
 stats = json.load(open('assets/stats.json'))
-ling_collection = np.load('assets/ling_collection.npy')
 scaler = joblib.load('assets/scaler.bin')
 scale_ratio = np.load('assets/ratios.npy')
 model, ling_disc, sem_emb = get_model(args, tokenizer, device)
 state = torch.load(args.ckpt, map_location=torch.device('cpu'))
@@ -201,6 +206,21 @@ def sub(ling):
     ling['Target'] =  x
     return ling
 title = """
 <h1 style="text-align: center;">Controlled Paraphrase Generation with Linguistic Feature Control</h1>
@@ -255,6 +275,8 @@ css = """
 #mode {border: 0px; box-shadow: none}
 #mode .block {padding: 0px}
 div.gradio-container {color: black}
 div.form {background: inherit}
@@ -336,6 +358,7 @@ with gr.Blocks(
     generate_btn = gr.Button("Generate", variant='primary', visible=False)
     with gr.Accordion("Tools to assist in the setting of linguistic indices...", open=False, visible=False) as ling_tools:
         rand_ex_btn = gr.Button("Random target", size='lg', visible=False)
         with gr.Row():
             estimate_src_btn = gr.Button("Estimate linguistic indices of source sentence", visible=False)
             copy_btn = gr.Button("Copy linguistic indices of source to target", size='lg', visible=False)
@@ -344,28 +367,25 @@ with gr.Blocks(
             add_btn = gr.Button('Add \u03B5 to target linguistic indices', visible=False)
         with gr.Row():
             estimate_tgt_btn = gr.Button("Estimate linguistic indices of this sentence →", visible=False)
-            sent_ling_est = gr.Textbox(label='Text to estimate linguistic indices', scale=2, visible=False, container=False)
     ling.render()
     #####################
     estimate_src_btn.click(estimate_src, inputs=[sent1, ling, approx], outputs=[ling])
     estimate_tgt_btn.click(estimate_tgt, inputs=[sent_ling_est, ling, approx], outputs=[ling])
-    # estimate_tgt_btn.click(estimate_tgt, inputs=[sent_ling, ling], outputs=[ling])
     estimate_gen_btn.click(estimate_gen, inputs=[sent1, sent_ling_gen, ling, approx], outputs=[sent2, interpolation, ling])
-    # rand_btn.click(rand_target, inputs=[ling], outputs=[ling])
     rand_ex_btn.click(rand_ex_target, inputs=[ling], outputs=[ling])
     copy_btn.click(copy, inputs=[ling], outputs=[ling])
     generate_btn.click(generate_with_feedback, inputs=[sent1, ling, approx], outputs=[sent2, interpolation])
     generate_random_btn.click(generate_random, inputs=[sent1, ling, count, approx],
             outputs=[sent2, interpolation, ling])
-    # generate_fb_btn.click(generate_with_feedback, inputs=[sent1, ling], outputs=sent2s)
-    # generate_fb_s_btn.click(generate_with_feedbacks, inputs=[sent1, ling], outputs=sent2s)
     add_btn.click(add, inputs=[ling], outputs=[ling])
     sub_btn.click(sub, inputs=[ling], outputs=[ling])
     group1 = [generate_random_btn, count]
     group2 = [estimate_gen_btn, sent_ling_gen]
-    group3 = [generate_btn, estimate_src_btn, estimate_tgt_btn, sent_ling_est, rand_ex_btn, copy_btn, add_btn, sub_btn, ling, ling_tools]
     components = group1 + group2 + group3
     mode.change(visibility, inputs=[mode], outputs=[sent2, interpolation] + components)
     control_interpolation.change(lambda v: gr.update(visible=v), inputs=[control_interpolation],

 from options import parse_args
 from transformers import T5Tokenizer
 from compute_lng import compute_lng
+from sklearn.experimental import enable_iterative_imputer
+from sklearn.impute import IterativeImputer
+from sklearn.linear_model import Ridge
 def process_examples(samples, full_names):
 stats = json.load(open('assets/stats.json'))
 scaler = joblib.load('assets/scaler.bin')
 scale_ratio = np.load('assets/ratios.npy')
+ling_collection = np.load('assets/ling_collection.npy')
+ling_collection_scaled = scaler.transform(ling_collection)
 model, ling_disc, sem_emb = get_model(args, tokenizer, device)
 state = torch.load(args.ckpt, map_location=torch.device('cpu'))
     ling['Target'] =  x
     return ling
+def impute(ling):
+    ling['Target'] = ling['Target'].replace("", np.nan)
+    ling['Target'] = scaler.transform([ling['Target']])[0]
+    estimator = Ridge(alpha=1e3, fit_intercept=False)
+    imputer = IterativeImputer(estimator=estimator, imputation_order='random', max_iter=100)
+    combined_matrix = np.vstack([ling_collection, ling['Target']])
+    interpolated_matrix = imputer.fit_transform(combined_matrix)
+    interpolated_vector = interpolated_matrix[-1]
+    interp_raw = scaler.inverse_transform([interpolated_vector])[0]
+    ling['Target'] = round_ling(interp_raw)
+    return ling
 title = """
 <h1 style="text-align: center;">Controlled Paraphrase Generation with Linguistic Feature Control</h1>
 #mode {border: 0px; box-shadow: none}
 #mode .block {padding: 0px}
+#estimate textarea {border: 1px solid; border-radius: 7px}
 div.gradio-container {color: black}
 div.form {background: inherit}
     generate_btn = gr.Button("Generate", variant='primary', visible=False)
     with gr.Accordion("Tools to assist in the setting of linguistic indices...", open=False, visible=False) as ling_tools:
         rand_ex_btn = gr.Button("Random target", size='lg', visible=False)
+        impute_btn = gr.Button("Impute Missing Values", size='lg', visible=False)
         with gr.Row():
             estimate_src_btn = gr.Button("Estimate linguistic indices of source sentence", visible=False)
             copy_btn = gr.Button("Copy linguistic indices of source to target", size='lg', visible=False)
             add_btn = gr.Button('Add \u03B5 to target linguistic indices', visible=False)
         with gr.Row():
             estimate_tgt_btn = gr.Button("Estimate linguistic indices of this sentence →", visible=False)
+            sent_ling_est = gr.Textbox(label='Text to estimate linguistic indices', scale=2, visible=False, container=False, elem_id='estimate')
     ling.render()
     #####################
     estimate_src_btn.click(estimate_src, inputs=[sent1, ling, approx], outputs=[ling])
     estimate_tgt_btn.click(estimate_tgt, inputs=[sent_ling_est, ling, approx], outputs=[ling])
     estimate_gen_btn.click(estimate_gen, inputs=[sent1, sent_ling_gen, ling, approx], outputs=[sent2, interpolation, ling])
     rand_ex_btn.click(rand_ex_target, inputs=[ling], outputs=[ling])
+    impute_btn.click(impute, inputs=[ling], outputs=[ling])
     copy_btn.click(copy, inputs=[ling], outputs=[ling])
     generate_btn.click(generate_with_feedback, inputs=[sent1, ling, approx], outputs=[sent2, interpolation])
     generate_random_btn.click(generate_random, inputs=[sent1, ling, count, approx],
             outputs=[sent2, interpolation, ling])
     add_btn.click(add, inputs=[ling], outputs=[ling])
     sub_btn.click(sub, inputs=[ling], outputs=[ling])
     group1 = [generate_random_btn, count]
     group2 = [estimate_gen_btn, sent_ling_gen]
+    group3 = [generate_btn, estimate_src_btn, impute_btn, estimate_tgt_btn, sent_ling_est, rand_ex_btn, copy_btn, add_btn, sub_btn, ling, ling_tools]
     components = group1 + group2 + group3
     mode.change(visibility, inputs=[mode], outputs=[sent2, interpolation] + components)
     control_interpolation.change(lambda v: gr.update(visible=v), inputs=[control_interpolation],