Spaces:

albertmartinez
/

sentence-transformers

Sleeping

albertmartinez commited on Nov 20, 2024

Commit

e9536a9

1 Parent(s): 1822f54

Added score block number

Files changed (4) hide show

app.py CHANGED Viewed

@@ -25,7 +25,9 @@ with gr.Blocks() as demo:
         with gr.Row():
             with gr.Column():
                 submit_button_mining = gr.Button("Submit", variant="primary")
         with gr.Row():
             with gr.Column():
                 output_mining = gr.Dataframe(headers=["score", "sentence_1", "sentence_2"], type="polars",
@@ -33,7 +35,7 @@ with gr.Blocks() as demo:
                 submit_button_mining.click(
                     fn=mining,
-                    inputs=upload_button_sentences,
                     outputs=output_mining
                 )
@@ -71,6 +73,7 @@ with gr.Blocks() as demo:
         with gr.Row():
             with gr.Column():
                 submit_button_sts = gr.Button("Submit", variant="primary")
         with gr.Row():
@@ -82,7 +85,7 @@ with gr.Blocks() as demo:
                 submit_button_sts.click(
                     fn=sts,
-                    inputs=[upload_button_sentences1, upload_button_sentences2],
                     outputs=output_sts
                 )

         with gr.Row():
             with gr.Column():
+                score_mining = gr.Number(label="score", value=0.96, interactive=True)
                 submit_button_mining = gr.Button("Submit", variant="primary")
         with gr.Row():
             with gr.Column():
                 output_mining = gr.Dataframe(headers=["score", "sentence_1", "sentence_2"], type="polars",
                 submit_button_mining.click(
                     fn=mining,
+                    inputs=[upload_button_sentences, score_mining],
                     outputs=output_mining
                 )
         with gr.Row():
             with gr.Column():
+                score_sts = gr.Number(label="score", value=0.96, interactive=True)
                 submit_button_sts = gr.Button("Submit", variant="primary")
         with gr.Row():
                 submit_button_sts.click(
                     fn=sts,
+                    inputs=[upload_button_sentences1, upload_button_sentences2, score_sts],
                     outputs=output_sts
                 )

mining.py CHANGED Viewed

@@ -6,9 +6,9 @@ from datasets import Dataset
 from sentence_transformers import SentenceTransformer
 from sentence_transformers.util import paraphrase_mining
-def mining(path):
     st = time.time()
-    data = Dataset.from_pandas(pd.read_csv(path, on_bad_lines='skip', header=0, names=["text"]))
     device = "cuda" if torch.cuda.is_available() else "cpu"
     model = SentenceTransformer(
@@ -38,7 +38,7 @@ def mining(path):
         pl.col("score").round(3).cast(pl.Float32),
         union_df.select(pl.col("text")).to_series()[df["sentence_1"].cast(pl.Int32)].alias("sentence_1"),
         union_df.select(pl.col("text")).to_series()[df["sentence_2"].cast(pl.Int32)].alias("sentence_2"),
-    ]).filter(pl.col("score") > 0.96).sort(["score"], descending=True)
     elapsed_time = time.time() - st
     print('Execution time:', time.strftime("%H:%M:%S", time.gmtime(elapsed_time)))

 from sentence_transformers import SentenceTransformer
 from sentence_transformers.util import paraphrase_mining
+def mining(path, score):
     st = time.time()
+    data = Dataset.from_pandas(pd.read_csv(path, on_bad_lines='skip', header=0, names=["text"], sep="\t"))
     device = "cuda" if torch.cuda.is_available() else "cpu"
     model = SentenceTransformer(
         pl.col("score").round(3).cast(pl.Float32),
         union_df.select(pl.col("text")).to_series()[df["sentence_1"].cast(pl.Int32)].alias("sentence_1"),
         union_df.select(pl.col("text")).to_series()[df["sentence_2"].cast(pl.Int32)].alias("sentence_2"),
+    ]).filter(pl.col("score") > score).sort(["score"], descending=True)
     elapsed_time = time.time() - st
     print('Execution time:', time.strftime("%H:%M:%S", time.gmtime(elapsed_time)))

sts.py CHANGED Viewed

@@ -5,7 +5,7 @@ import torch
 from datasets import Dataset
 from sentence_transformers import SentenceTransformer
-def sts(data1, data2):
     st = time.time()
     device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -17,8 +17,8 @@ def sts(data1, data2):
         trust_remote_code=True,
     )
-    sentences1 = Dataset.from_pandas(pd.read_csv(data1, on_bad_lines='skip', header=0, names=["text"]))
-    sentences2 = Dataset.from_pandas(pd.read_csv(data2, on_bad_lines='skip', header=0, names=["text"]))
     embeddings1 = model.encode(sentences1["text"], normalize_embeddings=True, batch_size=1024,
                                show_progress_bar=True)
@@ -52,5 +52,5 @@ def sts(data1, data2):
     elapsed_time = time.time() - st
     print('Execution time:', time.strftime("%H:%M:%S", time.gmtime(elapsed_time)))
-    return df_long.select(["score", "setences1", "sentences2"]).filter(pl.col("score") > 0.96).sort(["score"],
                                                                                                     descending=True)

 from datasets import Dataset
 from sentence_transformers import SentenceTransformer
+def sts(data1, data2, score):
     st = time.time()
     device = "cuda" if torch.cuda.is_available() else "cpu"
         trust_remote_code=True,
     )
+    sentences1 = Dataset.from_pandas(pd.read_csv(data1, on_bad_lines='skip', header=0, names=["text"], sep="\t"))
+    sentences2 = Dataset.from_pandas(pd.read_csv(data2, on_bad_lines='skip', header=0, names=["text"], sep="\t"))
     embeddings1 = model.encode(sentences1["text"], normalize_embeddings=True, batch_size=1024,
                                show_progress_bar=True)
     elapsed_time = time.time() - st
     print('Execution time:', time.strftime("%H:%M:%S", time.gmtime(elapsed_time)))
+    return df_long.select(["score", "setences1", "sentences2"]).filter(pl.col("score") > score).sort(["score"],
                                                                                                     descending=True)

utils.py CHANGED Viewed

@@ -6,7 +6,7 @@ import polars as pl
 import time
 def getDataFrame(path):
-    data = pd.read_csv(path, on_bad_lines='skip', header=0, names=["text"])
     return pl.from_pandas(data)
 def save_to_csv(dataframe):

 import time
 def getDataFrame(path):
+    data = pd.read_csv(path, on_bad_lines='skip', header=0, names=["text"], sep="\t")
     return pl.from_pandas(data)
 def save_to_csv(dataframe):