Spaces:

playmak3r
/

sentence-transformer-api

Runtime error

App Files Files Community

playmak3r commited on Jul 14

Commit

00933b9

0 Parent(s):

initial commit

Browse files

Files changed (4) hide show

requirements.txt +5 -0
server.py +36 -0
similarity.py +66 -0
tests/test.py +9 -0

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+sacrebleu
+torch
+sentence_transformers
+fastapi
+uvicorn

server.py ADDED Viewed

	@@ -0,0 +1,36 @@

+from typing import List
+from fastapi import FastAPI, Request
+from fastapi.responses import RedirectResponse
+from pydantic import BaseModel
+from similarity import get_similarity_batched, get_bleu, get_chrf
+app = FastAPI(
+    title="Sentence similarity API",
+    description="Check Sentences similarities.",
+    version="1.0"
+)
+class Texts(BaseModel):
+    texts1: List[str]
+    texts2: List[str]
+@app.get("/")
+def home():
+    #return {"mensagem": "Bem-vindo à API!"}
+    return RedirectResponse(url="/docs")
+@app.post('/api/similarity')
+def get_sim(texts: Texts):
+    result = []
+    sim = get_similarity_batched(texts.texts1, texts.texts2)
+    for i in range(0, len(texts.texts1)):
+        result.append({
+            "bleu": get_bleu(texts.texts1[i], texts.texts2[i]),
+            "chrf": get_chrf(texts.texts1[i], texts.texts2[i]),
+            "similarity": sim[i]
+        })
+    return result

similarity.py ADDED Viewed

	@@ -0,0 +1,66 @@

+import sacrebleu
+import re
+from typing import List
+st_model = None
+def get_similarity_batched(texts1: List[str], texts2: List[str]):
+    import torch
+    from sentence_transformers import SentenceTransformer, util
+    global st_model
+    if st_model is None:
+        #paraphrase-multilingual-mpnet-base-v2
+        #all-MiniLM-L12-v2
+        #all-distilroberta-v1
+        #all-mpnet-base-v2
+        #all-MiniLM-L6-v2
+        st_model = SentenceTransformer('all-mpnet-base-v2', device='cuda' if torch.cuda.is_available() else 'cpu', cache_folder="./s_cache")
+    clean_text_batch(texts1, texts2)
+    embeddings1 = st_model.encode(texts1, convert_to_tensor=True, show_progress_bar=False)
+    embeddings2 = st_model.encode(texts2, convert_to_tensor=True, show_progress_bar=False)
+    cosine_scores = util.cos_sim(embeddings1, embeddings2)
+    return cosine_scores.diag()
+def clean_text_batch(texts1: List[str], texts2: List[str]):
+    if len(texts1) == len(texts2):
+        for i in range(0, len(texts1)):
+            texts1[i] = clean_text(texts1[i], stricter= True)
+            texts2[i] = clean_text(texts2[i], stricter= True)
+    #
+def clean_text(text, stricter=False):
+    if stricter:
+        text = re.sub(r"([^a-zA-Z]|^)([a-zA-Z])(?i:-\2)+([a-zA-Z])", r"\1\2\3", text)
+    to_strip = "&っ。～―（）「」｢｣『』“”\"'，、○()«»~ \t\r\n"
+    if stricter:
+        to_strip += "….?？!！,"
+    text = text.strip(to_strip)
+    return text
+def get_similarity(ref, hyp):
+    ref = clean_text(ref, stricter=True)
+    if not ref:
+        return 1.0
+    hyp = clean_text(hyp, stricter=True)
+    if ref.lower() == hyp.lower():
+        return 1.0
+    return float(get_similarity_batched([ref], [hyp])[0])
+def get_bleu(ref, hyp):
+    ref = clean_text(ref)
+    hyp = clean_text(hyp)
+    if ref.lower() == hyp.lower():
+        return 100
+    bleu = sacrebleu.sentence_bleu(hyp, [ref])
+    return bleu.score
+def get_chrf(ref, hyp):
+    ref = clean_text(ref)
+    hyp = clean_text(hyp)
+    if ref.lower() == hyp.lower():
+        return 100
+    chrf = sacrebleu.sentence_chrf(hyp, [ref])
+    return chrf.score

tests/test.py ADDED Viewed

	@@ -0,0 +1,9 @@

+import requests
+response = requests.post("http://localhost:8000/api/similarity", json={
+    "texts1": ["Eu gosto de andar de bicicleta nas manhãs de domingo.", "A entrega está programada para amanhã à tarde."],
+    "texts2": ["Aos domingos de manhã, eu adoro pedalar.", "A remessa vai chegar amanhã no período da tarde."],
+})
+print(response.json())