jgrosjean-mathesis
/

sentence-swissbert

Sentence Similarity

Inference Endpoints

Model card Files Files and versions Community

jgrosjean commited on Dec 18, 2023

Commit

5b5aee3

•

1 Parent(s): aa3db3f

Update README.md

Files changed (1) hide show

README.md +10 -8

README.md CHANGED Viewed

@@ -33,7 +33,7 @@ import torch
 from transformers import AutoModel, AutoTokenizer
 # Load swissBERT for sentence embeddings model
-model_name="jgrosjean-mathesis/swissbert-for-sentence-embeddings"
 model = AutoModel.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
@@ -41,13 +41,13 @@ def generate_sentence_embedding(sentence, language):
     # Set adapter to specified language
     if "de" in language:
-      model.set_default_language("de_CH")
     if "fr" in language:
-      model.set_default_language("fr_CH")
     if "it" in language:
-      model.set_default_language("it_CH")
     if "rm" in language:
-      model.set_default_language("rm_CH")
     # Tokenize input sentence
     inputs = tokenizer(sentence, padding=True, truncation=True, return_tensors="pt", max_length=512)
@@ -86,11 +86,15 @@ embedding_1 = generate_sentence_embedding(sentence_1, language="de")
 embedding_2 = generate_sentence_embedding(sentence_2, language="fr")
 #Compute cosine-similarity
-cosine_score = cosine_similarity((embedding_1, embedding_2)
 #Output the score
 print("The cosine score for", sentence_1, "and", sentence_2, "is", cosine_score)
 ```
 ## Bias, Risks, and Limitations
@@ -123,8 +127,6 @@ Batch size: 512
 <!-- This section describes the evaluation protocols and provides the results. -->
-### Testing Data, Factors & Metrics
 #### Baseline
 The first baseline is [distiluse-base-multilingual-cased](https://www.sbert.net/examples/training/multilingual/README.html), a high-performing Sentence Transformer model that is able to process German, French and Italian (and more).

 from transformers import AutoModel, AutoTokenizer
 # Load swissBERT for sentence embeddings model
+model_name = "jgrosjean-mathesis/swissbert-for-sentence-embeddings"
 model = AutoModel.from_pretrained(model_name)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
     # Set adapter to specified language
     if "de" in language:
+        model.set_default_language("de_CH")
     if "fr" in language:
+        model.set_default_language("fr_CH")
     if "it" in language:
+        model.set_default_language("it_CH")
     if "rm" in language:
+        model.set_default_language("rm_CH")
     # Tokenize input sentence
     inputs = tokenizer(sentence, padding=True, truncation=True, return_tensors="pt", max_length=512)
 embedding_2 = generate_sentence_embedding(sentence_2, language="fr")
 #Compute cosine-similarity
+cosine_score = cosine_similarity(embedding_1, embedding_2)
 #Output the score
 print("The cosine score for", sentence_1, "and", sentence_2, "is", cosine_score)
 ```
+Output:
+```
+The cosine score for ['Der Zug kommt um 9 Uhr in Zürich an.'] and ['Le train arrive à Lausanne à 9h.'] is [[0.85555995]]
+```
 ## Bias, Risks, and Limitations
 <!-- This section describes the evaluation protocols and provides the results. -->
 #### Baseline
 The first baseline is [distiluse-base-multilingual-cased](https://www.sbert.net/examples/training/multilingual/README.html), a high-performing Sentence Transformer model that is able to process German, French and Italian (and more).