OrdalieTech
/

Solon-embeddings-large-0.1

Feature Extraction

text-embeddings-inference

Model card Files Files and versions Community

netapy commited on Dec 10, 2023

Commit

2a0485d

·

1 Parent(s): 37356d6

Update README.md

Files changed (1) hide show

README.md +41 -51

README.md CHANGED Viewed

@@ -1,55 +1,45 @@
 ---
 tags:
-- generated_from_trainer
-model-index:
-- name: solon-large-06-BIG
-  results: []
 ---
-<!-- This model card has been generated automatically according to the information the Trainer had access to. You
-should probably proofread and complete it, then remove this comment. -->
-# solon-large-06-BIG
-This model was trained from scratch on an unknown dataset.
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
-## Training procedure
-### Training hyperparameters
-The following hyperparameters were used during training:
-- learning_rate: 1e-06
-- train_batch_size: 32
-- eval_batch_size: 8
-- seed: 42
-- distributed_type: multi-GPU
-- num_devices: 4
-- total_train_batch_size: 128
-- total_eval_batch_size: 32
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
-- lr_scheduler_type: linear
-- num_epochs: 20.0
-- mixed_precision_training: Native AMP
-### Training results
-### Framework versions
-- Transformers 4.35.2
-- Pytorch 2.1.1+cu121
-- Datasets 2.3.2
-- Tokenizers 0.15.0

 ---
+pipeline_tag: sentence-similarity
 tags:
+- feature-extraction
+- sentence-similarity
+license: mit
+language:
+- fr
+- en
 ---
+# Solon Embeddings — large 0.1
+SOTA Open source french embedding model.
+| Model | Mean Score |
+| --- | --- |
+| **OrdalieTech/Solon-embeddings-large-0.1** | 0.749 |
+| cohere/embed-multilingual-v3 | 0.7402 |
+| **OrdalieTech/Solon-embeddings-base-0.1** | 0.7306 |
+| openai/ada-002 | 0.7290 |
+| cohere/embed-multilingual-light-v3 | 0.6945 |
+| antoinelouis/biencoder-camembert-base-mmarcoFR | 0.6826 |
+| dangvantuan/sentence-camembert-large | 0.6756 |
+| voyage/voyage-01 | 0.6753 |
+| intfloat/multilingual-e5-large | 0.6660 |
+| intfloat/multilingual-e5-base | 0.6597 |
+| Sbert/paraphrase-multilingual-mpnet-base-v2 | 0.5975 |
+| dangvantuan/sentence-camembert-base | 0.5456 |
+| EuropeanParliament/eubert_embedding_v1 | 0.5063 |
+These results have been obtained through 9 french benchmarks on a variety of text similarity tasks (classification, reranking, STS) :
+- AmazonReviewsClassification (MTEB)
+- MassiveIntentClassification (MTEB)
+- MassiveScenarioClassification (MTEB)
+- MTOPDomainClassification (MTEB)
+- MTOPIntentClassification (MTEB)
+- STS22 (MTEB)
+- MiraclFRRerank (Miracl)
+- OrdalieFRSTS (Ordalie)
+- OrdalieFRReranking (Ordalie)
+We created OrdalieFRSTS and OrdalieFRReranking to enhance the benchmarking capabilities of French STS and reranking assessments.
+(evaluation script available here : github.com/OrdalieTech/mteb)