SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 on the experiment_data_knowledge_distillation_vs_fine_tuning dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("hatemestinbejaia/mMiniLML-bi-encoder-KD-v1-Student_TripletLoss-Teacher_marginloss-adptativeMargin-lambda002C")
# Run inference
sentences = [
    'تحديد المسح',
    'المسح أو مسح الأراضي هو تقنية ومهنة وعلم تحديد المواقع الأرضية أو ثلاثية الأبعاد للنقاط والمسافات والزوايا بينها . يطلق على أخصائي مسح الأراضي اسم مساح الأراضي .',
    'إجمالي المحطات . تعد المحطات الإجمالية واحدة من أكثر أدوات المسح شيوعا المستخدمة اليوم . وهي تتألف من جهاز ثيودوليت إلكتروني ومكون إلكتروني لقياس المسافة ( EDM ) . تتوفر أيضا محطات روبوتية كاملة تتيح التشغيل لشخص واحد من خلال التحكم في الجهاز باستخدام جهاز التحكم عن بعد . تاريخ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Reranking

Metric Value
map 0.5791
mrr@10 0.585
ndcg@10 0.6491

Training Details

Training Dataset

experiment_data_knowledge_distillation_vs_fine_tuning

  • Dataset: experiment_data_knowledge_distillation_vs_fine_tuning at 4fe4924
  • Size: 5,000,000 training samples
  • Columns: query, pos, neg, and label
  • Approximate statistics based on the first 1000 samples:
    query pos neg label
    type string string string float
    details
    • min: 4 tokens
    • mean: 11.16 tokens
    • max: 70 tokens
    • min: 21 tokens
    • mean: 95.09 tokens
    • max: 128 tokens
    • min: 24 tokens
    • mean: 94.0 tokens
    • max: 128 tokens
    • min: -4.05
    • mean: 13.0
    • max: 22.64
  • Samples:
    query pos neg label
    متى تسمم السالمونيلا كيفية علاج السالمونيلا . غالبا ما ينتج تسمم السالمونيلا عن ملامسة الماء أو الطعام الملوث ببكتيريا السالمونيلا . يمكن أن يسبب الحمى والإسهال وتقلصات في البطن ، وغالبا ما يشار إليه بالتسمم الغذائي . تحدث الأعراض في غضون 2 إلى 48 ساعة ويمكن أن تستمر حتى 7 أيام . عادة ما تختفي من تلقاء نفسها ، ولكن يمكن أن تظهر المضاعفات في حالات نادرة . راجع الخطوة 1 لمعرفة كيفية علاج تسمم السالمونيلا وتجنبه في المستقبل . يمكن أن يسبب الحمى والإسهال وتقلصات في البطن ، وغالبا ما يشار إليه بالتسمم الغذائي . تحدث الأعراض في غضون 2 إلى 48 ساعة ويمكن أن تستمر حتى 7 أيام . عادة ما تختفي من تلقاء نفسها ، ولكن يمكن أن تظهر المضاعفات في حالات نادرة . راجع الخطوة 1 لمعرفة كيفية علاج تسمم السالمونيلا وتجنبه في المستقبل . 1.3407052357991542
    ما هي خطة الرعاية المنسقة خطة الرعاية المنسقة هي خطة مكتوبة أو إلكترونية يتم إنشاؤها وصيانتها من قبل المريض . وأسرته ، وفريق الرعاية الصحية بما في ذلك الأطباء الاستشاريين عند الاقتضاء ، و . عند الضرورة ، خدمات المجتمع . ويحدد احتياجات المريض القصيرة والطويلة الأجل ، والتعافي . ضرورة الجودة : يضع التشريع النموذجي للولاية للرعاية المدارة نهجا شاملا ومتكاملا وموحدا لتوفير حماية المستهلك وضمان الجودة في خطط الرعاية المدارة . يدعم تحالف المستهلكين من أجل جودة الرعاية الصحية هذا النهج لجميع أنظمة تقديم الرعاية الصحية . لغرض هذا التقرير ، تم استخدام تعريف واسع لخطة الرعاية المدارة . تعرف خطة الرعاية المدارة بأنها أي خطة توظف شبكة من مقدمي الخدمات المشاركين وتضمن توفير المزايا الصحية لسكان محددين مقابل مدفوعات ثابتة . 10.702445447444916
    في أي عام كان المطر الأرجواني في المسرح ؟ بالنسبة للموسيقيين ، لم يكن واضحا إلى أين يتجه كل شيء . بعد عام واحد تقريبا ، في 28 يوليو 1984 ، تم افتتاح Purple Rain في 900 مسارح في جميع أنحاء الولايات المتحدة . استعاد تكلفته البالغة 7 ملايين دولار في عطلة نهاية الأسبوع الأولى ، واستمر في تصفية ما يقرب من 70 مليون دولار في شباك التذاكر . الغابات الاستوائية المطيرة عبارة عن غابة من الأشجار الطويلة في منطقة تتميز بالدفء على مدار العام . يسقط ما متوسطه من 50 إلى 260 بوصة ( 125 إلى 660 سم ) من الأمطار سنويا ، تنتمي الغابات المطيرة إلى مجموعة المناخ الاستوائي الرطب . نادرا ما ترتفع درجة الحرارة في الغابة المطيرة عن 93 درجة فهرنهايت ( 34 درجة مئوية ) أو تنخفض إلى أقل من 68 درجة فهرنهايت ( 20 درجة مئوية ) ؛ يتراوح متوسط الرطوبة بين 77 و 88 ٪ ؛ غالبا ما يكون هطول الأمطار أكثر من 100 بوصة في السنة ، والغابات الاستوائية المطيرة عبارة عن غابة من الأشجار الطويلة في منطقة من الدفء على مدار العام . ما متوسطه 50 إلى 260 بوصة ( 125 إلى 660 سم ) من المطر سنويا . 20.240688880284626
  • Loss: main.MarginMSELoss

Evaluation Dataset

experiment_data_knowledge_distillation_vs_fine_tuning

  • Dataset: experiment_data_knowledge_distillation_vs_fine_tuning at 4fe4924
  • Size: 10,000 evaluation samples
  • Columns: query, pos, neg, and label
  • Approximate statistics based on the first 1000 samples:
    query pos neg label
    type string string string float
    details
    • min: 3 tokens
    • mean: 10.94 tokens
    • max: 33 tokens
    • min: 23 tokens
    • mean: 91.74 tokens
    • max: 128 tokens
    • min: 24 tokens
    • mean: 87.33 tokens
    • max: 128 tokens
    • min: -0.75
    • mean: 13.72
    • max: 22.62
  • Samples:
    query pos neg label
    ما هو اسم د . كوين اعرض الشخصيات المختلفة التي لعبها نفس الممثل . الدكتورة ميكايلا كوين . ولدت ميكايلا في 15 فبراير 1833 في بوسطن ، ماساتشوستس ، لأبوين جوزيف وإليزابيث كوين . هناك نشأت مع شقيقاتها الأربع : ماري ( التي تم تغيير اسمها إلى ريبيكا ) ، ومارجوري ، وكلوديت ، ومورين . كان والدها يريد ابنا ، لذلك عندما ولدت أطلق عليها اسم ميكايلا ( الملقب مايك ) . ليس لدى د . ماكفارلاند أي تأمينات مدرجة . إذا كنت دكتور ماكفارلاند وترغب في إضافة تأمينات تقبلها ، يرجى تحديث ملفك التعريفي المجاني . الانتساب إلى المستشفى ينتمي د . ماكفارلاند إلى المستشفيات التالية . 15.524045944213867
    من يلعب دور بيرني مادوف ساحر الأكاذيب هو واحد من اثنين من مشاريع Madoff التلفزيونية قيد الإعداد . ABC لديها مسلسل قصير قادم يسمى مادوف ، من بطولة ريتشارد دريفوس وبليث دانر . قصص ذات الصلة . روبرت دي نيرو يسجل الدخول للعب بيرني مادوف في فيلم HBO المحتمل . اتهمت السلطات الأمريكية مسؤول تنفيذي للمحاسبة يزعم أنه ساعد برنارد مادوف في مخطط بونزي الذي تبلغ تكلفته عدة مليارات من الدولارات ، والذي يوسع نطاق تحقيقه في الاحتيال بعد خمس سنوات من اكتشافه . 13.17703644434611
    كم قدم مكعب في طن من حصى البازلاء لذلك 1 طن لديه 2000 - 100 أو 20 قدم مكعب من الحصى . الفناء المكعب هو 3x3x3 = 27 قدما مكعبا من الفناء المكعب ، الإجابة 20 - 27 أو 0 . 74 ياردة مكعبة . العوامل الأخرى التي تؤثر على حجم الحصى هي محتوى الرطوبة ودرجات المواد . يحتوي حصى البازلاء على سبيل المثال على جميع الجزيئات ذات الحجم المحدد ، على سبيل المثال ، 1 - 4 بوصة ، حوالي 120 رطلا للإشارة فقط : 1 قدم مكعب = 6 . 25 جالون ( إمبراطوري ) ، جالون من الماء يزن 10 أرطال ، لذا فإن القدم المكعبة من الماء تزن 62 . 5 رطلا . هذا يعني أن الجاذبية النوعية للحصى هي 120 - 62 . 5 ، أو أقل قليلا من 2 . 1 كيس قدم مكعب واحد ( التربة والمهاد ) يغطي ما يقرب من 8 أقدام مربعة إلى عمق 3 . 2 كيس واحد 75 رطلا ( الحصى والرمل ) يغطي حوالي 4 أقدام مربعة إلى عمق 3 . 3 بوصات سميكة ستغطي حوالي 300 قدم مربع . سيغطي سمك 1 حوالي 150 قدما مربعا . 10.34702980518341
  • Loss: main.MarginMSELoss

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 128
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True
  • half_precision_backend: amp
  • remove_unused_columns: False
  • load_best_model_at_end: True
  • fp16_backend: amp

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: amp
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: False
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: amp
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss map
0.0512 2000 0.1807 0.1185 0.4863
0.1024 4000 0.1165 0.1009 0.5063
0.1536 6000 0.1009 0.0905 0.5420
0.2048 8000 0.0914 0.0836 0.5455
0.2560 10000 0.0847 0.0813 0.5556
0.3072 12000 0.08 0.0742 0.5651
0.3584 14000 0.0761 0.0747 0.5623
0.4096 16000 0.0731 0.0692 0.5570
0.4608 18000 0.0704 0.0672 0.5724
0.5120 20000 0.0677 0.0650 0.5688
0.5632 22000 0.0656 0.0624 0.5653
0.6144 24000 0.064 0.0608 0.5875
0.6656 26000 0.0622 0.0596 0.5721
0.7168 28000 0.0609 0.0594 0.5694
0.7680 30000 0.0599 0.0574 0.5757
0.8192 32000 0.0588 0.0573 0.5779
0.8704 34000 0.0582 0.0571 0.5842
0.9216 36000 0.0577 0.0567 0.5797
0.9728 38000 0.0571 0.0559 0.5791
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.9
  • Sentence Transformers: 3.4.1
  • Transformers: 4.49.0
  • PyTorch: 2.4.1+cu121
  • Accelerate: 1.4.0
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MarginMSELoss

@misc{hofstätter2021improving,
    title={Improving Efficient Neural Ranking Models with Cross-Architecture Knowledge Distillation},
    author={Sebastian Hofstätter and Sophia Althammer and Michael Schröder and Mete Sertkan and Allan Hanbury},
    year={2021},
    eprint={2010.02666},
    archivePrefix={arXiv},
    primaryClass={cs.IR}
}
@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
12
Safetensors
Model size
118M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for hatemestinbejaia/mMiniLML-bi-encoder-KD-v1-Student_TripletLoss-Teacher_marginloss-adptativeMargin-lambda002C

Dataset used to train hatemestinbejaia/mMiniLML-bi-encoder-KD-v1-Student_TripletLoss-Teacher_marginloss-adptativeMargin-lambda002C

Evaluation results