SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-mpnet-base-v2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("abdulrehman1998/bge-base-en-v1.5-finetuned_ragds_v1")
# Run inference
sentences = [
    'المشتبه به بتنفيذ هجوم ليون يعترف بجريمته\n اعترف ياسين صالحي المتهم بالهجوم على مصنع للغاز قرب مدينة ليون شرق فرنسا وقتله شخصا بطريقة وحشية اعترف بارتكابه الجريمة منفذ هجوم ليون يبدأ الإدلاء باعترافاته واعترف صالحي عاما للمحققين بأنه قتل إرفيه كورنارا الذي عمل معه في موقف للسيارات قبل قيادة سيارته إلى المصنع في منطقة سان كونتان فالافييه حيث حاول التسبب في انفجار بالمكان وكان فحص أحد الهواتف لصالحي كشف التقطاه صورة سيلفي مع الرأس المقطوعة قبل اعتقاله وكان أرسل الصورة عبر واتساب إلى رقم هاتف كندي وقال مصدر قريب من التحقيق في فرنسا الأحد يونيو حزيران إن الشرطة ربطت بينه وبين متشدد موجود الآن في سوريا وأضاف أن رقم الهاتف يخص مواطنا فرنسيا في سوريا منذ العام الماضي وذكرت تقارير إعلامية فرنسية أن الصالحي أبلغ الشرطة أنه اختلف مع كورنارا قبل ارتكابه الجريمة وأكد أحد زملائهما في العمل أن الرجلين اختلفا قبل يومين   ',
    'أدان ياسين صالحي المتهم بالهجوم على مصنع للغاز قرب ليون فرنسا قتلا شخصا بطريقة وحشية. اعترف صالحي بارتكابه الجريمة وبدأ الإدلاء باعترافاته. كشفت التحقيقات أن صالحي أرسل صورة سيلفي مع الرأس المقطوعة قبل اعتقاله عبر واتساب إلى رقم هاتف كندي.',
    'هنأ الرئيس الروسي فلاديمير بوتين نظيره الكازاخستاني نور سلطان نزاربايف بعيد ميلاده الـ75، وتعبر عن إسهامه الشخصي في تطوير علاقات التحالف والشراكة الاستراتيجية بين روسيا وكازاخستان. وأشاد بوتين بعمل نزاربايف في ضمان السلام والوفاق وبناء دولة ديمقراطية حديثة في كازاخستان. كما هنأ نزاربايف بعيد ميلاده ومنحه وسام ألكسندر نيفسكي.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 4,001 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 128 tokens
    • mean: 128.0 tokens
    • max: 128 tokens
    • min: 38 tokens
    • mean: 84.99 tokens
    • max: 128 tokens
  • Samples:
    positive anchor
    فيديو .. ثلاثون عاماً على كارثة ملعب هيسل
    أحيا العالم الذكرى الثلاثين على مجزرة ملعب هيسل في العاصمة البلجيكية بروكسل التي ذهب ضحيتها شخصا إضافة إلى إصابة أعداد كبيرة وقد حدثت مأساة مروعة في الـ من مايو أيار عام قبل ساعة من بداية المباراة النهائية لبطولة كأس الأندية الأوروبية بين يوفنتوس الإيطالي وليفربول الإنكليزي في ملعب هيسل بالعاصمة البلجيكية بروكسل حينها قامت مجموعة كبيرة من الهولينغنز وهم مشجعو ليفربول بكسر سياج هش يفصل بينهم وبين جماهير يوفنتوس فحصل تدافع كبير أدى إلى انهياره ومقتل شخصا وإصابة عدد كبير من المشجعين وجرت المباراة رغم الكارثة وانتهت بفوز يوفنتوس على ليفربول بهدف وحيد سجله ميشيل بلاتيني الرئيس الحالي للاتحاد الأوروبي لكرة القدم من ركلة جزاء واستعاد بلاتيني الذكرى بالقول قبل عاماً شاركت في نهائي كأس أوروبا للأندية بإستاد هيسيل في بروكسل وواصلت اللعب في هذه المباراة النهائية وأضاف لم تغب أبدا هذه الليلة عن تفكيري ولم تسقط أيضا من ذاكرة أي شخص كان موجودا في تلك الليلة كما يتذكرها جميع من فقدوا أحباء لهم والذين تغيرت حياتهم خلال دقائق معدودة وتابع بلاتيني قوله بعد عاماً أنا رئيس الاتحاد الأوروبي لكرة القدم المنظمة التي نظمت هذه المباراة وأنا أعمل كل يوم مع زملائي وأصدقائي في الاتحادات الوطنية وبطولات الدوري والأندية لضمان عدم تكرار أحداث تلك الليلة المرعبة وتسببت الكارثة في حرمان الأندية الإنكليزية من المشاركة في المسابقات الأوربية لفترة بلغت مواسم فيما حُرم ليفربول من المشاركة لمدة مواسم
    عاشر عاماً على كارثة ملعب هيسل في بروكسل، حيث قتل شخص واحد وإصيب الكثيرين نتيجة تدافع كبير بين مشجعي ليفربول ويوفنتوس قبل المباراة النهائية لبطولة كأس الأندية الأوروبية. قام الرئيس الحالي للاتحاد الأوروبي لكرة القدم ميشيل بلاتيني بالذكرى هذه الكارثة والتحذير من تكرارها. الكارثة أدت إلى حرمان الأندية الإنكليزية من المشاركة في المسابقات الأوربية لفترة طويلة.
    كفيتوفا ترافق إيراني إلى رابع أدوار رولان غاروس .. (صور)
    تأهلت التشيكية بترا كفيتوفا والإيطالية ساره إيراني إلى الدور الرابع لبطولة فرنسا المفتوحة ثانية البطولات الأربع الكبرى للتنس التي تقام حاليا على ملاعب رولان غاروس الرملية واجتازت بترا كفيتوفا المصنفة رابعة عقبة منافستها الرومانية إرينا كاميليا بيغو المصنفة بفوزها عليها بمجموعتين متتاليتين بنتيجة و في المباراة التي جرت بينهما السبت مايو أيار وستكون بترا في الدور المقبل على موعد مع السويسرية تيميا باشينسكي المصنفة الـ التي تغلبت بدورها على الأمريكية ماديسون كيز بمجموعتين من دون رد بواقع و بينما جاء تأهل ساره إيراني على حساب الألمانية أندريا بيتكوفيتش المصنفة عاشرة عقب فوزها عليها بمجموعتين متتاليتين بنتيجة واحدة و وستلعب ساره المصنفة في الدور الرابع مع الألمانية الأخرى جوليا جورجيس الفائزة على الأمريكية إيرينا فالكوني بالنتيجة ذاتها بمجموعتين متتاليتين بواقع و
    تأهلت بترا كفيتوفا التشيكية وساره إيراني الإيطالية إلى الدور الرابع لبطولة فرنسا المفتوحة بعد فوزيهما على منافستيهما. سوف يلعب بترا ضد تيميا باشينسكي السويسرية، بينما سوف يلعب ساره ضد جوليا جورجيس الألمانية.
    أرسنال بطلا لكأس الاتحاد الإنكليزي للمرة الـ 12 في تاريخه
    أحرز أرسنال لقب مسابقة كأس الاتحاد الإنكليزي لكرة القدم على حساب أستون فيلا بفوزه عيله في المباراة النهائية التي جمعتهما السبت مايو أيار في ملعب ويمبلي بالعاصمة لندن وتوالى على تسجيل رباعية المدفعجية كل من ثيو والكوت والمهاجم التشيلي أليكسيس سانشيز والمدافع الألماني بير ميرتيساكر والمهاجم الفرنسي أوليفيه جيرو في الدقائق الـ و و و على التوالي وفاز أرسنال بلقب بطل كأس الاتحاد الإنكليزي للمرة الـ في تاريخه وانفرد بالرقم القياسي بفارق لقب عن مانشستر يونايتد صاحب المركز الثاني وقاد الفرنسي أرسين فينغر مدرب أرسنال فريقه إلى رفع الكأس للمرة السادسة منذ توليه تدريب الكنرز في عام وكرر بذلك الإنجاز التاريخي الذي حققه جورج رامساي مدرب أستون فيلا بفوزه باللقب ست مرات بين عامي و بينما أخفق أستون فيلا في الفوز بلقب طال انتظاره كثيرا إذ لم يعانق الكأس منذ عام وتوقف رصيده عند سبعة ألقاب ويتقاسم مع ليفربول وتشيلسي المركز الرابع بفارق لقب خلف توتنهام صاحب المركز الثالث
    أحرز أرسنال لقب كأس الاتحاد الإنكليزي لكرة القدم للمرة الـ 12 في تاريخه، بعد فوزه على أستون فيلا في المباراة النهائية. سجل أربعة أهداف في المباراة، كل من ثيو والكوت وأليكسيس سانشيز وبير ميرتيساكر وأوليفيه جيرو. هذا اللقب هو السادس الذي يفوز به أرسنال منذ تولي أرسين فينغر تدريب الفريق.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 998 evaluation samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 128 tokens
    • mean: 128.0 tokens
    • max: 128 tokens
    • min: 50 tokens
    • mean: 86.91 tokens
    • max: 128 tokens
  • Samples:
    positive anchor
    منتدى الجيش – 2015 العسكري الدولي يكشف عن منظومة إسكندر الروسية الجديدة (فيديو)
    نسخة جديدة لمنظومة إسكندر أم للصواريخ التكتيكية سيكشف عنها منتدى الجيش العسكري التقني الدولي الذي يقام في الفترة يونيو حزيران الجاري بضواحي موسكو وقال المتحدث باسم المنطقة العسكرية الغربية للقوات المسلحة الروسية العقيد كوتشيتكوف إن المنظومة تتصف بقدرات نارية عالية وبدقة إطلاق الصواريخ وبتدمير الأهداف بشتى أنواعها وبالقدرة على المناورة وستتاح للمشاركين في المنتدى وضيوفه فرصة للاطلاع على هذا السلاح الخطير ويمكنهم التقاط صور فوتوغرافية للمنظومة التي ستكون في حالة الاستعداد لإطلاق الصواريخ يذكر أن المنظومة لم يكشف سابقا عن مواصفاتها وقدراتها في حالة الاستعداد القتالي باستثناء سيرها في داخل المسيرة الميكانيكية في الاستعراض العسكري يوم عيد النصر بموسكو يوم مايو أيار الماضي جدير بالذكر أن منظومة إسكندر يمكنها أن تتزود بمختلف أنواع الصواريخ بما فيها الصواريخ الباليستية والصواريخ المجنحة التي يبلغ مدى إطلاقها كيلومتر سلاح روسيا
    كشف منتدى الجيش العسكري الدولي عن منظومة إسكندر الروسية الجديدة، والتي تتصف بقدرات نارية عالية وبدقة إطلاق الصواريخ. ستتاح الفرصة للاطلاع على هذا السلاح الخطير خلال المنتدى، والذي سيكون في حالة الاستعداد لإطلاق الصواريخ. يمكن أن تتزود المنظومة بمختلف أنواع الصواريخ، بما فيها الصواريخ الباليستية والصواريخ المجنحة.
    إيران تعزي عائلات الضحايا السعوديين في مشهد
    قدمت إيران الأربعاء يونيو حزيران تعازيها لعائلات الضحايا الأربع بعد واقعة تسميم زوار سعوديين في مدينة مشهد إيران اعتقال أشخاص لهم صلة بتسميم زوار سعوديين في مشهد الرياض تستدعي السفير الإيراني إثر حادث التسمم الذي تعرض له سعوديون في إيران وقالت المتحدثة باسم الخارجية الإيرانية مرضية أفخم نأسف لما حصل ونقدم أحر تعازينا للعائلات التي فقدت أقاربها وأضافت أن إيران معروفة بحسن ضيافتها آملة في أن تحل هذه المسألة في أسرع وقت يأتي هذا التصريح بعد استدعاء وزارة الخارجية السعودية الثلاثاء السفير الإيراني في الرياض مطالبة السلطات الإيرانية بكشف ظروف وملابسات حادثة التسمم الجماعي الذي تسبب في مقتل سعوديين وإصابة آخرين بتسمم في فندق في مدينة مشهد شمالي إيران يذكر أن جميع من لقوا حتفهم كانوا من الأطفال أكبرهم طفلة تبلغ عاما و أطفال دون سن الثالثة وقد تسمموا جميعا بمادة تستخدم في رش المبيدات الحشرية بالفندق أ ف ب
    قدمت إيران تعازيها لعائلات الضحايا السعوديين الذين توفيوا نتيجة تسميم في مدينة مشهد الإيرانية، ونقدم أحر تعازينا للعائلات التي فقدت أقاربها. وتعهدت إيران بالتحقيق في الحادثة والكشف عن ملابساتها. وقد تم استدعاء السفير الإيراني في الرياض بعد الحادثة.
    بوتين: كافة عناصر تسوية الأزمة الأوكرانية حاضرة في اتفاقات مينسك
    أعلن الرئيس الروسي فلاديمير بوتين أن موسكو وروما متفقتان على أن لا بديل عن الطرق السلمية لتسوية الأزمة في أوكرانيا وأن إيطاليا تدعو بدورها إلى تنفيذ اتفاقات مينسك بالكامل وقال بوتين إن اتفاقات مينسك تنطوي على كافة عناصر التسوية الرئيسية السياسية والعسكرية والاقتصادية الاجتماعية والإنسانية للأزمة إلا أنها لا تنفذ بالكامل بل بشكل انتقائي وبشأن العلاقات مع مجموعة أكد الرئيس بوتين أن روسيا مستعدة لتطوير العلاقات الثنائية مع دول السبع الكبار إذا أرادت الأخيرة ذلك وقال بوتين ردا على سؤال من الصحفيين لا توجد لدينا أية علاقات مع مجموعة السبع الكبار مشيرا في الوقت ذاته إلى أن هذه المجموعة لم تمثل أبدا منظمة دولية بل هي منتدى للقوى الكبرى لتبادل الآراء يتخذ قرارات غير ملزمة وأضاف الرئيس الروسي أن هناك أطرا ومنظمات أخرى للتعاون والحوار بين الدول مشيرا إلى مجموعة العشرين ومنظمة شنغهاي للتعاون وأشار بوتين إلى أن موسكو عملت بنشاط في إطار وكانت تقدم وجهة نظر بديلة في هذه المجموعة قائلا قرر شركاؤنا أنهم ليسوا بحاجة إلى هذه الرؤية البديلة إن ذلك قرارهم وتمنى الرئيس الروسي النجاح لمجموعة مضيفا أن أية اتصالات ومناقشات يجب أن تخدم كما يبدو لي تطوير العلاقات الدولية بدوره أكد رئيس الوزراء الإيطالي أن الأجندة الدولية حاليا معقدة جدا وروسيا هي من أهم اللاعبين الدوليين إلى جانب أوروبا وأمريكا داعيا إلى التعاون من أجل مواجهة التحديات المشتركة والإرهاب الدولي قبل كل شيء وأشار رينتسي إلى أن تنشيط التطرف والإرهاب يؤدي إلى قتل مدنيين مسالمين ويبقى الخط الأحمر معربا عن قناعته بأن الحوار مع موسكو بشأن مكافحة الإرهاب سيستمر موفدة قناة إلى روما
    أعلن الرئيس الروسي فلاديمير بوتين أن موسكو وروما متفقتان على أن لا بديل عن الطرق السلمية لتسوية الأزمة في أوكرانيا، وأن اتفاقات مينسك تنطوي على كافة عناصر التسوية الرئيسية. وأكد أن روسيا مستعدة لتطوير العلاقات الثنائية مع دول السبع الكبار إذا أرادت الأخيرة ذلك. وأضاف أن هناك أطرا ومنظمات أخرى للتعاون والحوار بين الدول، مثل مجموعة العشرين ومنظمة شنغهاي للتعاون.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 10
  • per_device_eval_batch_size: 10
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 10
  • per_device_eval_batch_size: 10
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss loss
0.1247 50 0.0336 -
0.2494 100 0.0158 0.0090
0.3741 150 0.0131 -
0.4988 200 0.0627 0.0054
0.6234 250 0.0379 -
0.7481 300 0.0719 0.0050
0.8728 350 0.055 -
0.9975 400 0.0069 0.0039

Framework Versions

  • Python: 3.11.2
  • Sentence Transformers: 3.0.1
  • Transformers: 4.43.3
  • PyTorch: 2.4.0+cu121
  • Accelerate: 0.34.2
  • Datasets: 3.0.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply}, 
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
19
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for abdulrehman1998/bge-base-en-v1.5-finetuned_ragds_v1