SentenceTransformer based on Alibaba-NLP/gte-multilingual-base

This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Alibaba-NLP/gte-multilingual-base
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("anhtuansh/gte-multilingual-base-Matryoshka-2e-11k")
# Run inference
sentences = [
    'thời_hạn giải_quyết việc gia_hạn thời_gian học_tập cho lưu học_sinh để hoàn_thành khóa học như sau : tối_đa 20 ngày làm_việc kể từ ngày nhận đủ hồ_sơ hợp_lệ .',
    'tôi muốn hỏi về gia_hạn thời_gian học_tập cho lưu học_sinh để hoàn_thành khóa học , có thời_hạn giải_quyết như thế_nào ?',
    'thành_phần hồ_sơ giải_quyết chế_độ hỗ_trợ đối_với người việt_nam có công với cách_mạng quy_định tại nghị_định số 102 / 2018 / nđ - cp ngày 20 / 7 / 2018 của chính_phủ về chế_độ hỗ_trợ và một_số chế_độ đãi_ngộ khác đối_với người việt_nam có công với cách_mạng , người tham_gia kháng_chiến , chiến_tranh bảo_vệ tổ_quốc và làm nhiệm_vụ quốc_tế đang định_cư ở nước_ngoài ( nghị_định số 102 / 2018 / nđ - cp ) , bao_gồm những giấy_tờ gì ?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_512
cosine_accuracy@1 0.5503 0.5556
cosine_accuracy@3 0.7152 0.7099
cosine_accuracy@5 0.7716 0.7646
cosine_accuracy@10 0.8183 0.8131
cosine_precision@1 0.5503 0.5556
cosine_precision@3 0.2384 0.2366
cosine_precision@5 0.1543 0.1529
cosine_precision@10 0.0818 0.0813
cosine_recall@1 0.5503 0.5556
cosine_recall@3 0.7152 0.7099
cosine_recall@5 0.7716 0.7646
cosine_recall@10 0.8183 0.8131
cosine_ndcg@10 0.6853 0.6844
cosine_mrr@10 0.6425 0.6431
cosine_map@100 0.6477 0.6489

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 10,200 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 4 tokens
    • mean: 320.87 tokens
    • max: 3689 tokens
    • min: 10 tokens
    • mean: 59.35 tokens
    • max: 421 tokens
  • Samples:
    positive anchor
    1 . thẩm_quyền cấp giấy_phép tổ_chức triển_lãm , hội_chợ xuất_bản_phẩm được quy_định cụ_thể như sau : - bộ thông_tin và truyền_thông cấp giấy_phép cho cơ_quan , tổ_chức ở trung_ương ; cơ_quan , tổ_chức , cá_nhân nước_ngoài ; - ủy_ban nhân_dân cấp tỉnh cấp giấy_phép cho cơ_quan , tổ_chức , cá_nhân có trụ_sở hoặc cư_trú tại địa_phương ; chi_nhánh , văn_phòng đại_diện , đơn_vị trực_thuộc cơ_quan , tổ_chức ở trung_ương đặt tại địa_phương . 2 . hồ_sơ bao_gồm : - đơn đề_nghị cấp giấy_phép trong đó ghi rõ mục_đích , thời_gian , địa_điểm và tên các đơn_vị tham_gia triển_lãm , hội_chợ ; - danh_mục xuất_bản_phẩm để triển_lãm , hội_chợ theo mẫu quy_định . ( quy_định tại khoản 2 , 3 điều 44 luật xuất_bản ) hồ_sơ và thẩm_quyền cấp giấy_phép tổ_chức triển_lãm , hội_chợ xuất_bản_phẩm được quy_định cụ_thể như thế_nào ?
    - trường_hợp mất danh_mục và phiếu theo_dõi trừ lùi thì người khai hải_quan có hồ_sơ đề_nghị cơ_quan hải_quan nơi cấp danh_mục lần đầu_đề_nghị cấp lại , bao_gồm :
    + công_văn đề_nghị cấp lại danh_mục , phiếu theo_dõi trừ lùi trong đó nêu rõ : lý_do mất danh_mục , phiếu theo_dõi trừ lùi và cam_kết của người khai hải_quan về tính chính_xác của nội_dung khai_báo ;
    + bảng kê toàn_bộ tờ khai hải_quan ( điện_tử hoặc giấy ) của số_lượng hàng_hóa đã nhập_khẩu theo danh_mục ;
    + bản danh_mục và phiếu theo_dõi trừ lùi của cơ_quan hải_quan nơi làm thủ_tục nhập_khẩu lô hàng cuối_cùng trước khi thất_lạc ( 01 bản chụp có xác_nhận của cơ_quan hải_quan nơi nhập_khẩu ) .
    - khi làm thủ_tục hải_quan , người khai hải_quan nộp , xuất_trình cho cơ_quan hải_quan nơi đăng_ký tờ khai hải_quan các hồ_sơ sau :
    + hồ_sơ hải_quan theo quy_định hiện_hành ;
    + danh_mục hàng_hóa và phiếu theo_dõi trừ lùi đã đăng_ký với cơ_quan hải_quan ( bản giao người khai hải_quan ) để cơ_quan hải_quan làm thủ_tục thực_hiện...
    trường_hợp tôi làm mất danh_mục và phiếu theo_dõi trừ lùi hàng_hóa_nhập_khẩu dung_môi n - hexan dùng trong sản_xuất khô_dầu đậu_tương và dầu thực_vật , cám gạo trích ly và dầu cám thì cần làm những thủ_tục gì ?
    thẩm_quyền cấp giấy chứng_nhận cơ_sở đủ điều_kiện đăng_kiểm tàu cá là : tổng_cục thủy_sản . thẩm_quyền cấp giấy chứng_nhận cơ_sở đủ điều_kiện đăng_kiểm tàu cá ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 1,134 evaluation samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 4 tokens
    • mean: 336.57 tokens
    • max: 3862 tokens
    • min: 7 tokens
    • mean: 59.17 tokens
    • max: 864 tokens
  • Samples:
    positive anchor
    việc thực_hiện thủ_tục tặng_thưởng bằng khen cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương về thành_tích đột_xuất được tiến_hành như sau :
    bước 1 . vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương tiếp_nhận đề_nghị khen_thưởng của các đơn_vị thực thuộc .
    bước 2 . thẩm_định hồ_sơ , xin ý_kiến các cơ_quan liên_quan , báo_cáo hội_đồng thi_đua khen_thưởng cùng cấp , tổng_hợp trình bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố quyết_định khen_thưởng .
    bước 3 . khi có quyết_định của bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố trực_thuộc trung_ương ; vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương thông_báo quyết_định , viết bằng , đóng_dấu và cấp_phát cho đơn_vị trình khen .
    bước 4 . các trường_hợp không được khen_thưởng ( không đúng đối_tượng , không đủ tiêu_chuẩn , không đủ ...
    đề_nghị cho biết trình_tự thực_hiện thủ_tục tặng_thưởng bằng khen cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương về thành_tích đột_xuất
    bông_thủy_tinh chống cháy là vật_liệu chống cháy , thuộc danh_mục phương_tiện pccc quy_định phụ_lục v nghị_định số 79 / 2014 / nđ - cp ngày 31 / 7 / 2014 quy_định chi_tiết thi_hành một_số điều của luật phòng cháy và chữa_cháy và luật sửa_đổi , bổ_sung một_số điều của luật phòng cháy và chữa_cháy . do đó , nếu đưa vào sử_dụng trong hạng_mục pccc của công_trình thì phải kiểm_định về pccc. tuy_nhiên , đối_với vật_liệu bông thủy_tinh cách_nhiệt chống cháy được các cơ_quan , tổ_chức , cá_nhân cần xem_xét tùy vào yêu_cầu cụ_thể của công_trình để đăng_ký kiểm_định “ tính nguy_hiểm cháy ” đối_với vật_liệu đó hoặc “ giới_hạn chịu_lửa ” của kết_cấu sử_dụng vật_liệu đó . thành_phần hồ_sơ đề_nghị kiểm_định được quy_định tại điểm a khoản 4 điều 18 thông_tư 66 / 2014 / tt - bca ngày 16 / 12 / 2014 quy_định chi_tiết thi_hành một_số điều của nghị_định số 79 / 2014 / nđ - cp ngày 31 / 7 / 2014 quy_định chi_tiết thi_hành một_số điều của luật phòng cháy và chữa_cháy và luật sửa_đổi , bổ_sung một_số điều ... bông_thủy_tinh cách_nhiệt chống cháy có phải kiểm_định không ? thành_phần hồ_sơ đề_nghị kiểm_định như thế_nào ?
    thẻ thường_trú không có thời_hạn nhưng định_kỳ 10 năm một lần , người nước_ngoài thường_trú phải đến nộp hồ_sơ tại phòng quản_lý xuất , nhập_cảnh công_an tỉnh , thành_phố trực_thuộc trung_ương để đề_nghị cấp đổi thẻ thường_trú . thẻ thường_trú có thời_hạn không ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • tf32: False
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss dim_768_cosine_ndcg@10 dim_512_cosine_ndcg@10
0 0 - - 0.5662 0.5644
0.0039 10 0.1692 - - -
0.0078 20 0.3949 - - -
0.0118 30 0.2216 - - -
0.0157 40 0.2554 - - -
0.0196 50 0.1446 - - -
0.0235 60 0.1345 - - -
0.0275 70 0.2128 - - -
0.0314 80 0.1289 - - -
0.0353 90 0.0532 - - -
0.0392 100 0.1749 - - -
0.0431 110 0.1318 - - -
0.0471 120 0.0704 - - -
0.0510 130 0.0431 - - -
0.0549 140 0.4482 - - -
0.0588 150 0.1473 - - -
0.0627 160 0.3725 - - -
0.0667 170 0.1792 - - -
0.0706 180 0.065 - - -
0.0745 190 0.0173 - - -
0.0784 200 0.2006 - - -
0.0824 210 0.439 - - -
0.0863 220 0.2171 - - -
0.0902 230 0.0668 - - -
0.0941 240 0.1011 - - -
0.0980 250 0.0176 - - -
0.1020 260 0.1538 - - -
0.1059 270 0.1334 - - -
0.1098 280 0.3126 - - -
0.1137 290 0.0102 - - -
0.1176 300 0.2042 - - -
0.1216 310 0.0053 - - -
0.1255 320 0.3044 - - -
0.1294 330 0.0729 - - -
0.1333 340 0.1016 - - -
0.1373 350 0.0458 - - -
0.1412 360 0.0479 - - -
0.1451 370 0.0621 - - -
0.1490 380 0.0026 - - -
0.1529 390 0.173 - - -
0.1569 400 0.0134 - - -
0.1608 410 0.0586 - - -
0.1647 420 0.0247 - - -
0.1686 430 0.0106 - - -
0.1725 440 0.0069 - - -
0.1765 450 0.0303 - - -
0.1804 460 0.1574 - - -
0.1843 470 0.0543 - - -
0.1882 480 0.209 - - -
0.1922 490 0.2385 - - -
0.1961 500 0.0014 - - -
0.2 510 0.1301 - - -
0.2039 520 0.0075 - - -
0.2078 530 0.0148 - - -
0.2118 540 0.0143 - - -
0.2157 550 0.0477 - - -
0.2196 560 0.0092 - - -
0.2235 570 0.121 - - -
0.2275 580 0.0062 - - -
0.2314 590 0.0879 - - -
0.2353 600 0.1005 - - -
0.2392 610 0.3175 - - -
0.2431 620 0.0047 - - -
0.2471 630 0.1038 - - -
0.2510 640 0.0528 - - -
0.2549 650 0.2159 - - -
0.2588 660 0.0294 - - -
0.2627 670 0.0045 - - -
0.2667 680 0.0077 - - -
0.2706 690 0.0276 - - -
0.2745 700 0.0061 - - -
0.2784 710 0.032 - - -
0.2824 720 0.233 - - -
0.2863 730 0.0048 - - -
0.2902 740 0.0298 - - -
0.2941 750 0.0004 - - -
0.2980 760 0.0339 - - -
0.3020 770 0.2882 - - -
0.3059 780 0.0199 - - -
0.3098 790 0.006 - - -
0.3137 800 0.0617 - - -
0.3176 810 0.0442 - - -
0.3216 820 0.0095 - - -
0.3255 830 0.0045 - - -
0.3294 840 0.0246 - - -
0.3333 850 0.0005 - - -
0.3373 860 0.0375 - - -
0.3412 870 0.0414 - - -
0.3451 880 0.0835 - - -
0.3490 890 0.0505 - - -
0.3529 900 0.0046 - - -
0.3569 910 0.0889 - - -
0.3608 920 0.015 - - -
0.3647 930 0.0046 - - -
0.3686 940 0.0238 - - -
0.3725 950 0.0626 - - -
0.3765 960 0.018 - - -
0.3804 970 0.0383 - - -
0.3843 980 0.0555 - - -
0.3882 990 0.0405 - - -
0.3922 1000 0.0379 - - -
0.3961 1010 0.0019 - - -
0.4 1020 0.015 - - -
0.4039 1030 0.0462 - - -
0.4078 1040 0.0657 - - -
0.4118 1050 0.0245 - - -
0.4157 1060 0.0057 - - -
0.4196 1070 0.0316 - - -
0.4235 1080 0.0309 - - -
0.4275 1090 0.0083 - - -
0.4314 1100 0.0099 - - -
0.4353 1110 0.0051 - - -
0.4392 1120 0.0023 - - -
0.4431 1130 0.0058 - - -
0.4471 1140 0.027 - - -
0.4510 1150 0.028 - - -
0.4549 1160 0.0115 - - -
0.4588 1170 0.0649 - - -
0.4627 1180 0.1375 - - -
0.4667 1190 0.0462 - - -
0.4706 1200 0.0076 - - -
0.4745 1210 0.2884 - - -
0.4784 1220 0.1072 - - -
0.4824 1230 0.0655 - - -
0.4863 1240 0.003 - - -
0.4902 1250 0.001 - - -
0.4941 1260 0.0182 - - -
0.4980 1270 0.0782 - - -
0.5020 1280 0.0006 - - -
0.5059 1290 0.0561 - - -
0.5098 1300 0.019 - - -
0.5137 1310 0.0041 - - -
0.5176 1320 0.0199 - - -
0.5216 1330 0.0035 - - -
0.5255 1340 0.0388 - - -
0.5294 1350 0.0082 - - -
0.5333 1360 0.0038 - - -
0.5373 1370 0.0062 - - -
0.5412 1380 0.0143 - - -
0.5451 1390 0.036 - - -
0.5490 1400 0.0042 - - -
0.5529 1410 0.0927 - - -
0.5569 1420 0.0438 - - -
0.5608 1430 0.0034 - - -
0.5647 1440 0.0115 - - -
0.5686 1450 0.0076 - - -
0.5725 1460 0.0035 - - -
0.5765 1470 0.2002 - - -
0.5804 1480 0.0119 - - -
0.5843 1490 0.0144 - - -
0.5882 1500 0.0003 - - -
0.5922 1510 0.0563 - - -
0.5961 1520 0.0079 - - -
0.6 1530 0.001 - - -
0.6039 1540 0.0594 - - -
0.6078 1550 0.1215 - - -
0.6118 1560 0.0027 - - -
0.6157 1570 0.0451 - - -
0.6196 1580 0.0016 - - -
0.6235 1590 0.0021 - - -
0.6275 1600 0.0017 - - -
0.6314 1610 0.011 - - -
0.6353 1620 0.0069 - - -
0.6392 1630 0.0171 - - -
0.6431 1640 0.1518 - - -
0.6471 1650 0.095 - - -
0.6510 1660 0.0095 - - -
0.6549 1670 0.0037 - - -
0.6588 1680 0.001 - - -
0.6627 1690 0.0003 - - -
0.6667 1700 0.0355 - - -
0.6706 1710 0.0163 - - -
0.6745 1720 0.0131 - - -
0.6784 1730 0.0114 - - -
0.6824 1740 0.0291 - - -
0.6863 1750 0.0079 - - -
0.6902 1760 0.0075 - - -
0.6941 1770 0.0838 - - -
0.6980 1780 0.0128 - - -
0.7020 1790 0.1947 - - -
0.7059 1800 0.0219 - - -
0.7098 1810 0.0909 - - -
0.7137 1820 0.0052 - - -
0.7176 1830 0.0237 - - -
0.7216 1840 0.0028 - - -
0.7255 1850 0.0664 - - -
0.7294 1860 0.0146 - - -
0.7333 1870 0.0157 - - -
0.7373 1880 0.0654 - - -
0.7412 1890 0.0036 - - -
0.7451 1900 0.0001 - - -
0.7490 1910 0.0595 - - -
0.7529 1920 0.0432 - - -
0.7569 1930 0.0287 - - -
0.7608 1940 0.0042 - - -
0.7647 1950 0.0946 - - -
0.7686 1960 0.0064 - - -
0.7725 1970 0.0102 - - -
0.7765 1980 0.0148 - - -
0.7804 1990 0.0008 - - -
0.7843 2000 0.0019 - - -
0.7882 2010 0.1745 - - -
0.7922 2020 0.0045 - - -
0.7961 2030 0.1492 - - -
0.8 2040 0.2533 - - -
0.8039 2050 0.0009 - - -
0.8078 2060 0.0814 - - -
0.8118 2070 0.0005 - - -
0.8157 2080 0.0098 - - -
0.8196 2090 0.0615 - - -
0.8235 2100 0.0132 - - -
0.8275 2110 0.0006 - - -
0.8314 2120 0.0547 - - -
0.8353 2130 0.0024 - - -
0.8392 2140 0.0131 - - -
0.8431 2150 0.1234 - - -
0.8471 2160 0.019 - - -
0.8510 2170 0.0027 - - -
0.8549 2180 0.0035 - - -
0.8588 2190 0.0165 - - -
0.8627 2200 0.0767 - - -
0.8667 2210 0.076 - - -
0.8706 2220 0.0082 - - -
0.8745 2230 0.0584 - - -
0.8784 2240 0.0141 - - -
0.8824 2250 0.0042 - - -
0.8863 2260 0.0356 - - -
0.8902 2270 0.0003 - - -
0.8941 2280 0.0031 - - -
0.8980 2290 0.0171 - - -
0.9020 2300 0.083 - - -
0.9059 2310 0.0026 - - -
0.9098 2320 0.0127 - - -
0.9137 2330 0.0088 - - -
0.9176 2340 0.024 - - -
0.9216 2350 0.1174 - - -
0.9255 2360 0.0578 - - -
0.9294 2370 0.0034 - - -
0.9333 2380 0.0706 - - -
0.9373 2390 0.0261 - - -
0.9412 2400 0.0006 - - -
0.9451 2410 0.0027 - - -
0.9490 2420 0.0119 - - -
0.9529 2430 0.0075 - - -
0.9569 2440 0.0063 - - -
0.9608 2450 0.0028 - - -
0.9647 2460 0.0363 - - -
0.9686 2470 0.0004 - - -
0.9725 2480 0.0016 - - -
0.9765 2490 0.0018 - - -
0.9804 2500 0.1138 - - -
0.9843 2510 0.0046 - - -
0.9882 2520 0.0327 - - -
0.9922 2530 0.0497 - - -
0.9961 2540 0.0826 - - -
1.0 2550 0.0011 0.0172 0.6853 0.6844
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.3.1
  • Transformers: 4.41.2
  • PyTorch: 2.4.0
  • Accelerate: 0.29.3
  • Datasets: 2.19.1
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
0
Safetensors
Model size
305M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for anhtuansh/gte-multilingual-base-Matryoshka-1e-11k

Finetuned
(34)
this model

Evaluation results