SentenceTransformer based on firqaaa/indo-sentence-bert-base
This is a sentence-transformers model finetuned from firqaaa/indo-sentence-bert-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: firqaaa/indo-sentence-bert-base
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 tokens
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the π€ Hub
model = SentenceTransformer("agufsamudra/trait-embedding")
# Run inference
sentences = [
'Berikut kueri pencarian trait/dna yang ringkas:\n\n1. **Kadar GGT dan fungsi hati** \n2. **Fungsi GGT dalam tubuh manusia**\n3. **Peningkatan GGT darah penyebabnya**\n\n\nSemoga membantu! π\n',
'kadar ggt ggt (gamma-glutamyl transferase) adalah enzim yang dapat ditemukan di berbagai bagian tubuh seperti paru-paru dan saluran empedu, tetapi enzim ini banyak ditemukan di hati. kadar ggt merupakan salah satu parameter yang digunakan untuk melihat fungsi hati. gamma-glutamyl transferase (ggt) adalah enzim yang ditemukan di hati yang bila kadarnya meningkat dalam darah, dapat mengindikasikan disfungsi hati atau saluran empedu.',
'gaya hidup sedentari merupakan segala kegiatan yang dilakukan kecuali saat tidur dengan keluaran kalori <1.5 mets. aktivitas dengan keluaran kalori <1.5 mets adalah posisi duduk dan berbaring. \n\\n\\n\ngaya hidup sedentari adalah gaya hidup yang tidak aktif yang dapat meningkatkan risiko terjadinya penyakit kardiovaskular, diabetes mellitus tipe 2, penyakit muskuloskeletal dan gangguan psikologis seperti cemas dan depresi. gaya hidup sedentari merujuk pada pola kehidupan yang didominasi oleh aktivitas fisik yang minim atau kurang gerakan tubuh secara teratur.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Triplet
- Dataset:
trait-validation
- Evaluated with
TripletEvaluator
Metric | Value |
---|---|
cosine_accuracy | 1.0 |
dot_accuracy | 0.0 |
manhattan_accuracy | 1.0 |
euclidean_accuracy | 1.0 |
max_accuracy | 1.0 |
Triplet
- Dataset:
trait_embedding
- Evaluated with
TripletEvaluator
Metric | Value |
---|---|
cosine_accuracy | 1.0 |
dot_accuracy | 0.0 |
manhattan_accuracy | 1.0 |
euclidean_accuracy | 1.0 |
max_accuracy | 1.0 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 532 training samples
- Columns:
query
,trait
, andtrait_negative
- Approximate statistics based on the first 532 samples:
query trait trait_negative type string string string details - min: 8 tokens
- mean: 48.12 tokens
- max: 99 tokens
- min: 13 tokens
- mean: 78.99 tokens
- max: 207 tokens
- min: 15 tokens
- mean: 79.99 tokens
- max: 207 tokens
- Samples:
query trait trait_negative Berikut kueri pencarian yang ringkas:
1. Fungsi kognitif
2. Proses mental manusia
3. Bagaimana cara otak berpikir
Semoga membantu!fungsi kognitif fungsi kognitif adalah istilah yang mengacu pada semua proses mental yang memungkinkan kita untuk berpikir, belajar, dan memahami dunia di sekitar kita. fungsi kognitif adalah istilah yang mengacu pada semua proses mental yang memungkinkan kita untuk berpikir, belajar, dan memahami dunia di sekitar kita.
batuk yang disebabkan penghambat ace (angiotensin-converting enzyme inhibitors) penghambat ace adalah salah satu jenis obat yang digunakan dalam pengobatan tekanan darah tinggi (hipertensi). penggunaan penghambat ace dapat menyebabkan efek samping berupa batuk. \n\n
laporan ini menggunakan varian genetik yang lebih banyak hadir pada orang yang mengalami efek samping terhadap penghambat ace merupakan acuan. batuk yang disebabkan oleh penghambat ace (inhibitor enzim pengubah angiotensin) adalah efek samping yang dapat terjadi sebagai respons terhadap obat-obatan tersebut, di mana penghambatan enzim tersebut dapat menyebabkan iritasi pada saluran udara, memicu batuk pada sebagian individu.Berikut kueri pencarian trait/dna tersebut:
1. "Kemawasan diri dan model kepribadian lima besar"
2. "Ciri-ciri orang bertanggung jawab dan terorganisir"
3. "Pengembangan regulasi emosi dan pertumbuhan pribadi"
Semoga membantu! πkemawasan diri merupakan salah satu elemen dari lima besar model kepribadian dan model kepribadian lima besar yang ditandai dengan kecenderungan terorganisasi, bertanggung jawab dan pekerja keras, terarah pada tujuan dan mematuhi norma atau peraturan yang ada. kemawasan diri adalah kemampuan untuk memahami dan mengenali diri sendiri secara mendalam, memungkinkan pengembangan regulasi emosi dan pertumbuhan pribadi yang optimal.
henti jantung mendadak merupakan suatu kondisi dimana jantung tiba-tiba berhenti berdetak, dan penderita akan mengalami kematian jika tidak diberikan penanganan dalam hitungan menit. serangan jantung mendadak adalah suatu kondisi yang mengancam jiwa yang terjadi ketika jantung tiba-tiba berhenti berdetak, sehingga menyebabkan terhentinya aliran darah ke tubuh.
Berikut kueri pencarian trait/dna yang ringkas:
1. sikap kooperatif
2. kepribadian ramah
3. fleksibel dalam negosiasi
Semoga membantu! πkeramahan atau kemudahan untuk bersepakat merupakan salah satu elemen dari lima besar model kepribadian yang ditandai dengan adanya kecenderungan untuk bersikap kooperatif, tidak mementingkan diri sendiri, sopan, baik dan ramah. keramahan atau kemudahan untuk bersepakat merujuk pada sikap terbuka, ramah, dan fleksibel dalam menjalani proses perundingan atau kerjasama.
penyakit jantung koroner penyakit jantung koroner (pjk) adalah kondisi dimana pembuluh darah arteri koroner yang memasok darah ke jantung mengalami penyempitan atau penyumbatan, menyebabkan kurangnya pasokan darah ke jantung. penyakit jantung koroner (pjk) adalah kondisi dimana pembuluh darah arteri koroner yang memasok darah ke jantung mengalami penyempitan atau penyumbatan, menyebabkan kurangnya pasokan darah ke jantung.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
Unnamed Dataset
- Size: 114 evaluation samples
- Columns:
query
,trait
, andtrait_negative
- Approximate statistics based on the first 114 samples:
query trait trait_negative type string string string details - min: 5 tokens
- mean: 47.66 tokens
- max: 76 tokens
- min: 16 tokens
- mean: 81.01 tokens
- max: 167 tokens
- min: 13 tokens
- mean: 82.3 tokens
- max: 201 tokens
- Samples:
query trait trait_negative Berikut kueri pencarian yang singkat dan seperti manusia:
1. Panjang telomer & penuaan
2. Indikator penuaan berdasarkan telomere
3. Telomere memengaruhi regenerasi sel
Semoga membantu! πpenuaan dan panjang telomere telomer adalah bagian paling ujung dari kromosom yang akan memendek seiring bertambahnya usia. telomer dapat dijadikan sebagai indikator proses penuaan dan kesehatan seseorang. penuaan terkait dengan panjang telomere, bagian ujung kromosom yang melibatkan kerusakan dan penurunan fungsi sel, mempengaruhi kemampuan sel untuk meregenerasi dan memainkan peran dalam proses penuaan.
urgensi negatif (negative urgency) urgensi negatif merupakan kecenderungan untuk bertindak gegabah ketika tertekan, yang ditandai dengan kecenderungan emosi negatif yang tinggi, kehati-hatian yang rendah, dan kepatuhan yang rendah. karena serangkaian karakteristik ini, urgensi negatif merupakan prediktor penting dari disfungsi eksternal. urgensi negatif merupakan kecenderungan untuk bertindak gegabah ketika tertekan, yang ditandai dengan kecenderungan emosi negatif yang tinggi, kehati-hatian yang rendah, dan kepatuhan yang rendah. karena serangkaian karakteristik ini, urgensi negatif merupakan prediktor penting dari disfungsi eksternal.
Berikut kueri pencarian trait/dna yang ringkas:
1. Pengertian kadar hematokrit
2. Fungsi kadar hematokrit
3. Kadar hematokrit dalam pemeriksaan darah
Semoga membantu!kadar hematokrit merupakan perbandingan jumlah eritrosit terhadap volume darah dalam sataun persen. kadar hematokrit digunakan sebagai salah satu parameter dalam pemeriksaan darah. tingkat hematokrit adalah ukuran proporsi sel darah merah terhadap total volume darah, yang menunjukkan kapasitas darah untuk membawa oksigen dan nutrisi.
adhd merupakan gangguan kejiwaan yang paling banyak terjadi pada anak-anak (laki-laki > perempuan) dan ditandai dengan inatensi (kesulitan untuk fokus dalam mengerjakan sesuatu), hiperaktivitas (pergerakan berlebihan yang tidak sesuai dengan tempatnya), dan impulsivitas (melakukan tindakan yang terburu-buru tanpa memikirkannya terlebih dahulu). adhd, atau attention deficit hyperactivity disorder, adalah kondisi neurodevelopmental yang ditandai oleh pola-pola yang persisten dari ketidakfokusan, impulsivitas, dan hiperaktivitas yang dapat mempengaruhi fungsi sehari-hari.
Berikut kueri pencarian trait/dna dengan maksimal 3 kata:
1. Ketergantungan penghargaan
2. Kebutuhan pujian sosial
3. Pujian dan kepribadian
Semoga membantu!ketergantungan terhadap penghargaan merupakan salah satu model kepribadian yang ditandai dengan adanya kecenderungan untuk merespons secara nyata sinyal penghargaan, terutama sinyal verbal persetujuan sosial, dukungan sosial, dan sentimen. ketergantungan terhadap penghargaan merujuk pada kondisi psikologis seseorang yang mengalami keterikatan emosional atau kebutuhan yang mendalam terhadap pujian, pengakuan, atau bentuk penghargaan lainnya dari orang lain.
ritme sirkadian merupakan siklus 24 jam tubuh manusia yang memiliki peran penting dalam siklus bangun dan tidur. ritme sirkadian adalah pola tidur-bangun selama 24 jam sehari.
ini membantu mengontrol jadwal harian anda untuk tidur dan terjaga. - Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16learning_rate
: 2e-05warmup_ratio
: 0.1batch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 3max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falsebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | trait-validation_max_accuracy | trait_embedding_max_accuracy |
---|---|---|---|
2.8824 | 51 | 1.0 | 1.0 |
Framework Versions
- Python: 3.12.3
- Sentence Transformers: 3.2.1
- Transformers: 4.47.0
- PyTorch: 2.5.1+cu124
- Accelerate: 1.1.1
- Datasets: 3.1.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 7
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
Model tree for agufsamudra/trait-embedding
Base model
firqaaa/indo-sentence-bert-baseEvaluation results
- Cosine Accuracy on trait validationself-reported1.000
- Dot Accuracy on trait validationself-reported0.000
- Manhattan Accuracy on trait validationself-reported1.000
- Euclidean Accuracy on trait validationself-reported1.000
- Max Accuracy on trait validationself-reported1.000
- Cosine Accuracy on trait embeddingself-reported1.000
- Dot Accuracy on trait embeddingself-reported0.000
- Manhattan Accuracy on trait embeddingself-reported1.000
- Euclidean Accuracy on trait embeddingself-reported1.000
- Max Accuracy on trait embeddingself-reported1.000