kaixkhazaki's picture
Update README.md
66e92b1 verified
metadata
library_name: transformers
license: mit
base_model: dbmdz/bert-base-turkish-cased
tags:
  - generated_from_trainer
datasets:
  - boun-tabi/squad_tr
metrics:
  - f1
model-index:
  - name: turkish-question-answering
    results:
      - task:
          name: Question Answering
          type: question-answering
        dataset:
          name: squad_tr
          type: squad_tr
          config: default
          split: train
          args: default
        metrics:
          - name: F1
            type: f1
            value: 62.01517218037583
language:
  - tr
pipeline_tag: question-answering

turkish-question-answering

This model is a fine-tuned version of dbmdz/bert-base-turkish-cased on the boun-tabi/squad_tr dataset.

The train data was splitted (90-10) and the splitted 10% used as new evaluation set.

It achieves the following results on the evaluation set:

  • Loss: 1.2786
  • Exact Match: 50.3568
  • F1: 62.0152

Model description

More information needed

Usage

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("question-answering", model="kaixkhazaki/turkish-question-answering")


#Enter your text and question

#Example 

context= """
            Nazım Hikmet, Türk edebiyatının en önemli şairlerinden biridir. 
            Şiirleri genellikle özgürlük, eşitlik ve adalet temalarını işler. 
            15 Ocak 1902'de Selanik'te doğan şair, yaşamı boyunca birçok zorlukla mücadele etti.
            """
question = "Nazım Hikmet hangi temalar üzerinde yazmıştır?"

pipe(question=question, context=context)
>>
{'score': 0.7749845385551453,
 'start': 110,
 'end': 137,
 'answer': 'özgürlük, eşitlik ve adalet'}

#Example

context = """
             Hiperbarik (yüksek basınçlı) tıp, hastanın ve gerektiğinde tıbbi personelin çevresindeki
             kısmi O\n2 basıncını artırmak için özel oksijen odaları kullanır. Karbonmonoksit zehirlenmesi,
             gazlı kangren ve dekompresyon hastalığı (‘vurgun’) bazen bu cihazlar kullanılarak tedavi edilir.
             Akciğerlerde artırılan O\n2 konsantrasyonu, karbonmonoksitin hemoglobin hem grubundan ayrılmasına yardımcı olur.
             Oksijen gazı, gaz kangrenine neden olan anaerobik bakteriler için zehirlidir, bu nedenle kısmi basıncının artırılması,
             onları öldürmeye yardımcı olur. Dekompresyon hastalığı, bir dalıştan sonra çok hızlı bir şekilde dekompresyon yapan
             dalgıçlarda ortaya çıkar, bu da kanlarında çoğunlukla azot ve helyum olan soy gaz kabarcıkları oluşmasına neden olur.
             O\n2 basıncının mümkün olan en kısa sürede arttırılması tedavinin bir parçasıdır.'
            """

question= "Karbonmonoksit zehirlenmesi gibi çeşitli durumları tedavi etmek için hangi cihaz kullanılır?"

pipe(question=question, context=context)

>>
{'score': 0.3743631839752197,
 'start': 155,
 'end': 170,
 'answer': 'oksijen odaları'}

Intended uses & limitations

Training and evaluation data

@misc{budur-etal-2024-squad-tr,
      title={Building Efficient and Effective OpenQA Systems for Low-Resource Languages}, 
      author={Emrah Budur and R{\i}za \"{O}z\c{c}elik and
              Dilara Soylu and Omar Khattab and
              Tunga G\"{u}ng\"{o}r and Christopher Potts},
      year={2024},
      eprint={2401.03590},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 3e-05
  • train_batch_size: 16
  • eval_batch_size: 64
  • seed: 42
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_steps: 500
  • num_epochs: 3

Training results

Training Loss Epoch Step Validation Loss Exact Match F1
3.0349 0.0335 200 2.7893 0.0 0.0067
2.3253 0.0670 400 2.1518 11.7680 15.5697
2.0108 0.1006 600 2.0181 19.2455 23.7003
1.9105 0.1341 800 1.8422 24.4161 28.9644
1.893 0.1676 1000 1.7602 29.6921 35.4185
1.7635 0.2011 1200 1.7062 26.7003 31.6106
1.8434 0.2347 1400 1.6456 31.7693 38.0953
1.6387 0.2682 1600 1.6191 29.2502 35.6592
1.6512 0.3017 1800 1.5874 36.6594 44.5029
1.6318 0.3352 2000 1.5478 31.1712 37.5434
1.6269 0.3688 2200 1.5439 37.7275 45.9815
1.5866 0.4023 2400 1.5259 33.2852 40.1296
1.5102 0.4358 2600 1.5545 31.8182 38.3162
1.5253 0.4693 2800 1.4899 41.2113 50.4395
1.4366 0.5028 3000 1.4812 40.2321 49.6351
1.6307 0.5364 3200 1.4455 41.1860 49.6116
1.4605 0.5699 3400 1.4304 38.4629 46.3922
1.4125 0.6034 3600 1.4257 41.0046 50.8304
1.4126 0.6369 3800 1.4215 41.3979 50.7890
1.5035 0.6705 4000 1.3847 39.6329 48.5817
1.3627 0.7040 4200 1.4561 29.0115 34.8629
1.4172 0.7375 4400 1.3951 45.1590 55.5680
1.4262 0.7710 4600 1.3571 42.7241 51.8206
1.3756 0.8046 4800 1.3717 43.1109 51.3852
1.3978 0.8381 5000 1.4136 48.0715 59.8789
1.4521 0.8716 5200 1.3389 41.3291 50.7222
1.4738 0.9051 5400 1.3281 38.1464 45.8767
1.372 0.9387 5600 1.3212 44.6938 54.1932
1.414 0.9722 5800 1.3104 45.1054 55.2289
1.3008 1.0057 6000 1.3411 45.8649 56.2610
1.0646 1.0392 6200 1.4034 39.6067 47.5529
1.0405 1.0727 6400 1.4081 42.7331 51.7438
1.0141 1.1063 6600 1.4326 40.6200 49.2831
1.1305 1.1398 6800 1.3429 46.5557 56.9270
1.0131 1.1733 7000 1.3695 48.7474 60.3360
1.1332 1.2068 7200 1.3221 44.8748 54.8693
1.1572 1.2404 7400 1.3601 49.7453 60.7304
1.0497 1.2739 7600 1.3221 48.4678 59.5859
1.1202 1.3074 7800 1.2960 42.6078 52.2938
1.1005 1.3409 8000 1.3422 49.1114 60.8679
1.0976 1.3745 8200 1.3270 46.8241 57.5165
1.1028 1.4080 8400 1.2932 45.9230 57.3813
0.9758 1.4415 8600 1.3032 45.1296 55.6205
1.0391 1.4750 8800 1.2878 48.0178 58.6035
1.1021 1.5085 9000 1.2840 48.8204 59.6174
1.0591 1.5421 9200 1.3227 46.5811 57.0738
1.0742 1.5756 9400 1.2771 44.4915 54.2228
1.1314 1.6091 9600 1.3067 49.2240 60.6819
1.0721 1.6426 9800 1.2839 46.6994 57.4786
1.1123 1.6762 10000 1.2718 47.7972 59.1149
1.0766 1.7097 10200 1.2688 49.3350 61.0489
1.1244 1.7432 10400 1.2575 48.4543 59.6361
1.0744 1.7767 10600 1.2788 48.7775 59.4327
1.0186 1.8103 10800 1.2620 48.6458 59.9898
0.9617 1.8438 11000 1.3137 43.1942 52.7838
0.9996 1.8773 11200 1.2786 50.3568 62.0152
0.9281 1.9108 11400 1.2849 46.7113 56.7769
1.0331 1.9444 11600 1.2693 46.9996 57.3083
1.0482 1.9779 11800 1.2636 44.8373 54.6672
0.7695 2.0114 12000 1.3635 45.9601 56.4656
0.7887 2.0449 12200 1.4005 48.8684 60.5211
0.782 2.0784 12400 1.3826 49.2449 59.9969
0.7674 2.1120 12600 1.3707 47.4254 58.1781
0.7597 2.1455 12800 1.3924 48.4130 59.9062
0.7555 2.1790 13000 1.3777 47.3922 58.6007
0.7261 2.2125 13200 1.4037 50.1306 61.4821
0.7681 2.2461 13400 1.4149 48.0112 59.3190
0.7899 2.2796 13600 1.3700 46.4242 56.9562

Framework versions

  • Transformers 4.48.0.dev0
  • Pytorch 2.4.1+cu121
  • Datasets 2.20.0
  • Tokenizers 0.21.0