File size: 6,104 Bytes

---
license: apache-2.0
language:
- tr
model-index:
- name: Orbita-v0.1
  results:
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: AI2 Reasoning Challenge TR
      type: ai2_arc
      config: ARC-Challenge
      split: test
      args:
        num_few_shot: 25
    metrics:
    - type: acc
      value: 30.15
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: HellaSwag TR
      type: hellaswag
      split: validation
      args:
        num_few_shot: 10
    metrics:
    - type: acc
      value: 37.95
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: MMLU TR
      type: cais/mmlu
      config: all
      split: test
      args:
        num_few_shot: 5
    metrics:
    - type: acc
      value: 47.94
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: TruthfulQA 
      type: truthful_qa
      config: multiple_choice
      split: validation
      args:
        num_few_shot: 0
    metrics:
    - type: mc2
      value: 41.93
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: Winogrande TR
      type: winogrande
      config: winogrande_xl
      split: validation
      args:
        num_few_shot: 5
    metrics:
    - type: acc
      value: 54.42
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: GSM8k TR
      type: gsm8k
      config: main
      split: test
      args:
        num_few_shot: 5
    metrics:
    - type: acc
      value: 47.72
      name: accuracy
---

<img src="https://huggingface.co/Orbina/Orbita-v0.1/resolve/main/orbita.png"
alt="Orbita LLM" width="500"/>

# Orbita-v0.1
This model is a Turkish Large Language Model with multiple abilites across different dimensions on the Turkish Language covering a variety of Tasks like Coding,Math,... 
This model is an extended version of a Qwen-based Large Language Model (LLM) for Turkish. It was trained on a cleaned Turkish dataset carefully annotated to carry out turkish instructions in an accurate and organized manner. This model was fully finetuned extensively on 8 H100 GPU's for 2 days using a carefully annotated Turkish dataset. 
## Model Details

- **Base Model**: Qwen 14B based LLM
- **Training Dataset**: Annotated Turkish Dataset
- **Training Method**: Full Finetuning

## Usage Examples

```python

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained(
    "Orbina/Orbita-v0.1",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-14B-Chat")

prompt = "türkiyenin inflasyonu nasıl çözebiliriz?"
messages = [
    {"role": "system", "content": "Sen Orbina ai tarafından üretelen bir yapay zekasındır, soruları uygun bir şekilde cevap veriyorsun"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
```
## Example Generations

```
Prompt:

Türkiyedeki 1990-2000 arasındaki olaylar özetli bir şekilde saydır

Cevap:

Türkiye, zengin tarihi ve doğal güzellikleriyle dünya çapında ünlüdür. İşte Türkiye'de gezebileceğiniz beş popüler yer:

1. **Ege Bölgesi**: Ege Bölgesi, İzmir ve Ege şehirlerini içerir ve turkuaz suları, güzel plajları ve antik tapınaklarıyla ünlüdür.

2. **Anadolu Yarımadası**: Anadolu Yarımadası'nda bulunan Cappadocia bölgesi, volkanik dağlar ve etkileyici manzaralarıyla dikkat çeker. Göreme Kalesi gibi tarihi yapılar bu bölgede bulunur.

3. **İzmit**: İzmit bölgesindeki Sakız Adası (Sakız Adası), özellikle yaz aylarında popüler bir tatil beldesidir çünkü güzel plajları ve sıcak iklimi ile bilinir.

4. **Bodrum**: Bodrum şehri, eski bir liman şehri olup tarihi anıtlarıyla ünlüdür. Mağara müzelerine sahip olan bu şehir aynı zamanda Bodrum Sarayı'na ev sahipliği yapmaktadır.

5. **Antalya**: Antalya kentindeki Alanya kasabası veya Kaşmir bölgesindeki Kemer kasabası gibi yerlerde tatil yapabilirsiniz; burada güzel plajlara ulaşabilirsiniz veya doğayla iç içe olabilirsiniz.

Bu örneklerden yola çıkarak Türkiye'nin birçok farklı bölgeyi keşfetmek mümkündür; her bir bölge kendine has özelliklere sahip olup ziyaretçilerine unutulmaz deneyimler sunmaktadır
```

```
Prompt:

bana bir python hello world kod yaz

Cevap:


Python'da "Hello, World!" yazmak için aşağıdaki basit kodu kullanabilirsiniz:

``python

print("Hello, World!")
``

Bu kodu bir Python dosyasına yapıştırarak ve ardından bu dosyayı çalıştırarak ekrana "Hello, World!" yazısını görebilirsiniz. Örneğin, `hello_world.py` adında bir dosya oluşturup içine bu kodu kopyalayıp kaydettikten sonra komut satırında (terminalde) şu komutu kullanarak çalıştırabilirsiniz:

``bash
python hello_world.py
``

Eğer Python yüklü değilse veya farklı bir Python sürümü kullanıyorsanız (örneğin Python 2), uygun olan komutları kullanmalısınız.
```

# [Open LLM Turkish Leaderboard Evaluation Results](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard)

|             Metric              |Value|
|---------------------------------|----:|
|Avg.                             |43.26|
|AI2 Reasoning Challenge_tr       |30.15|
|HellaSwag_tr                     |37.95|
|MMLU_tr                          |47.94|
|TruthfulQA_tr                    |41.93|
|Winogrande _tr                   |54.42|
|GSM8k_tr                         |47.72|