File size: 6,104 Bytes
ec25a6e
1240f58
 
 
e3f7268
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ec25a6e
 
70b712a
1240f58
ec25a6e
1240f58
04bf1ce
1240f58
ec25a6e
 
1240f58
 
 
ec25a6e
1240f58
ec25a6e
1240f58
ec25a6e
1240f58
 
ec25a6e
1240f58
0d8b104
1240f58
 
 
 
ec25a6e
1240f58
 
 
 
 
 
 
 
 
 
 
ec25a6e
1240f58
 
 
 
 
 
 
ec25a6e
1240f58
04bf1ce
 
 
27622fa
04bf1ce
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
27622fa
04bf1ce
 
f2a8d72
04bf1ce
 
 
2999cfc
 
 
 
 
 
 
 
04bf1ce
ec25a6e
dd082d7
04bf1ce
ac93226
ec25a6e
04bf1ce
 
b2dee45
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
---
license: apache-2.0
language:
- tr
model-index:
- name: Orbita-v0.1
  results:
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: AI2 Reasoning Challenge TR
      type: ai2_arc
      config: ARC-Challenge
      split: test
      args:
        num_few_shot: 25
    metrics:
    - type: acc
      value: 30.15
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: HellaSwag TR
      type: hellaswag
      split: validation
      args:
        num_few_shot: 10
    metrics:
    - type: acc
      value: 37.95
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: MMLU TR
      type: cais/mmlu
      config: all
      split: test
      args:
        num_few_shot: 5
    metrics:
    - type: acc
      value: 47.94
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: TruthfulQA 
      type: truthful_qa
      config: multiple_choice
      split: validation
      args:
        num_few_shot: 0
    metrics:
    - type: mc2
      value: 41.93
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: Winogrande TR
      type: winogrande
      config: winogrande_xl
      split: validation
      args:
        num_few_shot: 5
    metrics:
    - type: acc
      value: 54.42
      name: accuracy
  - task:
      type: text-generation
      name: Text Generation
    dataset:
      name: GSM8k TR
      type: gsm8k
      config: main
      split: test
      args:
        num_few_shot: 5
    metrics:
    - type: acc
      value: 47.72
      name: accuracy
---

<img src="https://huggingface.co/Orbina/Orbita-v0.1/resolve/main/orbita.png"
alt="Orbita LLM" width="500"/>

# Orbita-v0.1
This model is a Turkish Large Language Model with multiple abilites across different dimensions on the Turkish Language covering a variety of Tasks like Coding,Math,... 
This model is an extended version of a Qwen-based Large Language Model (LLM) for Turkish. It was trained on a cleaned Turkish dataset carefully annotated to carry out turkish instructions in an accurate and organized manner. This model was fully finetuned extensively on 8 H100 GPU's for 2 days using a carefully annotated Turkish dataset. 
## Model Details

- **Base Model**: Qwen 14B based LLM
- **Training Dataset**: Annotated Turkish Dataset
- **Training Method**: Full Finetuning

## Usage Examples

```python

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained(
    "Orbina/Orbita-v0.1",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-14B-Chat")

prompt = "türkiyenin inflasyonu nasıl çözebiliriz?"
messages = [
    {"role": "system", "content": "Sen Orbina ai tarafından üretelen bir yapay zekasındır, soruları uygun bir şekilde cevap veriyorsun"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
```
## Example Generations

```
Prompt:

Türkiyedeki 1990-2000 arasındaki olaylar özetli bir şekilde saydır

Cevap:

Türkiye, zengin tarihi ve doğal güzellikleriyle dünya çapında ünlüdür. İşte Türkiye'de gezebileceğiniz beş popüler yer:

1. **Ege Bölgesi**: Ege Bölgesi, İzmir ve Ege şehirlerini içerir ve turkuaz suları, güzel plajları ve antik tapınaklarıyla ünlüdür.

2. **Anadolu Yarımadası**: Anadolu Yarımadası'nda bulunan Cappadocia bölgesi, volkanik dağlar ve etkileyici manzaralarıyla dikkat çeker. Göreme Kalesi gibi tarihi yapılar bu bölgede bulunur.

3. **İzmit**: İzmit bölgesindeki Sakız Adası (Sakız Adası), özellikle yaz aylarında popüler bir tatil beldesidir çünkü güzel plajları ve sıcak iklimi ile bilinir.

4. **Bodrum**: Bodrum şehri, eski bir liman şehri olup tarihi anıtlarıyla ünlüdür. Mağara müzelerine sahip olan bu şehir aynı zamanda Bodrum Sarayı'na ev sahipliği yapmaktadır.

5. **Antalya**: Antalya kentindeki Alanya kasabası veya Kaşmir bölgesindeki Kemer kasabası gibi yerlerde tatil yapabilirsiniz; burada güzel plajlara ulaşabilirsiniz veya doğayla iç içe olabilirsiniz.

Bu örneklerden yola çıkarak Türkiye'nin birçok farklı bölgeyi keşfetmek mümkündür; her bir bölge kendine has özelliklere sahip olup ziyaretçilerine unutulmaz deneyimler sunmaktadır
```

```
Prompt:

bana bir python hello world kod yaz

Cevap:


Python'da "Hello, World!" yazmak için aşağıdaki basit kodu kullanabilirsiniz:

``python

print("Hello, World!")
``

Bu kodu bir Python dosyasına yapıştırarak ve ardından bu dosyayı çalıştırarak ekrana "Hello, World!" yazısını görebilirsiniz. Örneğin, `hello_world.py` adında bir dosya oluşturup içine bu kodu kopyalayıp kaydettikten sonra komut satırında (terminalde) şu komutu kullanarak çalıştırabilirsiniz:

``bash
python hello_world.py
``

Eğer Python yüklü değilse veya farklı bir Python sürümü kullanıyorsanız (örneğin Python 2), uygun olan komutları kullanmalısınız.
```

# [Open LLM Turkish Leaderboard Evaluation Results](https://huggingface.co/spaces/malhajar/OpenLLMTurkishLeaderboard)

|             Metric              |Value|
|---------------------------------|----:|
|Avg.                             |43.26|
|AI2 Reasoning Challenge_tr       |30.15|
|HellaSwag_tr                     |37.95|
|MMLU_tr                          |47.94|
|TruthfulQA_tr                    |41.93|
|Winogrande _tr                   |54.42|
|GSM8k_tr                         |47.72|