File size: 6,738 Bytes
f9d3ff1
9885aa9
c42743f
 
e4646cc
329eaed
7b6494e
9885aa9
 
 
 
 
 
 
7cdfb7c
bcf798a
 
36b345b
 
 
 
329eaed
 
a3c5952
6445352
36b345b
f4b292b
24f13b3
01c0f58
e133c41
24f13b3
 
 
 
 
b84c39f
24f13b3
 
 
 
 
f66dc83
e133c41
 
 
 
 
 
826949e
 
 
 
 
24f13b3
826949e
 
 
 
 
 
 
 
 
 
 
cf4f846
15cd42f
 
24f13b3
 
15cd42f
 
24f13b3
50345a8
24f13b3
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
e133c41
24f13b3
50345a8
1ea67f4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
50345a8
1ea67f4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7411649
 
 
 
 
 
 
 
fd0928f
7411649
dd5bb09
 
7411649
 
 
24f13b3
e133c41
 
 
 
 
 
 
 
 
24f13b3
 
 
 
 
 
 
 
 
 
 
 
 
15cd42f
24f13b3
 
15cd42f
 
 
 
24f13b3
 
 
15cd42f
 
 
bb635fe
24f13b3
 
 
 
 
 
15cd42f
24f13b3
 
 
 
 
 
 
 
 
 
 
 
 
 
 
e133c41
24f13b3
7cdfb7c
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
---
datasets:
- jerteh/cc100-sr-jerteh
- jerteh/SrpWiki
- jerteh/SrpELTeC
- srwac
- procesaur/STARS
language:
- sr
tags:
- Srpski
- Serbian
- GPT2
- generisanje
license: cc-by-sa-4.0
pipeline_tag: text-generation
widget:
- text: Kada bi čovek znao gde će pasti,
- text: Jednom davno,
- text: Srbija je
- text: Najbolji lek za stres je
---


<h4><!--<i class="highlight-container"><b class="highlight">sr-gpt2-large</b></i> je sada -->

  <i class="highlight-container"><b class="highlight">gpt2-orao</b></i> — 
Najveći generativni model za srpski jezik.</h4>

<img src="cover.png" class="cover">
<div id="zastava">
  <div class="grb">
    <img src="https://www.ai.gov.rs/img/logo_60x120-2.png" style="position:relative; left:30px; z-index:10; height:85px">
  </div>
  <table width=100% style="border:0px">
    <tr style="background-color:#C6363C;width:100%;border:0px;height:30px"><td style="width:100vw"></td></tr>
    <tr style="background-color:#0C4076;width:100%;border:0px;height:30px"><td></td></tr>
    <tr style="background-color:#ffffff;width:100%;border:0px;height:30px"><td></td></tr>
  </table>
</div>


<ul style="font-weight:bold">
    <li>Generiše novi tekst, ili nastavlja započeti tekstualni unos</li>
    <li>Zasnovan na GPT2-large arhitekturi, 810 miliona parametara</li>
    <li>Obučavan na korpusu srpskog jezika veličine 4 milijarde tokena</li>
    <li>Jednaka podrška unosa i na ćirilici i na latinici!</li>
</ul>

## Upotreba

```python
>>> from transformers import pipeline, set_seed
>>> generator = pipeline('text-generation', model='jerteh/gpt2-orao')
>>> set_seed(23)
>>> generator("", max_length=30, num_return_sequences=5)
```

```
[{'generated_text': 'Ja, međutim, ne idem na Adu - kaže Miodrag.'},
{'generated_text': 'Domaćinstvo se nalazilo na mestu zvanom Kulina (ranije Kulina Vakuf) i bilo je jedno od najvećih i naj'},
{'generated_text': 'Regionalne razlike se uglavnom odnose na geografski položaj, geografsko-geografski položaj i ekonomsku razvijenost.'},
{'generated_text': 'Od tada do danas Srbija ne stoji na nogama'},
{'generated_text': 'Iz tog razloga, na ovaj način se postiže bolja efikasnost rada, odnosno smanjuje se vreme potrebno za sprovođenje simulacije.'}]
```

Pored navedenih, model je obučavan i na ostalim korpusima [Društva za jezičke resurse i tehnologije](https://jerteh.rs),
uključujući korpuse savremenog srpskog jezika: SrpKor2013 i SrpKor2021,
kao i korpus [PDRS 1.0](https://www.clarin.si/repository/xmlui/handle/11356/1752) razvijen od strane Instituta za Srpski jezik SANU.

<h4>U slučaju potrebe za manjim modelom, pogledajte <a href="https://huggingface.co/jerteh/gpt2-vrabac" class="highlight-container">
  <b class="highlight">gpt2-vrabac</b></a> — manji model obučen na istom korpusu.</h4>

<div class="inline-flex flex-col" style="line-height: 1.5;padding-right:40px">
  <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">Autor</div>
    <a href="https://huggingface.co/procesaur">  
      <div class="flex">
          <div
  			style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%; 
            background-size: cover; background-image: url(&#39;https://cdn-uploads.huggingface.co/production/uploads/1673534533167-63bc254fb8c61b8aa496a39b.jpeg?w=200&h=200&f=face&#39;)">
          </div>
      </div>
    </a>
    <div style="text-align: center; font-size: 16px; font-weight: 800">Mihailo Škorić</div>
    <div>  
      <a href="https://huggingface.co/procesaur">
      	<div style="text-align: center; font-size: 14px;">@procesaur</div>
      </a>
    </div>
  </div>
</div>

<div class="inline-flex flex-col" style="line-height: 1.5;padding-right:40px"> 
  <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">Computation</div>
    <a href="https://www.ai.gov.rs/">  
      <div class="flex">
          <div
  			style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%; 
            background-size: contain; background-image: url(https://www.ai.gov.rs/img/logo_60x120-2.png);background-repeat: no-repeat;
  background-position: center;">
          </div>
      </div>
    </a>
    <div style="text-align: center; font-size: 16px; font-weight: 800" title="nVidia DGX-zasnovan sistem">Nacionalna AI platforma</div>
    <div>  
      <a href="https://www.ai.gov.rs/">
      	<div style="text-align: center; font-size: 14px;">ai.gov.rs</div>
      </a>
    </div>
  </div>
</div>

<div class="inline-flex flex-col" style="line-height: 1.5;padding-right:40px"> 
  <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">Data</div>
    <a href="https://jerteh.rs/">  
      <div class="flex">
          <div
  			style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%; 
            background-size: contain; background-image: url(https://cdn-avatars.huggingface.co/v1/production/uploads/1673601491672-63bc254fb8c61b8aa496a39b.png?w=200&h=200&f=face);background-repeat: no-repeat;
  background-position: center;">
          </div>
      </div>
    </a>
    <div style="text-align: center; font-size: 16px; font-weight: 800" title="Društvo za jezičke resurse i tehnologije">JeRTeh</div>
    <div>  
      <a href="https://huggingface.co/jerteh">
      	<div style="text-align: center; font-size: 14px;">@jerteh</div>
      </a>
    </div>
  </div>
</div>

## Citiranje

```bibtex
@article{skoric24modeli,
  author    = {Mihailo \vSkori\'c},
  title     = {Novi jezi\vcki modeli za srpski jezik},
  journal   = {Infoteka},
  volume    = {24},
  issue     = {1},
  year      = {2024},
  publisher = {Zajednica biblioteka univerziteta u Srbiji, Beograd},
  url       = {https://arxiv.org/abs/2402.14379}
}
```

<style>
  .ffeat: {
  color:red
  }
  
  .cover {
    width: 100%;
    margin-bottom: 5pt
  }
  
.highlight-container, .highlight {
  position: relative;
  text-decoration:none
}

.highlight-container {
  display: inline-block;
  
}

.highlight{
  color:white;
  text-transform:uppercase;
  font-size: 16pt;
}

  .highlight-container{
    padding:5px 10px
  }

.highlight-container:before {
  content: " ";
  display: block;
  height: 100%;
  width: 100%;
  margin-left: 0px;
  margin-right: 0px;
  position: absolute;
  background: #e80909;
  transform: rotate(2deg);
  top: -1px;
  left: -1px;
  border-radius: 20% 25% 20% 24%;
  padding: 10px 18px 18px 10px;
}

div.grb, #zastava>table {
  position:absolute;
  top:0px;
  left: 0px;
  margin:0px
}

  div.grb>img, #zastava>table{
    margin:0px
  }
  
#zastava {
  position: relative;
  margin-bottom:120px
}
</style>