File size: 3,196 Bytes
807f105
a6fd1e5
6497ef2
a6fd1e5
 
 
 
 
 
 
 
807f105
5131d63
 
599e1b0
07ffb5a
a6fd1e5
07ffb5a
599e1b0
 
 
 
 
 
 
 
 
5cddb83
599e1b0
 
 
 
73052c2
599e1b0
 
 
 
 
 
 
b32cc71
599e1b0
dc6e60e
599e1b0
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
---
base_model: gordicaleksa/YugoGPT
inference: false
language:
  - sr
  - hr
license: apache-2.0
model_creator: gordicaleksa
model_name: YugoGPT
model_type: mistral
quantized_by: Luka Secerovic
---
[![sr](https://img.shields.io/badge/lang-sr-green.svg)](https://huggingface.co/alkibijad/YugoGPT-GGUF/blob/main/README.md)
[![en](https://img.shields.io/badge/lang-en-red.svg)](https://huggingface.co/alkibijad/YugoGPT-GGUF/blob/main/README.en.md)
# O modelu
[YugoGPT](https://huggingface.co/gordicaleksa/YugoGPT) je trenutno najbolji "open source" model za srpski, hrvatski, bosanski... i sve ostale jezike na koje uspemo da se "podelimo" 🙂

Ovaj repozitorijum sadrži model u [GGUF](https://github.com/ggerganov/llama.cpp/tree/master) formatu, koji je pogodan za korišćenje modela u lokalu i ne zahteva skupe grafičke kartice.

# Verzije modela
Da bi model radio brže, kompresovan je u nekoliko manjih verzija. Kompresijom se neznatno gubi na kvalitetu, ali se znatno dobija na brzini.

Preporučeno je koristiti `Q4_1` verziju jer je najbrža.


| Naziv | Veličina (GB) | Napomena                                                                   |
|-------|---------------|----------------------------------------------------------------------------|
| Q4_1  | 4.55          | Težine su kompresovane na 4 bita. Najbrža verzija.                        |
| q8_0  | 7.7           | Težine su kompresovane na 8 bita.                                          |
| fp16  | 14.5          | Težine se čuvaju kao 16 bita.                                              |
| fp32  | 29            | Originalne, 32 bitne težine. Nepotrebno za korišćenje na lokalnom računaru |

# Kako koristiti ovaj model na svom računaru?
## LMStudio - najlakši način ⚡️
Najlakši način je da se prvo instalira [LMStudio](https://lmstudio.ai/), program koji omogućuva veoma lako korišćenje LLM-ova.

- Nakon instalacije, u polju za pretragu ukucaj "alkibijad/YugoGPT":
![Pretraga](./media/lm_studio_screen_1.png "Pretraga modela")
- Izaberi neki od modela (preporučeno `Q4_1`):
![Izaberi model](./media/lm_studio_screen_2.1.png "Izaberi model")
- Nakon što se model "skine", klikni na "chat" u levom delu ekrana i možeš da ćaskaš sa modelom.
- [Opciono] Možeš da podesiš "system prompt", npr. "Ti si AI asistent koji uvek želi da pomogne." ili kako god već hoćeš.
![Chat](./media/lm_studio_screen_3.png "Chat")

To je to!

## llama.cpp - napredno 🤓
Ako si napredan korisnik i želiš da se petljaš sa komandnom linijom i naučiš više o `GGUF` formatu, idi na [llama.cpp](https://github.com/ggerganov/llama.cpp/tree/master) i pročitaj uputstva 🙂


# Naredni koraci 🐾
Ovaj repozitorijum je plod mini projekta za upoznavanje sa `GGUF` formatom.
Ovo bi mogli biti naredni koraci, ali teško da će do njih doći:
- [] Konvertovanje u još neke od varijanti (npr. 5 bitova, 2 bita itd.) Ovo teško da ću raditi pošto je zapravo to već uradjeno [ovde](https://huggingface.co/datatab/YugoGPT-Quantized-GGUF) 🙌
- [] Kačenje koda za konverziju. U suštini dovoljno je pratiti [ova uputstva](https://github.com/ggerganov/llama.cpp?tab=readme-ov-file#prepare-and-quantize).