|
--- |
|
base_model: gordicaleksa/YugoGPT |
|
inference: false |
|
language: |
|
- sr |
|
- hr |
|
license: apache-2.0 |
|
model_creator: gordicaleksa |
|
model_name: YugoGPT |
|
model_type: mistral |
|
quantized_by: Luka Secerovic |
|
--- |
|
[![sr](https://img.shields.io/badge/lang-sr-green.svg)](https://huggingface.co/alkibijad/YugoGPT-GGUF/blob/main/README.md) |
|
[![en](https://img.shields.io/badge/lang-en-red.svg)](https://huggingface.co/alkibijad/YugoGPT-GGUF/blob/main/README.en.md) |
|
# O modelu |
|
[YugoGPT](https://huggingface.co/gordicaleksa/YugoGPT) je trenutno najbolji "open source" model za srpski, hrvatski, bosanski... i sve ostale jezike na koje uspemo da se "podelimo" 🙂 |
|
|
|
Ovaj repozitorijum sadrži model u [GGUF](https://github.com/ggerganov/llama.cpp/tree/master) formatu, koji je pogodan za korišćenje modela u lokalu i ne zahteva skupe grafičke kartice. |
|
|
|
# Verzije modela |
|
Da bi model radio brže, kompresovan je u nekoliko manjih verzija. Kompresijom se neznatno gubi na kvalitetu, ali se znatno dobija na brzini. |
|
|
|
Preporučeno je koristiti `Q4_1` verziju jer je najbrža. |
|
|
|
|
|
| Naziv | Veličina (GB) | Napomena | |
|
|-------|---------------|----------------------------------------------------------------------------| |
|
| Q4_1 | 4.55 | Težine su kompresovane na 4 bita. Najbrža verzija. | |
|
| q8_0 | 7.7 | Težine su kompresovane na 8 bita. | |
|
| fp16 | 14.5 | Težine se čuvaju kao 16 bita. | |
|
| fp32 | 29 | Originalne, 32 bitne težine. Nepotrebno za korišćenje na lokalnom računaru | |
|
|
|
# Kako koristiti ovaj model na svom računaru? |
|
## LMStudio - najlakši način ⚡️ |
|
Najlakši način je da se prvo instalira [LMStudio](https://lmstudio.ai/), program koji omogućuva veoma lako korišćenje LLM-ova. |
|
|
|
- Nakon instalacije, u polju za pretragu ukucaj "alkibijad/YugoGPT": |
|
![Pretraga](./media/lm_studio_screen_1.png "Pretraga modela") |
|
- Izaberi neki od modela (preporučeno `Q4_1`): |
|
![Izaberi model](./media/lm_studio_screen_2.1.png "Izaberi model") |
|
- Nakon što se model "skine", klikni na "chat" u levom delu ekrana i možeš da ćaskaš sa modelom. |
|
- [Opciono] Možeš da podesiš "system prompt", npr. "Ti si AI asistent koji uvek želi da pomogne." ili kako god već hoćeš. |
|
![Chat](./media/lm_studio_screen_3.png "Chat") |
|
|
|
To je to! |
|
|
|
## llama.cpp - napredno 🤓 |
|
Ako si napredan korisnik i želiš da se petljaš sa komandnom linijom i naučiš više o `GGUF` formatu, idi na [llama.cpp](https://github.com/ggerganov/llama.cpp/tree/master) i pročitaj uputstva 🙂 |
|
|
|
|
|
# Naredni koraci 🐾 |
|
Ovaj repozitorijum je plod mini projekta za upoznavanje sa `GGUF` formatom. |
|
Ovo bi mogli biti naredni koraci, ali teško da će do njih doći: |
|
- [] Konvertovanje u još neke od varijanti (npr. 5 bitova, 2 bita itd.) Ovo teško da ću raditi pošto je zapravo to već uradjeno [ovde](https://huggingface.co/datatab/YugoGPT-Quantized-GGUF) 🙌 |
|
- [] Kačenje koda za konverziju. U suštini dovoljno je pratiti [ova uputstva](https://github.com/ggerganov/llama.cpp?tab=readme-ov-file#prepare-and-quantize). |
|
|