YugoGPT-GGUF / README.md

Merge branch 'main' of https://huggingface.co/alkibijad/YugoGPT-GGUF

6f16d52 7 months ago

3.2 kB

	---
	base_model: gordicaleksa/YugoGPT
	inference: false
	language:
	- sr
	- hr
	license: apache-2.0
	model_creator: gordicaleksa
	model_name: YugoGPT
	model_type: mistral
	quantized_by: Luka Secerovic
	---
	[![sr](https://img.shields.io/badge/lang-sr-green.svg)](https://huggingface.co/alkibijad/YugoGPT-GGUF/blob/main/README.md)
	[![en](https://img.shields.io/badge/lang-en-red.svg)](https://huggingface.co/alkibijad/YugoGPT-GGUF/blob/main/README.en.md)
	# O modelu
	[YugoGPT](https://huggingface.co/gordicaleksa/YugoGPT) je trenutno najbolji "open source" model za srpski, hrvatski, bosanski... i sve ostale jezike na koje uspemo da se "podelimo" 🙂

	Ovaj repozitorijum sadrži model u [GGUF](https://github.com/ggerganov/llama.cpp/tree/master) formatu, koji je pogodan za korišćenje modela u lokalu i ne zahteva skupe grafičke kartice.

	# Verzije modela
	Da bi model radio brže, kompresovan je u nekoliko manjih verzija. Kompresijom se neznatno gubi na kvalitetu, ali se znatno dobija na brzini.

	Preporučeno je koristiti `Q4_1` verziju jer je najbrža.


	\| Naziv \| Veličina (GB) \| Napomena \|
	\|-------\|---------------\|----------------------------------------------------------------------------\|
	\| Q4_1 \| 4.55 \| Težine su kompresovane na 4 bita. Najbrža verzija. \|
	\| q8_0 \| 7.7 \| Težine su kompresovane na 8 bita. \|
	\| fp16 \| 14.5 \| Težine se čuvaju kao 16 bita. \|
	\| fp32 \| 29 \| Originalne, 32 bitne težine. Nepotrebno za korišćenje na lokalnom računaru \|

	# Kako koristiti ovaj model na svom računaru?
	## LMStudio - najlakši način ⚡️
	Najlakši način je da se prvo instalira [LMStudio](https://lmstudio.ai/), program koji omogućuva veoma lako korišćenje LLM-ova.

	- Nakon instalacije, u polju za pretragu ukucaj "alkibijad/YugoGPT":
	![Pretraga](./media/lm_studio_screen_1.png "Pretraga modela")
	- Izaberi neki od modela (preporučeno `Q4_1`):
	![Izaberi model](./media/lm_studio_screen_2.1.png "Izaberi model")
	- Nakon što se model "skine", klikni na "chat" u levom delu ekrana i možeš da ćaskaš sa modelom.
	- [Opciono] Možeš da podesiš "system prompt", npr. "Ti si AI asistent koji uvek želi da pomogne." ili kako god već hoćeš.
	![Chat](./media/lm_studio_screen_3.png "Chat")

	To je to!

	## llama.cpp - napredno 🤓
	Ako si napredan korisnik i želiš da se petljaš sa komandnom linijom i naučiš više o `GGUF` formatu, idi na [llama.cpp](https://github.com/ggerganov/llama.cpp/tree/master) i pročitaj uputstva 🙂


	# Naredni koraci 🐾
	Ovaj repozitorijum je plod mini projekta za upoznavanje sa `GGUF` formatom.
	Ovo bi mogli biti naredni koraci, ali teško da će do njih doći:
	- [] Konvertovanje u još neke od varijanti (npr. 5 bitova, 2 bita itd.) Ovo teško da ću raditi pošto je zapravo to već uradjeno [ovde](https://huggingface.co/datatab/YugoGPT-Quantized-GGUF) 🙌
	- [] Kačenje koda za konverziju. U suštini dovoljno je pratiti [ova uputstva](https://github.com/ggerganov/llama.cpp?tab=readme-ov-file#prepare-and-quantize).