tiendung's picture
Update README.md
b69de19 verified
|
raw
history blame
692 Bytes
metadata
language:
  - vi
base_model:
  - Qwen/Qwen2.5-7B-Instruct

Các kỹ thuật cắt tỉa vocab (cấm nói các ngôn ngữ không mong muốn), ví dụ khi dịch Anh Việt model hay chèn thêm từ tiếng Trung.

mixed data training: kết hợp cải thiện tiếng Việt, cải thiện song ngữ Anh <=> Việt, và QA/RAG trong một lần huấn luyện. (xem data/final_finetune1.jsonl.xz)

Gần 1G text, 5 epochs, sẽ release toàn bộ epoch để test riêng và merge nếu muốn.

Code và cách làm https://github.com/symato/physics_of_llms

Thảo luận ở https://discord.com/channels/1070551652341403769/1291645458841600051

python3 model_chat.py