Synthia
/

ChatGalRWKV

Model card Files Files and versions Community

ChatGalRWKV / README.md

wanicca's picture

Update README.md

55355ed almost 2 years ago

|

1.55 kB

	---
	license: unlicense
	---
	# ChatGalRWKV

	关于项目的名字：chat就是猫（法语），gal就是娘（英语）。

	本项目基于[RWKV](https://github.com/BlinkDL/RWKV-LM)，它是一系列从预训练数据、训练代码、推理代码到模型权重都完全开源的大语言模型，并且与基于transformer的模型相比有诸多优势。

	可以使用[Colab脚本](https://colab.research.google.com/drive/1J1gLMMMA8GbD9JuQt6OKmwCTl9mWU0bb?usp=sharing)自建服务运行最近模型。

	## 加入我们

	* QQ群：766121889
	* Discord： https://discord.gg/68GtKQ3v3K

	## 现有模型检查点介绍

	### 纯Gal语料微调模型

	* rwkv-chatgal-v1-3B 试验性早期模型，基于[RWKV-Novel-3B-v1-Chn](https://huggingface.co/BlinkDL/rwkv-4-novel/blob/main/RWKV-4-Novel-3B-v1-ChnEng-20230412-ctx4096.pth)
	* 共训练了21000步，训练文本长度4096，batchsize4，梯度累积4
	* rwkv-chatgal-v2-7B 基于[RWKV-Raven-7B-v10x](https://huggingface.co/BlinkDL/rwkv-4-raven/blob/main/RWKV-4-Raven-7B-v10x-Eng49%25-Chn50%25-Other1%25-20230423-ctx4096.pth)
	* 共训练了14000步，训练文本长度4096，batchsize8，数据并行4卡。以lora的方式训练，rank为16，alpha32。
	* 仓库中放出了[合并权重loramerge](https://huggingface.co/Synthia/ChatGalRWKV/blob/main/rwkv-loramerge-0426-v2-4096-epoch11.pth)和[纯lora权重](https://huggingface.co/Synthia/ChatGalRWKV/blob/main/rwkv-raven7bv10x-lora-0426-v2-4096-epoch13.pth)。
	* 使用纯lora权重时，需要使用正确的底模自行合并。