ZhiLu-2-8B-Instruct / README.md
sys-sjz's picture
Update README.md
a9ee1cd verified
metadata
license: llama3

ZhiLu-2是一款基于llama3微调的中文消费金融领域对话大模型。与ZhiLu相比,ZhiLu-2性能有了显著提升。我们不仅收集了全新的高质量指令数据进行对齐,还创新性地设计了独特的数据合成方法,并将大量合成数据应用于模型训练。通过这些努力,ZhiLu-2在性能上取得了显著的突破,展示了卓越的性能。

训练细节 在第二版的智鹿训练中,我们引入了全新的指令微调数据,并且加入了合成数据。我们相信,合成数据的使用将带来意想不到的惊喜效果。以下是一些重要的训练细节:

🚀 高效训练

我们使用llama-factory作为训练框架,并配备多块A100显卡,通过DeepSpeed(ds)实现数据并行、模型并行、管道并行和张量并行等优化技术。在微调方法的选择上,我们对Full-Rank FT、LORA、BAdam、LoRA+和DoRA进行了详细比较,评估了各方法在训练时间、显卡占用、推理时间和模型性能等多项指标上的表现。最终,我们决定采用DoRA进行微调,以获得最佳的性价比和性能。

⚡ 加速技术

为了提高资源的利用率并缩短训练时间,我们采用了以下两项关键技术:

Packing FlashAttention-2 🔒 安全性与对齐

我们使用 DPO 来训练模型。DPO具有使用便捷、成效快速的优势,可以达到近似RLHF的偏好对齐效果,确保输出的安全和无害。

🛡️ 避免灾难性遗忘

为了防止训练后模型的灾难性遗忘,并平衡模型在各个任务上的能力,我们使用了 merging 技术。

🌱 自我进化

通过设计新的框架,我们使模型能够自我生成训练数据,从而实现自我进化。

更多细节参见:ZhiLu-2-github仓库