lyogavin commited on
Commit
6260d87
·
1 Parent(s): 419aafa

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -0
README.md CHANGED
@@ -17,6 +17,9 @@ Github: <a href="https://github.com/lyogavin/Anima/stargazers">![GitHub Repo sta
17
 
18
  我们开源了基于QLoRA的DPO训练方法的实现。
19
 
 
 
 
20
  ### 如何使用Anima QLoRA DPO训练?
21
 
22
  **准备数据:**我们采用类似于[hh-rlhf数据集](https://huggingface.co/datasets/Anthropic/hh-rlhf)的格式:训练数据的格式为每一条数据有两个key:chosen和rejected。用于对比针对同一个prompt,什么是标注认为好的输出和不好的输出。可以修改--dataset参数指向本地数据集或者huggingface数据集。
 
17
 
18
  我们开源了基于QLoRA的DPO训练方法的实现。
19
 
20
+ # LICENSE
21
+ 请注意:本model的LICENSE比较特殊,请确认你的使用场景符合此LICENSE。
22
+
23
  ### 如何使用Anima QLoRA DPO训练?
24
 
25
  **准备数据:**我们采用类似于[hh-rlhf数据集](https://huggingface.co/datasets/Anthropic/hh-rlhf)的格式:训练数据的格式为每一条数据有两个key:chosen和rejected。用于对比针对同一个prompt,什么是标注认为好的输出和不好的输出。可以修改--dataset参数指向本地数据集或者huggingface数据集。