scutcyr commited on
Commit
bb3b0da
1 Parent(s): 027ad22

update readme

Browse files
Files changed (1) hide show
  1. README.md +3 -1
README.md CHANGED
@@ -13,6 +13,8 @@ language:
13
  - zh
14
  ---
15
 
 
 
16
  ## 简介
17
 
18
 
@@ -26,7 +28,7 @@ language:
26
 
27
 
28
 
29
- # 训练数据
30
  我们结合当前开源的中文医疗问答数据集([MedDialog-CN](https://github.com/UCSD-AI4H/Medical-Dialogue-System)、[IMCS-V2](https://github.com/lemuria-wchen/imcs21)、[CHIP-MDCFNPC](https://tianchi.aliyun.com/dataset/95414)、[MedDG](https://tianchi.aliyun.com/dataset/95414)、[cMedQA2](https://github.com/zhangsheng93/cMedQA2)、[Chinese-medical-dialogue-data](https://github.com/Toyhom/Chinese-medical-dialogue-data)),以及自建的指令数据集,通过进一步的数据清洗,构建了一个大于900万条样本的**中文医疗问答指令与多轮问询对话混合数据集**,数据集的平均轮数为3,最大轮数达到218,数据格式为:
31
  ```data
32
  input: "病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目\n医生:您好\n病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目\n医生:宝宝之前大便什么样呢?多久一次呢\n病人:一般都是一个礼拜,最近这几个月都是10多天\n医生:大便干吗?\n病人:每次10多天拉的很多\n医生:"
 
13
  - zh
14
  ---
15
 
16
+ # 扁鹊-1.0:通过混合指令和多轮医生问询数据集的微调,提高医疗聊天模型的“问”能力
17
+
18
  ## 简介
19
 
20
 
 
28
 
29
 
30
 
31
+ ## 训练数据
32
  我们结合当前开源的中文医疗问答数据集([MedDialog-CN](https://github.com/UCSD-AI4H/Medical-Dialogue-System)、[IMCS-V2](https://github.com/lemuria-wchen/imcs21)、[CHIP-MDCFNPC](https://tianchi.aliyun.com/dataset/95414)、[MedDG](https://tianchi.aliyun.com/dataset/95414)、[cMedQA2](https://github.com/zhangsheng93/cMedQA2)、[Chinese-medical-dialogue-data](https://github.com/Toyhom/Chinese-medical-dialogue-data)),以及自建的指令数据集,通过进一步的数据清洗,构建了一个大于900万条样本的**中文医疗问答指令与多轮问询对话混合数据集**,数据集的平均轮数为3,最大轮数达到218,数据格式为:
33
  ```data
34
  input: "病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目\n医生:您好\n病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目\n医生:宝宝之前大便什么样呢?多久一次呢\n病人:一般都是一个礼拜,最近这几个月都是10多天\n医生:大便干吗?\n病人:每次10多天拉的很多\n医生:"