update readme
Browse files
README.md
CHANGED
@@ -13,6 +13,8 @@ language:
|
|
13 |
- zh
|
14 |
---
|
15 |
|
|
|
|
|
16 |
## 简介
|
17 |
|
18 |
|
@@ -26,7 +28,7 @@ language:
|
|
26 |
|
27 |
|
28 |
|
29 |
-
|
30 |
我们结合当前开源的中文医疗问答数据集([MedDialog-CN](https://github.com/UCSD-AI4H/Medical-Dialogue-System)、[IMCS-V2](https://github.com/lemuria-wchen/imcs21)、[CHIP-MDCFNPC](https://tianchi.aliyun.com/dataset/95414)、[MedDG](https://tianchi.aliyun.com/dataset/95414)、[cMedQA2](https://github.com/zhangsheng93/cMedQA2)、[Chinese-medical-dialogue-data](https://github.com/Toyhom/Chinese-medical-dialogue-data)),以及自建的指令数据集,通过进一步的数据清洗,构建了一个大于900万条样本的**中文医疗问答指令与多轮问询对话混合数据集**,数据集的平均轮数为3,最大轮数达到218,数据格式为:
|
31 |
```data
|
32 |
input: "病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目\n医生:您好\n病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目\n医生:宝宝之前大便什么样呢?多久一次呢\n病人:一般都是一个礼拜,最近这几个月都是10多天\n医生:大便干吗?\n病人:每次10多天拉的很多\n医生:"
|
|
|
13 |
- zh
|
14 |
---
|
15 |
|
16 |
+
# 扁鹊-1.0:通过混合指令和多轮医生问询数据集的微调,提高医疗聊天模型的“问”能力
|
17 |
+
|
18 |
## 简介
|
19 |
|
20 |
|
|
|
28 |
|
29 |
|
30 |
|
31 |
+
## 训练数据
|
32 |
我们结合当前开源的中文医疗问答数据集([MedDialog-CN](https://github.com/UCSD-AI4H/Medical-Dialogue-System)、[IMCS-V2](https://github.com/lemuria-wchen/imcs21)、[CHIP-MDCFNPC](https://tianchi.aliyun.com/dataset/95414)、[MedDG](https://tianchi.aliyun.com/dataset/95414)、[cMedQA2](https://github.com/zhangsheng93/cMedQA2)、[Chinese-medical-dialogue-data](https://github.com/Toyhom/Chinese-medical-dialogue-data)),以及自建的指令数据集,通过进一步的数据清洗,构建了一个大于900万条样本的**中文医疗问答指令与多轮问询对话混合数据集**,数据集的平均轮数为3,最大轮数达到218,数据格式为:
|
33 |
```data
|
34 |
input: "病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目\n医生:您好\n病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目\n医生:宝宝之前大便什么样呢?多久一次呢\n病人:一般都是一个礼拜,最近这几个月都是10多天\n医生:大便干吗?\n病人:每次10多天拉的很多\n医生:"
|