facat commited on
Commit
bcad7e8
·
1 Parent(s): fc37161

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +62 -234
README.md CHANGED
@@ -74,267 +74,95 @@ not currently in use
74
 
75
  </div>
76
 
77
- # 新闻
78
-
79
- - 2023-12-06: [SUS-Chat-34B
80
- chat-ui](https://huggingface.co/spaces/SUSTech/SUS-Chat-34B)
81
-
82
- - 2023-12-05: SUS-Chat-34B在[Open LLM
83
- leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)排名第二,并在所有小于70B的模型中排名第一。
84
-
85
- - 2023-12-01: SUS-Chat-34B现已在HuggingFace🤗上可用。
86
-
87
- # 模型介绍
88
-
89
- ![](https://hackmd.io/_uploads/HJlDtzhBa.png)
90
-
91
- **SUS-Chat-34B**模型是[南方科技大学](https://huggingface.co/SUSTech)联合[IDEA研究院CCNL团队](https://huggingface.co/IDEA-CCNL)开源的通用大模型,
92
- 2023-12-05在Huggingface的权威榜单上[open_llm_leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)取得了同级别模型最好成绩。
93
-
94
- SUS-Chat-34B是一个340亿参数规模的双语模型,基于[01-ai/Yi-34B](https://huggingface.co/01-ai/Yi-34B)预训练模型通过数百万高质量、多语言的指令数据进行了微调。
95
- 在保持基础模型强大的语言能力的同时,SUS-Chat-34B模型通过高质量指令微调改善了模型对人类指令的响应方式,并擅长通过思维链的方式模仿人类思考过程。
96
- 与[Yi-34B](https://huggingface.co/01-ai/Yi-34B)和[Yi-34B-chat](https://huggingface.co/01-ai/Yi-34B-Chat)相比,它不仅在几乎所有基准测试中提升了性能,而且能够更好地满足了复杂多语言任务的实际需求。
97
- 在指令微调阶段,我们加入了大量高质量长文本和多轮对话指令数据,将文本窗口从基础模型的4K扩展到8K。
98
- 这种扩展有助于模型更有效地遵循多轮对话中的指令,显著减少在扩展对话和长文本理解中上下文丢失的问题。为此我们也开发了更高效的训练框架,不久也将进行开源,敬请期待。
99
-
100
- SUS-Chat-34B模型具有以下亮点:
101
-
102
- 1. 大规模复杂指令跟随数据:使用1.4B
103
- token的高质量复杂指令数据进行训练,涵盖中英文、多轮对话、数学、推理等多种指令数据;
104
- 2. 强大的通用任务性能:SUS-Chat-34B模型在众多主流的中英文任务上表现出色,其效果超越了相同参数规模的其他开源的指令微调模型。即使与更大参数规模的模型相比,SUS-Chat-34B模型也具有不错的竞争力;
105
- 3. 更长的上下文窗口与出色的多轮对话能力:目前,SUS-Chat-34B原生支持8K的上下文窗口,在大量多轮指令以及单多轮混合数据中进行训练,具有出色的长文本对话信息关注与指令跟随能力。
106
-
107
- SUS-Chat-34B模型有力地证明了通过正确的指令微调,学术机构可以在不增加模型参数的情况下,通过开源的数据集和模型,获得更好的性能,
108
- 这弥合了学术界和工业界的在大语言模型上的差距,为学术界和工业界的合作提供了新的可能性。
109
-
110
- # 模型性能
111
-
112
- 为了更好地评估SUS-Chat-34B模型的性能,我们在多个基准测试中进行了评估,并开源了评估框架[TLEM](https://huggingface.co/spaces/SUSTech/tlem),以便于其他研究人员进行复现和比较。
113
-
114
- 在TLEM中,我们使用了多个基准测试,包括:MMLU, CMMLU, C-Eval, BBH,
115
- GSM-8K, MATH,
116
- 专注于衡量模型的知识和思维能力,在这些指标中SUS-Chat-34B模型取得了最先进的表现,我们还额外引入了[lm-eval](https://github.com/EleutherAI/lm-evaluation-harness)测试了SUS-Chat和同类模型在winogrande,
117
- hellaswag, arc, truthful-qa的表现, 衡量模型的常识性推理能力和幻觉。
118
-
119
- 综合上看,SUS-Chat-34B模型显著领先于同规模的模型,并取得了最先进的综合性能。
120
- ![](assets/radar.png)
121
-
122
- 以下是评测结果:
123
-
124
- <div>
125
-
126
- <table>
127
- <colgroup>
128
- <col style="width: 50%" />
129
- <col style="width: 50%" />
130
- </colgroup>
131
- <tbody>
132
- <tr class="odd">
133
- <td style="text-align: center;"><div width="50.0%"
134
- data-layout-align="center">
135
- <h2 id="英文能力">英文能力</h2>
136
- <table>
137
- <thead>
138
- <tr class="header">
139
- <th style="text-align: right;">Model</th>
140
- <th style="text-align: center;">mmlu (0-shot)</th>
141
- </tr>
142
- </thead>
143
- <tbody>
144
- <tr class="odd">
145
- <td style="text-align: right;">GPT-4</td>
146
- <td style="text-align: center;">83</td>
147
- </tr>
148
- <tr class="even">
149
- <td style="text-align: right;">SUS-Chat-34B</td>
150
- <td style="text-align: center;"><u>74.35</u></td>
151
- </tr>
152
- <tr class="odd">
153
- <td style="text-align: right;">Qwen-72b-Chat</td>
154
- <td style="text-align: center;"><strong>74.52</strong></td>
155
- </tr>
156
- <tr class="even">
157
- <td style="text-align: right;">Deepseek-68b-Chat</td>
158
- <td style="text-align: center;">69.43</td>
159
- </tr>
160
- <tr class="odd">
161
- <td style="text-align: right;">OrionStar-Yi-34B-Chat</td>
162
- <td style="text-align: center;">68.51</td>
163
- </tr>
164
- <tr class="even">
165
- <td style="text-align: right;">Yi-34B-Chat</td>
166
- <td style="text-align: center;">66.96</td>
167
- </tr>
168
- </tbody>
169
- </table>
170
- </div></td>
171
- <td style="text-align: center;"><div width="50.0%"
172
- data-layout-align="center">
173
- <h2 id="中文能力">中文能力</h2>
174
- <table>
175
- <colgroup>
176
- <col style="width: 34%" />
177
- <col style="width: 32%" />
178
- <col style="width: 32%" />
179
- </colgroup>
180
- <thead>
181
- <tr class="header">
182
- <th style="text-align: right;">Model</th>
183
- <th style="text-align: center;">cmmlu (0-shot)</th>
184
- <th style="text-align: center;">C-Eval (0-shot)<a href="#fn1"
185
- class="footnote-ref" id="fnref1"
186
- role="doc-noteref"><sup>1</sup></a></th>
187
- </tr>
188
- </thead>
189
- <tbody>
190
- <tr class="odd">
191
- <td style="text-align: right;">GPT-4</td>
192
- <td style="text-align: center;">71</td>
193
- <td style="text-align: center;">69.9</td>
194
- </tr>
195
- <tr class="even">
196
- <td style="text-align: right;">SUS-Chat-34B</td>
197
- <td style="text-align: center;"><strong>78.68</strong></td>
198
- <td style="text-align: center;"><strong>82.42</strong></td>
199
- </tr>
200
- <tr class="odd">
201
- <td style="text-align: right;">Qwen-72b-Chat</td>
202
- <td style="text-align: center;"><u>77.02</u></td>
203
- <td style="text-align: center;"><u>77.22</u></td>
204
- </tr>
205
- <tr class="even">
206
- <td style="text-align: right;">Deepseek-68b-Chat</td>
207
- <td style="text-align: center;">48.51</td>
208
- <td style="text-align: center;">59.7</td>
209
- </tr>
210
- <tr class="odd">
211
- <td style="text-align: right;">OrionStar-Yi-34B-Chat</td>
212
- <td style="text-align: center;">66.88</td>
213
- <td style="text-align: center;">65.13</td>
214
- </tr>
215
- <tr class="even">
216
- <td style="text-align: right;">Yi-34B-Chat</td>
217
- <td style="text-align: center;">55.16</td>
218
- <td style="text-align: center;">77.16</td>
219
- </tr>
220
- </tbody>
221
- </table>
222
- </div></td>
223
- </tr>
224
- </tbody>
225
- </table>
226
- <section id="footnotes" class="footnotes footnotes-end-of-document"
227
- role="doc-endnotes">
228
- <hr />
229
- <ol>
230
- <li id="fn1"><p>C-Eval 结果在验证集上得到。<a href="#fnref1"
231
- class="footnote-back" role="doc-backlink">↩︎</a></p></li>
232
- </ol>
233
- </section>
234
 
235
- </div>
 
 
236
 
237
- ## 数学与推理能力
238
 
239
- 在GSM8K(数学逻辑)的评测都是目前开源模型最强。
240
 
241
- | Model | gsm8k (0-shot) | MATH (0-shot) | BBH (0-shot) |
242
- |----------------------:|:--------------:|:-------------:|:------------:|
243
- | GPT-4 | 91.4 | 45.8 | 86.7 |
244
- | SUS-Chat-34B | **80.06** | 28.7 | 67.62 |
245
- | Qwen-72b-Chat | <u>76.57</u> | **35.9** | **72.63** |
246
- | Deepseek-68b-Chat | 74.45 | <u>29.56</u> | <u>69.73</u> |
247
- | OrionStar-Yi-34B-Chat | 54.36 | 12.8 | 62.88 |
248
- | Yi-34B-Chat | 63.76 | 10.02 | 61.54 |
249
 
250
- ## 其他任务能力
251
 
252
- | Model | winogrande (5-shot) | arc (25-shot) | hellaswag (10-shot) | TruthfulQA mc1 (0-shot) | TruthfulQA mc2 (0-shot) |
253
- |----------------------:|:-------------------:|:-------------:|:-------------------:|:-----------------------:|:-----------------------:|
254
- | GPT-4 | — | 94.5 | 91.4 | 59.00 | — |
255
- | SUS-Chat-34B | **81.22** | <u>81.54</u> | 83.79 | **40.64** | **57.47** |
256
- | Qwen-72b-Chat | 76.09 | **82.10** | <u>86.06</u> | 39.17 | <u>56.37</u> |
257
- | Deepseek-68b-Chat | <u>80.58</u> | 81.29 | **87.02** | <u>40.02</u> | 50.64 |
258
- | OrionStar-Yi-34B-Chat | 77.27 | 80.19 | 84.54 | 36.47 | 53.24 |
259
- | Yi-34B-Chat | 76.64 | 70.66 | 82.29 | 38.19 | 54.57 |
260
 
261
- ## 综合能力
262
 
263
- | Model | Average |
264
- |----------------------:|:---------:|
265
- | SUS-Chat-34B | **69.05** |
266
- | Qwen-72b-Chat | 68.41 |
267
- | Deepseek-68b-Chat | 62.91 |
268
- | OrionStar-Yi-34B-Chat | 60.21 |
269
- | Yi-34B-Chat | 59.72 |
270
 
271
- 要复现我们的结果,请启动一个VLLM服务器并参考[这里](https://sustech-tlem.static.hf.space/index.html#start-evaluating-your-model-in-3-line)。
 
 
272
 
273
- # 用法
274
 
275
- SUS-Chat-34B是标准的LLaMA模型,应该可以无缝地与LLaMA生态系统兼容,我们提供下面的例子来展示如何使用它进行多轮对话
276
 
277
- ``` python
278
- # from transformers import AutoModelForCausalLM, AutoTokenizer # 🤗 Transformers, or
279
- from modelscope import AutoModelForCausalLM, AutoTokenizer # 🤖 ModelScope
 
 
280
 
 
 
281
 
282
- def chat_template(messages):
283
- history = ""
284
- for message in messages:
285
- match message:
286
- case {"role": "user", "content": message}:
287
- history += f"### Human: {message}\n\n### Assistant: "
288
- case {"role": "assistant", "content": message}:
289
- history += message
290
- return history
291
 
 
 
 
 
 
292
 
293
- # model_path = "SUSTech/SUS-Chat-34B"
294
- model_path = "SUSTC/SUS-Chat-34B" # ModelScope
295
 
296
- tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False)
297
- model = AutoModelForCausalLM.from_pretrained(
298
- model_path, device_map="auto", torch_dtype="auto"
299
- ).eval()
300
 
301
- messages = [{"role": "user", "content": "hi"}]
302
 
303
- input_ids = tokenizer.encode(
304
- chat_template(messages), return_tensors="pt", add_special_tokens=False
305
- ).to("cuda")
306
- output_ids = model.generate(input_ids.to("cuda"), max_length=256)
307
- response = tokenizer.decode(
308
- output_ids[0][input_ids.shape[1] :], skip_special_tokens=False
309
- )
310
 
311
- messages.append({"role": "assistant", "content": response})
 
 
312
 
313
- # Second round
314
 
315
- messages.append({"role": "user", "content": "What is the capital of China?"})
316
 
317
- input_ids = tokenizer.encode(
318
- chat_template(messages), return_tensors="pt", add_special_tokens=False
319
- ).to("cuda")
320
- output_ids = model.generate(input_ids.to("cuda"), max_length=256)
321
- response = tokenizer.decode(
322
- output_ids[0][input_ids.shape[1] :], skip_special_tokens=False
323
- )
324
 
325
- messages.append({"role": "assistant", "content": response})
326
- ```
 
 
327
 
328
- # 限制
 
329
 
330
- SUS-Chat只进行了监督微调,尚未进行人类偏好学习,因此在一些情况下可能会产生不合理的回复,并放大某些语言模型现有的问题,
331
- 包括幻觉、非确定性和累积误差,
332
- 为了实现更有利于下游任务的性能,我们建议相应地调整生成配置参数。
333
 
334
- # 免责声明
 
335
 
336
- 我们在训练过程中使用数据合规检查算法,尽力确保训练模型的合规性。由于数据复杂且语言模型使用场景多样,我们无法保证模型在所有情况下生成正确和合理的输出。请注意,模型仍然存在产生问题输出的风险。对于因滥用、误导、非法使用和相关错误信息以及相关数据安全问题而导致的任何风险和问题,我们将不承担责任。
 
 
337
 
338
- # 许可
 
339
 
340
- 该模型完全开发供学术研究和免费商业使用,但需要遵守来自[零一万物](https://huggingface.co/01-ai)的[许可](https://github.com/01-ai/Yi/blob/main/MODEL_LICENSE_AGREEMENT.txt)
 
74
 
75
  </div>
76
 
77
+ # 🐷SUS-Chat: Instruction tuning done right
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
78
 
79
+ <p align="left">
80
+ <a href="README_CN.md">中文</a>&nbsp | &nbspEnglish&nbsp
81
+ </p>
82
 
83
+ <br><br>
84
 
85
+ <div align="center">
86
 
87
+ <p align="center">
88
+ <img src="https://github.com/SUSTech-IDEA/SUS-Chat/raw/main/assets/sustech.svg?sanitize=true" width="200px">
89
+ <img src="https://github.com/SUSTech-IDEA/SUS-Chat/raw/main/assets/ccnl.png?sanitize=true" width="200px">
90
+ </p>
 
 
 
 
91
 
92
+ <div style="display: inline-block;">
93
 
94
+ <a rel="noopener nofollow" href="https://github.com/SUSTech-IDEA/SUS-Chat/issues">
95
+ <img src="https://img.shields.io/github/issues/SUSTech-IDEA/SUS-Chat?logo=github" style="margin: 0 0;">
96
+ </a>
 
 
 
 
 
97
 
98
+ </div>
99
 
100
+ <div style="display: inline-block;">
 
 
 
 
 
 
101
 
102
+ <a href="https://huggingface.co/SUSTech">
103
+ <img src="https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-SUSTech-blue" style="margin: 0 0;">
104
+ </a>
105
 
106
+ </div>
107
 
108
+ <div style="display: inline-block;">
109
 
110
+ <a rel="noopener nofollow" href="https://www.modelscope.cn/organization/sustc/">
111
+ <img src="https://img.shields.io/badge/🤖ModelScope-sustc-blue" style="margin: 0 0;">
112
+ </a>
113
+
114
+ </div>
115
 
116
+ <a href="https://wisemodel.cn/organization/SUSTech">
117
+ <img src="https://img.shields.io/badge/WiseModel-SUSTech-blue"> </a>
118
 
119
+ <div style="display: inline-block;">
 
 
 
 
 
 
 
 
120
 
121
+ <a rel="noopener nofollow" href="https://github.com/SUSTech-IDEA/SUS-Chat/blob/main/LICENSE">
122
+ <img src="https://img.shields.io/badge/Code_License-Apache_2.0-lightblue" style="margin: 0 0;">
123
+ </a>
124
+
125
+ </div>
126
 
127
+ <div style="display: inline-block;">
 
128
 
129
+ <a rel="noopener nofollow" href="https://github.com/01-ai/Yi/blob/main/MODEL_LICENSE_AGREEMENT.txt">
130
+ <img src="https://img.shields.io/badge/Model_License-Model_Agreement-lightblue" style="margin: 0 0;">
131
+ </a>
 
132
 
133
+ </div>
134
 
135
+ <div style="display: inline-block;">
 
 
 
 
 
 
136
 
137
+ <a rel="noopener nofollow" href="mailto:[email protected]">
138
+ <img src="https://img.shields.io/badge/✉️[email protected]" style="margin: 0 0;">
139
+ </a>
140
 
141
+ </div>
142
 
143
+ </div>
144
 
145
+ # News
 
 
 
 
 
 
146
 
147
+ - 2023-12-09: 🔥 `Tigerbot` variant has been
148
+ [deleted](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard/discussions/438),
149
+ `SUS-Chat-34B` is now the the top-ranked LLaMA model and the
150
+ top-ranked chat model.
151
 
152
+ - 2023-12-07: SUS-Chat-34B is now available on
153
+ [WiseModel🧠](https://wisemodel.cn/model/SUSTech/SUS-Chat-34B).
154
 
155
+ - 2023-12-06: Try [SUS-Chat-34B
156
+ chat-ui](https://huggingface.co/spaces/SUSTech/SUS-Chat-34B).
 
157
 
158
+ - 2023-12-05: SUS-Chat-34B is now available on
159
+ [ModelScope🤖](https://www.modelscope.cn/models/SUSTC/SUS-Chat-34B/summary)
160
 
161
+ - 2023-12-05: SUS-Chat-34B is ranked 2nd in [Open LLM
162
+ leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
163
+ and surpassed all models under 70B.
164
 
165
+ - 2023-12-01: SUS-Chat-34B is now available on
166
+ [HuggingFace🤗](https://huggingface.co/SUSTech/SUS-Chat-34B).
167
 
168
+ # Introduction