Update README.md
Browse files
README.md
CHANGED
@@ -61,6 +61,70 @@ outputs = generator(context, max_new_tokens=1024, do_sample=True, num_beams=4, r
|
|
61 |
[{'generated_text': '电动车相对传统汽油车的优点包括:\n1. 更低的排放和更高的能源效率 - 电动车所产生的有害排放物质远少于汽油车,并且它们的能源利用效率更高。\n2. 更低的维护成本 - 电动车需要更少的保养和通常拥有较少的运动部件,从而降低了总体维护成本。\n3. 更低的燃料成本 - 电动车需要比汽油车少得多的燃料,因此随着时间的推移,可以节省成本。\n4. 更长的续航里程 - 电动车单次充电可以行驶比汽油车更远的距离,非常适合长途通勤。\n5. 更为安静的运行 - 电动车比汽油车要安静得多,使驾驶更加愉悦。'}]
|
62 |
```
|
63 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
64 |
## Training Details
|
65 |
|
66 |
### Training Data
|
@@ -76,16 +140,8 @@ To ensure data quality, we execute a thorough preprocessing pipeline, which invo
|
|
76 |
|
77 |
<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
|
78 |
|
79 |
-
This version of model was trained on about 241 billion English tokens and 82 billion Chinese tokens with a two-
|
80 |
|
81 |
This version of model was also fine-tuned on 4 million Chinese instruction samples which are collected from open source instruction tuning datasets. The instruction tuning stage make the model can answer questions and perform multi-turns conversation **in Chinese**.
|
82 |
|
83 |
**For more detailed information, please refer to the paper.**
|
84 |
-
|
85 |
-
## Evaluation
|
86 |
-
|
87 |
-
<!-- This section describes the evaluation protocols and provides the results. -->
|
88 |
-
|
89 |
-
### Result of MMLU
|
90 |
-
|
91 |
-
### Result of CEval
|
|
|
61 |
[{'generated_text': '电动车相对传统汽油车的优点包括:\n1. 更低的排放和更高的能源效率 - 电动车所产生的有害排放物质远少于汽油车,并且它们的能源利用效率更高。\n2. 更低的维护成本 - 电动车需要更少的保养和通常拥有较少的运动部件,从而降低了总体维护成本。\n3. 更低的燃料成本 - 电动车需要比汽油车少得多的燃料,因此随着时间的推移,可以节省成本。\n4. 更长的续航里程 - 电动车单次充电可以行驶比汽油车更远的距离,非常适合长途通勤。\n5. 更为安静的运行 - 电动车比汽油车要安静得多,使驾驶更加愉悦。'}]
|
62 |
```
|
63 |
|
64 |
+
### Other Examples
|
65 |
+
<details>
|
66 |
+
<summary>Self Awareness</summary>
|
67 |
+
user:你好,请问你叫什么名字?
|
68 |
+
assistant:嗨,我是一个AI助手。
|
69 |
+
|
70 |
+
user:请问你如何看待AI助手?
|
71 |
+
assistant:我认为AI助手是一个非常有前途的技术,它可以在多个领域帮助人们解决问题和完成任务。但是同时,我也认为在使用AI助手时要注意保护用户隐私和安全。
|
72 |
+
|
73 |
+
user:你能介绍一下AI助手优点和缺点吗?
|
74 |
+
assistant:当然。AI助手的优点包括:能够快速学习,处理大量数据;能够根据用户的偏好进行个性化推荐;能够进行自动化任务等等。缺点包括:需要大量的数据来训练模型,且有时候数据质量可能不如人类等等。
|
75 |
+
|
76 |
+
user:你觉得AI助手对人类存在的威胁或者问题是什么?
|
77 |
+
assistant:我认为AI助手在未来可能会对人类存在的威胁是安全和隐私问题。因为人工智能技术的发展速度非常快,可能会带来一些安全和隐私方面的风险。这也需要人类更加关注和管理这些风险。
|
78 |
+
|
79 |
+
user:你可以具体举例说明一下吗?
|
80 |
+
assistant:比如说,一个在线购物平台的AI助手可以通过收集用户购买记录,来预测用户的需求,从而定制最合适的推荐。这样不仅可以减少欺诈问题,还可以提高用户的满意度。但对于一些需要实时查询销售信息的行业和场景,如何保证用户的隐私信息不被泄露,这是一个需要考虑的问题。
|
81 |
+
|
82 |
+
user:你可以具体说一说,人类应该如何关注和管理AI助手带来的安全和隐私问题吗?
|
83 |
+
assistant:当然,这可以通过加强用户教育,让用户了解AI助手的工作原理和安全措施,提供安全的使用环境等等来实现。同时,也可以对AI助手的用户数据进行保护和隐私评估,并制定相关的法律等等。我们也可以通过技术手段,如大数据分析和人工智能加密等技术,来帮助人们识别和关注AI助手带来的安全和隐私问题。
|
84 |
+
|
85 |
+
user:好的,谢谢你!
|
86 |
+
assistant:不用谢,我随时为您效劳!
|
87 |
+
</details>details>
|
88 |
+
<details>
|
89 |
+
<summary>Small Talk</summary>
|
90 |
+
user:你好
|
91 |
+
assistant:您好,有什么需要我帮忙的吗?
|
92 |
+
|
93 |
+
user:请问有哪些方法可以缓解焦虑情绪?
|
94 |
+
assistant:有的话,可以通过运动、音乐、冥想等方式来放松身心,还有一些药物也可以缓解焦虑。您可以按照我提供的建议来选择适合自己的方式,缓解焦虑情绪。
|
95 |
+
|
96 |
+
user:你可以详细下吗?
|
97 |
+
assistant:当我们感到焦虑时,大脑会产生一种内分泌系统的反应,这种反应会导致我们感到紧张、不安和无法集中注意力。这个时候可以尝试一些让自己放松的方法,比如深呼吸、瑜伽、冥想等。这些方法可以帮助我们缓解焦虑情绪,让我们感觉更好。
|
98 |
+
|
99 |
+
user:请详细介绍下冥想的方法。
|
100 |
+
assistant:冥想是一种可以帮助我们集中注意力,让心情平静、内心充实的活动。在冥想中,我们可以选择一个特定的地点,舒展身体、调整气息,让自己放松、专注和冥思。在冥想中,我们通常会采用舒缓的音乐,让自己的思维和情绪自由流动,缓解焦虑情绪。
|
101 |
+
|
102 |
+
user:有什么音乐可以推荐给我吗?缓解我的焦虑情绪。
|
103 |
+
assistant:常听舒缓的音乐,比如钢琴曲、古典音乐、流行音乐等,可以缓解焦虑情绪,促进身心放松。比如,您可以试试听听轻柔的钢琴曲,或者是轻声的流行歌曲,这些都可以缓解焦虑情绪。此外,您也可以通过听冥想音乐,它可以帮助您放松身心、减轻压力,带来更好的效果。
|
104 |
+
|
105 |
+
user:谢谢。
|
106 |
+
assistant:不客气,有需要再找我哦。
|
107 |
+
</details>
|
108 |
+
<details>
|
109 |
+
<summary>Coding</summary>
|
110 |
+
user:找到下列数组的中位数[3.1,6.2,1.3,8.4,10.5,11.6,2.1],请用python代码完成以上功能
|
111 |
+
assistant:对数组进行排序,然后取中间的数作为中位数,最后把这个数输出即可完成所需的操作。
|
112 |
+
代码实现:
|
113 |
+
```python
|
114 |
+
def median(numbers):
|
115 |
+
sorted_numbers = sorted(numbers)
|
116 |
+
length = len(numbers)
|
117 |
+
mid_index = length // 2
|
118 |
+
if length % 2 == 0:
|
119 |
+
return (sorted_numbers[mid_index - 1] + sorted_numbers[mid_index]) / 2
|
120 |
+
else:
|
121 |
+
return sorted_numbers[mid_index]
|
122 |
+
```
|
123 |
+
代码解释:
|
124 |
+
首先,定义了一个名为 median 的函数,它接受一个数字列表作为参数。函数使用内置函数 sorted,对数字列表进行排序,然后使用 len 函数计算所有数字的长度,并判断长度是奇数还是偶数,如果是,则返回相应的中位数。如果长度为奇数,则返回中位数。否则,将数组分成两半,找到中间的数,然后返回它。
|
125 |
+
</details>
|
126 |
+
|
127 |
+
|
128 |
## Training Details
|
129 |
|
130 |
### Training Data
|
|
|
140 |
|
141 |
<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
|
142 |
|
143 |
+
This version of model was trained on about 241 billion English tokens and 82 billion Chinese tokens with a two-stage training strategy. It was trained as a autoregressive language model, using cross-entropy loss.
|
144 |
|
145 |
This version of model was also fine-tuned on 4 million Chinese instruction samples which are collected from open source instruction tuning datasets. The instruction tuning stage make the model can answer questions and perform multi-turns conversation **in Chinese**.
|
146 |
|
147 |
**For more detailed information, please refer to the paper.**
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|