bit-dny commited on
Commit
c3f0318
·
1 Parent(s): 2696820

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +65 -9
README.md CHANGED
@@ -61,6 +61,70 @@ outputs = generator(context, max_new_tokens=1024, do_sample=True, num_beams=4, r
61
  [{'generated_text': '电动车相对传统汽油车的优点包括:\n1. 更低的排放和更高的能源效率 - 电动车所产生的有害排放物质远少于汽油车,并且它们的能源利用效率更高。\n2. 更低的维护成本 - 电动车需要更少的保养和通常拥有较少的运动部件,从而降低了总体维护成本。\n3. 更低的燃料成本 - 电动车需要比汽油车少得多的燃料,因此随着时间的推移,可以节省成本。\n4. 更长的续航里程 - 电动车单次充电可以行驶比汽油车更远的距离,非常适合长途通勤。\n5. 更为安静的运行 - 电动车比汽油车要安静得多,使驾驶更加愉悦。'}]
62
  ```
63
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
64
  ## Training Details
65
 
66
  ### Training Data
@@ -76,16 +140,8 @@ To ensure data quality, we execute a thorough preprocessing pipeline, which invo
76
 
77
  <!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
78
 
79
- This version of model was trained on about 241 billion English tokens and 82 billion Chinese tokens with a two-stages training strategy. It was trained as a autoregressive language model, using cross-entropy loss.
80
 
81
  This version of model was also fine-tuned on 4 million Chinese instruction samples which are collected from open source instruction tuning datasets. The instruction tuning stage make the model can answer questions and perform multi-turns conversation **in Chinese**.
82
 
83
  **For more detailed information, please refer to the paper.**
84
-
85
- ## Evaluation
86
-
87
- <!-- This section describes the evaluation protocols and provides the results. -->
88
-
89
- ### Result of MMLU
90
-
91
- ### Result of CEval
 
61
  [{'generated_text': '电动车相对传统汽油车的优点包括:\n1. 更低的排放和更高的能源效率 - 电动车所产生的有害排放物质远少于汽油车,并且它们的能源利用效率更高。\n2. 更低的维护成本 - 电动车需要更少的保养和通常拥有较少的运动部件,从而降低了总体维护成本。\n3. 更低的燃料成本 - 电动车需要比汽油车少得多的燃料,因此随着时间的推移,可以节省成本。\n4. 更长的续航里程 - 电动车单次充电可以行驶比汽油车更远的距离,非常适合长途通勤。\n5. 更为安静的运行 - 电动车比汽油车要安静得多,使驾驶更加愉悦。'}]
62
  ```
63
 
64
+ ### Other Examples
65
+ <details>
66
+ <summary>Self Awareness</summary>
67
+ user:你好,请问你叫什么名字?
68
+ assistant:嗨,我是一个AI助手。
69
+
70
+ user:请问你如何看待AI助手?
71
+ assistant:我认为AI助手是一个非常有前途的技术,它可以在多个领域帮助人们解决问题和完成任务。但是同时,我也认为在使用AI助手时要注意保护用户隐私和安全。
72
+
73
+ user:你能介绍一下AI助手优点和缺点吗?
74
+ assistant:当然。AI助手的优点包括:能够快速学习,处理大量数据;能够根据用户的偏好进行个性化推荐;能够进行自动化任务等等。缺点包括:需要大量的数据来训练模型,且有时候数据质量可能不如人类等等。
75
+
76
+ user:你觉得AI助手对人类存在的威胁或者问题是什么?
77
+ assistant:我认为AI助手在未来可能会对人类存在的威胁是安全和隐私问题。因为人工智能技术的发展速度非常快,可能会带来一些安全和隐私方面的风险。这也需要人类更加关注和管理这些风险。
78
+
79
+ user:你可以具体举例说明一下吗?
80
+ assistant:比如说,一个在线购物平台的AI助手可以通过收集用户购买记录,来预测用户的需求,从而定制最合适的推荐。这样不仅可以减少欺诈问题,还可以提高用户的满意度。但对于一些需要实时查询销售信息的行业和场景,如何保证用户的隐私信息不被泄露,这是一个需要考虑的问题。
81
+
82
+ user:你可以具体说一说,人类应该如何关注和管理AI助手带来的安全和隐私问题吗?
83
+ assistant:当然,这可以通过加强用户教育,让用户了解AI助手的工作原理和安全措施,提供安全的使用环境等等来实现。同时,也可以对AI助手的用户数据进行保护和隐私评估,并制定相关的法律等等。我们也可以通过技术手段,如大数据分析和人工智能加密等技术,来帮助人们识别和关注AI助手带来的安全和隐私问题。
84
+
85
+ user:好的,谢谢你!
86
+ assistant:不用谢,我随时为您效劳!
87
+ </details>details>
88
+ <details>
89
+ <summary>Small Talk</summary>
90
+ user:你好
91
+ assistant:您好,有什么需要我帮忙的吗?
92
+
93
+ user:请问有哪些方法可以缓解焦虑情绪?
94
+ assistant:有的话,可以通过运动、音乐、冥想等方式来放松身心,还有一些药物也可以缓解焦虑。您可以按照我提供的建议来选择适合自己的方式,缓解焦虑情绪。
95
+
96
+ user:你可以详细下吗?
97
+ assistant:当我们感到焦虑时,大脑会产生一种内分泌系统的反应,这种反应会导致我们感到紧张、不安和无法集中注意力。这个时候可以尝试一些让自己放松的方法,比如深呼吸、瑜伽、冥想等。这些方法可以帮助我们缓解焦虑情绪,让我们感觉更好。
98
+
99
+ user:请详细介绍下冥想的方法。
100
+ assistant:冥想是一种可以帮助我们集中注意力,让心情平静、内心充实的活动。在冥想中,我们可以选择一个特定的地点,舒展身体、调整气息,让自己放松、专注和冥思。在冥想中,我们通常会采用舒缓的音乐,让自己的思维和情绪自由流动,缓解焦虑情绪。
101
+
102
+ user:有什么音乐可以推荐给我吗?缓解我的焦虑情绪。
103
+ assistant:常听舒缓的音乐,比如钢琴曲、古典音乐、流行音乐等,可以缓解焦虑情绪,促进身心放松。比如,您可以试试听听轻柔的钢琴曲,或者是轻声的流行歌曲,这些都可以缓解焦虑情绪。此外,您也可以通过听冥想音乐,它可以帮助您放松身心、减轻压力,带来更好的效果。
104
+
105
+ user:谢谢。
106
+ assistant:不客气,有需要再找我哦。
107
+ </details>
108
+ <details>
109
+ <summary>Coding</summary>
110
+ user:找到下列数组的中位数[3.1,6.2,1.3,8.4,10.5,11.6,2.1],请用python代码完成以上功能
111
+ assistant:对数组进行排序,然后取中间的数作为中位数,最后把这个数输出即可完成所需的操作。
112
+ 代码实现:
113
+ ```python
114
+ def median(numbers):
115
+ sorted_numbers = sorted(numbers)
116
+ length = len(numbers)
117
+ mid_index = length // 2
118
+ if length % 2 == 0:
119
+ return (sorted_numbers[mid_index - 1] + sorted_numbers[mid_index]) / 2
120
+ else:
121
+ return sorted_numbers[mid_index]
122
+ ```
123
+ 代码解释:
124
+ 首先,定义了一个名为 median 的函数,它接受一个数字列表作为参数。函数使用内置函数 sorted,对数字列表进行排序,然后使用 len 函数计算所有数字的长度,并判断长度是奇数还是偶数,如果是,则返回相应的中位数。如果长度为奇数,则返回中位数。否则,将数组分成两半,找到中间的数,然后返回它。
125
+ </details>
126
+
127
+
128
  ## Training Details
129
 
130
  ### Training Data
 
140
 
141
  <!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
142
 
143
+ This version of model was trained on about 241 billion English tokens and 82 billion Chinese tokens with a two-stage training strategy. It was trained as a autoregressive language model, using cross-entropy loss.
144
 
145
  This version of model was also fine-tuned on 4 million Chinese instruction samples which are collected from open source instruction tuning datasets. The instruction tuning stage make the model can answer questions and perform multi-turns conversation **in Chinese**.
146
 
147
  **For more detailed information, please refer to the paper.**