Nhut commited on
Commit
d595cf7
·
1 Parent(s): 60cf54f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +82 -82
README.md CHANGED
@@ -24,7 +24,7 @@ model-index:
24
  metrics:
25
  - name: Test WER
26
  type: wer
27
- value: 54.55
28
  ---
29
 
30
  # Wav2Vec2-Large-XLSR-53-Vietnamese
@@ -103,46 +103,46 @@ ENCODER = {
103
  "ghể": "gể",
104
  "ghễ": "gễ",
105
  "ghệ": "gệ",
106
- "ngh": "\x80",
107
- "uyê": "\x96",
108
- "uyề": "\x97",
109
- "uyế": "\x98",
110
- "uyể": "\x99",
111
- "uyễ": "\x9a",
112
- "uyệ": "\x9b",
113
- "ng": "\x81",
114
- "ch": "\x82",
115
- "gh": "\x83",
116
- "nh": "\x84",
117
- "gi": "\x85",
118
- "ph": "\x86",
119
- "kh": "\x87",
120
- "th": "\x88",
121
- "tr": "\x89",
122
- "uy": "\x8a",
123
- "uỳ": "\x8b",
124
- "uý": "\x8c",
125
- "uỷ": "\x8d",
126
- "uỹ": "\x8e",
127
- "uỵ": "\x8f",
128
- "iê": "\x90",
129
- "iề": "\x91",
130
- "iế": "\x92",
131
- "iể": "\x93",
132
- "iễ": "\x94",
133
- "iệ": "\x95",
134
- "uô": "\x9c",
135
- "uồ": "\x9d",
136
- "uố": "\x9e",
137
- "uổ": "\x9f",
138
- "uỗ": "\xa0",
139
- "uộ": "\xa1",
140
- "ươ": "\xa2",
141
- "ườ": "\xa3",
142
- "ướ": "\xa4",
143
- "ưở": "\xa5",
144
- "ưỡ": "\xa6",
145
- "ượ": "\xa7",
146
  }
147
 
148
  def decode_string(x):
@@ -250,46 +250,46 @@ ENCODER = {
250
  "ghể": "gể",
251
  "ghễ": "gễ",
252
  "ghệ": "gệ",
253
- "ngh": "\x80",
254
- "uyê": "\x96",
255
- "uyề": "\x97",
256
- "uyế": "\x98",
257
- "uyể": "\x99",
258
- "uyễ": "\x9a",
259
- "uyệ": "\x9b",
260
- "ng": "\x81",
261
- "ch": "\x82",
262
- "gh": "\x83",
263
- "nh": "\x84",
264
- "gi": "\x85",
265
- "ph": "\x86",
266
- "kh": "\x87",
267
- "th": "\x88",
268
- "tr": "\x89",
269
- "uy": "\x8a",
270
- "uỳ": "\x8b",
271
- "uý": "\x8c",
272
- "uỷ": "\x8d",
273
- "uỹ": "\x8e",
274
- "uỵ": "\x8f",
275
- "iê": "\x90",
276
- "iề": "\x91",
277
- "iế": "\x92",
278
- "iể": "\x93",
279
- "iễ": "\x94",
280
- "iệ": "\x95",
281
- "uô": "\x9c",
282
- "uồ": "\x9d",
283
- "uố": "\x9e",
284
- "uổ": "\x9f",
285
- "uỗ": "\xa0",
286
- "uộ": "\xa1",
287
- "ươ": "\xa2",
288
- "ườ": "\xa3",
289
- "ướ": "\xa4",
290
- "ưở": "\xa5",
291
- "ưỡ": "\xa6",
292
- "ượ": "\xa7",
293
  }
294
 
295
  def decode_string(x):
@@ -326,7 +326,7 @@ result = test_dataset.map(evaluate, batched=True, batch_size=8)
326
  print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
327
  ```
328
 
329
- **Test Result**: 54.55 %
330
 
331
 
332
  ## Training
 
24
  metrics:
25
  - name: Test WER
26
  type: wer
27
+ value: 52.48
28
  ---
29
 
30
  # Wav2Vec2-Large-XLSR-53-Vietnamese
 
103
  "ghể": "gể",
104
  "ghễ": "gễ",
105
  "ghệ": "gệ",
106
+ "ngh": "\\x80",
107
+ "uyê": "\\x96",
108
+ "uyề": "\\x97",
109
+ "uyế": "\\x98",
110
+ "uyể": "\\x99",
111
+ "uyễ": "\\x9a",
112
+ "uyệ": "\\x9b",
113
+ "ng": "\\x81",
114
+ "ch": "\\x82",
115
+ "gh": "\\x83",
116
+ "nh": "\\x84",
117
+ "gi": "\\x85",
118
+ "ph": "\\x86",
119
+ "kh": "\\x87",
120
+ "th": "\\x88",
121
+ "tr": "\\x89",
122
+ "uy": "\\x8a",
123
+ "uỳ": "\\x8b",
124
+ "uý": "\\x8c",
125
+ "uỷ": "\\x8d",
126
+ "uỹ": "\\x8e",
127
+ "uỵ": "\\x8f",
128
+ "iê": "\\x90",
129
+ "iề": "\\x91",
130
+ "iế": "\\x92",
131
+ "iể": "\\x93",
132
+ "iễ": "\\x94",
133
+ "iệ": "\\x95",
134
+ "uô": "\\x9c",
135
+ "uồ": "\\x9d",
136
+ "uố": "\\x9e",
137
+ "uổ": "\\x9f",
138
+ "uỗ": "\\xa0",
139
+ "uộ": "\\xa1",
140
+ "ươ": "\\xa2",
141
+ "ườ": "\\xa3",
142
+ "ướ": "\\xa4",
143
+ "ưở": "\\xa5",
144
+ "ưỡ": "\\xa6",
145
+ "ượ": "\\xa7",
146
  }
147
 
148
  def decode_string(x):
 
250
  "ghể": "gể",
251
  "ghễ": "gễ",
252
  "ghệ": "gệ",
253
+ "ngh": "\\x80",
254
+ "uyê": "\\x96",
255
+ "uyề": "\\x97",
256
+ "uyế": "\\x98",
257
+ "uyể": "\\x99",
258
+ "uyễ": "\\x9a",
259
+ "uyệ": "\\x9b",
260
+ "ng": "\\x81",
261
+ "ch": "\\x82",
262
+ "gh": "\\x83",
263
+ "nh": "\\x84",
264
+ "gi": "\\x85",
265
+ "ph": "\\x86",
266
+ "kh": "\\x87",
267
+ "th": "\\x88",
268
+ "tr": "\\x89",
269
+ "uy": "\\x8a",
270
+ "uỳ": "\\x8b",
271
+ "uý": "\\x8c",
272
+ "uỷ": "\\x8d",
273
+ "uỹ": "\\x8e",
274
+ "uỵ": "\\x8f",
275
+ "iê": "\\x90",
276
+ "iề": "\\x91",
277
+ "iế": "\\x92",
278
+ "iể": "\\x93",
279
+ "iễ": "\\x94",
280
+ "iệ": "\\x95",
281
+ "uô": "\\x9c",
282
+ "uồ": "\\x9d",
283
+ "uố": "\\x9e",
284
+ "uổ": "\\x9f",
285
+ "uỗ": "\\xa0",
286
+ "uộ": "\\xa1",
287
+ "ươ": "\\xa2",
288
+ "ườ": "\\xa3",
289
+ "ướ": "\\xa4",
290
+ "ưở": "\\xa5",
291
+ "ưỡ": "\\xa6",
292
+ "ượ": "\\xa7",
293
  }
294
 
295
  def decode_string(x):
 
326
  print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
327
  ```
328
 
329
+ **Test Result**: 52.48 %
330
 
331
 
332
  ## Training