jonatasgrosman
/

wav2vec2-large-xlsr-53-dutch

@@ -24,10 +24,10 @@ model-index:
     metrics:
        - name: Test WER
          type: wer
-         value: 13.42
        - name: Test CER
          type: cer
-         value: 8.63
 ---
 # Wav2Vec2-Large-XLSR-53-Dutch
@@ -49,8 +49,9 @@ from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 LANG_ID = "nl"
 MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-dutch"
-test_dataset = load_dataset("common_voice", LANG_ID, split="test[:2%]")
 processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
 model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
@@ -64,17 +65,28 @@ def speech_file_to_array_fn(batch):
     return batch
 test_dataset = test_dataset.map(speech_file_to_array_fn)
-inputs = processor(test_dataset[:2]["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
 with torch.no_grad():
     logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
 predicted_ids = torch.argmax(logits, dim=-1)
-print("Prediction:", processor.batch_decode(predicted_ids))
-print("Reference:", test_dataset[:2]["sentence"])
 ```
 ## Evaluation
 The model can be evaluated as follows on the Dutch test data of Common Voice.
@@ -134,6 +146,5 @@ print("CER: {:2f}".format(100 * cer.compute(predictions=result["pred_strings"],
 **Test Result**:
-- WER: 13.42%
-- CER: 8.63%

     metrics:
        - name: Test WER
          type: wer
+         value: 13.60
        - name: Test CER
          type: cer
+         value: 8.12
 ---
 # Wav2Vec2-Large-XLSR-53-Dutch
 LANG_ID = "nl"
 MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-dutch"
+SAMPLES = 5
+test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
 processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
 model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
     return batch
 test_dataset = test_dataset.map(speech_file_to_array_fn)
+inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
 with torch.no_grad():
     logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
 predicted_ids = torch.argmax(logits, dim=-1)
+predicted_sentences = processor.batch_decode(predicted_ids)
+for i, predicted_sentence in enumerate(predicted_sentences):
+    print("-" * 100)
+    print("Reference:", test_dataset[i]["sentence"])
+    print("Prediction:", predicted_sentence)
 ```
+| Reference  | Prediction |
+| ------------- | ------------- |
+| DE ABORIGINALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË. | DE ABORIGONALS ZIJN DE OORSPRONKELIJKE BEWONERS VAN AUSTRALIË |
+| MIJN TOETSENBORD ZIT VOL STOF | MIJN TOETSEN BORT ZIT VOL STOF. |
+| ZE HAD DE BANK BESCHADIGD MET HAAR SKATEBOARD. | ZE HAD DE BANK BESCHADIGD MET HAAR SCHEETBOORD |
+| WAAR LAAT JIJ JE ONDERHOUD DOEN? | WAAR LAAT JIJ JE ONDERHOUD DOEN |
+| NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN QWERTY TOETSENBORD. | NA HET LEZEN VAN VELE BEOORDELINGEN HAD ZE EINDELIJK HAAR OOG LATEN VALLEN OP EEN LAPTOP MET EEN KWERTIETOETSENBORD |
 ## Evaluation
 The model can be evaluated as follows on the Dutch test data of Common Voice.
 **Test Result**:
+- WER: 13.60%
+- CER: 8.12%