NbAiLab
/

wav2vec2-1b-npsc-nst

Automatic Speech Recognition

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

versae commited on Jan 30, 2023

Commit

d3d8955

•

1 Parent(s): 6c2acaa

Update eval.py

Files changed (1) hide show

eval.py +3 -2

eval.py CHANGED Viewed

@@ -6,6 +6,7 @@ from typing import Dict
 import torch
 from datasets import Audio, Dataset, load_dataset, load_metric
 from num2words import num2words as n2w
 from transformers import AutoFeatureExtractor, AutoModelForCTC, pipeline, Wav2Vec2Processor, Wav2Vec2ProcessorWithLM, Wav2Vec2FeatureExtractor
 # from pyctcdecode import BeamSearchDecoderCTC
@@ -17,7 +18,7 @@ def log_results(result: Dataset, args: Dict[str, str]):
     log_outputs = args.log_outputs
     lm = "withLM" if args.use_lm else "noLM"
     model_id = args.model_id.replace("/", "_").replace(".", "")
-    dataset_id = "_".join([model_id] + args.dataset.split("/") + [args.config, args.split, lm])
     # load metric
     wer = load_metric("wer")
@@ -203,7 +204,7 @@ if __name__ == "__main__":
         "--config", type=str, required=True, help="Config of the dataset. *E.g.* `'en'`  for Common Voice"
     )
     parser.add_argument(
-        "--filter", type=str, default="", help="Simple filter on attributes. *E.g.* `region_of_youth:Troms` would only keep those samples for which the condition is met"
     )
     parser.add_argument("--split", type=str, required=True, help="Split of the dataset. *E.g.* `'test'`")
     parser.add_argument(

 import torch
 from datasets import Audio, Dataset, load_dataset, load_metric
 from num2words import num2words as n2w
+from slugify import slugify
 from transformers import AutoFeatureExtractor, AutoModelForCTC, pipeline, Wav2Vec2Processor, Wav2Vec2ProcessorWithLM, Wav2Vec2FeatureExtractor
 # from pyctcdecode import BeamSearchDecoderCTC
     log_outputs = args.log_outputs
     lm = "withLM" if args.use_lm else "noLM"
     model_id = args.model_id.replace("/", "_").replace(".", "")
+    dataset_id = "_".join([model_id] + args.dataset.split("/") + [args.config, slugify(args.filter), args.split, lm])
     # load metric
     wer = load_metric("wer")
         "--config", type=str, required=True, help="Config of the dataset. *E.g.* `'en'`  for Common Voice"
     )
     parser.add_argument(
+        "--filter", type=str, default="", help="Simple filter on attributes. *E.g.* `region_of_youth:Troms` would pnly keep those samplesfor which the condition is met"
     )
     parser.add_argument("--split", type=str, required=True, help="Split of the dataset. *E.g.* `'test'`")
     parser.add_argument(