File size: 1,552 Bytes
016c2ce
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
# 数据集参数
dataset_conf:
  # 训练的批量大小
  batch_size: 64
  # 说话人数量,即分类大小
  num_speakers: 3242
  # 读取数据的线程数量
  num_workers: 4
  # 过滤最短的音频长度
  min_duration: 0.5
  # 最长的音频长度,大于这个长度会裁剪掉
  max_duration: 3
  # 是否裁剪静音片段
  do_vad: False
  # 音频的采样率
  sample_rate: 16000
  # 是否对音频进行音量归一化
  use_dB_normalization: True
  # 对音频进行音量归一化的音量分贝值
  target_dB: -20
  # 训练数据的数据列表路径
  train_list: 'dataset/train_list.txt'
  # 测试数据的数据列表路径
  test_list: 'dataset/test_list.txt'

# 数据预处理参数
preprocess_conf:
  # 音频预处理方法,支持:MelSpectrogram、Spectrogram、MFCC
  feature_method: 'MelSpectrogram'

# MelSpectrogram的参数,其他的预处理方法查看对应API设设置参数
feature_conf:
  sample_rate: 16000
  n_fft: 1024
  hop_length: 320
  win_length: 1024
  f_min: 50.0
  f_max: 14000.0
  n_mels: 64

optimizer_conf:
  # 优化方法,支持Adam、AdamW、SGD
  optimizer: 'Adam'
  # 初始学习率的大小
  learning_rate: 0.001
  weight_decay: 1e-6

model_conf:
  # 所使用的池化层,支持ASP、SAP、TSP、TAP
  pooling_type: 'ASP'

train_conf:
  # 训练的轮数
  max_epoch: 30
  log_interval: 100

# 所使用的模型,支持EcapaTdnn、TDNN、Res2Net、ResNetSE
use_model: 'EcapaTdnn'
# 所使用的损失函数,支持AAMLoss、AMLoss、ARMLoss、CELoss
use_loss: 'AAMLoss'