Example:
{wav_path}|{speaker_name}|{language}|{text}