{"segments": [[21.0, 26.0]], "p_music": [0.0], "p_speech": [4.94], "labels": ["P(~Music) = 0.0 | P(~Speech) = 4.94"]}