{"segments": [[40.0, 45.0]], "p_music": [21.78], "p_speech": [8.98], "labels": ["P(~Music) = 21.78 | P(~Speech) = 8.98"]}