SeoulStreamingStation/KLM4.2_TestVersion · 실시간 음성변조 도움 요청합니다.

지난번에 학습한 모델이 좀 어둡다고했었죠?
일단 학습량이 좀 많이 부족하였던거 같습니다.
학습량을 늘렸습니다.
일단 kss 데이터를 사용했고요.
원본을 추론해 봤는데 제 귀로는 비슷하게 들리기는 합니다.
이 데이터를 가지고 MMVCServerSIO에서 돌려 봤습니다.
전 남자라 음성 톤을 12로 변경했습니다.
그리고 12에서 조금씩 올려 봤습니다.
결과는 저의 그냥 목소리에 고음 추가한 정도입니다.
kss 데이터셋 느낌이 전혀 안 납니다.
유튜브를 보면 아이유 목소리로 변조한것들이 있는데 그것들하고 느낌이 전혀 다릅니다.
rvc로 윤하 노래를 변조했을때는 kss 느낌이 났지만 제 목소리를 실시간 변조해보면 전혀 kss 느낌이 안듭니다.
뭐가 잘못되었는지 궁금해서 질문 올립니다.

안녕하세요 kbuwel님, 전에도 설명을 간략하게 설명 드렸으나 목소리의 색이 비슷한 것과 말투가 다른 것과는 전혀 다른 문제 입니다.
예를들어 말씀을 하실때, 남성과 여성은 전혀 다른 어투를 가지고 있습니다. 즉 동일한 동성의 유저가 서로의 목소리를 교환하면 비슷한 느낌이 나오지만, 이성의 목소리를 변환하면 무언가 피치만 올린 남자의 목소리와 같은 느낌이 나타납니다. 이것은 kbuewl님만의 문제가 아닌 남/여성간의 화법의 갭이 크기 때문입니다.

목소리 중에서는 전환률이 좋은 목소리가 있습니다. 음색 자체가 굉장히 독특하여 누구나 쉽게 인식할 수 있는 소리를 내는 사람, 또는 중성적인 화법을 가진 이성의 목소리는 남/여 사이의 목소리 전환에도 큰 영향을 받지 않는 소리들 입니다. 대부분 목소리로 특정 사람을 구분할 때 일부의 사람들은 "소리 자체"가 그 사람의 아이덴티티를 부여해 주지만, 대부분의 사람들은 그 사람이 말을하는 습관이나 어투에서 나타나는 경우가 많습니다. 만약 후자일 경우 동일한 소리를 모델이 카피했다고 하더라도 말하는 습관이 그 사람과 많이 다르다면 전혀 다른 느낌의 사람처럼 인식 됩니다.

즉 이 말은, 보이스체인저로 상대방의 목소리를 카피하기 위해서는 "소리"로 구분이 되는 목소리를 모델로 활용하거나, 본인 스스로가 그 사람의 말투를 흉내내는 연습이 필요합니다.
동일한 동성간의 경우에도 말을 하는 습관이나 화법이 너무 다른 경우 큰 이질감이 생길 수도 있습니다. 이것은 모델상의 문제라기 보단 클론한 모델과 추론 대상간의 차이가 너무 커서 RVC 자체로 커버가 불가능한 경우 발생하는 문제입니다.