TTS-Spaces-Arena

Running

App Files Files Community

Pendrokar commited on about 24 hours ago

Commit

57a5f00

1 Parent(s): e5a3534

new TTS: MegaTTS3

Browse files

Files changed (4) hide show

app/models.py +25 -5
test_tts_megatts.py +49 -0
voice_samples/xtts_sample_megatts.npy +3 -0
voice_samples/xtts_sample_megatts.wav +3 -0

app/models.py CHANGED Viewed

@@ -243,8 +243,8 @@ HF_SPACES = {
         'text_param_index': 'text',
         'return_audio_index': 0,
         'series': 'MeloTTS',
-        'emoji': '😒', # Narration voice
-        'title': 'Narration voice',
     },
     # Parler Mini
@@ -552,7 +552,7 @@ HF_SPACES = {
         'return_audio_index': 0,
         'is_zero_gpu_space': True,
         'series': 'Zonos',
-        'title': 'Outclassed',
     },
     'Steveeeeeeen/Zonos/hybrid': {
         'name': 'Zonos H',
@@ -562,6 +562,7 @@ HF_SPACES = {
         'is_zero_gpu_space': True,
         'series': 'Zonos',
         'title': 'Outclassed',
     },
     # Spark-TTS
@@ -622,6 +623,15 @@ HF_SPACES = {
         'is_zero_gpu_space': True,
         'series': 'Chatterbox',
     },
 }
 # for zero-shot TTS - voice sample used by XTTS (11 seconds)
@@ -968,12 +978,22 @@ OVERRIDE_INPUTS = {
 		'temperature_input': 0.8, # Lower values make the output more deterministic, higher values increase randomness.
 		'seed_num_input': 1, # Seed for random number generation, can be any integer.
 		'cfgw_input': 0.5, # CFG/Pace weight, can be any float value.
-    }
 }
 # minor mods to model from the same space
 OVERRIDE_INPUTS['Steveeeeeeen/Zonos/hybrid'] = OVERRIDE_INPUTS['Steveeeeeeen/Zonos']
 OVERRIDE_INPUTS['Steveeeeeeen/Zonos/hybrid']['model_choice'] = 'Zyphra/Zonos-v0.1-hybrid'
 OVERRIDE_INPUTS['PHBJT/multi_parler_tts/reformatted'] = OVERRIDE_INPUTS['PHBJT/multi_parler_tts']
 OVERRIDE_INPUTS['PHBJT/multi_parler_tts/reformatted']['do_format'] = True
@@ -1038,7 +1058,7 @@ closed_source = [
 ]
 # top five models in order to always have one of them picked and scrutinized
-top_five = ['PHBJT/multi_parler_tts', 'fishaudio/openaudio-s1-mini', 'ResembleAI/Chatterbox']
 # prioritize low vote models
 sql = 'SELECT name FROM model WHERE (upvote + downvote) < 750 ORDER BY (upvote + downvote) ASC'

         'text_param_index': 'text',
         'return_audio_index': 0,
         'series': 'MeloTTS',
+        'emoji': '😷', # broken space / Narration voice
+        'title': 'Broken space / Outclassed narration voice',
     },
     # Parler Mini
         'return_audio_index': 0,
         'is_zero_gpu_space': True,
         'series': 'Zonos',
+        # 'title': 'Outclassed',
     },
     'Steveeeeeeen/Zonos/hybrid': {
         'name': 'Zonos H',
         'is_zero_gpu_space': True,
         'series': 'Zonos',
         'title': 'Outclassed',
+        'space_link': 'Steveeeeeeen/Zonos',
     },
     # Spark-TTS
         'is_zero_gpu_space': True,
         'series': 'Chatterbox',
     },
+    'ByteDance/MegaTTS3': {
+        'name': 'MegaTTS',
+        'function': '/predict',
+        'text_param_index': 'inp_text',
+        'return_audio_index': 0,
+        'is_zero_gpu_space': True,
+        'series': 'MegaTTS',
+    },
 }
 # for zero-shot TTS - voice sample used by XTTS (11 seconds)
 		'temperature_input': 0.8, # Lower values make the output more deterministic, higher values increase randomness.
 		'seed_num_input': 1, # Seed for random number generation, can be any integer.
 		'cfgw_input': 0.5, # CFG/Pace weight, can be any float value.
+    },
+    # MegaTTS
+    'ByteDance/MegaTTS3': {
+		'inp_audio': handle_file('voice_samples/xtts_sample_megatts.wav'),
+		'inp_npy': handle_file('voice_samples/xtts_sample_megatts.npy'),
+		'infer_timestep': 32,
+		'p_w': 1.4,
+		't_w': 3,
+    },
 }
 # minor mods to model from the same space
 OVERRIDE_INPUTS['Steveeeeeeen/Zonos/hybrid'] = OVERRIDE_INPUTS['Steveeeeeeen/Zonos']
 OVERRIDE_INPUTS['Steveeeeeeen/Zonos/hybrid']['model_choice'] = 'Zyphra/Zonos-v0.1-hybrid'
 OVERRIDE_INPUTS['PHBJT/multi_parler_tts/reformatted'] = OVERRIDE_INPUTS['PHBJT/multi_parler_tts']
 OVERRIDE_INPUTS['PHBJT/multi_parler_tts/reformatted']['do_format'] = True
 ]
 # top five models in order to always have one of them picked and scrutinized
+top_five = ['ByteDance/MegaTTS3']
 # prioritize low vote models
 sql = 'SELECT name FROM model WHERE (upvote + downvote) < 750 ORDER BY (upvote + downvote) ASC'

test_tts_megatts.py ADDED Viewed

	@@ -0,0 +1,49 @@

+import os
+from test_overrides import _get_param_examples, _override_params
+from gradio_client import Client, file
+model = "ByteDance/MegaTTS3"
+client = Client(model, hf_token=os.getenv('HF_TOKEN'))
+endpoints = client.view_api(all_endpoints=True, print_info=False, return_format='dict')
+# print(endpoints)
+api_name = '/predict'
+fn_index = None
+end_parameters = None
+text = 'This is what my voice sounds like.'
+end_parameters = _get_param_examples(
+	endpoints['named_endpoints'][api_name]['parameters']
+)
+print(end_parameters)
+space_inputs = end_parameters
+# override some or all default parameters
+space_inputs = _override_params(end_parameters, model)
+if(type(space_inputs) == dict):
+	space_inputs['inp_text'] = text
+	result = client.predict(
+		**space_inputs,
+		api_name=api_name,
+		fn_index=fn_index
+	)
+else:
+	space_inputs[0] = text
+	result = client.predict(
+		*space_inputs,
+		api_name=api_name,
+		fn_index=fn_index
+	)
+	# space_inputs = {str(i): value for i, value in enumerate(space_inputs)}
+print(space_inputs)
+# print(*space_inputs)
+# print(**space_inputs)
+# result = client.predict(
+# 	**space_inputs,
+# 	api_name=api_name,
+#     fn_index=fn_index
+# )
+print(result)

voice_samples/xtts_sample_megatts.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb3a00932b84ace3bf94fef3dcba7c328608276107b6d36c34e33bcede8666f4
+size 38016

voice_samples/xtts_sample_megatts.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89a4fa9a16b6463f852cf9424f72c3d3c87aa83010e89db534c53fcd1ae12c02
+size 1002030