AstraMindAI
/

xtts2-gpt

Model card Files Files and versions Community

mlinmg commited on Oct 28, 2024

Commit

e7fb2db

·

verified ·

1 Parent(s): b20ebe5

Upload 2 files

Files changed (2) hide show

config.json +3 -1
gpt_config.py +6 -1

config.json CHANGED Viewed

@@ -1,7 +1,9 @@
 {
   "architectures": [
     "XttsGPT"
   ],
   "audio_config": {
     "mel_channels": 80,
     "output_sample_rate": 24000,
@@ -16,7 +18,6 @@
   "gpt_batch_size": 1,
   "gpt_max_audio_tokens": 605,
   "hidden_size": 1024,
-  "n_inner": 4098,
   "initializer_range": 0.02,
   "kv_cache": true,
   "layer_norm_epsilon": 1e-05,
@@ -24,6 +25,7 @@
   "max_prompt_tokens": 70,
   "max_text_tokens": 402,
   "model_type": "xtts_gpt",
   "num_attention_heads": 16,
   "num_audio_tokens": 1026,
   "num_hidden_layers": 30,

 {
+  "activation_function": "gelu",
   "architectures": [
     "XttsGPT"
   ],
+  "attn_pdrop": 0.1,
   "audio_config": {
     "mel_channels": 80,
     "output_sample_rate": 24000,
   "gpt_batch_size": 1,
   "gpt_max_audio_tokens": 605,
   "hidden_size": 1024,
   "initializer_range": 0.02,
   "kv_cache": true,
   "layer_norm_epsilon": 1e-05,
   "max_prompt_tokens": 70,
   "max_text_tokens": 402,
   "model_type": "xtts_gpt",
+  "n_inner": 4098,
   "num_attention_heads": 16,
   "num_audio_tokens": 1026,
   "num_hidden_layers": 30,

gpt_config.py CHANGED Viewed

@@ -36,6 +36,7 @@ class XTTSGPTConfig(PretrainedConfig):
             self,
             # Model architecture
             hidden_size: int = 1024,  # gpt_n_model_channels in original
             num_hidden_layers: int = 30,  # gpt_layers in original
             num_attention_heads: int = 16,  # gpt_n_heads in original
@@ -82,6 +83,8 @@ class XTTSGPTConfig(PretrainedConfig):
                 "AutoConfig": "AstraMindAI/xtts2-gpt--gpt_config.XTTSGPTConfig",
                 "AutoModelForCausalLM": "AstraMindAI/xtts2-gpt--xtts2_gpt_modeling.XttsGPT",
             },
             **kwargs
     ):
         super().__init__(**kwargs)
@@ -90,8 +93,10 @@ class XTTSGPTConfig(PretrainedConfig):
         self.audio_config = GPTAudioConfig(
             **audio_config if audio_config is not None else {}
         )
         self.hidden_size = hidden_size
         self.num_hidden_layers = num_hidden_layers
         self.num_attention_heads = num_attention_heads

             self,
             # Model architecture
             hidden_size: int = 1024,  # gpt_n_model_channels in original
+            n_inner: int = 4098,
             num_hidden_layers: int = 30,  # gpt_layers in original
             num_attention_heads: int = 16,  # gpt_n_heads in original
                 "AutoConfig": "AstraMindAI/xtts2-gpt--gpt_config.XTTSGPTConfig",
                 "AutoModelForCausalLM": "AstraMindAI/xtts2-gpt--xtts2_gpt_modeling.XttsGPT",
             },
+            activation_function: str = "gelu",
+            attn_pdrop: float = 0.1,
             **kwargs
     ):
         super().__init__(**kwargs)
         self.audio_config = GPTAudioConfig(
             **audio_config if audio_config is not None else {}
         )
+        self.activation_function = activation_function
+        self.attn_pdrop = attn_pdrop
         self.hidden_size = hidden_size
+        self.n_inner = n_inner
         self.num_hidden_layers = num_hidden_layers
         self.num_attention_heads = num_attention_heads