ybelkada
/

chatglm3-6b-hf

@@ -597,7 +597,7 @@ class GLMTransformer(torch.nn.Module):
         if self.post_layer_norm:
             LayerNormFunc = RMSNorm if config.rmsnorm else LayerNorm
             # Final layer norm before output.
-            self.final_layernorm = LayerNormFunc(config.hidden_size, eps=config.layernorm_epsilon, device=device,
                                                  dtype=config.torch_dtype)
         self.gradient_checkpointing = False
@@ -653,7 +653,7 @@ class GLMTransformer(torch.nn.Module):
         # Final layer norm.
         if self.post_layer_norm:
-            hidden_states = self.final_layernorm(hidden_states)
         return hidden_states, presents, all_hidden_states, all_self_attentions
@@ -740,7 +740,14 @@ class ChatGLMModel(ChatGLMPreTrainedModel):
         init_kwargs = {}
         if device is not None:
             init_kwargs["device"] = device
-        self.embedding = init_method(Embedding, config, **init_kwargs)
         self.num_layers = config.num_layers
         self.multi_query_group_num = config.multi_query_group_num
         self.kv_channels = config.kv_channels
@@ -765,7 +772,7 @@ class ChatGLMModel(ChatGLMPreTrainedModel):
         if self.post_layer_norm:
             LayerNormFunc = RMSNorm if config.rmsnorm else LayerNorm
             # Final layer norm before output.
-            self.final_layernorm = LayerNormFunc(config.hidden_size, eps=config.layernorm_epsilon, device=device,
                                                  dtype=config.torch_dtype)
         self.pre_seq_len = config.pre_seq_len
@@ -777,6 +784,8 @@ class ChatGLMModel(ChatGLMPreTrainedModel):
             self.prefix_encoder = PrefixEncoder(config)
             self.dropout = torch.nn.Dropout(0.1)
     def get_input_embeddings(self):
         return self.embedding.word_embeddings
@@ -882,7 +891,7 @@ class ChatGLMModel(ChatGLMPreTrainedModel):
         # Final layer norm.
         if self.post_layer_norm:
-            hidden_states = self.final_layernorm(hidden_states)
         if not return_dict:
             return tuple(v for v in [hidden_states, presents, all_hidden_states, all_self_attentions] if v is not None)

         if self.post_layer_norm:
             LayerNormFunc = RMSNorm if config.rmsnorm else LayerNorm
             # Final layer norm before output.
+            self.norm = LayerNormFunc(config.hidden_size, eps=config.layernorm_epsilon, device=device,
                                                  dtype=config.torch_dtype)
         self.gradient_checkpointing = False
         # Final layer norm.
         if self.post_layer_norm:
+            hidden_states = self.norm(hidden_states)
         return hidden_states, presents, all_hidden_states, all_self_attentions
         init_kwargs = {}
         if device is not None:
             init_kwargs["device"] = device
+        self.embed_tokens = nn.Embedding(
+            config.padded_vocab_size,
+            self.hidden_size,
+            dtype=config.torch_dtype,
+            device=device
+        )
         self.num_layers = config.num_layers
         self.multi_query_group_num = config.multi_query_group_num
         self.kv_channels = config.kv_channels
         if self.post_layer_norm:
             LayerNormFunc = RMSNorm if config.rmsnorm else LayerNorm
             # Final layer norm before output.
+            self.norm = LayerNormFunc(config.hidden_size, eps=config.layernorm_epsilon, device=device,
                                                  dtype=config.torch_dtype)
         self.pre_seq_len = config.pre_seq_len
             self.prefix_encoder = PrefixEncoder(config)
             self.dropout = torch.nn.Dropout(0.1)
+        self.gradient_checkpointing = False
     def get_input_embeddings(self):
         return self.embedding.word_embeddings
         # Final layer norm.
         if self.post_layer_norm:
+            hidden_states = self.norm(hidden_states)
         if not return_dict:
             return tuple(v for v in [hidden_states, presents, all_hidden_states, all_self_attentions] if v is not None)