Update modeling_llama_butler.py

Fix inference to actually use sparsity, remove printing of effective sparsity (it is still calculated)

Files changed (1) hide show

modeling_llama_butler.py CHANGED Viewed

@@ -918,7 +918,7 @@ class LlamaAttentionExperimental(nn.Module):
         self.num_key_value_groups = self.num_heads // self.num_key_value_heads
         self.max_position_embeddings = config.max_position_embeddings
         self.rope_theta = config.rope_theta
-        self.inference_mode = False
         self.producer = producer
         self.layer_idx = layer_idx
         self.token_sparse_method = None
@@ -1217,7 +1217,7 @@ class LlamaAttentionExperimental(nn.Module):
                 num_active = (~attention_mask.bool()).sum(dim=-1).expand_as(num_deact)    # Number of tokens active at this position if zero-sparsity
                 effective_sparsity = 100 * (additional_deact.float() / num_active.float()).mean().item()
                 self.effective_sparsity = effective_sparsity
-                print("Effective Sparsity:", effective_sparsity, "%\t Sequence Length:", q_len)
         if self.layer_idx == 0:
             if self.effective_sparsity is None:
                 self.effective_sparsity = 0.0

         self.num_key_value_groups = self.num_heads // self.num_key_value_heads
         self.max_position_embeddings = config.max_position_embeddings
         self.rope_theta = config.rope_theta
+        self.inference_mode = True
         self.producer = producer
         self.layer_idx = layer_idx
         self.token_sparse_method = None
                 num_active = (~attention_mask.bool()).sum(dim=-1).expand_as(num_deact)    # Number of tokens active at this position if zero-sparsity
                 effective_sparsity = 100 * (additional_deact.float() / num_active.float()).mean().item()
                 self.effective_sparsity = effective_sparsity
+                # print("Effective Sparsity:", effective_sparsity, "%\t Sequence Length:", q_len)
         if self.layer_idx == 0:
             if self.effective_sparsity is None:
                 self.effective_sparsity = 0.0