nicolinho
/

QRM-Llama3.1-8B-v2

Model card Files Files and versions Community

nicolinho commited on Dec 13, 2024

Commit

c04147c

·

verified ·

1 Parent(s): 1b1d3a1

Update modeling_custom.py

Files changed (1) hide show

modeling_custom.py +2 -2

modeling_custom.py CHANGED Viewed

@@ -160,7 +160,7 @@ class LlamaForRewardModelWithGating(LlamaPreTrainedModel):
         gating_token_positions = [find_token_for_gating(ids.tolist()) for ids in input_ids]
         prompt_embedding = tokens_hidden_states[dummy_iterator, gating_token_positions, :]
-        gating_output = self.gating(prompt_embedding.float())
         #with torch.autocast(device_type=rewards.device.type, dtype=torch.float32):
             # [B, num_quantiles, num_objectives]
@@ -171,7 +171,7 @@ class LlamaForRewardModelWithGating(LlamaPreTrainedModel):
         rewards_expectation = rewards.float().mean(dim=2)
-        score = torch.sum(gating_output.float() * rewards_expectation, dim=1, keepdim=True)
         return CustomOutput(
 #            reward_quantiles=reward_quantiles,

         gating_token_positions = [find_token_for_gating(ids.tolist()) for ids in input_ids]
         prompt_embedding = tokens_hidden_states[dummy_iterator, gating_token_positions, :]
+        gating_output = self.gating(prompt_embedding)
         #with torch.autocast(device_type=rewards.device.type, dtype=torch.float32):
             # [B, num_quantiles, num_objectives]
         rewards_expectation = rewards.float().mean(dim=2)
+        score = torch.sum(gating_output.float() * rewards_expectation.float(), dim=1, keepdim=True)
         return CustomOutput(
 #            reward_quantiles=reward_quantiles,