jermyn
/

deepseek-code-1.3b-inst-NLQ2Cypher

@@ -82,7 +82,7 @@ eval_batch_size: 16
 num_epochs: 6
 optimizer: adamw_bnb_8bit
 lr_scheduler: cosine
-learning_rate: 0.0002
 max_grad_norm: 1.0
 adam_beta2: 0.95
 adam_epsilon: 0.00001
@@ -129,7 +129,7 @@ save_safetensors: true
 This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-instruct](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-instruct) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4051
 ## Model description
@@ -148,7 +148,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0002
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 49
@@ -162,27 +162,27 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
 | 1.8723        | 0.1429 | 1    | 1.6354          |
-| 1.9222        | 0.2857 | 2    | 1.6278          |
-| 1.7642        | 0.5714 | 4    | 1.5956          |
-| 1.8259        | 0.8571 | 6    | 1.4414          |
-| 1.334         | 1.1429 | 8    | 1.0972          |
-| 0.9019        | 1.4286 | 10   | 0.8305          |
-| 0.5977        | 1.7143 | 12   | 0.6896          |
-| 0.621         | 2.0    | 14   | 0.6125          |
-| 0.3513        | 2.2857 | 16   | 0.5361          |
-| 0.2399        | 2.5714 | 18   | 0.4976          |
-| 0.1689        | 2.8571 | 20   | 0.4783          |
-| 0.192         | 3.1429 | 22   | 0.4579          |
-| 0.1873        | 3.4286 | 24   | 0.4330          |
-| 0.1426        | 3.7143 | 26   | 0.4143          |
-| 0.0909        | 4.0    | 28   | 0.4106          |
-| 0.1129        | 4.2857 | 30   | 0.4111          |
-| 0.1584        | 4.5714 | 32   | 0.4084          |
-| 0.1479        | 4.8571 | 34   | 0.4041          |
-| 0.122         | 5.1429 | 36   | 0.4086          |
-| 0.1212        | 5.4286 | 38   | 0.4064          |
-| 0.1464        | 5.7143 | 40   | 0.4097          |
-| 0.0915        | 6.0    | 42   | 0.4051          |
 ### Framework versions

 num_epochs: 6
 optimizer: adamw_bnb_8bit
 lr_scheduler: cosine
+learning_rate: 0.001
 max_grad_norm: 1.0
 adam_beta2: 0.95
 adam_epsilon: 0.00001
 This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-instruct](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-instruct) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3816
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.001
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 49
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
 | 1.8723        | 0.1429 | 1    | 1.6354          |
+| 1.9222        | 0.2857 | 2    | 1.5979          |
+| 1.5222        | 0.5714 | 4    | 1.0739          |
+| 0.7251        | 0.8571 | 6    | 0.7059          |
+| 0.3581        | 1.1429 | 8    | 0.6420          |
+| 0.2804        | 1.4286 | 10   | 0.6576          |
+| 0.2337        | 1.7143 | 12   | 0.4628          |
+| 0.1988        | 2.0    | 14   | 0.3674          |
+| 0.1218        | 2.2857 | 16   | 0.3528          |
+| 0.1087        | 2.5714 | 18   | 0.3584          |
+| 0.0842        | 2.8571 | 20   | 0.3569          |
+| 0.0733        | 3.1429 | 22   | 0.3610          |
+| 0.0943        | 3.4286 | 24   | 0.3477          |
+| 0.058         | 3.7143 | 26   | 0.3575          |
+| 0.0753        | 4.0    | 28   | 0.3797          |
+| 0.0435        | 4.2857 | 30   | 0.3915          |
+| 0.0758        | 4.5714 | 32   | 0.3902          |
+| 0.0608        | 4.8571 | 34   | 0.3875          |
+| 0.0368        | 5.1429 | 36   | 0.3853          |
+| 0.0444        | 5.4286 | 38   | 0.3818          |
+| 0.055         | 5.7143 | 40   | 0.3820          |
+| 0.0532        | 6.0    | 42   | 0.3816          |
 ### Framework versions