End of training

Browse files

Files changed (5) hide show

README.md +64 -34
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
loss_plot.png +0 -0
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-base](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1511
 ## Model description
@@ -45,43 +45,73 @@ The following hyperparameters were used during training:
 - total_eval_batch_size: 16
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- num_epochs: 6
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch | Step  | Validation Loss |
-|:-------------:|:-----:|:-----:|:---------------:|
-| 0.2738        | 0.2   | 3094  | 0.2743          |
-| 0.2543        | 0.4   | 6188  | 0.2529          |
-| 0.2473        | 0.6   | 9282  | 0.2452          |
-| 0.2395        | 0.8   | 12376 | 0.2414          |
-| 0.236         | 1.0   | 15470 | 0.2337          |
-| 0.227         | 1.2   | 18564 | 0.2317          |
-| 0.2256        | 1.4   | 21658 | 0.2184          |
-| 0.2178        | 1.6   | 24752 | 0.2154          |
-| 0.2172        | 1.8   | 27846 | 0.2153          |
-| 0.2107        | 2.0   | 30940 | 0.2135          |
-| 0.2048        | 2.2   | 34034 | 0.2110          |
-| 0.2022        | 2.4   | 37128 | 0.2038          |
-| 0.1967        | 2.6   | 40222 | 0.1990          |
-| 0.1947        | 2.8   | 43316 | 0.1957          |
-| 0.1923        | 3.0   | 46410 | 0.1944          |
-| 0.1841        | 3.2   | 49504 | 0.1878          |
-| 0.1831        | 3.4   | 52598 | 0.1876          |
-| 0.179         | 3.6   | 55692 | 0.1844          |
-| 0.1766        | 3.8   | 58786 | 0.1808          |
-| 0.1753        | 4.0   | 61880 | 0.1750          |
-| 0.1652        | 4.2   | 64974 | 0.1735          |
-| 0.1631        | 4.4   | 68068 | 0.1686          |
-| 0.1584        | 4.6   | 71162 | 0.1662          |
-| 0.1534        | 4.8   | 74256 | 0.1632          |
-| 0.1523        | 5.0   | 77350 | 0.1608          |
-| 0.1445        | 5.2   | 80444 | 0.1576          |
-| 0.1429        | 5.4   | 83538 | 0.1574          |
-| 0.1408        | 5.6   | 86632 | 0.1549          |
-| 0.1383        | 5.8   | 89726 | 0.1527          |
-| 0.1361        | 6.0   | 92820 | 0.1511          |
 ### Framework versions

 This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-base](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1453
 ## Model description
 - total_eval_batch_size: 16
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- num_epochs: 12
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch | Step   | Validation Loss |
+|:-------------:|:-----:|:------:|:---------------:|
+| 0.2767        | 0.2   | 3094   | 0.2776          |
+| 0.2557        | 0.4   | 6188   | 0.2610          |
+| 0.2507        | 0.6   | 9282   | 0.2532          |
+| 0.2434        | 0.8   | 12376  | 0.2445          |
+| 0.2395        | 1.0   | 15470  | 0.2353          |
+| 0.2339        | 1.2   | 18564  | 0.2381          |
+| 0.2332        | 1.4   | 21658  | 0.2260          |
+| 0.2275        | 1.6   | 24752  | 0.2299          |
+| 0.2298        | 1.8   | 27846  | 0.2205          |
+| 0.2233        | 2.0   | 30940  | 0.2328          |
+| 0.221         | 2.2   | 34034  | 0.2231          |
+| 0.2201        | 2.4   | 37128  | 0.2136          |
+| 0.2154        | 2.6   | 40222  | 0.2186          |
+| 0.2152        | 2.8   | 43316  | 0.2148          |
+| 0.2153        | 3.0   | 46410  | 0.2166          |
+| 0.21          | 3.2   | 49504  | 0.2103          |
+| 0.2094        | 3.4   | 52598  | 0.2103          |
+| 0.2054        | 3.6   | 55692  | 0.2095          |
+| 0.2046        | 3.8   | 58786  | 0.2053          |
+| 0.2056        | 4.0   | 61880  | 0.2002          |
+| 0.1989        | 4.2   | 64974  | 0.2069          |
+| 0.1968        | 4.4   | 68068  | 0.1943          |
+| 0.1948        | 4.6   | 71162  | 0.2035          |
+| 0.1905        | 4.8   | 74256  | 0.1966          |
+| 0.1909        | 5.0   | 77350  | 0.1933          |
+| 0.1879        | 5.2   | 80444  | 0.1892          |
+| 0.1877        | 5.4   | 83538  | 0.1933          |
+| 0.186         | 5.6   | 86632  | 0.1895          |
+| 0.1844        | 5.8   | 89726  | 0.1868          |
+| 0.1815        | 6.0   | 92820  | 0.1869          |
+| 0.1764        | 6.2   | 95914  | 0.1845          |
+| 0.1764        | 6.4   | 99008  | 0.1874          |
+| 0.1754        | 6.6   | 102102 | 0.1894          |
+| 0.176         | 6.8   | 105196 | 0.1816          |
+| 0.1724        | 7.0   | 108290 | 0.1799          |
+| 0.1656        | 7.2   | 111384 | 0.1761          |
+| 0.1637        | 7.4   | 114478 | 0.1751          |
+| 0.1672        | 7.6   | 117572 | 0.1767          |
+| 0.164         | 7.8   | 120666 | 0.1714          |
+| 0.1637        | 8.0   | 123760 | 0.1714          |
+| 0.1553        | 8.2   | 126854 | 0.1694          |
+| 0.1538        | 8.4   | 129948 | 0.1700          |
+| 0.1533        | 8.6   | 133042 | 0.1686          |
+| 0.1561        | 8.8   | 136136 | 0.1641          |
+| 0.1544        | 9.0   | 139230 | 0.1627          |
+| 0.1457        | 9.2   | 142324 | 0.1582          |
+| 0.1458        | 9.4   | 145418 | 0.1593          |
+| 0.1447        | 9.6   | 148512 | 0.1590          |
+| 0.1446        | 9.8   | 151606 | 0.1565          |
+| 0.1405        | 10.0  | 154700 | 0.1557          |
+| 0.1357        | 10.2  | 157794 | 0.1539          |
+| 0.1338        | 10.4  | 160888 | 0.1528          |
+| 0.1333        | 10.6  | 163982 | 0.1518          |
+| 0.1319        | 10.8  | 167076 | 0.1509          |
+| 0.1324        | 11.0  | 170170 | 0.1479          |
+| 0.1264        | 11.2  | 173264 | 0.1487          |
+| 0.1227        | 11.4  | 176358 | 0.1483          |
+| 0.1234        | 11.6  | 179452 | 0.1458          |
+| 0.1223        | 11.8  | 182546 | 0.1461          |
+| 0.1226        | 12.0  | 185640 | 0.1453          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -23,8 +23,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55ed00ae722b9b8d87dedad60834b14e0735e50254f98e9349553453882d4074
 size 268636736

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcefa9a05595c1552d61360f26bfd2ac55da7d452cfe6d1d3eaedccf59d3792d
 size 268636736

loss_plot.png CHANGED Viewed

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a3c5a4303b651a77e4529d53946154de2124ed20038489bebe7a7094e2d3e4a
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:c80ee36ab86eebcc1b99ff36929f1bb60e80bbda3f41a2652be0b3ed0cb48187
+size 5496