End of training

Browse files

Files changed (10) hide show

README.md +13 -13
all_results.json +10 -10
args.bin +1 -1
eval_results.json +6 -6
events.out.tfevents.1716139017.isl-gpu35.3557179.1 +3 -0
events.out.tfevents.1716139017.isl-gpu35.3557181.1 +3 -0
model.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +49 -49
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,10 +15,10 @@ should probably proofread and complete it, then remove this comment. -->
 # recreate_llama_68M_vanilla
-This model is a fine-tuned version of [JackFram/llama-68m](https://huggingface.co/JackFram/llama-68m) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.6571
-- Accuracy: 0.6944
 ## Model description
@@ -37,7 +37,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0005
 - train_batch_size: 32
 - eval_batch_size: 16
 - seed: 42
@@ -49,15 +49,15 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Accuracy |
 |:-------------:|:------:|:----:|:---------------:|:--------:|
-| No log        | 0.3125 | 10   | 2.1108          | 0.6368   |
-| No log        | 0.625  | 20   | 1.8348          | 0.6696   |
-| No log        | 0.9375 | 30   | 1.7489          | 0.6794   |
-| No log        | 1.25   | 40   | 1.7315          | 0.6781   |
-| No log        | 1.5625 | 50   | 1.6956          | 0.6846   |
-| No log        | 1.875  | 60   | 1.6770          | 0.6873   |
-| No log        | 2.1875 | 70   | 1.6866          | 0.6903   |
-| No log        | 2.5    | 80   | 1.6705          | 0.6911   |
-| No log        | 2.8125 | 90   | 1.6571          | 0.6944   |
 ### Framework versions

 # recreate_llama_68M_vanilla
+This model is a fine-tuned version of [JackFram/llama-68m](https://huggingface.co/JackFram/llama-68m) on the anon8231489123/ShareGPT_Vicuna_unfiltered/ShareGPT_V3_unfiltered_cleaned_split.json dataset.
 It achieves the following results on the evaluation set:
+- Loss: 9.5494
+- Accuracy: 0.3512
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.005
 - train_batch_size: 32
 - eval_batch_size: 16
 - seed: 42
 | Training Loss | Epoch  | Step | Validation Loss | Accuracy |
 |:-------------:|:------:|:----:|:---------------:|:--------:|
+| No log        | 0.3125 | 10   | 7.9370          | 0.3676   |
+| No log        | 0.625  | 20   | 8.6808          | 0.3478   |
+| No log        | 0.9375 | 30   | 10.9798         | 0.1029   |
+| No log        | 1.25   | 40   | 10.3023         | 0.2493   |
+| No log        | 1.5625 | 50   | 9.7688          | 0.3501   |
+| No log        | 1.875  | 60   | 9.6190          | 0.3510   |
+| No log        | 2.1875 | 70   | 9.5617          | 0.3510   |
+| No log        | 2.5    | 80   | 9.5470          | 0.3511   |
+| No log        | 2.8125 | 90   | 9.5487          | 0.3511   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.6942843185148998,
-    "eval_loss": 1.6576473712921143,
-    "eval_runtime": 2.7252,
     "eval_samples": 10,
-    "eval_samples_per_second": 3.669,
-    "eval_steps_per_second": 0.367,
-    "perplexity": 5.246952182142712,
     "total_flos": 1601895923712000.0,
-    "train_loss": 1.7650197347005208,
-    "train_runtime": 162.5074,
     "train_samples": 1000,
-    "train_samples_per_second": 18.461,
-    "train_steps_per_second": 0.591
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.3512457254518808,
+    "eval_loss": 9.549426078796387,
+    "eval_runtime": 2.7507,
     "eval_samples": 10,
+    "eval_samples_per_second": 3.635,
+    "eval_steps_per_second": 0.364,
+    "perplexity": 14036.636436049854,
     "total_flos": 1601895923712000.0,
+    "train_loss": 11.46164576212565,
+    "train_runtime": 150.2617,
     "train_samples": 1000,
+    "train_samples_per_second": 19.965,
+    "train_steps_per_second": 0.639
 }

args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e481c33f0c155084ebf57a6ceaca65e925a3ba4ee05104ef931038f26a2eb0bf
 size 5908

 version https://git-lfs.github.com/spec/v1
+oid sha256:7565f26b6b3335b4c74c77cbb2af2017cb5dcb6983320e6a9a66a11f8e0ac811
 size 5908

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 0.6942843185148998,
-    "eval_loss": 1.6576473712921143,
-    "eval_runtime": 2.7252,
     "eval_samples": 10,
-    "eval_samples_per_second": 3.669,
-    "eval_steps_per_second": 0.367,
-    "perplexity": 5.246952182142712
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 0.3512457254518808,
+    "eval_loss": 9.549426078796387,
+    "eval_runtime": 2.7507,
     "eval_samples": 10,
+    "eval_samples_per_second": 3.635,
+    "eval_steps_per_second": 0.364,
+    "perplexity": 14036.636436049854
 }

events.out.tfevents.1716139017.isl-gpu35.3557179.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98c3477ac61c16a0d1cca6ea301fafb4dc74245b003f3b412dce32f2a0503a48
+size 405

events.out.tfevents.1716139017.isl-gpu35.3557181.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0568c4a11760460bb7c389a5ab134111369723d834d41545005aa2ee1e7a7313
+size 405

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6e148b15d7f63a647f7d322707d37a3ac6f623a58f6691f421eef2c22c92c7a
 size 272123144

 version https://git-lfs.github.com/spec/v1
+oid sha256:99e0aa1f57b9d3b412748068c5f9dd3e0251c942e88329be1c63e7a93fe20583
 size 272123144

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 3.0,
     "total_flos": 1601895923712000.0,
-    "train_loss": 1.7650197347005208,
-    "train_runtime": 162.5074,
     "train_samples": 1000,
-    "train_samples_per_second": 18.461,
-    "train_steps_per_second": 0.591
 }

 {
     "epoch": 3.0,
     "total_flos": 1601895923712000.0,
+    "train_loss": 11.46164576212565,
+    "train_runtime": 150.2617,
     "train_samples": 1000,
+    "train_samples_per_second": 19.965,
+    "train_steps_per_second": 0.639
 }

trainer_state.json CHANGED Viewed

@@ -10,93 +10,93 @@
   "log_history": [
     {
       "epoch": 0.3125,
-      "eval_accuracy": 0.6367855398143625,
-      "eval_loss": 2.1108450889587402,
-      "eval_runtime": 2.8362,
-      "eval_samples_per_second": 3.526,
-      "eval_steps_per_second": 0.353,
       "step": 10
     },
     {
       "epoch": 0.625,
-      "eval_accuracy": 0.6696140693698095,
-      "eval_loss": 1.8348472118377686,
-      "eval_runtime": 2.9089,
-      "eval_samples_per_second": 3.438,
-      "eval_steps_per_second": 0.344,
       "step": 20
     },
     {
       "epoch": 0.9375,
-      "eval_accuracy": 0.6793844650708354,
-      "eval_loss": 1.7488861083984375,
-      "eval_runtime": 2.8499,
-      "eval_samples_per_second": 3.509,
-      "eval_steps_per_second": 0.351,
       "step": 30
     },
     {
       "epoch": 1.25,
-      "eval_accuracy": 0.678114313629702,
-      "eval_loss": 1.7314647436141968,
-      "eval_runtime": 2.7552,
-      "eval_samples_per_second": 3.63,
-      "eval_steps_per_second": 0.363,
       "step": 40
     },
     {
       "epoch": 1.5625,
-      "eval_accuracy": 0.6846116267708843,
-      "eval_loss": 1.6956342458724976,
-      "eval_runtime": 2.7968,
-      "eval_samples_per_second": 3.575,
-      "eval_steps_per_second": 0.358,
       "step": 50
     },
     {
       "epoch": 1.875,
-      "eval_accuracy": 0.6872984855886664,
-      "eval_loss": 1.6769542694091797,
-      "eval_runtime": 2.7447,
-      "eval_samples_per_second": 3.643,
-      "eval_steps_per_second": 0.364,
       "step": 60
     },
     {
       "epoch": 2.1875,
-      "eval_accuracy": 0.6902784562774792,
-      "eval_loss": 1.6866405010223389,
-      "eval_runtime": 2.7321,
-      "eval_samples_per_second": 3.66,
-      "eval_steps_per_second": 0.366,
       "step": 70
     },
     {
       "epoch": 2.5,
-      "eval_accuracy": 0.6911089399120665,
-      "eval_loss": 1.6704612970352173,
-      "eval_runtime": 2.8666,
-      "eval_samples_per_second": 3.488,
-      "eval_steps_per_second": 0.349,
       "step": 80
     },
     {
       "epoch": 2.8125,
-      "eval_accuracy": 0.6943820224719102,
-      "eval_loss": 1.6571474075317383,
-      "eval_runtime": 2.9068,
-      "eval_samples_per_second": 3.44,
-      "eval_steps_per_second": 0.344,
       "step": 90
     },
     {
       "epoch": 3.0,
       "step": 96,
       "total_flos": 1601895923712000.0,
-      "train_loss": 1.7650197347005208,
-      "train_runtime": 162.5074,
-      "train_samples_per_second": 18.461,
-      "train_steps_per_second": 0.591
     }
   ],
   "logging_steps": 100,

   "log_history": [
     {
       "epoch": 0.3125,
+      "eval_accuracy": 0.367562286272594,
+      "eval_loss": 7.9370436668396,
+      "eval_runtime": 2.8708,
+      "eval_samples_per_second": 3.483,
+      "eval_steps_per_second": 0.348,
       "step": 10
     },
     {
       "epoch": 0.625,
+      "eval_accuracy": 0.34782608695652173,
+      "eval_loss": 8.680798530578613,
+      "eval_runtime": 2.66,
+      "eval_samples_per_second": 3.759,
+      "eval_steps_per_second": 0.376,
       "step": 20
     },
     {
       "epoch": 0.9375,
+      "eval_accuracy": 0.10293111871030777,
+      "eval_loss": 10.979837417602539,
+      "eval_runtime": 2.7406,
+      "eval_samples_per_second": 3.649,
+      "eval_steps_per_second": 0.365,
       "step": 30
     },
     {
       "epoch": 1.25,
+      "eval_accuracy": 0.24934049829018076,
+      "eval_loss": 10.302330017089844,
+      "eval_runtime": 2.7648,
+      "eval_samples_per_second": 3.617,
+      "eval_steps_per_second": 0.362,
       "step": 40
     },
     {
       "epoch": 1.5625,
+      "eval_accuracy": 0.35012212994626285,
+      "eval_loss": 9.768780708312988,
+      "eval_runtime": 2.7184,
+      "eval_samples_per_second": 3.679,
+      "eval_steps_per_second": 0.368,
       "step": 50
     },
     {
       "epoch": 1.875,
+      "eval_accuracy": 0.35100146555935513,
+      "eval_loss": 9.619012832641602,
+      "eval_runtime": 2.8506,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 0.351,
       "step": 60
     },
     {
       "epoch": 2.1875,
+      "eval_accuracy": 0.35095261358085,
+      "eval_loss": 9.561655044555664,
+      "eval_runtime": 2.7142,
+      "eval_samples_per_second": 3.684,
+      "eval_steps_per_second": 0.368,
       "step": 70
     },
     {
       "epoch": 2.5,
+      "eval_accuracy": 0.35109916951636544,
+      "eval_loss": 9.547042846679688,
+      "eval_runtime": 2.8217,
+      "eval_samples_per_second": 3.544,
+      "eval_steps_per_second": 0.354,
       "step": 80
     },
     {
       "epoch": 2.8125,
+      "eval_accuracy": 0.35109916951636544,
+      "eval_loss": 9.548730850219727,
+      "eval_runtime": 2.742,
+      "eval_samples_per_second": 3.647,
+      "eval_steps_per_second": 0.365,
       "step": 90
     },
     {
       "epoch": 3.0,
       "step": 96,
       "total_flos": 1601895923712000.0,
+      "train_loss": 11.46164576212565,
+      "train_runtime": 150.2617,
+      "train_samples_per_second": 19.965,
+      "train_steps_per_second": 0.639
     }
   ],
   "logging_steps": 100,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec9cb7f17c2d28d6943c3b741d8f0971acf4de82635294d24e7b0d070d306f0a
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7e736d0a0ca3bfb4692ce9f2e011bee553b4b200689ef7c6910f21f466d39b9
 size 5112