snoopsy
/

w3

Safetensors

gpt_optimized

custom_code

Model card Files Files and versions

xet

Community

snoopsy commited on Apr 16

Commit

a412681

verified ·

1 Parent(s): 5f6d426

Run 3. Outer Step 0. Inner Step 0.

Browse files

Files changed (3) hide show

config.json +25 -19
inner_optimizer.pt +2 -2
model.safetensors +1 -1

config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "activation_function": "gelu_new",
   "all_reduce_scores": {
     "0": "NON_PARTICIPATING",
-    "1": "SUCCESS",
     "10": "NON_PARTICIPATING",
     "100": "NON_PARTICIPATING",
     "101": "SUCCESS",
@@ -14,7 +14,7 @@
     "106": "NON_PARTICIPATING",
     "107": "NON_PARTICIPATING",
     "108": "NON_PARTICIPATING",
-    "109": "SUCCESS",
     "11": "NON_PARTICIPATING",
     "110": "NON_PARTICIPATING",
     "111": "NON_PARTICIPATING",
@@ -80,7 +80,7 @@
     "166": "NON_PARTICIPATING",
     "167": "NON_PARTICIPATING",
     "168": "NON_PARTICIPATING",
-    "169": "SUCCESS",
     "17": "NON_PARTICIPATING",
     "170": "NON_PARTICIPATING",
     "171": "NON_PARTICIPATING",
@@ -115,8 +115,8 @@
     "198": "NON_PARTICIPATING",
     "199": "NON_PARTICIPATING",
     "2": "NON_PARTICIPATING",
-    "20": "SUCCESS",
-    "200": "SUCCESS",
     "201": "NON_PARTICIPATING",
     "202": "NON_PARTICIPATING",
     "203": "NON_PARTICIPATING",
@@ -141,10 +141,10 @@
     "220": "NON_PARTICIPATING",
     "221": "SUCCESS",
     "222": "NON_PARTICIPATING",
-    "223": "NON_PARTICIPATING",
     "224": "NON_PARTICIPATING",
-    "225": "SUCCESS",
-    "226": "NON_PARTICIPATING",
     "227": "NON_PARTICIPATING",
     "228": "NON_PARTICIPATING",
     "229": "NON_PARTICIPATING",
@@ -154,7 +154,7 @@
     "232": "NON_PARTICIPATING",
     "233": "NON_PARTICIPATING",
     "234": "NON_PARTICIPATING",
-    "235": "NON_PARTICIPATING",
     "236": "NON_PARTICIPATING",
     "237": "NON_PARTICIPATING",
     "238": "NON_PARTICIPATING",
@@ -171,7 +171,7 @@
     "248": "NON_PARTICIPATING",
     "249": "SUCCESS",
     "25": "SUCCESS",
-    "250": "NON_PARTICIPATING",
     "251": "NON_PARTICIPATING",
     "252": "NON_PARTICIPATING",
     "253": "NON_PARTICIPATING",
@@ -184,11 +184,11 @@
     "3": "NON_PARTICIPATING",
     "30": "NON_PARTICIPATING",
     "31": "NON_PARTICIPATING",
-    "32": "SUCCESS",
     "33": "NON_PARTICIPATING",
     "34": "NON_PARTICIPATING",
-    "35": "SUCCESS",
-    "36": "SUCCESS",
     "37": "NON_PARTICIPATING",
     "38": "NON_PARTICIPATING",
     "39": "NON_PARTICIPATING",
@@ -217,12 +217,12 @@
     "6": "NON_PARTICIPATING",
     "60": "NON_PARTICIPATING",
     "61": "NON_PARTICIPATING",
-    "62": "SUCCESS",
     "63": "NON_PARTICIPATING",
     "64": "NON_PARTICIPATING",
     "65": "NON_PARTICIPATING",
     "66": "NON_PARTICIPATING",
-    "67": "SUCCESS",
     "68": "NON_PARTICIPATING",
     "69": "NON_PARTICIPATING",
     "7": "NON_PARTICIPATING",
@@ -237,8 +237,8 @@
     "78": "NON_PARTICIPATING",
     "79": "NON_PARTICIPATING",
     "8": "NON_PARTICIPATING",
-    "80": "NON_PARTICIPATING",
-    "81": "SUCCESS",
     "82": "NON_PARTICIPATING",
     "83": "NON_PARTICIPATING",
     "84": "NON_PARTICIPATING",
@@ -267,7 +267,13 @@
     "AutoConfig": "distributed/optimized-gpt2-500m--configuration_gpt_optimized.GPTOptimConfig",
     "AutoModelForCausalLM": "distributed/optimized-gpt2-500m--modeling_gpt_optimized.GPTOptim"
   },
-  "block_list": [],
   "block_size": 1024,
   "bos_token_id": 50256,
   "embd_pdrop": 0.1,
@@ -275,7 +281,7 @@
   "initializer_range": 0.02,
   "inner_step": 0,
   "inner_steps": 0,
-  "last_allreduce_block": 5351170,
   "layer_norm_epsilon": 1e-05,
   "model_type": "gpt_optimized",
   "n_embd": 1280,

   "activation_function": "gelu_new",
   "all_reduce_scores": {
     "0": "NON_PARTICIPATING",
+    "1": "NON_PARTICIPATING",
     "10": "NON_PARTICIPATING",
     "100": "NON_PARTICIPATING",
     "101": "SUCCESS",
     "106": "NON_PARTICIPATING",
     "107": "NON_PARTICIPATING",
     "108": "NON_PARTICIPATING",
+    "109": "NON_PARTICIPATING",
     "11": "NON_PARTICIPATING",
     "110": "NON_PARTICIPATING",
     "111": "NON_PARTICIPATING",
     "166": "NON_PARTICIPATING",
     "167": "NON_PARTICIPATING",
     "168": "NON_PARTICIPATING",
+    "169": "NON_PARTICIPATING",
     "17": "NON_PARTICIPATING",
     "170": "NON_PARTICIPATING",
     "171": "NON_PARTICIPATING",
     "198": "NON_PARTICIPATING",
     "199": "NON_PARTICIPATING",
     "2": "NON_PARTICIPATING",
+    "20": "NON_PARTICIPATING",
+    "200": "NON_PARTICIPATING",
     "201": "NON_PARTICIPATING",
     "202": "NON_PARTICIPATING",
     "203": "NON_PARTICIPATING",
     "220": "NON_PARTICIPATING",
     "221": "SUCCESS",
     "222": "NON_PARTICIPATING",
+    "223": "FAIL",
     "224": "NON_PARTICIPATING",
+    "225": "NON_PARTICIPATING",
+    "226": "SUCCESS",
     "227": "NON_PARTICIPATING",
     "228": "NON_PARTICIPATING",
     "229": "NON_PARTICIPATING",
     "232": "NON_PARTICIPATING",
     "233": "NON_PARTICIPATING",
     "234": "NON_PARTICIPATING",
+    "235": "SUCCESS",
     "236": "NON_PARTICIPATING",
     "237": "NON_PARTICIPATING",
     "238": "NON_PARTICIPATING",
     "248": "NON_PARTICIPATING",
     "249": "SUCCESS",
     "25": "SUCCESS",
+    "250": "SUCCESS",
     "251": "NON_PARTICIPATING",
     "252": "NON_PARTICIPATING",
     "253": "NON_PARTICIPATING",
     "3": "NON_PARTICIPATING",
     "30": "NON_PARTICIPATING",
     "31": "NON_PARTICIPATING",
+    "32": "NON_PARTICIPATING",
     "33": "NON_PARTICIPATING",
     "34": "NON_PARTICIPATING",
+    "35": "NON_PARTICIPATING",
+    "36": "NON_PARTICIPATING",
     "37": "NON_PARTICIPATING",
     "38": "NON_PARTICIPATING",
     "39": "NON_PARTICIPATING",
     "6": "NON_PARTICIPATING",
     "60": "NON_PARTICIPATING",
     "61": "NON_PARTICIPATING",
+    "62": "NON_PARTICIPATING",
     "63": "NON_PARTICIPATING",
     "64": "NON_PARTICIPATING",
     "65": "NON_PARTICIPATING",
     "66": "NON_PARTICIPATING",
+    "67": "NON_PARTICIPATING",
     "68": "NON_PARTICIPATING",
     "69": "NON_PARTICIPATING",
     "7": "NON_PARTICIPATING",
     "78": "NON_PARTICIPATING",
     "79": "NON_PARTICIPATING",
     "8": "NON_PARTICIPATING",
+    "80": "SUCCESS",
+    "81": "NON_PARTICIPATING",
     "82": "NON_PARTICIPATING",
     "83": "NON_PARTICIPATING",
     "84": "NON_PARTICIPATING",
     "AutoConfig": "distributed/optimized-gpt2-500m--configuration_gpt_optimized.GPTOptimConfig",
     "AutoModelForCausalLM": "distributed/optimized-gpt2-500m--modeling_gpt_optimized.GPTOptim"
   },
+  "block_list": [
+    5365626,
+    5365627,
+    5365628,
+    5365629,
+    5365630
+  ],
   "block_size": 1024,
   "bos_token_id": 50256,
   "embd_pdrop": 0.1,
   "initializer_range": 0.02,
   "inner_step": 0,
   "inner_steps": 0,
+  "last_allreduce_block": 5363566,
   "layer_norm_epsilon": 1e-05,
   "model_type": "gpt_optimized",
   "n_embd": 1280,

inner_optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57a7560b7d6dcff2f9b986cdf1519151986f63582928104d82fbbcf373d695a7
-size 8081782026

 version https://git-lfs.github.com/spec/v1
+oid sha256:50852309c11bba1c68b1fc599de303950b01245d3f8e70c6ec061ebf1229b0c3
+size 2944

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30a3c2a1f583992135596ada96883cba467a485b6ef53f21ba48c2355f414587
 size 4040701744

 version https://git-lfs.github.com/spec/v1
+oid sha256:90b3e428e98fa30e20e42438a9da3f27f84d804d2b9741a9c840c0dcdc0d9ae6
 size 4040701744