Spaces:

mohdelgaar
/

LingConv

Running

App Files Files Community

mohdelgaar commited on Dec 19, 2024

Commit

0bdbfac

1 Parent(s): 2ac88c4

move to hub

Browse files

Files changed (26) hide show

app.py +27 -17
ckpt/ling_disc/checkpoint-41000/config.json +0 -120
ckpt/ling_disc/checkpoint-41000/model.safetensors +0 -3
ckpt/ling_disc/checkpoint-41000/optimizer.pt +0 -3
ckpt/ling_disc/checkpoint-41000/rng_state.pth +0 -3
ckpt/ling_disc/checkpoint-41000/scheduler.pt +0 -3
ckpt/ling_disc/checkpoint-41000/special_tokens_map.json +0 -119
ckpt/ling_disc/checkpoint-41000/spiece.model +0 -3
ckpt/ling_disc/checkpoint-41000/tokenizer.json +0 -0
ckpt/ling_disc/checkpoint-41000/tokenizer_config.json +0 -938
ckpt/ling_disc/checkpoint-41000/trainer_state.json +0 -636
ckpt/ling_disc/checkpoint-41000/training_args.bin +0 -3
ckpt/ling_disc/config.json +0 -120
ckpt/ling_disc/model.safetensors +0 -3
ckpt/ling_disc/scaler.bin +0 -3
ckpt/ling_disc/special_tokens_map.json +0 -119
ckpt/ling_disc/spiece.model +0 -3
ckpt/ling_disc/tokenizer.json +0 -0
ckpt/ling_disc/tokenizer_config.json +0 -938
ckpt/ling_disc/trainer_state.json +0 -645
ckpt/ling_disc/training_args.bin +0 -3
ckpt/model.json +0 -82
ckpt/model.pt +0 -3
ckpt/sem_emb.pt +0 -3
model.py +37 -52
options.py +4 -0

app.py CHANGED Viewed

@@ -1,8 +1,8 @@
-# import spacy
-# import nltk
-# nltk.download('wordnet', quiet=True)
-# spacy.cli.download('en_core_web_sm')
-# from compute_lng import compute_lng
 import torch
 import joblib, json
@@ -25,7 +25,7 @@ def process_examples(samples):
         processed.append(example)
     return processed
-args, args_list, lng_names = parse_args(ckpt='./ckpt/model.pt')
 tokenizer = T5Tokenizer.from_pretrained(args.model_name)
 device = 'cuda' if torch.cuda.is_available() else 'cpu'
@@ -46,16 +46,14 @@ ling_collection_scaled = scaler.transform(ling_collection)
 model, ling_disc, sem_emb = get_model(args, tokenizer, device)
-state = torch.load(args.ckpt, map_location=torch.device('cpu'))
-model.load_state_dict(state['model'], strict=True)
-model.eval()
-ling_disc.eval()
-state = torch.load(args.sem_ckpt, map_location=torch.device('cpu'))
-sem_emb.load_state_dict(state['model'], strict=True)
-sem_emb.eval()
-device = model.backbone.device
 ############# Start demo code
 def round_ling(x):
@@ -139,6 +137,7 @@ def generate_with_feedback(sent1, approx):
             'sentence1_attention_mask': torch.ones_like(input_ids)
               }
     pred, (pred_text, interpolations) = model.infer_with_feedback_BP(ling_disc, sem_emb, inputs, tokenizer)
     interpolation = '-- ' + '\n-- '.join(interpolations)
@@ -158,16 +157,24 @@ def generate_random(sent1, count, approx):
         success = False
         patience = 0
         while not success:
             pred, interpolation = generate_with_feedback(sent1, approx)[:2]
             if pred not in preds:
                 success = True
-            elif patience < 3:
-                add_to_target()
                 patience += 1
             else:
                 idx = np.random.randint(0, len(ling_collection))
                 ling_ex = ling_collection[idx]
                 shared_state.target = ling_ex.copy()
         preds.append(pred)
         interpolations.append(interpolation)
     shared_state.active_indices = orig_active_indices
@@ -187,7 +194,10 @@ def estimate_gen(sent1, sent2, approx):
     ling_pred = round_ling(ling_pred)
     shared_state.target = ling_pred.copy()
     gen = generate_with_feedback(sent1, approx)[:2]
     return gen + [gr.update(value=val) for val in shared_state.target]
 def estimate_tgt(sent2, ling_dict, approx):

+import spacy
+import nltk
+nltk.download('wordnet', quiet=True)
+spacy.cli.download('en_core_web_sm')
+from compute_lng import compute_lng
 import torch
 import joblib, json
         processed.append(example)
     return processed
+args, args_list, lng_names = parse_args(ckpt='./ckpt/model_fixed.pt')
 tokenizer = T5Tokenizer.from_pretrained(args.model_name)
 device = 'cuda' if torch.cuda.is_available() else 'cpu'
 model, ling_disc, sem_emb = get_model(args, tokenizer, device)
+# state = torch.load(args.ckpt, map_location=torch.device('cpu'))
+# model.load_state_dict(state['model'], strict=True)
+# model.eval()
+# ling_disc.eval()
+# state = torch.load(args.sem_ckpt, map_location=torch.device('cpu'))
+# sem_emb.load_state_dict(state['model'], strict=True)
+# sem_emb.eval()
 ############# Start demo code
 def round_ling(x):
             'sentence1_attention_mask': torch.ones_like(input_ids)
               }
+    print('generating...')
     pred, (pred_text, interpolations) = model.infer_with_feedback_BP(ling_disc, sem_emb, inputs, tokenizer)
     interpolation = '-- ' + '\n-- '.join(interpolations)
         success = False
         patience = 0
         while not success:
+            print(c, patience)
             pred, interpolation = generate_with_feedback(sent1, approx)[:2]
+            print(pred)
             if pred not in preds:
                 success = True
+            elif patience < 10:
                 patience += 1
+                if np.random.rand() < 0.5:
+                    for _ in range(patience):
+                        add_to_target()
+                else:
+                    for _ in range(patience):
+                        subtract_from_target()
             else:
                 idx = np.random.randint(0, len(ling_collection))
                 ling_ex = ling_collection[idx]
                 shared_state.target = ling_ex.copy()
+                patience = 0
         preds.append(pred)
         interpolations.append(interpolation)
     shared_state.active_indices = orig_active_indices
     ling_pred = round_ling(ling_pred)
     shared_state.target = ling_pred.copy()
+    orig_active_indices = shared_state.active_indices
+    shared_state.active_indices = set(range(len(lng_names)))
     gen = generate_with_feedback(sent1, approx)[:2]
+    shared_state.active_indices = orig_active_indices
     return gen + [gr.update(value=val) for val in shared_state.target]
 def estimate_tgt(sent2, ling_dict, approx):

ckpt/ling_disc/checkpoint-41000/config.json DELETED Viewed

@@ -1,120 +0,0 @@
-{
-  "_name_or_path": "microsoft/deberta-v3-small",
-  "architectures": [
-    "DebertaReplacedTokenizer"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "id2label": {
-    "0": "LABEL_0",
-    "1": "LABEL_1",
-    "2": "LABEL_2",
-    "3": "LABEL_3",
-    "4": "LABEL_4",
-    "5": "LABEL_5",
-    "6": "LABEL_6",
-    "7": "LABEL_7",
-    "8": "LABEL_8",
-    "9": "LABEL_9",
-    "10": "LABEL_10",
-    "11": "LABEL_11",
-    "12": "LABEL_12",
-    "13": "LABEL_13",
-    "14": "LABEL_14",
-    "15": "LABEL_15",
-    "16": "LABEL_16",
-    "17": "LABEL_17",
-    "18": "LABEL_18",
-    "19": "LABEL_19",
-    "20": "LABEL_20",
-    "21": "LABEL_21",
-    "22": "LABEL_22",
-    "23": "LABEL_23",
-    "24": "LABEL_24",
-    "25": "LABEL_25",
-    "26": "LABEL_26",
-    "27": "LABEL_27",
-    "28": "LABEL_28",
-    "29": "LABEL_29",
-    "30": "LABEL_30",
-    "31": "LABEL_31",
-    "32": "LABEL_32",
-    "33": "LABEL_33",
-    "34": "LABEL_34",
-    "35": "LABEL_35",
-    "36": "LABEL_36",
-    "37": "LABEL_37",
-    "38": "LABEL_38",
-    "39": "LABEL_39"
-  },
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "label2id": {
-    "LABEL_0": 0,
-    "LABEL_1": 1,
-    "LABEL_10": 10,
-    "LABEL_11": 11,
-    "LABEL_12": 12,
-    "LABEL_13": 13,
-    "LABEL_14": 14,
-    "LABEL_15": 15,
-    "LABEL_16": 16,
-    "LABEL_17": 17,
-    "LABEL_18": 18,
-    "LABEL_19": 19,
-    "LABEL_2": 2,
-    "LABEL_20": 20,
-    "LABEL_21": 21,
-    "LABEL_22": 22,
-    "LABEL_23": 23,
-    "LABEL_24": 24,
-    "LABEL_25": 25,
-    "LABEL_26": 26,
-    "LABEL_27": 27,
-    "LABEL_28": 28,
-    "LABEL_29": 29,
-    "LABEL_3": 3,
-    "LABEL_30": 30,
-    "LABEL_31": 31,
-    "LABEL_32": 32,
-    "LABEL_33": 33,
-    "LABEL_34": 34,
-    "LABEL_35": 35,
-    "LABEL_36": 36,
-    "LABEL_37": 37,
-    "LABEL_38": 38,
-    "LABEL_39": 39,
-    "LABEL_4": 4,
-    "LABEL_5": 5,
-    "LABEL_6": 6,
-    "LABEL_7": 7,
-    "LABEL_8": 8,
-    "LABEL_9": 9
-  },
-  "layer_norm_eps": 1e-07,
-  "max_position_embeddings": 512,
-  "max_relative_positions": -1,
-  "model_type": "deberta-v2",
-  "norm_rel_ebd": "layer_norm",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 6,
-  "pad_token_id": 0,
-  "pooler_dropout": 0,
-  "pooler_hidden_act": "gelu",
-  "pooler_hidden_size": 768,
-  "pos_att_type": [
-    "p2c",
-    "c2p"
-  ],
-  "position_biased_input": false,
-  "position_buckets": 256,
-  "problem_type": "regression",
-  "relative_attention": true,
-  "share_att_key": true,
-  "torch_dtype": "float32",
-  "transformers_version": "4.39.3",
-  "type_vocab_size": 0,
-  "vocab_size": 128100
-}

ckpt/ling_disc/checkpoint-41000/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:15221fd5565118b32b1adf7b42c27cae6a3d8dd32b0ef85473b70bb072964661
-size 275252064

ckpt/ling_disc/checkpoint-41000/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7dce4669eb4c8d092887dca957afda50838e0d8821093ac6ec80dfc38c786041
-size 550568634

ckpt/ling_disc/checkpoint-41000/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b153bd123a079b6d0ee9f3616a0498be47197aca1c9c7764282514bc91fdc08d
-size 14244

ckpt/ling_disc/checkpoint-41000/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7600c7adf0e16517c635d7b3eee259739a7966140efc08f2afff26d19bb4fb29
-size 1064

ckpt/ling_disc/checkpoint-41000/special_tokens_map.json DELETED Viewed

@@ -1,119 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<extra_id_0>",
-    "<extra_id_1>",
-    "<extra_id_2>",
-    "<extra_id_3>",
-    "<extra_id_4>",
-    "<extra_id_5>",
-    "<extra_id_6>",
-    "<extra_id_7>",
-    "<extra_id_8>",
-    "<extra_id_9>",
-    "<extra_id_10>",
-    "<extra_id_11>",
-    "<extra_id_12>",
-    "<extra_id_13>",
-    "<extra_id_14>",
-    "<extra_id_15>",
-    "<extra_id_16>",
-    "<extra_id_17>",
-    "<extra_id_18>",
-    "<extra_id_19>",
-    "<extra_id_20>",
-    "<extra_id_21>",
-    "<extra_id_22>",
-    "<extra_id_23>",
-    "<extra_id_24>",
-    "<extra_id_25>",
-    "<extra_id_26>",
-    "<extra_id_27>",
-    "<extra_id_28>",
-    "<extra_id_29>",
-    "<extra_id_30>",
-    "<extra_id_31>",
-    "<extra_id_32>",
-    "<extra_id_33>",
-    "<extra_id_34>",
-    "<extra_id_35>",
-    "<extra_id_36>",
-    "<extra_id_37>",
-    "<extra_id_38>",
-    "<extra_id_39>",
-    "<extra_id_40>",
-    "<extra_id_41>",
-    "<extra_id_42>",
-    "<extra_id_43>",
-    "<extra_id_44>",
-    "<extra_id_45>",
-    "<extra_id_46>",
-    "<extra_id_47>",
-    "<extra_id_48>",
-    "<extra_id_49>",
-    "<extra_id_50>",
-    "<extra_id_51>",
-    "<extra_id_52>",
-    "<extra_id_53>",
-    "<extra_id_54>",
-    "<extra_id_55>",
-    "<extra_id_56>",
-    "<extra_id_57>",
-    "<extra_id_58>",
-    "<extra_id_59>",
-    "<extra_id_60>",
-    "<extra_id_61>",
-    "<extra_id_62>",
-    "<extra_id_63>",
-    "<extra_id_64>",
-    "<extra_id_65>",
-    "<extra_id_66>",
-    "<extra_id_67>",
-    "<extra_id_68>",
-    "<extra_id_69>",
-    "<extra_id_70>",
-    "<extra_id_71>",
-    "<extra_id_72>",
-    "<extra_id_73>",
-    "<extra_id_74>",
-    "<extra_id_75>",
-    "<extra_id_76>",
-    "<extra_id_77>",
-    "<extra_id_78>",
-    "<extra_id_79>",
-    "<extra_id_80>",
-    "<extra_id_81>",
-    "<extra_id_82>",
-    "<extra_id_83>",
-    "<extra_id_84>",
-    "<extra_id_85>",
-    "<extra_id_86>",
-    "<extra_id_87>",
-    "<extra_id_88>",
-    "<extra_id_89>",
-    "<extra_id_90>",
-    "<extra_id_91>",
-    "<extra_id_92>",
-    "<extra_id_93>",
-    "<extra_id_94>",
-    "<extra_id_95>",
-    "<extra_id_96>",
-    "<extra_id_97>",
-    "<extra_id_98>",
-    "<extra_id_99>"
-  ],
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "</s>",
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

ckpt/ling_disc/checkpoint-41000/spiece.model DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
-size 791656

ckpt/ling_disc/checkpoint-41000/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

ckpt/ling_disc/checkpoint-41000/tokenizer_config.json DELETED Viewed

@@ -1,938 +0,0 @@
-{
-  "added_tokens_decoder": {
-    "0": {
-      "content": "<pad>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "1": {
-      "content": "</s>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "2": {
-      "content": "<unk>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32000": {
-      "content": "<extra_id_99>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32001": {
-      "content": "<extra_id_98>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32002": {
-      "content": "<extra_id_97>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32003": {
-      "content": "<extra_id_96>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32004": {
-      "content": "<extra_id_95>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32005": {
-      "content": "<extra_id_94>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32006": {
-      "content": "<extra_id_93>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32007": {
-      "content": "<extra_id_92>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32008": {
-      "content": "<extra_id_91>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32009": {
-      "content": "<extra_id_90>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32010": {
-      "content": "<extra_id_89>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32011": {
-      "content": "<extra_id_88>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32012": {
-      "content": "<extra_id_87>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32013": {
-      "content": "<extra_id_86>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32014": {
-      "content": "<extra_id_85>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32015": {
-      "content": "<extra_id_84>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32016": {
-      "content": "<extra_id_83>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32017": {
-      "content": "<extra_id_82>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32018": {
-      "content": "<extra_id_81>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32019": {
-      "content": "<extra_id_80>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32020": {
-      "content": "<extra_id_79>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32021": {
-      "content": "<extra_id_78>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32022": {
-      "content": "<extra_id_77>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32023": {
-      "content": "<extra_id_76>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32024": {
-      "content": "<extra_id_75>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32025": {
-      "content": "<extra_id_74>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32026": {
-      "content": "<extra_id_73>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32027": {
-      "content": "<extra_id_72>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32028": {
-      "content": "<extra_id_71>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32029": {
-      "content": "<extra_id_70>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32030": {
-      "content": "<extra_id_69>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32031": {
-      "content": "<extra_id_68>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32032": {
-      "content": "<extra_id_67>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32033": {
-      "content": "<extra_id_66>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32034": {
-      "content": "<extra_id_65>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32035": {
-      "content": "<extra_id_64>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32036": {
-      "content": "<extra_id_63>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32037": {
-      "content": "<extra_id_62>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32038": {
-      "content": "<extra_id_61>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32039": {
-      "content": "<extra_id_60>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32040": {
-      "content": "<extra_id_59>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32041": {
-      "content": "<extra_id_58>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32042": {
-      "content": "<extra_id_57>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32043": {
-      "content": "<extra_id_56>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32044": {
-      "content": "<extra_id_55>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32045": {
-      "content": "<extra_id_54>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32046": {
-      "content": "<extra_id_53>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32047": {
-      "content": "<extra_id_52>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32048": {
-      "content": "<extra_id_51>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32049": {
-      "content": "<extra_id_50>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32050": {
-      "content": "<extra_id_49>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32051": {
-      "content": "<extra_id_48>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32052": {
-      "content": "<extra_id_47>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32053": {
-      "content": "<extra_id_46>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32054": {
-      "content": "<extra_id_45>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32055": {
-      "content": "<extra_id_44>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32056": {
-      "content": "<extra_id_43>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32057": {
-      "content": "<extra_id_42>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32058": {
-      "content": "<extra_id_41>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32059": {
-      "content": "<extra_id_40>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32060": {
-      "content": "<extra_id_39>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32061": {
-      "content": "<extra_id_38>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32062": {
-      "content": "<extra_id_37>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32063": {
-      "content": "<extra_id_36>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32064": {
-      "content": "<extra_id_35>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32065": {
-      "content": "<extra_id_34>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32066": {
-      "content": "<extra_id_33>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32067": {
-      "content": "<extra_id_32>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32068": {
-      "content": "<extra_id_31>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32069": {
-      "content": "<extra_id_30>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32070": {
-      "content": "<extra_id_29>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32071": {
-      "content": "<extra_id_28>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32072": {
-      "content": "<extra_id_27>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32073": {
-      "content": "<extra_id_26>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32074": {
-      "content": "<extra_id_25>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32075": {
-      "content": "<extra_id_24>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32076": {
-      "content": "<extra_id_23>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32077": {
-      "content": "<extra_id_22>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32078": {
-      "content": "<extra_id_21>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32079": {
-      "content": "<extra_id_20>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32080": {
-      "content": "<extra_id_19>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32081": {
-      "content": "<extra_id_18>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32082": {
-      "content": "<extra_id_17>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32083": {
-      "content": "<extra_id_16>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32084": {
-      "content": "<extra_id_15>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32085": {
-      "content": "<extra_id_14>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32086": {
-      "content": "<extra_id_13>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32087": {
-      "content": "<extra_id_12>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32088": {
-      "content": "<extra_id_11>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32089": {
-      "content": "<extra_id_10>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32090": {
-      "content": "<extra_id_9>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32091": {
-      "content": "<extra_id_8>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32092": {
-      "content": "<extra_id_7>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32093": {
-      "content": "<extra_id_6>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32094": {
-      "content": "<extra_id_5>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32095": {
-      "content": "<extra_id_4>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32096": {
-      "content": "<extra_id_3>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32097": {
-      "content": "<extra_id_2>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32098": {
-      "content": "<extra_id_1>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32099": {
-      "content": "<extra_id_0>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "additional_special_tokens": [
-    "<extra_id_0>",
-    "<extra_id_1>",
-    "<extra_id_2>",
-    "<extra_id_3>",
-    "<extra_id_4>",
-    "<extra_id_5>",
-    "<extra_id_6>",
-    "<extra_id_7>",
-    "<extra_id_8>",
-    "<extra_id_9>",
-    "<extra_id_10>",
-    "<extra_id_11>",
-    "<extra_id_12>",
-    "<extra_id_13>",
-    "<extra_id_14>",
-    "<extra_id_15>",
-    "<extra_id_16>",
-    "<extra_id_17>",
-    "<extra_id_18>",
-    "<extra_id_19>",
-    "<extra_id_20>",
-    "<extra_id_21>",
-    "<extra_id_22>",
-    "<extra_id_23>",
-    "<extra_id_24>",
-    "<extra_id_25>",
-    "<extra_id_26>",
-    "<extra_id_27>",
-    "<extra_id_28>",
-    "<extra_id_29>",
-    "<extra_id_30>",
-    "<extra_id_31>",
-    "<extra_id_32>",
-    "<extra_id_33>",
-    "<extra_id_34>",
-    "<extra_id_35>",
-    "<extra_id_36>",
-    "<extra_id_37>",
-    "<extra_id_38>",
-    "<extra_id_39>",
-    "<extra_id_40>",
-    "<extra_id_41>",
-    "<extra_id_42>",
-    "<extra_id_43>",
-    "<extra_id_44>",
-    "<extra_id_45>",
-    "<extra_id_46>",
-    "<extra_id_47>",
-    "<extra_id_48>",
-    "<extra_id_49>",
-    "<extra_id_50>",
-    "<extra_id_51>",
-    "<extra_id_52>",
-    "<extra_id_53>",
-    "<extra_id_54>",
-    "<extra_id_55>",
-    "<extra_id_56>",
-    "<extra_id_57>",
-    "<extra_id_58>",
-    "<extra_id_59>",
-    "<extra_id_60>",
-    "<extra_id_61>",
-    "<extra_id_62>",
-    "<extra_id_63>",
-    "<extra_id_64>",
-    "<extra_id_65>",
-    "<extra_id_66>",
-    "<extra_id_67>",
-    "<extra_id_68>",
-    "<extra_id_69>",
-    "<extra_id_70>",
-    "<extra_id_71>",
-    "<extra_id_72>",
-    "<extra_id_73>",
-    "<extra_id_74>",
-    "<extra_id_75>",
-    "<extra_id_76>",
-    "<extra_id_77>",
-    "<extra_id_78>",
-    "<extra_id_79>",
-    "<extra_id_80>",
-    "<extra_id_81>",
-    "<extra_id_82>",
-    "<extra_id_83>",
-    "<extra_id_84>",
-    "<extra_id_85>",
-    "<extra_id_86>",
-    "<extra_id_87>",
-    "<extra_id_88>",
-    "<extra_id_89>",
-    "<extra_id_90>",
-    "<extra_id_91>",
-    "<extra_id_92>",
-    "<extra_id_93>",
-    "<extra_id_94>",
-    "<extra_id_95>",
-    "<extra_id_96>",
-    "<extra_id_97>",
-    "<extra_id_98>",
-    "<extra_id_99>"
-  ],
-  "clean_up_tokenization_spaces": true,
-  "eos_token": "</s>",
-  "extra_ids": 100,
-  "model_max_length": 512,
-  "pad_token": "</s>",
-  "sp_model_kwargs": {},
-  "tokenizer_class": "T5Tokenizer",
-  "unk_token": "<unk>"
-}

ckpt/ling_disc/checkpoint-41000/trainer_state.json DELETED Viewed

@@ -1,636 +0,0 @@
-{
-  "best_metric": 0.05535305291414261,
-  "best_model_checkpoint": "/data/mohamed/checkpoints/ling_disc/deberta-v3-small_flan-t5-base_40/checkpoint-41000",
-  "epoch": 29.306647605432453,
-  "eval_steps": 1000,
-  "global_step": 41000,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.71,
-      "grad_norm": 0.855617344379425,
-      "learning_rate": 1.1913271384322135e-05,
-      "loss": 0.9117,
-      "step": 1000
-    },
-    {
-      "epoch": 0.71,
-      "eval_loss": 0.6742472052574158,
-      "eval_runtime": 27.0595,
-      "eval_samples_per_second": 1111.549,
-      "eval_steps_per_second": 5.58,
-      "step": 1000
-    },
-    {
-      "epoch": 1.43,
-      "grad_norm": 4.203719139099121,
-      "learning_rate": 2.382654276864427e-05,
-      "loss": 0.4114,
-      "step": 2000
-    },
-    {
-      "epoch": 1.43,
-      "eval_loss": 0.3266257345676422,
-      "eval_runtime": 26.9318,
-      "eval_samples_per_second": 1116.822,
-      "eval_steps_per_second": 5.607,
-      "step": 2000
-    },
-    {
-      "epoch": 2.14,
-      "grad_norm": 3.1638591289520264,
-      "learning_rate": 3.57398141529664e-05,
-      "loss": 0.2624,
-      "step": 3000
-    },
-    {
-      "epoch": 2.14,
-      "eval_loss": 0.24602766335010529,
-      "eval_runtime": 27.0604,
-      "eval_samples_per_second": 1111.512,
-      "eval_steps_per_second": 5.58,
-      "step": 3000
-    },
-    {
-      "epoch": 2.86,
-      "grad_norm": 1.7417826652526855,
-      "learning_rate": 4.765308553728854e-05,
-      "loss": 0.2002,
-      "step": 4000
-    },
-    {
-      "epoch": 2.86,
-      "eval_loss": 0.1770436018705368,
-      "eval_runtime": 26.8812,
-      "eval_samples_per_second": 1118.922,
-      "eval_steps_per_second": 5.617,
-      "step": 4000
-    },
-    {
-      "epoch": 3.57,
-      "grad_norm": 1.1299816370010376,
-      "learning_rate": 4.893707145315437e-05,
-      "loss": 0.1635,
-      "step": 5000
-    },
-    {
-      "epoch": 3.57,
-      "eval_loss": 0.14757415652275085,
-      "eval_runtime": 26.7857,
-      "eval_samples_per_second": 1122.914,
-      "eval_steps_per_second": 5.637,
-      "step": 5000
-    },
-    {
-      "epoch": 4.29,
-      "grad_norm": 1.210856556892395,
-      "learning_rate": 4.761337463267413e-05,
-      "loss": 0.1404,
-      "step": 6000
-    },
-    {
-      "epoch": 4.29,
-      "eval_loss": 0.12851941585540771,
-      "eval_runtime": 26.9893,
-      "eval_samples_per_second": 1114.44,
-      "eval_steps_per_second": 5.595,
-      "step": 6000
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 2.0565412044525146,
-      "learning_rate": 4.62896778121939e-05,
-      "loss": 0.1263,
-      "step": 7000
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 0.12228666245937347,
-      "eval_runtime": 26.7363,
-      "eval_samples_per_second": 1124.987,
-      "eval_steps_per_second": 5.648,
-      "step": 7000
-    },
-    {
-      "epoch": 5.72,
-      "grad_norm": 1.8667607307434082,
-      "learning_rate": 4.496598099171366e-05,
-      "loss": 0.1127,
-      "step": 8000
-    },
-    {
-      "epoch": 5.72,
-      "eval_loss": 0.11036147177219391,
-      "eval_runtime": 26.7509,
-      "eval_samples_per_second": 1124.375,
-      "eval_steps_per_second": 5.645,
-      "step": 8000
-    },
-    {
-      "epoch": 6.43,
-      "grad_norm": 0.7492337226867676,
-      "learning_rate": 4.364228417123342e-05,
-      "loss": 0.1059,
-      "step": 9000
-    },
-    {
-      "epoch": 6.43,
-      "eval_loss": 0.10317497700452805,
-      "eval_runtime": 27.0158,
-      "eval_samples_per_second": 1113.349,
-      "eval_steps_per_second": 5.589,
-      "step": 9000
-    },
-    {
-      "epoch": 7.15,
-      "grad_norm": 0.7611485123634338,
-      "learning_rate": 4.231858735075319e-05,
-      "loss": 0.0993,
-      "step": 10000
-    },
-    {
-      "epoch": 7.15,
-      "eval_loss": 0.10284282267093658,
-      "eval_runtime": 26.795,
-      "eval_samples_per_second": 1122.524,
-      "eval_steps_per_second": 5.635,
-      "step": 10000
-    },
-    {
-      "epoch": 7.86,
-      "grad_norm": 0.5870215892791748,
-      "learning_rate": 4.099489053027295e-05,
-      "loss": 0.0887,
-      "step": 11000
-    },
-    {
-      "epoch": 7.86,
-      "eval_loss": 0.09789762645959854,
-      "eval_runtime": 26.8453,
-      "eval_samples_per_second": 1120.419,
-      "eval_steps_per_second": 5.625,
-      "step": 11000
-    },
-    {
-      "epoch": 8.58,
-      "grad_norm": 0.48922085762023926,
-      "learning_rate": 3.9671193709792706e-05,
-      "loss": 0.0842,
-      "step": 12000
-    },
-    {
-      "epoch": 8.58,
-      "eval_loss": 0.09349656105041504,
-      "eval_runtime": 26.8273,
-      "eval_samples_per_second": 1121.172,
-      "eval_steps_per_second": 5.629,
-      "step": 12000
-    },
-    {
-      "epoch": 9.29,
-      "grad_norm": 0.4252859354019165,
-      "learning_rate": 3.8347496889312476e-05,
-      "loss": 0.0793,
-      "step": 13000
-    },
-    {
-      "epoch": 9.29,
-      "eval_loss": 0.09415590018033981,
-      "eval_runtime": 25.9362,
-      "eval_samples_per_second": 1159.693,
-      "eval_steps_per_second": 5.822,
-      "step": 13000
-    },
-    {
-      "epoch": 10.01,
-      "grad_norm": 0.44548505544662476,
-      "learning_rate": 3.702380006883224e-05,
-      "loss": 0.076,
-      "step": 14000
-    },
-    {
-      "epoch": 10.01,
-      "eval_loss": 0.08913980424404144,
-      "eval_runtime": 26.7379,
-      "eval_samples_per_second": 1124.919,
-      "eval_steps_per_second": 5.647,
-      "step": 14000
-    },
-    {
-      "epoch": 10.72,
-      "grad_norm": 0.2965373694896698,
-      "learning_rate": 3.5700103248352e-05,
-      "loss": 0.0714,
-      "step": 15000
-    },
-    {
-      "epoch": 10.72,
-      "eval_loss": 0.08456840366125107,
-      "eval_runtime": 26.787,
-      "eval_samples_per_second": 1122.857,
-      "eval_steps_per_second": 5.637,
-      "step": 15000
-    },
-    {
-      "epoch": 11.44,
-      "grad_norm": 0.3205694854259491,
-      "learning_rate": 3.437640642787176e-05,
-      "loss": 0.0677,
-      "step": 16000
-    },
-    {
-      "epoch": 11.44,
-      "eval_loss": 0.07863688468933105,
-      "eval_runtime": 26.8242,
-      "eval_samples_per_second": 1121.299,
-      "eval_steps_per_second": 5.629,
-      "step": 16000
-    },
-    {
-      "epoch": 12.15,
-      "grad_norm": 0.2736203670501709,
-      "learning_rate": 3.3052709607391525e-05,
-      "loss": 0.0636,
-      "step": 17000
-    },
-    {
-      "epoch": 12.15,
-      "eval_loss": 0.07664181292057037,
-      "eval_runtime": 26.7818,
-      "eval_samples_per_second": 1123.077,
-      "eval_steps_per_second": 5.638,
-      "step": 17000
-    },
-    {
-      "epoch": 12.87,
-      "grad_norm": 0.25644680857658386,
-      "learning_rate": 3.172901278691129e-05,
-      "loss": 0.0618,
-      "step": 18000
-    },
-    {
-      "epoch": 12.87,
-      "eval_loss": 0.07351888716220856,
-      "eval_runtime": 26.8445,
-      "eval_samples_per_second": 1120.453,
-      "eval_steps_per_second": 5.625,
-      "step": 18000
-    },
-    {
-      "epoch": 13.58,
-      "grad_norm": 0.2748676538467407,
-      "learning_rate": 3.0405315966431053e-05,
-      "loss": 0.0584,
-      "step": 19000
-    },
-    {
-      "epoch": 13.58,
-      "eval_loss": 0.07314006239175797,
-      "eval_runtime": 26.8333,
-      "eval_samples_per_second": 1120.921,
-      "eval_steps_per_second": 5.627,
-      "step": 19000
-    },
-    {
-      "epoch": 14.3,
-      "grad_norm": 0.30235132575035095,
-      "learning_rate": 2.9081619145950812e-05,
-      "loss": 0.057,
-      "step": 20000
-    },
-    {
-      "epoch": 14.3,
-      "eval_loss": 0.07568340748548508,
-      "eval_runtime": 27.0109,
-      "eval_samples_per_second": 1113.55,
-      "eval_steps_per_second": 5.59,
-      "step": 20000
-    },
-    {
-      "epoch": 15.01,
-      "grad_norm": 0.2508692145347595,
-      "learning_rate": 2.7757922325470574e-05,
-      "loss": 0.0558,
-      "step": 21000
-    },
-    {
-      "epoch": 15.01,
-      "eval_loss": 0.07675843685865402,
-      "eval_runtime": 26.9026,
-      "eval_samples_per_second": 1118.032,
-      "eval_steps_per_second": 5.613,
-      "step": 21000
-    },
-    {
-      "epoch": 15.73,
-      "grad_norm": 0.3341030478477478,
-      "learning_rate": 2.643422550499034e-05,
-      "loss": 0.0533,
-      "step": 22000
-    },
-    {
-      "epoch": 15.73,
-      "eval_loss": 0.07339715212583542,
-      "eval_runtime": 26.8727,
-      "eval_samples_per_second": 1119.278,
-      "eval_steps_per_second": 5.619,
-      "step": 22000
-    },
-    {
-      "epoch": 16.44,
-      "grad_norm": 0.30433303117752075,
-      "learning_rate": 2.51105286845101e-05,
-      "loss": 0.0516,
-      "step": 23000
-    },
-    {
-      "epoch": 16.44,
-      "eval_loss": 0.0694783553481102,
-      "eval_runtime": 26.8551,
-      "eval_samples_per_second": 1120.012,
-      "eval_steps_per_second": 5.623,
-      "step": 23000
-    },
-    {
-      "epoch": 17.16,
-      "grad_norm": 0.39424875378608704,
-      "learning_rate": 2.378683186402986e-05,
-      "loss": 0.049,
-      "step": 24000
-    },
-    {
-      "epoch": 17.16,
-      "eval_loss": 0.06750107556581497,
-      "eval_runtime": 26.9045,
-      "eval_samples_per_second": 1117.954,
-      "eval_steps_per_second": 5.612,
-      "step": 24000
-    },
-    {
-      "epoch": 17.87,
-      "grad_norm": 0.29526183009147644,
-      "learning_rate": 2.2463135043549627e-05,
-      "loss": 0.0478,
-      "step": 25000
-    },
-    {
-      "epoch": 17.87,
-      "eval_loss": 0.06841529905796051,
-      "eval_runtime": 26.9131,
-      "eval_samples_per_second": 1117.597,
-      "eval_steps_per_second": 5.611,
-      "step": 25000
-    },
-    {
-      "epoch": 18.58,
-      "grad_norm": 0.2802821099758148,
-      "learning_rate": 2.113943822306939e-05,
-      "loss": 0.0472,
-      "step": 26000
-    },
-    {
-      "epoch": 18.58,
-      "eval_loss": 0.0680340975522995,
-      "eval_runtime": 26.8442,
-      "eval_samples_per_second": 1120.467,
-      "eval_steps_per_second": 5.625,
-      "step": 26000
-    },
-    {
-      "epoch": 19.3,
-      "grad_norm": 0.198490172624588,
-      "learning_rate": 1.9815741402589152e-05,
-      "loss": 0.0445,
-      "step": 27000
-    },
-    {
-      "epoch": 19.3,
-      "eval_loss": 0.059882719069719315,
-      "eval_runtime": 26.9691,
-      "eval_samples_per_second": 1115.275,
-      "eval_steps_per_second": 5.599,
-      "step": 27000
-    },
-    {
-      "epoch": 20.01,
-      "grad_norm": 0.3383251130580902,
-      "learning_rate": 1.8492044582108914e-05,
-      "loss": 0.0435,
-      "step": 28000
-    },
-    {
-      "epoch": 20.01,
-      "eval_loss": 0.06356318295001984,
-      "eval_runtime": 26.8538,
-      "eval_samples_per_second": 1120.066,
-      "eval_steps_per_second": 5.623,
-      "step": 28000
-    },
-    {
-      "epoch": 20.73,
-      "grad_norm": 0.16571784019470215,
-      "learning_rate": 1.7168347761628677e-05,
-      "loss": 0.0419,
-      "step": 29000
-    },
-    {
-      "epoch": 20.73,
-      "eval_loss": 0.06056862324476242,
-      "eval_runtime": 27.0748,
-      "eval_samples_per_second": 1110.924,
-      "eval_steps_per_second": 5.577,
-      "step": 29000
-    },
-    {
-      "epoch": 21.44,
-      "grad_norm": 0.19518467783927917,
-      "learning_rate": 1.584465094114844e-05,
-      "loss": 0.0409,
-      "step": 30000
-    },
-    {
-      "epoch": 21.44,
-      "eval_loss": 0.06490638852119446,
-      "eval_runtime": 26.8481,
-      "eval_samples_per_second": 1120.301,
-      "eval_steps_per_second": 5.624,
-      "step": 30000
-    },
-    {
-      "epoch": 22.16,
-      "grad_norm": 0.15420591831207275,
-      "learning_rate": 1.4520954120668203e-05,
-      "loss": 0.0397,
-      "step": 31000
-    },
-    {
-      "epoch": 22.16,
-      "eval_loss": 0.05918469280004501,
-      "eval_runtime": 26.8143,
-      "eval_samples_per_second": 1121.713,
-      "eval_steps_per_second": 5.631,
-      "step": 31000
-    },
-    {
-      "epoch": 22.87,
-      "grad_norm": 0.26854997873306274,
-      "learning_rate": 1.3197257300187965e-05,
-      "loss": 0.0387,
-      "step": 32000
-    },
-    {
-      "epoch": 22.87,
-      "eval_loss": 0.06144551932811737,
-      "eval_runtime": 26.8852,
-      "eval_samples_per_second": 1118.757,
-      "eval_steps_per_second": 5.616,
-      "step": 32000
-    },
-    {
-      "epoch": 23.59,
-      "grad_norm": 0.17430314421653748,
-      "learning_rate": 1.1873560479707728e-05,
-      "loss": 0.0373,
-      "step": 33000
-    },
-    {
-      "epoch": 23.59,
-      "eval_loss": 0.06159648299217224,
-      "eval_runtime": 26.7887,
-      "eval_samples_per_second": 1122.785,
-      "eval_steps_per_second": 5.637,
-      "step": 33000
-    },
-    {
-      "epoch": 24.3,
-      "grad_norm": 0.14911049604415894,
-      "learning_rate": 1.054986365922749e-05,
-      "loss": 0.0369,
-      "step": 34000
-    },
-    {
-      "epoch": 24.3,
-      "eval_loss": 0.05931873992085457,
-      "eval_runtime": 26.8571,
-      "eval_samples_per_second": 1119.926,
-      "eval_steps_per_second": 5.622,
-      "step": 34000
-    },
-    {
-      "epoch": 25.02,
-      "grad_norm": 0.13620807230472565,
-      "learning_rate": 9.226166838747254e-06,
-      "loss": 0.0361,
-      "step": 35000
-    },
-    {
-      "epoch": 25.02,
-      "eval_loss": 0.05695568770170212,
-      "eval_runtime": 26.8966,
-      "eval_samples_per_second": 1118.283,
-      "eval_steps_per_second": 5.614,
-      "step": 35000
-    },
-    {
-      "epoch": 25.73,
-      "grad_norm": 0.13764438033103943,
-      "learning_rate": 7.902470018267017e-06,
-      "loss": 0.0349,
-      "step": 36000
-    },
-    {
-      "epoch": 25.73,
-      "eval_loss": 0.05707501247525215,
-      "eval_runtime": 26.986,
-      "eval_samples_per_second": 1114.578,
-      "eval_steps_per_second": 5.595,
-      "step": 36000
-    },
-    {
-      "epoch": 26.45,
-      "grad_norm": 0.2389635145664215,
-      "learning_rate": 6.578773197786779e-06,
-      "loss": 0.0343,
-      "step": 37000
-    },
-    {
-      "epoch": 26.45,
-      "eval_loss": 0.0577365942299366,
-      "eval_runtime": 26.9903,
-      "eval_samples_per_second": 1114.401,
-      "eval_steps_per_second": 5.595,
-      "step": 37000
-    },
-    {
-      "epoch": 27.16,
-      "grad_norm": 0.15828461945056915,
-      "learning_rate": 5.255076377306542e-06,
-      "loss": 0.034,
-      "step": 38000
-    },
-    {
-      "epoch": 27.16,
-      "eval_loss": 0.05767366662621498,
-      "eval_runtime": 27.1454,
-      "eval_samples_per_second": 1108.035,
-      "eval_steps_per_second": 5.563,
-      "step": 38000
-    },
-    {
-      "epoch": 27.88,
-      "grad_norm": 0.1059570387005806,
-      "learning_rate": 3.9313795568263045e-06,
-      "loss": 0.0332,
-      "step": 39000
-    },
-    {
-      "epoch": 27.88,
-      "eval_loss": 0.056225307285785675,
-      "eval_runtime": 26.9534,
-      "eval_samples_per_second": 1115.928,
-      "eval_steps_per_second": 5.602,
-      "step": 39000
-    },
-    {
-      "epoch": 28.59,
-      "grad_norm": 0.1975150853395462,
-      "learning_rate": 2.6076827363460673e-06,
-      "loss": 0.0329,
-      "step": 40000
-    },
-    {
-      "epoch": 28.59,
-      "eval_loss": 0.05555161088705063,
-      "eval_runtime": 27.1187,
-      "eval_samples_per_second": 1109.122,
-      "eval_steps_per_second": 5.568,
-      "step": 40000
-    },
-    {
-      "epoch": 29.31,
-      "grad_norm": 0.1037423312664032,
-      "learning_rate": 1.28398591586583e-06,
-      "loss": 0.0319,
-      "step": 41000
-    },
-    {
-      "epoch": 29.31,
-      "eval_loss": 0.05535305291414261,
-      "eval_runtime": 26.8353,
-      "eval_samples_per_second": 1120.838,
-      "eval_steps_per_second": 5.627,
-      "step": 41000
-    }
-  ],
-  "logging_steps": 1000,
-  "max_steps": 41970,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 30,
-  "save_steps": 1000,
-  "total_flos": 3.270624085088659e+16,
-  "train_batch_size": 200,
-  "trial_name": null,
-  "trial_params": null
-}

ckpt/ling_disc/checkpoint-41000/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:deb9dc15db671f7ae0b9e7e7bc26ca9e20c0fde45babc266a60753e2b23d6328
-size 4984

ckpt/ling_disc/config.json DELETED Viewed

@@ -1,120 +0,0 @@
-{
-  "_name_or_path": "microsoft/deberta-v3-small",
-  "architectures": [
-    "DebertaReplacedTokenizer"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "id2label": {
-    "0": "LABEL_0",
-    "1": "LABEL_1",
-    "2": "LABEL_2",
-    "3": "LABEL_3",
-    "4": "LABEL_4",
-    "5": "LABEL_5",
-    "6": "LABEL_6",
-    "7": "LABEL_7",
-    "8": "LABEL_8",
-    "9": "LABEL_9",
-    "10": "LABEL_10",
-    "11": "LABEL_11",
-    "12": "LABEL_12",
-    "13": "LABEL_13",
-    "14": "LABEL_14",
-    "15": "LABEL_15",
-    "16": "LABEL_16",
-    "17": "LABEL_17",
-    "18": "LABEL_18",
-    "19": "LABEL_19",
-    "20": "LABEL_20",
-    "21": "LABEL_21",
-    "22": "LABEL_22",
-    "23": "LABEL_23",
-    "24": "LABEL_24",
-    "25": "LABEL_25",
-    "26": "LABEL_26",
-    "27": "LABEL_27",
-    "28": "LABEL_28",
-    "29": "LABEL_29",
-    "30": "LABEL_30",
-    "31": "LABEL_31",
-    "32": "LABEL_32",
-    "33": "LABEL_33",
-    "34": "LABEL_34",
-    "35": "LABEL_35",
-    "36": "LABEL_36",
-    "37": "LABEL_37",
-    "38": "LABEL_38",
-    "39": "LABEL_39"
-  },
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "label2id": {
-    "LABEL_0": 0,
-    "LABEL_1": 1,
-    "LABEL_10": 10,
-    "LABEL_11": 11,
-    "LABEL_12": 12,
-    "LABEL_13": 13,
-    "LABEL_14": 14,
-    "LABEL_15": 15,
-    "LABEL_16": 16,
-    "LABEL_17": 17,
-    "LABEL_18": 18,
-    "LABEL_19": 19,
-    "LABEL_2": 2,
-    "LABEL_20": 20,
-    "LABEL_21": 21,
-    "LABEL_22": 22,
-    "LABEL_23": 23,
-    "LABEL_24": 24,
-    "LABEL_25": 25,
-    "LABEL_26": 26,
-    "LABEL_27": 27,
-    "LABEL_28": 28,
-    "LABEL_29": 29,
-    "LABEL_3": 3,
-    "LABEL_30": 30,
-    "LABEL_31": 31,
-    "LABEL_32": 32,
-    "LABEL_33": 33,
-    "LABEL_34": 34,
-    "LABEL_35": 35,
-    "LABEL_36": 36,
-    "LABEL_37": 37,
-    "LABEL_38": 38,
-    "LABEL_39": 39,
-    "LABEL_4": 4,
-    "LABEL_5": 5,
-    "LABEL_6": 6,
-    "LABEL_7": 7,
-    "LABEL_8": 8,
-    "LABEL_9": 9
-  },
-  "layer_norm_eps": 1e-07,
-  "max_position_embeddings": 512,
-  "max_relative_positions": -1,
-  "model_type": "deberta-v2",
-  "norm_rel_ebd": "layer_norm",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 6,
-  "pad_token_id": 0,
-  "pooler_dropout": 0,
-  "pooler_hidden_act": "gelu",
-  "pooler_hidden_size": 768,
-  "pos_att_type": [
-    "p2c",
-    "c2p"
-  ],
-  "position_biased_input": false,
-  "position_buckets": 256,
-  "problem_type": "regression",
-  "relative_attention": true,
-  "share_att_key": true,
-  "torch_dtype": "float32",
-  "transformers_version": "4.39.3",
-  "type_vocab_size": 0,
-  "vocab_size": 128100
-}

ckpt/ling_disc/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:15221fd5565118b32b1adf7b42c27cae6a3d8dd32b0ef85473b70bb072964661
-size 275252064

ckpt/ling_disc/scaler.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1dbad9723e37379b55bb6d7300abf6ad705f320bd599ca7f583e574f4a26f4a4
-size 1575

ckpt/ling_disc/special_tokens_map.json DELETED Viewed

@@ -1,119 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<extra_id_0>",
-    "<extra_id_1>",
-    "<extra_id_2>",
-    "<extra_id_3>",
-    "<extra_id_4>",
-    "<extra_id_5>",
-    "<extra_id_6>",
-    "<extra_id_7>",
-    "<extra_id_8>",
-    "<extra_id_9>",
-    "<extra_id_10>",
-    "<extra_id_11>",
-    "<extra_id_12>",
-    "<extra_id_13>",
-    "<extra_id_14>",
-    "<extra_id_15>",
-    "<extra_id_16>",
-    "<extra_id_17>",
-    "<extra_id_18>",
-    "<extra_id_19>",
-    "<extra_id_20>",
-    "<extra_id_21>",
-    "<extra_id_22>",
-    "<extra_id_23>",
-    "<extra_id_24>",
-    "<extra_id_25>",
-    "<extra_id_26>",
-    "<extra_id_27>",
-    "<extra_id_28>",
-    "<extra_id_29>",
-    "<extra_id_30>",
-    "<extra_id_31>",
-    "<extra_id_32>",
-    "<extra_id_33>",
-    "<extra_id_34>",
-    "<extra_id_35>",
-    "<extra_id_36>",
-    "<extra_id_37>",
-    "<extra_id_38>",
-    "<extra_id_39>",
-    "<extra_id_40>",
-    "<extra_id_41>",
-    "<extra_id_42>",
-    "<extra_id_43>",
-    "<extra_id_44>",
-    "<extra_id_45>",
-    "<extra_id_46>",
-    "<extra_id_47>",
-    "<extra_id_48>",
-    "<extra_id_49>",
-    "<extra_id_50>",
-    "<extra_id_51>",
-    "<extra_id_52>",
-    "<extra_id_53>",
-    "<extra_id_54>",
-    "<extra_id_55>",
-    "<extra_id_56>",
-    "<extra_id_57>",
-    "<extra_id_58>",
-    "<extra_id_59>",
-    "<extra_id_60>",
-    "<extra_id_61>",
-    "<extra_id_62>",
-    "<extra_id_63>",
-    "<extra_id_64>",
-    "<extra_id_65>",
-    "<extra_id_66>",
-    "<extra_id_67>",
-    "<extra_id_68>",
-    "<extra_id_69>",
-    "<extra_id_70>",
-    "<extra_id_71>",
-    "<extra_id_72>",
-    "<extra_id_73>",
-    "<extra_id_74>",
-    "<extra_id_75>",
-    "<extra_id_76>",
-    "<extra_id_77>",
-    "<extra_id_78>",
-    "<extra_id_79>",
-    "<extra_id_80>",
-    "<extra_id_81>",
-    "<extra_id_82>",
-    "<extra_id_83>",
-    "<extra_id_84>",
-    "<extra_id_85>",
-    "<extra_id_86>",
-    "<extra_id_87>",
-    "<extra_id_88>",
-    "<extra_id_89>",
-    "<extra_id_90>",
-    "<extra_id_91>",
-    "<extra_id_92>",
-    "<extra_id_93>",
-    "<extra_id_94>",
-    "<extra_id_95>",
-    "<extra_id_96>",
-    "<extra_id_97>",
-    "<extra_id_98>",
-    "<extra_id_99>"
-  ],
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "</s>",
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

ckpt/ling_disc/spiece.model DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
-size 791656

ckpt/ling_disc/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

ckpt/ling_disc/tokenizer_config.json DELETED Viewed

@@ -1,938 +0,0 @@
-{
-  "added_tokens_decoder": {
-    "0": {
-      "content": "<pad>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "1": {
-      "content": "</s>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "2": {
-      "content": "<unk>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32000": {
-      "content": "<extra_id_99>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32001": {
-      "content": "<extra_id_98>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32002": {
-      "content": "<extra_id_97>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32003": {
-      "content": "<extra_id_96>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32004": {
-      "content": "<extra_id_95>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32005": {
-      "content": "<extra_id_94>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32006": {
-      "content": "<extra_id_93>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32007": {
-      "content": "<extra_id_92>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32008": {
-      "content": "<extra_id_91>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32009": {
-      "content": "<extra_id_90>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32010": {
-      "content": "<extra_id_89>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32011": {
-      "content": "<extra_id_88>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32012": {
-      "content": "<extra_id_87>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32013": {
-      "content": "<extra_id_86>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32014": {
-      "content": "<extra_id_85>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32015": {
-      "content": "<extra_id_84>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32016": {
-      "content": "<extra_id_83>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32017": {
-      "content": "<extra_id_82>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32018": {
-      "content": "<extra_id_81>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32019": {
-      "content": "<extra_id_80>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32020": {
-      "content": "<extra_id_79>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32021": {
-      "content": "<extra_id_78>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32022": {
-      "content": "<extra_id_77>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32023": {
-      "content": "<extra_id_76>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32024": {
-      "content": "<extra_id_75>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32025": {
-      "content": "<extra_id_74>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32026": {
-      "content": "<extra_id_73>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32027": {
-      "content": "<extra_id_72>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32028": {
-      "content": "<extra_id_71>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32029": {
-      "content": "<extra_id_70>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32030": {
-      "content": "<extra_id_69>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32031": {
-      "content": "<extra_id_68>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32032": {
-      "content": "<extra_id_67>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32033": {
-      "content": "<extra_id_66>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32034": {
-      "content": "<extra_id_65>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32035": {
-      "content": "<extra_id_64>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32036": {
-      "content": "<extra_id_63>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32037": {
-      "content": "<extra_id_62>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32038": {
-      "content": "<extra_id_61>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32039": {
-      "content": "<extra_id_60>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32040": {
-      "content": "<extra_id_59>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32041": {
-      "content": "<extra_id_58>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32042": {
-      "content": "<extra_id_57>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32043": {
-      "content": "<extra_id_56>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32044": {
-      "content": "<extra_id_55>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32045": {
-      "content": "<extra_id_54>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32046": {
-      "content": "<extra_id_53>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32047": {
-      "content": "<extra_id_52>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32048": {
-      "content": "<extra_id_51>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32049": {
-      "content": "<extra_id_50>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32050": {
-      "content": "<extra_id_49>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32051": {
-      "content": "<extra_id_48>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32052": {
-      "content": "<extra_id_47>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32053": {
-      "content": "<extra_id_46>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32054": {
-      "content": "<extra_id_45>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32055": {
-      "content": "<extra_id_44>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32056": {
-      "content": "<extra_id_43>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32057": {
-      "content": "<extra_id_42>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32058": {
-      "content": "<extra_id_41>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32059": {
-      "content": "<extra_id_40>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32060": {
-      "content": "<extra_id_39>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32061": {
-      "content": "<extra_id_38>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32062": {
-      "content": "<extra_id_37>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32063": {
-      "content": "<extra_id_36>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32064": {
-      "content": "<extra_id_35>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32065": {
-      "content": "<extra_id_34>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32066": {
-      "content": "<extra_id_33>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32067": {
-      "content": "<extra_id_32>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32068": {
-      "content": "<extra_id_31>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32069": {
-      "content": "<extra_id_30>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32070": {
-      "content": "<extra_id_29>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32071": {
-      "content": "<extra_id_28>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32072": {
-      "content": "<extra_id_27>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32073": {
-      "content": "<extra_id_26>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32074": {
-      "content": "<extra_id_25>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32075": {
-      "content": "<extra_id_24>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32076": {
-      "content": "<extra_id_23>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32077": {
-      "content": "<extra_id_22>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32078": {
-      "content": "<extra_id_21>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32079": {
-      "content": "<extra_id_20>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32080": {
-      "content": "<extra_id_19>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32081": {
-      "content": "<extra_id_18>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32082": {
-      "content": "<extra_id_17>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32083": {
-      "content": "<extra_id_16>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32084": {
-      "content": "<extra_id_15>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32085": {
-      "content": "<extra_id_14>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32086": {
-      "content": "<extra_id_13>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32087": {
-      "content": "<extra_id_12>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32088": {
-      "content": "<extra_id_11>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32089": {
-      "content": "<extra_id_10>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32090": {
-      "content": "<extra_id_9>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32091": {
-      "content": "<extra_id_8>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32092": {
-      "content": "<extra_id_7>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32093": {
-      "content": "<extra_id_6>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32094": {
-      "content": "<extra_id_5>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32095": {
-      "content": "<extra_id_4>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32096": {
-      "content": "<extra_id_3>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32097": {
-      "content": "<extra_id_2>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32098": {
-      "content": "<extra_id_1>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32099": {
-      "content": "<extra_id_0>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "additional_special_tokens": [
-    "<extra_id_0>",
-    "<extra_id_1>",
-    "<extra_id_2>",
-    "<extra_id_3>",
-    "<extra_id_4>",
-    "<extra_id_5>",
-    "<extra_id_6>",
-    "<extra_id_7>",
-    "<extra_id_8>",
-    "<extra_id_9>",
-    "<extra_id_10>",
-    "<extra_id_11>",
-    "<extra_id_12>",
-    "<extra_id_13>",
-    "<extra_id_14>",
-    "<extra_id_15>",
-    "<extra_id_16>",
-    "<extra_id_17>",
-    "<extra_id_18>",
-    "<extra_id_19>",
-    "<extra_id_20>",
-    "<extra_id_21>",
-    "<extra_id_22>",
-    "<extra_id_23>",
-    "<extra_id_24>",
-    "<extra_id_25>",
-    "<extra_id_26>",
-    "<extra_id_27>",
-    "<extra_id_28>",
-    "<extra_id_29>",
-    "<extra_id_30>",
-    "<extra_id_31>",
-    "<extra_id_32>",
-    "<extra_id_33>",
-    "<extra_id_34>",
-    "<extra_id_35>",
-    "<extra_id_36>",
-    "<extra_id_37>",
-    "<extra_id_38>",
-    "<extra_id_39>",
-    "<extra_id_40>",
-    "<extra_id_41>",
-    "<extra_id_42>",
-    "<extra_id_43>",
-    "<extra_id_44>",
-    "<extra_id_45>",
-    "<extra_id_46>",
-    "<extra_id_47>",
-    "<extra_id_48>",
-    "<extra_id_49>",
-    "<extra_id_50>",
-    "<extra_id_51>",
-    "<extra_id_52>",
-    "<extra_id_53>",
-    "<extra_id_54>",
-    "<extra_id_55>",
-    "<extra_id_56>",
-    "<extra_id_57>",
-    "<extra_id_58>",
-    "<extra_id_59>",
-    "<extra_id_60>",
-    "<extra_id_61>",
-    "<extra_id_62>",
-    "<extra_id_63>",
-    "<extra_id_64>",
-    "<extra_id_65>",
-    "<extra_id_66>",
-    "<extra_id_67>",
-    "<extra_id_68>",
-    "<extra_id_69>",
-    "<extra_id_70>",
-    "<extra_id_71>",
-    "<extra_id_72>",
-    "<extra_id_73>",
-    "<extra_id_74>",
-    "<extra_id_75>",
-    "<extra_id_76>",
-    "<extra_id_77>",
-    "<extra_id_78>",
-    "<extra_id_79>",
-    "<extra_id_80>",
-    "<extra_id_81>",
-    "<extra_id_82>",
-    "<extra_id_83>",
-    "<extra_id_84>",
-    "<extra_id_85>",
-    "<extra_id_86>",
-    "<extra_id_87>",
-    "<extra_id_88>",
-    "<extra_id_89>",
-    "<extra_id_90>",
-    "<extra_id_91>",
-    "<extra_id_92>",
-    "<extra_id_93>",
-    "<extra_id_94>",
-    "<extra_id_95>",
-    "<extra_id_96>",
-    "<extra_id_97>",
-    "<extra_id_98>",
-    "<extra_id_99>"
-  ],
-  "clean_up_tokenization_spaces": true,
-  "eos_token": "</s>",
-  "extra_ids": 100,
-  "model_max_length": 512,
-  "pad_token": "</s>",
-  "sp_model_kwargs": {},
-  "tokenizer_class": "T5Tokenizer",
-  "unk_token": "<unk>"
-}

ckpt/ling_disc/trainer_state.json DELETED Viewed

@@ -1,645 +0,0 @@
-{
-  "best_metric": 0.05535305291414261,
-  "best_model_checkpoint": "/data/mohamed/checkpoints/ling_disc/deberta-v3-small_flan-t5-base_40/checkpoint-41000",
-  "epoch": 30.0,
-  "eval_steps": 1000,
-  "global_step": 41970,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.71,
-      "grad_norm": 0.855617344379425,
-      "learning_rate": 1.1913271384322135e-05,
-      "loss": 0.9117,
-      "step": 1000
-    },
-    {
-      "epoch": 0.71,
-      "eval_loss": 0.6742472052574158,
-      "eval_runtime": 27.0595,
-      "eval_samples_per_second": 1111.549,
-      "eval_steps_per_second": 5.58,
-      "step": 1000
-    },
-    {
-      "epoch": 1.43,
-      "grad_norm": 4.203719139099121,
-      "learning_rate": 2.382654276864427e-05,
-      "loss": 0.4114,
-      "step": 2000
-    },
-    {
-      "epoch": 1.43,
-      "eval_loss": 0.3266257345676422,
-      "eval_runtime": 26.9318,
-      "eval_samples_per_second": 1116.822,
-      "eval_steps_per_second": 5.607,
-      "step": 2000
-    },
-    {
-      "epoch": 2.14,
-      "grad_norm": 3.1638591289520264,
-      "learning_rate": 3.57398141529664e-05,
-      "loss": 0.2624,
-      "step": 3000
-    },
-    {
-      "epoch": 2.14,
-      "eval_loss": 0.24602766335010529,
-      "eval_runtime": 27.0604,
-      "eval_samples_per_second": 1111.512,
-      "eval_steps_per_second": 5.58,
-      "step": 3000
-    },
-    {
-      "epoch": 2.86,
-      "grad_norm": 1.7417826652526855,
-      "learning_rate": 4.765308553728854e-05,
-      "loss": 0.2002,
-      "step": 4000
-    },
-    {
-      "epoch": 2.86,
-      "eval_loss": 0.1770436018705368,
-      "eval_runtime": 26.8812,
-      "eval_samples_per_second": 1118.922,
-      "eval_steps_per_second": 5.617,
-      "step": 4000
-    },
-    {
-      "epoch": 3.57,
-      "grad_norm": 1.1299816370010376,
-      "learning_rate": 4.893707145315437e-05,
-      "loss": 0.1635,
-      "step": 5000
-    },
-    {
-      "epoch": 3.57,
-      "eval_loss": 0.14757415652275085,
-      "eval_runtime": 26.7857,
-      "eval_samples_per_second": 1122.914,
-      "eval_steps_per_second": 5.637,
-      "step": 5000
-    },
-    {
-      "epoch": 4.29,
-      "grad_norm": 1.210856556892395,
-      "learning_rate": 4.761337463267413e-05,
-      "loss": 0.1404,
-      "step": 6000
-    },
-    {
-      "epoch": 4.29,
-      "eval_loss": 0.12851941585540771,
-      "eval_runtime": 26.9893,
-      "eval_samples_per_second": 1114.44,
-      "eval_steps_per_second": 5.595,
-      "step": 6000
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 2.0565412044525146,
-      "learning_rate": 4.62896778121939e-05,
-      "loss": 0.1263,
-      "step": 7000
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 0.12228666245937347,
-      "eval_runtime": 26.7363,
-      "eval_samples_per_second": 1124.987,
-      "eval_steps_per_second": 5.648,
-      "step": 7000
-    },
-    {
-      "epoch": 5.72,
-      "grad_norm": 1.8667607307434082,
-      "learning_rate": 4.496598099171366e-05,
-      "loss": 0.1127,
-      "step": 8000
-    },
-    {
-      "epoch": 5.72,
-      "eval_loss": 0.11036147177219391,
-      "eval_runtime": 26.7509,
-      "eval_samples_per_second": 1124.375,
-      "eval_steps_per_second": 5.645,
-      "step": 8000
-    },
-    {
-      "epoch": 6.43,
-      "grad_norm": 0.7492337226867676,
-      "learning_rate": 4.364228417123342e-05,
-      "loss": 0.1059,
-      "step": 9000
-    },
-    {
-      "epoch": 6.43,
-      "eval_loss": 0.10317497700452805,
-      "eval_runtime": 27.0158,
-      "eval_samples_per_second": 1113.349,
-      "eval_steps_per_second": 5.589,
-      "step": 9000
-    },
-    {
-      "epoch": 7.15,
-      "grad_norm": 0.7611485123634338,
-      "learning_rate": 4.231858735075319e-05,
-      "loss": 0.0993,
-      "step": 10000
-    },
-    {
-      "epoch": 7.15,
-      "eval_loss": 0.10284282267093658,
-      "eval_runtime": 26.795,
-      "eval_samples_per_second": 1122.524,
-      "eval_steps_per_second": 5.635,
-      "step": 10000
-    },
-    {
-      "epoch": 7.86,
-      "grad_norm": 0.5870215892791748,
-      "learning_rate": 4.099489053027295e-05,
-      "loss": 0.0887,
-      "step": 11000
-    },
-    {
-      "epoch": 7.86,
-      "eval_loss": 0.09789762645959854,
-      "eval_runtime": 26.8453,
-      "eval_samples_per_second": 1120.419,
-      "eval_steps_per_second": 5.625,
-      "step": 11000
-    },
-    {
-      "epoch": 8.58,
-      "grad_norm": 0.48922085762023926,
-      "learning_rate": 3.9671193709792706e-05,
-      "loss": 0.0842,
-      "step": 12000
-    },
-    {
-      "epoch": 8.58,
-      "eval_loss": 0.09349656105041504,
-      "eval_runtime": 26.8273,
-      "eval_samples_per_second": 1121.172,
-      "eval_steps_per_second": 5.629,
-      "step": 12000
-    },
-    {
-      "epoch": 9.29,
-      "grad_norm": 0.4252859354019165,
-      "learning_rate": 3.8347496889312476e-05,
-      "loss": 0.0793,
-      "step": 13000
-    },
-    {
-      "epoch": 9.29,
-      "eval_loss": 0.09415590018033981,
-      "eval_runtime": 25.9362,
-      "eval_samples_per_second": 1159.693,
-      "eval_steps_per_second": 5.822,
-      "step": 13000
-    },
-    {
-      "epoch": 10.01,
-      "grad_norm": 0.44548505544662476,
-      "learning_rate": 3.702380006883224e-05,
-      "loss": 0.076,
-      "step": 14000
-    },
-    {
-      "epoch": 10.01,
-      "eval_loss": 0.08913980424404144,
-      "eval_runtime": 26.7379,
-      "eval_samples_per_second": 1124.919,
-      "eval_steps_per_second": 5.647,
-      "step": 14000
-    },
-    {
-      "epoch": 10.72,
-      "grad_norm": 0.2965373694896698,
-      "learning_rate": 3.5700103248352e-05,
-      "loss": 0.0714,
-      "step": 15000
-    },
-    {
-      "epoch": 10.72,
-      "eval_loss": 0.08456840366125107,
-      "eval_runtime": 26.787,
-      "eval_samples_per_second": 1122.857,
-      "eval_steps_per_second": 5.637,
-      "step": 15000
-    },
-    {
-      "epoch": 11.44,
-      "grad_norm": 0.3205694854259491,
-      "learning_rate": 3.437640642787176e-05,
-      "loss": 0.0677,
-      "step": 16000
-    },
-    {
-      "epoch": 11.44,
-      "eval_loss": 0.07863688468933105,
-      "eval_runtime": 26.8242,
-      "eval_samples_per_second": 1121.299,
-      "eval_steps_per_second": 5.629,
-      "step": 16000
-    },
-    {
-      "epoch": 12.15,
-      "grad_norm": 0.2736203670501709,
-      "learning_rate": 3.3052709607391525e-05,
-      "loss": 0.0636,
-      "step": 17000
-    },
-    {
-      "epoch": 12.15,
-      "eval_loss": 0.07664181292057037,
-      "eval_runtime": 26.7818,
-      "eval_samples_per_second": 1123.077,
-      "eval_steps_per_second": 5.638,
-      "step": 17000
-    },
-    {
-      "epoch": 12.87,
-      "grad_norm": 0.25644680857658386,
-      "learning_rate": 3.172901278691129e-05,
-      "loss": 0.0618,
-      "step": 18000
-    },
-    {
-      "epoch": 12.87,
-      "eval_loss": 0.07351888716220856,
-      "eval_runtime": 26.8445,
-      "eval_samples_per_second": 1120.453,
-      "eval_steps_per_second": 5.625,
-      "step": 18000
-    },
-    {
-      "epoch": 13.58,
-      "grad_norm": 0.2748676538467407,
-      "learning_rate": 3.0405315966431053e-05,
-      "loss": 0.0584,
-      "step": 19000
-    },
-    {
-      "epoch": 13.58,
-      "eval_loss": 0.07314006239175797,
-      "eval_runtime": 26.8333,
-      "eval_samples_per_second": 1120.921,
-      "eval_steps_per_second": 5.627,
-      "step": 19000
-    },
-    {
-      "epoch": 14.3,
-      "grad_norm": 0.30235132575035095,
-      "learning_rate": 2.9081619145950812e-05,
-      "loss": 0.057,
-      "step": 20000
-    },
-    {
-      "epoch": 14.3,
-      "eval_loss": 0.07568340748548508,
-      "eval_runtime": 27.0109,
-      "eval_samples_per_second": 1113.55,
-      "eval_steps_per_second": 5.59,
-      "step": 20000
-    },
-    {
-      "epoch": 15.01,
-      "grad_norm": 0.2508692145347595,
-      "learning_rate": 2.7757922325470574e-05,
-      "loss": 0.0558,
-      "step": 21000
-    },
-    {
-      "epoch": 15.01,
-      "eval_loss": 0.07675843685865402,
-      "eval_runtime": 26.9026,
-      "eval_samples_per_second": 1118.032,
-      "eval_steps_per_second": 5.613,
-      "step": 21000
-    },
-    {
-      "epoch": 15.73,
-      "grad_norm": 0.3341030478477478,
-      "learning_rate": 2.643422550499034e-05,
-      "loss": 0.0533,
-      "step": 22000
-    },
-    {
-      "epoch": 15.73,
-      "eval_loss": 0.07339715212583542,
-      "eval_runtime": 26.8727,
-      "eval_samples_per_second": 1119.278,
-      "eval_steps_per_second": 5.619,
-      "step": 22000
-    },
-    {
-      "epoch": 16.44,
-      "grad_norm": 0.30433303117752075,
-      "learning_rate": 2.51105286845101e-05,
-      "loss": 0.0516,
-      "step": 23000
-    },
-    {
-      "epoch": 16.44,
-      "eval_loss": 0.0694783553481102,
-      "eval_runtime": 26.8551,
-      "eval_samples_per_second": 1120.012,
-      "eval_steps_per_second": 5.623,
-      "step": 23000
-    },
-    {
-      "epoch": 17.16,
-      "grad_norm": 0.39424875378608704,
-      "learning_rate": 2.378683186402986e-05,
-      "loss": 0.049,
-      "step": 24000
-    },
-    {
-      "epoch": 17.16,
-      "eval_loss": 0.06750107556581497,
-      "eval_runtime": 26.9045,
-      "eval_samples_per_second": 1117.954,
-      "eval_steps_per_second": 5.612,
-      "step": 24000
-    },
-    {
-      "epoch": 17.87,
-      "grad_norm": 0.29526183009147644,
-      "learning_rate": 2.2463135043549627e-05,
-      "loss": 0.0478,
-      "step": 25000
-    },
-    {
-      "epoch": 17.87,
-      "eval_loss": 0.06841529905796051,
-      "eval_runtime": 26.9131,
-      "eval_samples_per_second": 1117.597,
-      "eval_steps_per_second": 5.611,
-      "step": 25000
-    },
-    {
-      "epoch": 18.58,
-      "grad_norm": 0.2802821099758148,
-      "learning_rate": 2.113943822306939e-05,
-      "loss": 0.0472,
-      "step": 26000
-    },
-    {
-      "epoch": 18.58,
-      "eval_loss": 0.0680340975522995,
-      "eval_runtime": 26.8442,
-      "eval_samples_per_second": 1120.467,
-      "eval_steps_per_second": 5.625,
-      "step": 26000
-    },
-    {
-      "epoch": 19.3,
-      "grad_norm": 0.198490172624588,
-      "learning_rate": 1.9815741402589152e-05,
-      "loss": 0.0445,
-      "step": 27000
-    },
-    {
-      "epoch": 19.3,
-      "eval_loss": 0.059882719069719315,
-      "eval_runtime": 26.9691,
-      "eval_samples_per_second": 1115.275,
-      "eval_steps_per_second": 5.599,
-      "step": 27000
-    },
-    {
-      "epoch": 20.01,
-      "grad_norm": 0.3383251130580902,
-      "learning_rate": 1.8492044582108914e-05,
-      "loss": 0.0435,
-      "step": 28000
-    },
-    {
-      "epoch": 20.01,
-      "eval_loss": 0.06356318295001984,
-      "eval_runtime": 26.8538,
-      "eval_samples_per_second": 1120.066,
-      "eval_steps_per_second": 5.623,
-      "step": 28000
-    },
-    {
-      "epoch": 20.73,
-      "grad_norm": 0.16571784019470215,
-      "learning_rate": 1.7168347761628677e-05,
-      "loss": 0.0419,
-      "step": 29000
-    },
-    {
-      "epoch": 20.73,
-      "eval_loss": 0.06056862324476242,
-      "eval_runtime": 27.0748,
-      "eval_samples_per_second": 1110.924,
-      "eval_steps_per_second": 5.577,
-      "step": 29000
-    },
-    {
-      "epoch": 21.44,
-      "grad_norm": 0.19518467783927917,
-      "learning_rate": 1.584465094114844e-05,
-      "loss": 0.0409,
-      "step": 30000
-    },
-    {
-      "epoch": 21.44,
-      "eval_loss": 0.06490638852119446,
-      "eval_runtime": 26.8481,
-      "eval_samples_per_second": 1120.301,
-      "eval_steps_per_second": 5.624,
-      "step": 30000
-    },
-    {
-      "epoch": 22.16,
-      "grad_norm": 0.15420591831207275,
-      "learning_rate": 1.4520954120668203e-05,
-      "loss": 0.0397,
-      "step": 31000
-    },
-    {
-      "epoch": 22.16,
-      "eval_loss": 0.05918469280004501,
-      "eval_runtime": 26.8143,
-      "eval_samples_per_second": 1121.713,
-      "eval_steps_per_second": 5.631,
-      "step": 31000
-    },
-    {
-      "epoch": 22.87,
-      "grad_norm": 0.26854997873306274,
-      "learning_rate": 1.3197257300187965e-05,
-      "loss": 0.0387,
-      "step": 32000
-    },
-    {
-      "epoch": 22.87,
-      "eval_loss": 0.06144551932811737,
-      "eval_runtime": 26.8852,
-      "eval_samples_per_second": 1118.757,
-      "eval_steps_per_second": 5.616,
-      "step": 32000
-    },
-    {
-      "epoch": 23.59,
-      "grad_norm": 0.17430314421653748,
-      "learning_rate": 1.1873560479707728e-05,
-      "loss": 0.0373,
-      "step": 33000
-    },
-    {
-      "epoch": 23.59,
-      "eval_loss": 0.06159648299217224,
-      "eval_runtime": 26.7887,
-      "eval_samples_per_second": 1122.785,
-      "eval_steps_per_second": 5.637,
-      "step": 33000
-    },
-    {
-      "epoch": 24.3,
-      "grad_norm": 0.14911049604415894,
-      "learning_rate": 1.054986365922749e-05,
-      "loss": 0.0369,
-      "step": 34000
-    },
-    {
-      "epoch": 24.3,
-      "eval_loss": 0.05931873992085457,
-      "eval_runtime": 26.8571,
-      "eval_samples_per_second": 1119.926,
-      "eval_steps_per_second": 5.622,
-      "step": 34000
-    },
-    {
-      "epoch": 25.02,
-      "grad_norm": 0.13620807230472565,
-      "learning_rate": 9.226166838747254e-06,
-      "loss": 0.0361,
-      "step": 35000
-    },
-    {
-      "epoch": 25.02,
-      "eval_loss": 0.05695568770170212,
-      "eval_runtime": 26.8966,
-      "eval_samples_per_second": 1118.283,
-      "eval_steps_per_second": 5.614,
-      "step": 35000
-    },
-    {
-      "epoch": 25.73,
-      "grad_norm": 0.13764438033103943,
-      "learning_rate": 7.902470018267017e-06,
-      "loss": 0.0349,
-      "step": 36000
-    },
-    {
-      "epoch": 25.73,
-      "eval_loss": 0.05707501247525215,
-      "eval_runtime": 26.986,
-      "eval_samples_per_second": 1114.578,
-      "eval_steps_per_second": 5.595,
-      "step": 36000
-    },
-    {
-      "epoch": 26.45,
-      "grad_norm": 0.2389635145664215,
-      "learning_rate": 6.578773197786779e-06,
-      "loss": 0.0343,
-      "step": 37000
-    },
-    {
-      "epoch": 26.45,
-      "eval_loss": 0.0577365942299366,
-      "eval_runtime": 26.9903,
-      "eval_samples_per_second": 1114.401,
-      "eval_steps_per_second": 5.595,
-      "step": 37000
-    },
-    {
-      "epoch": 27.16,
-      "grad_norm": 0.15828461945056915,
-      "learning_rate": 5.255076377306542e-06,
-      "loss": 0.034,
-      "step": 38000
-    },
-    {
-      "epoch": 27.16,
-      "eval_loss": 0.05767366662621498,
-      "eval_runtime": 27.1454,
-      "eval_samples_per_second": 1108.035,
-      "eval_steps_per_second": 5.563,
-      "step": 38000
-    },
-    {
-      "epoch": 27.88,
-      "grad_norm": 0.1059570387005806,
-      "learning_rate": 3.9313795568263045e-06,
-      "loss": 0.0332,
-      "step": 39000
-    },
-    {
-      "epoch": 27.88,
-      "eval_loss": 0.056225307285785675,
-      "eval_runtime": 26.9534,
-      "eval_samples_per_second": 1115.928,
-      "eval_steps_per_second": 5.602,
-      "step": 39000
-    },
-    {
-      "epoch": 28.59,
-      "grad_norm": 0.1975150853395462,
-      "learning_rate": 2.6076827363460673e-06,
-      "loss": 0.0329,
-      "step": 40000
-    },
-    {
-      "epoch": 28.59,
-      "eval_loss": 0.05555161088705063,
-      "eval_runtime": 27.1187,
-      "eval_samples_per_second": 1109.122,
-      "eval_steps_per_second": 5.568,
-      "step": 40000
-    },
-    {
-      "epoch": 29.31,
-      "grad_norm": 0.1037423312664032,
-      "learning_rate": 1.28398591586583e-06,
-      "loss": 0.0319,
-      "step": 41000
-    },
-    {
-      "epoch": 29.31,
-      "eval_loss": 0.05535305291414261,
-      "eval_runtime": 26.8353,
-      "eval_samples_per_second": 1120.838,
-      "eval_steps_per_second": 5.627,
-      "step": 41000
-    },
-    {
-      "epoch": 30.0,
-      "step": 41970,
-      "total_flos": 3.347206753110317e+16,
-      "train_loss": 0.09860551060169176,
-      "train_runtime": 13103.021,
-      "train_samples_per_second": 640.368,
-      "train_steps_per_second": 3.203
-    }
-  ],
-  "logging_steps": 1000,
-  "max_steps": 41970,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 30,
-  "save_steps": 1000,
-  "total_flos": 3.347206753110317e+16,
-  "train_batch_size": 200,
-  "trial_name": null,
-  "trial_params": null
-}

ckpt/ling_disc/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:deb9dc15db671f7ae0b9e7e7bc26ca9e20c0fde45babc266a60753e2b23d6328
-size 4984

ckpt/model.json DELETED Viewed

@@ -1,82 +0,0 @@
-{
-    "data": "ling_conversion",
-    "data_sources": ["qqp", "mrpc", "stsb"],
-    "data_type": "text",
-    "kld_annealing": "cyclic",
-    "lingpred_annealing": "mono",
-    "ling_embed_type": "one-layer",
-    "combine_weight": 1,
-    "alpha_kld": 1,
-    "alpha_lingpred": 1,
-    "alpha_sem": 1,
-    "max_grad_norm": 10,
-    "sem_loss_tao": 0.5,
-    "sem_loss_eps": 1,
-    "ckpt": "./ckpt/model.pt",
-    "disc_type": "deberta",
-    "disc_ckpt": "./ckpt/ling_disc",
-    "sem_ckpt": "./ckpt/sem_emb.pt",
-    "lng_ids": null,
-    "lng_ids_idx": null,
-    "model_name": "google/flan-t5-base",
-    "aim_exp": "lingconv-0606",
-    "sem_loss_type": "dedicated",
-    "combine_method": "decoder_add_first",
-    "train_log": 200,
-    "val_log": 2000,
-    "batch_size": 80,
-    "eval_batch_size": 200,
-    "max_eval_samples": 1000,
-    "test_batch_size": 1,
-    "hidden_dim": 500,
-    "latent_dim": 150,
-    "lng_dim": 40,
-    "disc_lng_dim": 40,
-    "use_lora": false,
-    "lora_r": 64,
-    "gpu": "4",
-    "epochs": 20,
-    "grad_accumulation": 1,
-    "n_ica": 10,
-    "max_length": 200,
-    "total_steps": null,
-    "kld_const": 1,
-    "lr": 0.001,
-    "kl_weight": 0.1,
-    "weight_decay": 0.01,
-    "ling_dropout": 0.1,
-    "predict_fn": "logs/test.txt",
-    "save_predict": false,
-    "use_ica": false,
-    "pretrain_gen": false,
-    "pretrain_sem": false,
-    "pretrain_disc": false,
-    "linggen_type": "none",
-    "linggen_input": "s+l",
-    "aug_same": false,
-    "ling_vae": false,
-    "process_lingpred": false,
-    "fudge_lambda": 1.0,
-    "use_lingpred": false,
-    "ling2_only": true,
-    "cycle_loss": false,
-    "disc_loss": false,
-    "sem_loss": false,
-    "sim_loss": false,
-    "optuna": false,
-    "debug": false,
-    "demo": false,
-    "fudge": false,
-    "out_fn": "logs/default",
-    "eval_only": false,
-    "predict_with_feedback": false,
-    "feedback_param": "s",
-    "eval_ling": false,
-    "seed": 0,
-    "major_arg": 0,
-    "quantize_lng": false,
-    "quant_nbins": 20,
-    "src_lng": "ling",
-    "to_restore": [],
-    "disc_steps": 0
-}

ckpt/model.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:a675026d23bf857c796e00fda67b500e4cc13b43db030b08fdfaef14823fbe42
-size 2971737146

ckpt/sem_emb.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:0c58f890cb0121eacf8ac99d2fac53e2962f457d8c02e0b6386a4b3e342ac10c
-size 1315675291

model.py CHANGED Viewed

@@ -3,7 +3,7 @@ import torch
 import torch.nn.functional as F
 import numpy as np
 from torch import nn
-from transformers import T5ForConditionalGeneration, T5EncoderModel, AutoModel, LogitsProcessor, LogitsProcessorList
 from functools import partial
 from undecorate import unwrap
 from types import MethodType
@@ -175,17 +175,16 @@ class LingDisc(nn.Module):
             output = enc_output.logits
         return output
-class SemEmb(nn.Module):
-    def __init__(self, backbone, sep_token_id):
-        super().__init__()
-        self.backbone = backbone
         self.sep_token_id = sep_token_id
-        hidden_dim = self.backbone.config.d_model
         self.projection = nn.Sequential(nn.ReLU(),
                 nn.Dropout(0.2),
                 nn.Linear(hidden_dim, 1))
-    def forward(self, **batch):
         bs = batch['sentence1_attention_mask'].shape[0]
         ones = torch.ones((bs, 1), device=batch['sentence1_attention_mask'].device)
         sep = torch.ones((bs, 1), dtype=torch.long,
@@ -193,20 +192,20 @@ class SemEmb(nn.Module):
         att_mask = torch.cat([batch['sentence1_attention_mask'], ones, batch['sentence2_attention_mask']], dim=1)
         if 'logits' in batch:
             input_ids = torch.cat([batch['sentence1_input_ids'], sep], dim=1)
-            embeds1 = self.backbone.shared(input_ids)
             logits = batch['logits']
             scores = F.softmax(logits, dim = -1)
             onehot = F.one_hot(logits.argmax(-1), num_classes=logits.shape[2]).float().to(logits.device)
             onehot_ = scores - scores.detach() + onehot
-            embeds2 =  onehot_ @ self.backbone.shared.weight
             embeds1_2 = torch.cat([embeds1, embeds2], dim=1)
-            hidden_units = self.backbone(inputs_embeds=embeds1_2,
                     attention_mask=att_mask).last_hidden_state.mean(1)
         elif 'sentence2_input_ids' in batch:
             input_ids = torch.cat([batch['sentence1_input_ids'], sep, batch['sentence2_input_ids']], dim=1)
-            hidden_units = self.backbone(input_ids=input_ids,
                     attention_mask=att_mask).last_hidden_state.mean(1)
         probs = self.projection(hidden_units)
         return probs
@@ -268,17 +267,16 @@ class LogitsAdd(LogitsProcessor):
     def __call__(self, input_ids, scores):
         return scores + self.sent2_ling
-class EncoderDecoderVAE(nn.Module):
-    def __init__(self, args, pad_token_id, sepeos_token_id, vocab_size = 32128):
-        super().__init__()
-        self.backbone = T5ForConditionalGeneration.from_pretrained(args.model_name)
-        self.backbone.prepare_inputs_for_generation = types.MethodType(
                 partial(prepare_inputs_for_generation, args.combine_method, args.ling2_only),
-                self.backbone)
         self.args = args
         self.pad_token_id = pad_token_id
         self.eos_token_id = sepeos_token_id
-        hidden_dim = self.backbone.config.d_model if not 'logits' in args.combine_method else vocab_size
         if args.combine_method == 'fusion1':
             self.fusion = nn.Sequential(
                     nn.Linear(hidden_dim + 2 * args.lng_dim, hidden_dim),
@@ -308,8 +306,8 @@ class EncoderDecoderVAE(nn.Module):
             nn.init.xavier_uniform_(self.ling_logvar.weight)
-        generate_with_grad = unwrap(self.backbone.generate)
-        self.backbone.generate_with_grad = MethodType(generate_with_grad, self.backbone)
     def get_fusion_layer(self):
         if 'fusion' in self.args.combine_method:
@@ -327,7 +325,7 @@ class EncoderDecoderVAE(nn.Module):
         if 'inputs_embeds' in batch:
             inputs_embeds = batch['inputs_embeds']
         else:
-            inputs_embeds = self.backbone.shared(batch['sentence1_input_ids'])
         inputs_att_mask = batch['sentence1_attention_mask']
         bs = inputs_embeds.shape[0]
         cache = {}
@@ -369,7 +367,7 @@ class EncoderDecoderVAE(nn.Module):
                     inputs_embeds = inputs_embeds + sent2_ling
                 else:
                     inputs_embeds = inputs_embeds + sent1_ling + sent2_ling
-        return self.backbone.encoder(inputs_embeds=inputs_embeds,
                 attention_mask=inputs_att_mask), inputs_att_mask, cache
     def decode(self, batch, enc_output, inputs_att_mask, generate):
@@ -432,7 +430,7 @@ class EncoderDecoderVAE(nn.Module):
             else:
                 logits_processor = LogitsProcessorList()
-            dec_output = self.backbone.generate_with_grad(
                     attention_mask=inputs_att_mask,
                     encoder_outputs=enc_output,
                     sent1_ling=sent1_ling,
@@ -452,8 +450,8 @@ class EncoderDecoderVAE(nn.Module):
             cache.update({'scores': scores})
             return dec_output.sequences, cache
-        decoder_input_ids = self.backbone._shift_right(batch['sentence2_input_ids'])
-        decoder_inputs_embeds = self.backbone.shared(decoder_input_ids)
         decoder_att_mask = batch['sentence2_attention_mask']
         labels = batch['sentence2_input_ids'].clone()
         labels[labels == self.pad_token_id] = -100
@@ -475,7 +473,7 @@ class EncoderDecoderVAE(nn.Module):
             else:
                 decoder_inputs_embeds = decoder_inputs_embeds + sent1_ling + sent2_ling
-        dec_output = self.backbone(
                 decoder_inputs_embeds=decoder_inputs_embeds,
                 decoder_attention_mask=decoder_att_mask,
                 encoder_outputs=enc_output,
@@ -489,14 +487,14 @@ class EncoderDecoderVAE(nn.Module):
         return dec_output, cache
-    def forward(self, batch, generate=False):
         enc_output, enc_att_mask, cache = self.encode(batch)
         dec_output, cache2 = self.decode(batch, enc_output, enc_att_mask, generate)
         cache.update(cache2)
         return dec_output, enc_output, cache
     def infer_with_cache(self, batch):
-        dec_output, _, cache = self(batch, generate = True)
         return dec_output, cache
     def infer(self, batch):
@@ -522,7 +520,7 @@ class EncoderDecoderVAE(nn.Module):
                     'sentence2_input_ids': pred,
                     'sentence2_attention_mask': sequence_mask(lens, max_len = max_len)
                     })
-                sem_prob = torch.sigmoid(sem_emb(**batch)).item()
                 # if sem_prob <= 0.1:
                 #     patience -= 1
                 if new_loss < loss and sem_prob >= 0.90 and lens.item() > 1:
@@ -555,7 +553,7 @@ class EncoderDecoderVAE(nn.Module):
             ling2_embed = self.ling_embed(batch['sentence2_ling'])
             param = torch.nn.Parameter(ling2_embed, requires_grad = True)
         elif self.args.feedback_param == 's':
-            inputs_embeds = self.backbone.shared(batch['sentence1_input_ids'])
             param = torch.nn.Parameter(inputs_embeds, requires_grad = True)
         elif self.args.feedback_param == 'logits':
             logits = self.infer_with_cache(batch)[1]['scores']
@@ -628,39 +626,26 @@ class LingDiscPipeline():
 def get_model(args, tokenizer, device):
     if args.pretrain_disc or args.disc_loss or args.disc_ckpt:
-        ling_disc = LingDisc(args.model_name, args.disc_type, args.disc_ckpt).to(device)
     else:
         ling_disc = None
     if args.linggen_type != 'none':
         ling_gen = LingGenerator(args).to(device)
     if args.sem_loss or args.sem_ckpt:
         if args.sem_loss_type == 'shared':
-            sem_emb = seld.backbone.encoder
         elif args.sem_loss_type == 'dedicated':
-            sem_emb = SemEmb(T5EncoderModel.from_pretrained('google/flan-t5-base'), tokenizer.eos_token_id).to(device)
         else:
             raise NotImplementedError('Semantic loss type')
     else:
         sem_emb = None
-    if not args.pretrain_disc:
-        model = EncoderDecoderVAE(args, tokenizer.pad_token_id, tokenizer.eos_token_id).to(device)
-        if args.use_lora:
-            target_modules = ["Attention.k", "Attention.q", "Attention.v", "Attention.o", "lm_head", "wi_0", "wi_1", "wo"]
-            target_modules = '|'.join(f'(.*{module})' for module in target_modules)
-            target_modules = f'backbone.({target_modules})'
-            config = LoraConfig(
-                    r=args.lora_r,
-                    lora_alpha=args.lora_r * 2,
-                    target_modules=target_modules,
-                    lora_dropout=0.1,
-                    bias="lora_only",
-                    modules_to_save=['ling_embed'],
-                    )
-            model = get_peft_model(model, config)
-            model.print_trainable_parameters()
-    else:
-        model = ling_disc
     return model, ling_disc, sem_emb

 import torch.nn.functional as F
 import numpy as np
 from torch import nn
+from transformers import T5ForConditionalGeneration, T5EncoderModel, AutoModel, LogitsProcessor, LogitsProcessorList, PreTrainedModel
 from functools import partial
 from undecorate import unwrap
 from types import MethodType
             output = enc_output.logits
         return output
+class SemEmb(T5EncoderModel):
+    def __init__(self, config, sep_token_id):
+        super().__init__(config)
         self.sep_token_id = sep_token_id
+        hidden_dim = self.config.d_model
         self.projection = nn.Sequential(nn.ReLU(),
                 nn.Dropout(0.2),
                 nn.Linear(hidden_dim, 1))
+    def compare_sem(self, **batch):
         bs = batch['sentence1_attention_mask'].shape[0]
         ones = torch.ones((bs, 1), device=batch['sentence1_attention_mask'].device)
         sep = torch.ones((bs, 1), dtype=torch.long,
         att_mask = torch.cat([batch['sentence1_attention_mask'], ones, batch['sentence2_attention_mask']], dim=1)
         if 'logits' in batch:
             input_ids = torch.cat([batch['sentence1_input_ids'], sep], dim=1)
+            embeds1 = self.shared(input_ids)
             logits = batch['logits']
             scores = F.softmax(logits, dim = -1)
             onehot = F.one_hot(logits.argmax(-1), num_classes=logits.shape[2]).float().to(logits.device)
             onehot_ = scores - scores.detach() + onehot
+            embeds2 =  onehot_ @ self.shared.weight
             embeds1_2 = torch.cat([embeds1, embeds2], dim=1)
+            hidden_units = self(inputs_embeds=embeds1_2,
                     attention_mask=att_mask).last_hidden_state.mean(1)
         elif 'sentence2_input_ids' in batch:
             input_ids = torch.cat([batch['sentence1_input_ids'], sep, batch['sentence2_input_ids']], dim=1)
+            hidden_units = self(input_ids=input_ids,
                     attention_mask=att_mask).last_hidden_state.mean(1)
         probs = self.projection(hidden_units)
         return probs
     def __call__(self, input_ids, scores):
         return scores + self.sent2_ling
+class EncoderDecoderVAE(T5ForConditionalGeneration):
+    def __init__(self, config, args, pad_token_id, sepeos_token_id, vocab_size = 32128):
+        super().__init__(config)
+        self.prepare_inputs_for_generation = types.MethodType(
                 partial(prepare_inputs_for_generation, args.combine_method, args.ling2_only),
+                self)
         self.args = args
         self.pad_token_id = pad_token_id
         self.eos_token_id = sepeos_token_id
+        hidden_dim = self.config.d_model if not 'logits' in args.combine_method else vocab_size
         if args.combine_method == 'fusion1':
             self.fusion = nn.Sequential(
                     nn.Linear(hidden_dim + 2 * args.lng_dim, hidden_dim),
             nn.init.xavier_uniform_(self.ling_logvar.weight)
+        generate_with_grad = unwrap(self.generate)
+        self.generate_with_grad = MethodType(generate_with_grad, self)
     def get_fusion_layer(self):
         if 'fusion' in self.args.combine_method:
         if 'inputs_embeds' in batch:
             inputs_embeds = batch['inputs_embeds']
         else:
+            inputs_embeds = self.shared(batch['sentence1_input_ids'])
         inputs_att_mask = batch['sentence1_attention_mask']
         bs = inputs_embeds.shape[0]
         cache = {}
                     inputs_embeds = inputs_embeds + sent2_ling
                 else:
                     inputs_embeds = inputs_embeds + sent1_ling + sent2_ling
+        return self.encoder(inputs_embeds=inputs_embeds,
                 attention_mask=inputs_att_mask), inputs_att_mask, cache
     def decode(self, batch, enc_output, inputs_att_mask, generate):
             else:
                 logits_processor = LogitsProcessorList()
+            dec_output = self.generate_with_grad(
                     attention_mask=inputs_att_mask,
                     encoder_outputs=enc_output,
                     sent1_ling=sent1_ling,
             cache.update({'scores': scores})
             return dec_output.sequences, cache
+        decoder_input_ids = self._shift_right(batch['sentence2_input_ids'])
+        decoder_inputs_embeds = self.shared(decoder_input_ids)
         decoder_att_mask = batch['sentence2_attention_mask']
         labels = batch['sentence2_input_ids'].clone()
         labels[labels == self.pad_token_id] = -100
             else:
                 decoder_inputs_embeds = decoder_inputs_embeds + sent1_ling + sent2_ling
+        dec_output = self(
                 decoder_inputs_embeds=decoder_inputs_embeds,
                 decoder_attention_mask=decoder_att_mask,
                 encoder_outputs=enc_output,
         return dec_output, cache
+    def convert(self, batch, generate=False):
         enc_output, enc_att_mask, cache = self.encode(batch)
         dec_output, cache2 = self.decode(batch, enc_output, enc_att_mask, generate)
         cache.update(cache2)
         return dec_output, enc_output, cache
     def infer_with_cache(self, batch):
+        dec_output, _, cache = self.convert(batch, generate = True)
         return dec_output, cache
     def infer(self, batch):
                     'sentence2_input_ids': pred,
                     'sentence2_attention_mask': sequence_mask(lens, max_len = max_len)
                     })
+                sem_prob = torch.sigmoid(sem_emb.compare_sem(**batch)).item()
                 # if sem_prob <= 0.1:
                 #     patience -= 1
                 if new_loss < loss and sem_prob >= 0.90 and lens.item() > 1:
             ling2_embed = self.ling_embed(batch['sentence2_ling'])
             param = torch.nn.Parameter(ling2_embed, requires_grad = True)
         elif self.args.feedback_param == 's':
+            inputs_embeds = self.shared(batch['sentence1_input_ids'])
             param = torch.nn.Parameter(inputs_embeds, requires_grad = True)
         elif self.args.feedback_param == 'logits':
             logits = self.infer_with_cache(batch)[1]['scores']
 def get_model(args, tokenizer, device):
     if args.pretrain_disc or args.disc_loss or args.disc_ckpt:
+        ling_disc = LingDisc(args.model_name, args.disc_type, args.disc_model_path).to(device)
     else:
         ling_disc = None
     if args.linggen_type != 'none':
         ling_gen = LingGenerator(args).to(device)
+    if not args.pretrain_disc:
+        model = EncoderDecoderVAE.from_pretrained(args.model_path, args, tokenizer.pad_token_id, tokenizer.eos_token_id).to(device)
+    else:
+        model = ling_disc
     if args.sem_loss or args.sem_ckpt:
         if args.sem_loss_type == 'shared':
+            sem_emb = model.encoder
         elif args.sem_loss_type == 'dedicated':
+            sem_emb = SemEmb.from_pretrained(args.sem_model_path, tokenizer.eos_token_id).to(device)
         else:
             raise NotImplementedError('Semantic loss type')
     else:
         sem_emb = None
     return model, ling_disc, sem_emb

options.py CHANGED Viewed

@@ -32,6 +32,10 @@ def parse_args(ckpt=None):
     parser.add_argument('--lng_ids_path', default='/data/mohamed/indices')
     parser.add_argument('--preds_dir', default='/data/mohamed/preds')
     parser.add_argument('--model_name', default="google/flan-t5-base")
     parser.add_argument('--disc_type', default="t5")
     parser.add_argument('--aim_exp', default='ling-conversion')
     parser.add_argument('--sem_loss_type', default='dedicated')

     parser.add_argument('--lng_ids_path', default='/data/mohamed/indices')
     parser.add_argument('--preds_dir', default='/data/mohamed/preds')
     parser.add_argument('--model_name', default="google/flan-t5-base")
+    parser.add_argument('--model_path', default="mohdelgaar/lingconv")
+    parser.add_argument('--sem_path', default="mohdelgaar/lingconv-semantic-classifier")
+    parser.add_argument('--sem_model_path', default="mohdelgaar/lingconv-semantic-classifier")
+    parser.add_argument('--disc_model_path', default="mohdelgaar/lingconv-discriminator")
     parser.add_argument('--disc_type', default="t5")
     parser.add_argument('--aim_exp', default='ling-conversion')
     parser.add_argument('--sem_loss_type', default='dedicated')