Model files.

Browse files

Files changed (11) hide show

.gitattributes +1 -0
README.md +6 -0
best.th +3 -0
config.json +229 -0
log/train/events.out.tfevents +3 -0
log/validation/events.out.tfevents +3 -0
metrics.json +26 -0
vocabulary/.lock +0 -0
vocabulary/head_tags.txt +47 -0
vocabulary/non_padded_namespaces.txt +2 -0
vocabulary/pos.txt +18 -0

.gitattributes CHANGED Viewed

@@ -25,3 +25,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.th filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,6 @@

+---
+tags:
+- allennlp
+---
+# TODO: Fill this model card

best.th ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebd204298a4831976599eae5c8e54c5289ab3c89e6894b66fbb26309b3a9d2c8
+size 507197049

config.json ADDED Viewed

	@@ -0,0 +1,229 @@

+{
+    "dataset_reader": {
+        "type": "multitask",
+        "readers": {
+            "ud": {
+                "type": "universal_dependencies",
+                "token_indexers": {
+                    "transformer": {
+                        "type": "pretrained_transformer_mismatched",
+                        "max_length": 512,
+                        "model_name": "MLRS/BERTu"
+                    }
+                }
+            }
+        }
+    },
+    "model": {
+        "type": "multitask",
+        "arg_name_mapping": {
+            "backbone": {
+                "tokens": "text",
+                "words": "text"
+            }
+        },
+        "backbone": {
+            "type": "embedder_and_mask",
+            "text_field_embedder": {
+                "token_embedders": {
+                    "transformer": {
+                        "type": "pretrained_transformer_mismatched_with_dropout",
+                        "last_layer_only": false,
+                        "layer_dropout": 0.1,
+                        "max_length": 512,
+                        "model_name": "MLRS/BERTu",
+                        "tokenizer_kwargs": {},
+                        "train_parameters": true
+                    }
+                }
+            }
+        },
+        "heads": {
+            "ud": {
+                "type": "biaffine_parser",
+                "arc_representation_dim": 100,
+                "dropout": 0.3,
+                "encoder": {
+                    "type": "pass_through",
+                    "input_dim": 768
+                },
+                "initializer": {
+                    "regexes": [
+                        [
+                            ".*projection.*weight",
+                            {
+                                "type": "xavier_uniform"
+                            }
+                        ],
+                        [
+                            ".*projection.*bias",
+                            {
+                                "type": "zero"
+                            }
+                        ],
+                        [
+                            ".*tag_bilinear.*weight",
+                            {
+                                "type": "xavier_uniform"
+                            }
+                        ],
+                        [
+                            ".*tag_bilinear.*bias",
+                            {
+                                "type": "zero"
+                            }
+                        ],
+                        [
+                            ".*weight_ih.*",
+                            {
+                                "type": "xavier_uniform"
+                            }
+                        ],
+                        [
+                            ".*weight_hh.*",
+                            {
+                                "type": "orthogonal"
+                            }
+                        ],
+                        [
+                            ".*bias_ih.*",
+                            {
+                                "type": "zero"
+                            }
+                        ],
+                        [
+                            ".*bias_hh.*",
+                            {
+                                "type": "lstm_hidden_bias"
+                            }
+                        ]
+                    ]
+                },
+                "input_dropout": 0.3,
+                "tag_representation_dim": 100,
+                "use_mst_decoding_for_validation": true
+            }
+        }
+    },
+    "train_data_path": {
+        "ud": "ud-treebanks-v2.8/UD_Maltese-MUDT/mt_mudt-ud-train.conllu"
+    },
+    "validation_data_path": {
+        "ud": "ud-treebanks-v2.8/UD_Maltese-MUDT/mt_mudt-ud-dev.conllu"
+    },
+    "trainer": {
+        "callbacks": [
+            {
+                "tensorboard_writer": {
+                    "should_log_learning_rate": true,
+                    "should_log_parameter_statistics": true
+                },
+                "type": "tensorboard"
+            }
+        ],
+        "cuda_device": 0,
+        "grad_norm": 5,
+        "learning_rate_scheduler": {
+            "type": "ulmfit_sqrt",
+            "affected_group_count": 2,
+            "decay_factor": 0.05,
+            "discriminative_fine_tuning": true,
+            "factor": 5,
+            "gradual_unfreezing": true,
+            "model_size": 1,
+            "start_step": 9,
+            "warmup_steps": 9
+        },
+        "num_epochs": 200,
+        "optimizer": {
+            "type": "huggingface_adamw",
+            "betas": [
+                0.9,
+                0.999
+            ],
+            "correct_bias": false,
+            "lr": 0.0005,
+            "parameter_groups": [
+                [
+                    [
+                        "text_field_embedder.*transformer_model.embeddings.*_embeddings.*",
+                        "text_field_embedder.*transformer_model.encoder.*.(key|query|value|dense).weight"
+                    ],
+                    {}
+                ],
+                [
+                    [
+                        "text_field_embedder.*transformer_model.embeddings.LayerNorm.*",
+                        "text_field_embedder.*transformer_model.encoder.*.output.LayerNorm.*",
+                        "text_field_embedder.*transformer_model.encoder.*.(key|query|value|dense).bias",
+                        "text_field_embedder.*transformer_model.pooler.dense.bias"
+                    ],
+                    {
+                        "weight_decay": 0
+                    }
+                ],
+                [
+                    [
+                        "text_field_embedder.*._scalar_mix.*",
+                        "text_field_embedder.*transformer_model.pooler.dense.weight",
+                        "_head_sentinel",
+                        "head_arc_feedforward._linear_layers.*.weight",
+                        "child_arc_feedforward._linear_layers.*.weight",
+                        "head_tag_feedforward._linear_layers.*.weight",
+                        "child_tag_feedforward._linear_layers.*.weight",
+                        "arc_attention._weight_matrix",
+                        "tag_bilinear.weight",
+                        "tag_projection_layer._module.weight",
+                        "crf",
+                        "linear.weight",
+                        "tagger_linear.weight"
+                    ],
+                    {}
+                ],
+                [
+                    [
+                        "head_arc_feedforward._linear_layers.*.bias",
+                        "child_arc_feedforward._linear_layers.*.bias",
+                        "head_tag_feedforward._linear_layers.*.bias",
+                        "child_tag_feedforward._linear_layers.*.bias",
+                        "arc_attention._bias",
+                        "tag_bilinear.bias",
+                        "tag_projection_layer._module.bias",
+                        "linear.bias",
+                        "tagger_linear.bias"
+                    ],
+                    {
+                        "weight_decay": 0
+                    }
+                ]
+            ],
+            "weight_decay": 0.01
+        },
+        "patience": 20,
+        "validation_metric": [
+            "+ud_LAS"
+        ]
+    },
+    "data_loader": {
+        "type": "multitask",
+        "scheduler": {
+            "type": "unbalanced_homogeneous_roundrobin",
+            "batch_size": 128,
+            "dataset_sizes": {
+                "ud": 1123
+            }
+        },
+        "shuffle": true
+    },
+    "numpy_seed": 2460,
+    "pytorch_seed": 246,
+    "random_seed": 24601,
+    "validation_data_loader": {
+        "type": "multitask",
+        "scheduler": {
+            "type": "homogeneous_roundrobin",
+            "batch_size": 128
+        },
+        "shuffle": true
+    }
+}

log/train/events.out.tfevents ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e8739db30b40b47551cb2d54384117cb4bd03e4383dabba4c75a036c980abcc
+size 1625837

log/validation/events.out.tfevents ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb9bcc47355c8d01911bdbc830a909c902c40b8c2fda6c1097366b4dd7ed1318
+size 17262

metrics.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "best_epoch": 59,
+  "peak_worker_0_memory_MB": 4387.515625,
+  "peak_gpu_0_memory_MB": 15878.68505859375,
+  "training_duration": "0:09:54.768662",
+  "training_start_epoch": 0,
+  "training_epochs": 78,
+  "epoch": 78,
+  "training_ud_UAS": 0.9929822815050766,
+  "training_ud_LAS": 0.9908421262193908,
+  "training_ud_UEM": 0.9073909171861086,
+  "training_ud_LEM": 0.8797862867319679,
+  "training_loss": 0.029289920917815633,
+  "training_worker_0_memory_MB": 4387.515625,
+  "training_gpu_0_memory_MB": 15878.68505859375,
+  "validation_ud_UAS": 0.9297203929612436,
+  "validation_ud_LAS": 0.8946345676346756,
+  "validation_ud_UEM": 0.3903002309468822,
+  "validation_ud_LEM": 0.23325635103926096,
+  "validation_loss": 1.351550132036209,
+  "best_validation_ud_UAS": 0.9311238259743064,
+  "best_validation_ud_LAS": 0.8967936953470798,
+  "best_validation_ud_UEM": 0.4018475750577367,
+  "best_validation_ud_LEM": 0.2471131639722864,
+  "best_validation_loss": 1.1966833174228668
+}

vocabulary/.lock ADDED Viewed

File without changes

vocabulary/head_tags.txt ADDED Viewed

	@@ -0,0 +1,47 @@

+punct
+det
+case
+mark
+case:det
+obl
+amod
+nsubj
+root
+nmod:poss
+conj
+obj
+cc
+advmod
+acl
+xcomp
+nmod
+advcl
+ccomp
+cop
+flat:name
+aux
+advmod:neg
+aux:part
+discourse
+list
+obl:arg
+nummod
+flat
+compound
+nsubj:pass
+appos
+aux:neg
+parataxis
+fixed
+aux:pass
+obl:agent
+iobj
+vocative
+csubj
+expl
+dislocated
+cop:expl
+goeswith
+dep
+orphan
+reparandum

vocabulary/non_padded_namespaces.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ *labels
2	+ *tags

vocabulary/pos.txt ADDED Viewed

	@@ -0,0 +1,18 @@

+@@UNKNOWN@@
+NOUN
+VERB
+ADP
+PUNCT
+DET
+SCONJ
+ADJ
+PRON
+PROPN
+ADV
+AUX
+CCONJ
+NUM
+X
+PART
+SYM
+INTJ