Update spaCy pipeline

Browse files

Files changed (10) hide show

README.md +12 -60
config.cfg +44 -72
en_engagement_spl_RoBERTa_acad-any-py3-none-any.whl +2 -2
meta.json +24 -80
span_finder/model +0 -0
spancat/cfg +9 -8
spancat/model +2 -2
trainable_transformer/model +2 -2
transformer/model +2 -2
vocab/strings.json +0 -0

README.md CHANGED Viewed

@@ -5,60 +5,12 @@ language:
 - en
 model-index:
 - name: en_engagement_spl_RoBERTa_acad
-  results:
-  - task:
-      name: NER
-      type: token-classification
-    metrics:
-    - name: NER Precision
-      type: precision
-      value: 0.0
-    - name: NER Recall
-      type: recall
-      value: 0.0
-    - name: NER F Score
-      type: f_score
-      value: 0.0
-  - task:
-      name: TAG
-      type: token-classification
-    metrics:
-    - name: TAG (XPOS) Accuracy
-      type: accuracy
-      value: 0.0
-  - task:
-      name: LEMMA
-      type: token-classification
-    metrics:
-    - name: Lemma Accuracy
-      type: accuracy
-      value: 0.0
-  - task:
-      name: UNLABELED_DEPENDENCIES
-      type: token-classification
-    metrics:
-    - name: Unlabeled Attachment Score (UAS)
-      type: f_score
-      value: 0.0
-  - task:
-      name: LABELED_DEPENDENCIES
-      type: token-classification
-    metrics:
-    - name: Labeled Attachment Score (LAS)
-      type: f_score
-      value: 0.0
-  - task:
-      name: SENTS
-      type: token-classification
-    metrics:
-    - name: Sentences F-Score
-      type: f_score
-      value: 0.9301042305
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `en_engagement_spl_RoBERTa_acad` |
-| **Version** | `0.3.4.1221` |
 | **spaCy** | `>=3.4.4,<3.5.0` |
 | **Default Pipeline** | `transformer`, `parser`, `trainable_transformer`, `spancat` |
 | **Components** | `transformer`, `parser`, `trainable_transformer`, `spancat` |
@@ -71,12 +23,12 @@ model-index:
 <details>
-<summary>View label scheme (56 labels for 2 components)</summary>
 | Component | Labels |
 | --- | --- |
 | **`parser`** | `ROOT`, `acl`, `acomp`, `advcl`, `advmod`, `agent`, `amod`, `appos`, `attr`, `aux`, `auxpass`, `case`, `cc`, `ccomp`, `compound`, `conj`, `csubj`, `csubjpass`, `dative`, `dep`, `det`, `dobj`, `expl`, `intj`, `mark`, `meta`, `neg`, `nmod`, `npadvmod`, `nsubj`, `nsubjpass`, `nummod`, `oprd`, `parataxis`, `pcomp`, `pobj`, `poss`, `preconj`, `predet`, `prep`, `prt`, `punct`, `quantmod`, `relcl`, `xcomp` |
-| **`spancat`** | `ENTERTAIN`, `DENY`, `ATTRIBUTION`, `COUNTER`, `MONOGLOSS`, `JUSTIFYING`, `SOURCES`, `CITATION`, `ENDOPHORIC`, `PRONOUNCE`, `CONCUR` |
 </details>
@@ -87,17 +39,17 @@ model-index:
 | `DEP_UAS` | 0.00 |
 | `DEP_LAS` | 0.00 |
 | `DEP_LAS_PER_TYPE` | 0.00 |
-| `SENTS_P` | 91.88 |
-| `SENTS_R` | 94.17 |
-| `SENTS_F` | 93.01 |
-| `SPANS_SC_F` | 69.62 |
-| `SPANS_SC_P` | 70.85 |
-| `SPANS_SC_R` | 68.44 |
 | `ENTS_PER_TYPE` | 0.00 |
 | `TAG_ACC` | 0.00 |
 | `ENTS_F` | 0.00 |
 | `ENTS_P` | 0.00 |
 | `ENTS_R` | 0.00 |
 | `LEMMA_ACC` | 0.00 |
-| `TRAINABLE_TRANSFORMER_LOSS` | 578.70 |
-| `SPANCAT_LOSS` | 46747.59 |

 - en
 model-index:
 - name: en_engagement_spl_RoBERTa_acad
+  results: []
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `en_engagement_spl_RoBERTa_acad` |
+| **Version** | `0.2.2.1228` |
 | **spaCy** | `>=3.4.4,<3.5.0` |
 | **Default Pipeline** | `transformer`, `parser`, `trainable_transformer`, `spancat` |
 | **Components** | `transformer`, `parser`, `trainable_transformer`, `spancat` |
 <details>
+<summary>View label scheme (57 labels for 2 components)</summary>
 | Component | Labels |
 | --- | --- |
 | **`parser`** | `ROOT`, `acl`, `acomp`, `advcl`, `advmod`, `agent`, `amod`, `appos`, `attr`, `aux`, `auxpass`, `case`, `cc`, `ccomp`, `compound`, `conj`, `csubj`, `csubjpass`, `dative`, `dep`, `det`, `dobj`, `expl`, `intj`, `mark`, `meta`, `neg`, `nmod`, `npadvmod`, `nsubj`, `nsubjpass`, `nummod`, `oprd`, `parataxis`, `pcomp`, `pobj`, `poss`, `preconj`, `predet`, `prep`, `prt`, `punct`, `quantmod`, `relcl`, `xcomp` |
+| **`spancat`** | `DENY`, `ENTERTAIN`, `PRONOUNCE`, `JUSTIFYING`, `MONOGLOSS`, `COUNTER`, `ENDORSE`, `ATTRIBUTE`, `ENDOPHORIC`, `SOURCES`, `CONCUR`, `CITATION` |
 </details>
 | `DEP_UAS` | 0.00 |
 | `DEP_LAS` | 0.00 |
 | `DEP_LAS_PER_TYPE` | 0.00 |
+| `SENTS_P` | 90.27 |
+| `SENTS_R` | 93.41 |
+| `SENTS_F` | 91.81 |
+| `SPANS_SC_F` | 69.28 |
+| `SPANS_SC_P` | 72.16 |
+| `SPANS_SC_R` | 66.63 |
 | `ENTS_PER_TYPE` | 0.00 |
 | `TAG_ACC` | 0.00 |
 | `ENTS_F` | 0.00 |
 | `ENTS_P` | 0.00 |
 | `ENTS_R` | 0.00 |
 | `LEMMA_ACC` | 0.00 |
+| `TRAINABLE_TRANSFORMER_LOSS` | 149.48 |
+| `SPANCAT_LOSS` | 106919.98 |

config.cfg CHANGED Viewed

@@ -10,8 +10,8 @@ seed = 0
 [nlp]
 lang = "en"
-pipeline = ["transformer","parser","trainable_transformer","spancat"]
-batch_size = 64
 disabled = []
 before_creation = null
 after_creation = null
@@ -20,28 +20,32 @@ tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
 [components]
-[components.parser]
-factory = "parser"
-learn_tokens = false
-min_action_freq = 30
-moves = null
-scorer = {"@scorers":"spacy.parser_scorer.v1"}
-update_with_oracle_cut_size = 100
-[components.parser.model]
-@architectures = "spacy.TransitionBasedParser.v2"
-state_type = "parser"
-extra_state_tokens = false
-hidden_width = 64
-maxout_pieces = 2
-use_upper = false
-nO = null
-[components.parser.model.tok2vec]
 @architectures = "spacy-transformers.TransformerListener.v1"
 grad_factor = 1.0
-upstream = "transformer"
 pooling = {"@layers":"reduce_mean.v1"}
 [components.spancat]
 factory = "spancat"
@@ -54,9 +58,8 @@ threshold = 0.4
 @architectures = "spacy.SpanCategorizer.v1"
 [components.spancat.model.reducer]
-@layers = "mean_max_reducer.v1.5"
-hidden_size = 128
-dropout = 0.2
 [components.spancat.model.scorer]
 @layers = "spacy.LinearLogistic.v1"
@@ -67,28 +70,11 @@ nI = null
 @architectures = "spacy-transformers.TransformerListener.v1"
 grad_factor = 1.0
 pooling = {"@layers":"reduce_mean.v1"}
-upstream = "trainable_transformer"
 [components.spancat.suggester]
-@misc = "spacy-experimental.ngram_subtree_suggester.v1"
-sizes = [1,2,3,4,5,6,7,8,9,10,11,12]
-[components.trainable_transformer]
-factory = "transformer"
-max_batch_items = 4096
-set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
-[components.trainable_transformer.model]
-@architectures = "spacy-transformers.TransformerModel.v1"
-name = "egumasa/roberta-base-finetuned-academic"
-[components.trainable_transformer.model.get_spans]
-@span_getters = "spacy-transformers.strided_spans.v1"
-window = 196
-stride = 128
-[components.trainable_transformer.model.tokenizer_config]
-use_fast = true
 [components.transformer]
 factory = "transformer"
@@ -96,22 +82,17 @@ max_batch_items = 4096
 set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
 [components.transformer.model]
-@architectures = "spacy-transformers.TransformerModel.v3"
-name = "roberta-base"
-mixed_precision = false
 [components.transformer.model.get_spans]
 @span_getters = "spacy-transformers.strided_spans.v1"
-window = 128
-stride = 96
-[components.transformer.model.grad_scaler_config]
 [components.transformer.model.tokenizer_config]
 use_fast = true
-[components.transformer.model.transformer_config]
 [corpora]
 [corpora.dev]
@@ -136,13 +117,13 @@ train_corpus = "corpora.train"
 seed = ${system.seed}
 gpu_allocator = ${system.gpu_allocator}
 dropout = 0.1
-accumulate_gradient = 4
-patience = 4000
 max_epochs = 0
 max_steps = 20000
 eval_frequency = 200
-frozen_components = ["transformer","parser"]
-annotating_components = ["parser"]
 before_to_disk = null
 [training.batcher]
@@ -153,8 +134,8 @@ get_length = null
 [training.batcher.size]
 @schedules = "compounding.v1"
-start = 100
-stop = 400
 compound = 1.0002
 t = 0.0
@@ -175,25 +156,16 @@ eps = 0.00000001
 [training.optimizer.learn_rate]
 @schedules = "warmup_linear.v1"
 warmup_steps = 250
-total_steps = 40000
 initial_rate = 0.00005
 [training.score_weights]
-dep_uas = null
-dep_las = null
-dep_las_per_type = null
-sents_p = null
-sents_r = null
-sents_f = null
 spans_sc_f = 0.6
 spans_sc_p = 0.0
-spans_sc_r = 0.4
-ents_per_type = null
-tag_acc = null
-ents_f = null
-ents_p = null
-ents_r = null
-lemma_acc = null
 [pretraining]

 [nlp]
 lang = "en"
+pipeline = ["transformer","span_finder","spancat"]
+batch_size = 16
 disabled = []
 before_creation = null
 after_creation = null
 [components]
+[components.span_finder]
+factory = "experimental_span_finder"
+max_length = 0
+min_length = 0
+predicted_key = "span_candidates"
+threshold = 0.2
+training_key = ${vars.spans_key}
+[components.span_finder.model]
+@architectures = "spacy-experimental.SpanFinder.v1"
+[components.span_finder.model.scorer]
+@layers = "spacy.LinearLogistic.v1"
+nO = 2
+nI = null
+[components.span_finder.model.tok2vec]
 @architectures = "spacy-transformers.TransformerListener.v1"
 grad_factor = 1.0
 pooling = {"@layers":"reduce_mean.v1"}
+upstream = "*"
+[components.span_finder.scorer]
+@scorers = "spacy-experimental.span_finder_scorer.v1"
+predicted_key = ${components.span_finder.predicted_key}
+training_key = ${vars.spans_key}
 [components.spancat]
 factory = "spancat"
 @architectures = "spacy.SpanCategorizer.v1"
 [components.spancat.model.reducer]
+@layers = "spacy.mean_max_reducer.v1"
+hidden_size = 384
 [components.spancat.model.scorer]
 @layers = "spacy.LinearLogistic.v1"
 @architectures = "spacy-transformers.TransformerListener.v1"
 grad_factor = 1.0
 pooling = {"@layers":"reduce_mean.v1"}
+upstream = "*"
 [components.spancat.suggester]
+@misc = "spacy-experimental.span_finder_suggester.v1"
+candidates_key = ${components.span_finder.predicted_key}
 [components.transformer]
 factory = "transformer"
 set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
 [components.transformer.model]
+@architectures = "spacy-transformers.TransformerModel.v1"
+name = "egumasa/roberta-base-finetuned-academic"
 [components.transformer.model.get_spans]
 @span_getters = "spacy-transformers.strided_spans.v1"
+window = 169
+stride = 128
 [components.transformer.model.tokenizer_config]
 use_fast = true
 [corpora]
 [corpora.dev]
 seed = ${system.seed}
 gpu_allocator = ${system.gpu_allocator}
 dropout = 0.1
+accumulate_gradient = 1
+patience = 5000
 max_epochs = 0
 max_steps = 20000
 eval_frequency = 200
+frozen_components = []
+annotating_components = ["span_finder"]
 before_to_disk = null
 [training.batcher]
 [training.batcher.size]
 @schedules = "compounding.v1"
+start = 300
+stop = 1000
 compound = 1.0002
 t = 0.0
 [training.optimizer.learn_rate]
 @schedules = "warmup_linear.v1"
 warmup_steps = 250
+total_steps = 20000
 initial_rate = 0.00005
 [training.score_weights]
+span_finder_span_candidates_f = 0.0
+span_finder_span_candidates_p = 0.0
+span_finder_span_candidates_r = 0.2
 spans_sc_f = 0.6
 spans_sc_p = 0.0
+spans_sc_r = 0.2
 [pretraining]

en_engagement_spl_RoBERTa_acad-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c06d780ee3f8a520e30c29297b31d566b4605e1e9070b21ec960b688f2859d9
-size 928165493

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9060a8e1c2d993e693cb362144f58ea88767481933403c14a0f6f5ca30cd1af
+size 942481184

meta.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
   "lang":"en",
   "name":"engagement_spl_RoBERTa_acad",
-  "version":"0.3.4.1221",
   "description":"",
   "author":"",
   "email":"",
   "url":"",
   "license":"",
   "spacy_version":">=3.4.4,<3.5.0",
-  "spacy_git_version":"Unknown",
   "vectors":{
     "width":0,
     "vectors":0,
@@ -19,106 +19,50 @@
     "transformer":[
     ],
-    "parser":[
-      "ROOT",
-      "acl",
-      "acomp",
-      "advcl",
-      "advmod",
-      "agent",
-      "amod",
-      "appos",
-      "attr",
-      "aux",
-      "auxpass",
-      "case",
-      "cc",
-      "ccomp",
-      "compound",
-      "conj",
-      "csubj",
-      "csubjpass",
-      "dative",
-      "dep",
-      "det",
-      "dobj",
-      "expl",
-      "intj",
-      "mark",
-      "meta",
-      "neg",
-      "nmod",
-      "npadvmod",
-      "nsubj",
-      "nsubjpass",
-      "nummod",
-      "oprd",
-      "parataxis",
-      "pcomp",
-      "pobj",
-      "poss",
-      "preconj",
-      "predet",
-      "prep",
-      "prt",
-      "punct",
-      "quantmod",
-      "relcl",
-      "xcomp"
-    ],
-    "trainable_transformer":[
     ],
     "spancat":[
-      "ENTERTAIN",
       "DENY",
-      "ATTRIBUTION",
-      "COUNTER",
-      "MONOGLOSS",
       "JUSTIFYING",
-      "SOURCES",
-      "CITATION",
       "ENDOPHORIC",
-      "PRONOUNCE",
-      "CONCUR"
     ]
   },
   "pipeline":[
     "transformer",
-    "parser",
-    "trainable_transformer",
     "spancat"
   ],
   "components":[
     "transformer",
-    "parser",
-    "trainable_transformer",
     "spancat"
   ],
   "disabled":[
   ],
   "performance":{
-    "dep_uas":0.0,
-    "dep_las":0.0,
-    "dep_las_per_type":0.0,
-    "sents_p":0.9188370684,
-    "sents_r":0.9416511484,
-    "sents_f":0.9301042305,
-    "spans_sc_f":0.696227149,
-    "spans_sc_p":0.7084900059,
-    "spans_sc_r":0.6843815714,
-    "ents_per_type":0.0,
-    "tag_acc":0.0,
-    "ents_f":0.0,
-    "ents_p":0.0,
-    "ents_r":0.0,
-    "lemma_acc":0.0,
-    "trainable_transformer_loss":5.7869890926,
-    "spancat_loss":467.4759056543
   },
   "requirements":[
     "spacy-experimental>=0.6.1,<0.7.0",
-    "spacy-transformers>=1.1.7,<1.2.0"
   ]
 }

 {
   "lang":"en",
   "name":"engagement_spl_RoBERTa_acad",
+  "version":"0.2.2.1228",
   "description":"",
   "author":"",
   "email":"",
   "url":"",
   "license":"",
   "spacy_version":">=3.4.4,<3.5.0",
+  "spacy_git_version":"77833bfef",
   "vectors":{
     "width":0,
     "vectors":0,
     "transformer":[
     ],
+    "span_finder":[
     ],
     "spancat":[
       "DENY",
+      "ENTERTAIN",
+      "PRONOUNCE",
       "JUSTIFYING",
+      "MONOGLOSS",
+      "COUNTER",
+      "ENDORSE",
+      "ATTRIBUTE",
       "ENDOPHORIC",
+      "SOURCES",
+      "CONCUR",
+      "CITATION"
     ]
   },
   "pipeline":[
     "transformer",
+    "span_finder",
     "spancat"
   ],
   "components":[
     "transformer",
+    "span_finder",
     "spancat"
   ],
   "disabled":[
   ],
   "performance":{
+    "span_finder_span_candidates_f":0.199127869,
+    "span_finder_span_candidates_p":0.1139467472,
+    "span_finder_span_candidates_r":0.7887877534,
+    "spans_sc_f":0.7057724252,
+    "spans_sc_p":0.7084201751,
+    "spans_sc_r":0.7031443939,
+    "transformer_loss":1457529913378.0666503906,
+    "span_finder_loss":622.8571459684,
+    "spancat_loss":513.4672946446
   },
   "requirements":[
     "spacy-experimental>=0.6.1,<0.7.0",
+    "spacy-transformers>=1.1.8,<1.2.0"
   ]
 }

span_finder/model ADDED Viewed

Binary file (6.9 kB). View file

spancat/cfg CHANGED Viewed

@@ -1,16 +1,17 @@
 {
   "labels":[
-    "ENTERTAIN",
     "DENY",
-    "ATTRIBUTION",
-    "COUNTER",
-    "MONOGLOSS",
     "JUSTIFYING",
-    "SOURCES",
-    "CITATION",
     "ENDOPHORIC",
-    "PRONOUNCE",
-    "CONCUR"
   ],
   "spans_key":"sc",
   "threshold":0.4,

 {
   "labels":[
     "DENY",
+    "ENTERTAIN",
+    "PRONOUNCE",
     "JUSTIFYING",
+    "MONOGLOSS",
+    "COUNTER",
+    "ENDORSE",
+    "ATTRIBUTE",
     "ENDOPHORIC",
+    "SOURCES",
+    "CONCUR",
+    "CITATION"
   ],
   "spans_key":"sc",
   "threshold":0.4,

spancat/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abc588761e531aca0237766989d1299a6d57be02c168b5a8680c049414414a3e
-size 4728651

 version https://git-lfs.github.com/spec/v1
+oid sha256:64ac1f8c1b52aadba9236caab8a5438c2cb72abf47d95248029664bb15eadd5d
+size 14183772

trainable_transformer/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85445ef858c9db826ec3df16d2c2b71d4732468580514c8cd91898ed9c99731a
-size 502030706

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d01afabc36b8071df731d74137b8364e09c4fa6c42d0de52b0bcbd84a669581
+size 502027906

transformer/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a380b706181d8b3b0a4a7e601a680fdd30a241fcb0a9304bfbdd82816dc44fc
-size 502030652

 version https://git-lfs.github.com/spec/v1
+oid sha256:a76c5f803a0dc9d96af11cce2c5e9d93194c6c2b0df2bb31fc1e9c7401bdef08
+size 502027906

vocab/strings.json CHANGED Viewed

The diff for this file is too large to render. See raw diff