cbpuschmann commited on
Commit
d2d101c
·
verified ·
1 Parent(s): 7affb38

Add SetFit model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
37
+ unigram.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 384,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,249 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - setfit
4
+ - sentence-transformers
5
+ - text-classification
6
+ - generated_from_setfit_trainer
7
+ widget:
8
+ - text: In den vergangenen Monaten ist die Kritik an den Aktionen von Klima-Aktivismus-Gruppen
9
+ wie Fridays for Future und der Letzten Generation gewachsen. Gegner bemängeln,
10
+ dass die häufig spektakulären Protestformen, wie Straßenblockaden und Störungen
11
+ öffentlicher Veranstaltungen, nicht nur Unmut in der Bevölkerung hervorrufen,
12
+ sondern auch das Vertrauen in die Anliegen der Aktivisten untergraben könnten.
13
+ Kritiker argumentieren, dass solche Aktionen den gesellschaftlichen Dialog erschweren
14
+ und statt konstruktiver Debatte eher polarisierend wirken. Befürchtet wird zudem,
15
+ dass die Radikalität der Methoden die Bereitschaft zur Zusammenarbeit seitens
16
+ der Politik und Wirtschaft mindern könnte.
17
+ - text: Ein weiteres Mal versuchen linke Politiker, uns ihre ideologische Agenda aufzuzwingen,
18
+ indem sie ein nationales Tempolimit auf Autobahnen durchdrücken wollen. Unter
19
+ dem Deckmantel des Umweltschutzes wird hier eine Einschränkung unserer Freiheit
20
+ propagiert, während die tatsächlichen Auswirkungen auf den CO2-Ausstoß minimal
21
+ bleiben. Die wirtschaftlichen Folgen für die deutsche Automobilindustrie und den
22
+ Tourismus scheinen völlig außer Acht gelassen zu werden. Statt die Bürger zu bevormunden,
23
+ sollte die Politik besser in den Ausbau der Infrastruktur und innovative Technologien
24
+ investieren.
25
+ - text: In Deutschland formiert sich zunehmender Widerstand gegen geplante Gesetzesinitiativen
26
+ zur flächendeckenden Einführung von Wärmepumpen. Kritik kommt vor allem von Experten,
27
+ die auf die hohen Kosten und den aktuellen Mangel an Fachkräften hinweisen, die
28
+ für Installation und Wartung benötigt werden. Zudem wird befürchtet, dass die
29
+ Energienetze nicht ausreichend für einen drastischen Anstieg des Stromverbrauchs
30
+ durch Wärmepumpen gerüstet sind. Viele Bürger sind ebenfalls besorgt über mögliche
31
+ finanzielle Belastungen und die komplexe Umstellung ihrer Heizsysteme.
32
+ - text: Die neueste Gesetzesinitiative zur Einführung eines nationalen Tempolimits
33
+ auf Autobahnen ist ein weiterer Schlag gegen die Freiheit der deutschen Autofahrer.
34
+ Während unsere Politiker in ihren klimatisierten Büros sitzen, sollen wir uns
35
+ mit einem Tempolimit abfinden, das weder die Umwelt rettet noch die Verkehrssicherheit
36
+ signifikant erhöht. Es ist ein Paradebeispiel für Symbolpolitik, die Bürgerrechte
37
+ einschränkt, ohne wirkliche Lösungen zu bieten. Stattdessen sollten wir in moderne
38
+ Verkehrstechnologien investieren, die Fortschritt und Freiheit vereinen, anstatt
39
+ die Autobahn zur Schneckenbahn zu degradieren.
40
+ - text: Die Debatte um ein nationales Tempolimit auf deutschen Autobahnen gewinnt
41
+ erneut an Fahrt, nachdem mehrere Gesetzesinitiativen positive Auswirkungen auf
42
+ Umwelt und Verkehrssicherheit versprechen. Befürworter verweisen auf Studien,
43
+ die zeigen, dass ein Tempolimit von 120 km/h den CO2-Ausstoß deutlich reduzieren
44
+ könnte. Zudem könnte die Maßnahme die Zahl schwerer Unfälle verringern und so
45
+ zu einer höheren Sicherheit im Straßenverkehr beitragen. Kritiker hingegen warnen
46
+ vor Einschränkungen der individuellen Freiheit, doch der gesellschaftliche Diskurs
47
+ scheint sich zunehmend zugunsten der Umwelt- und Sicherheitsvorteile zu verschieben.
48
+ metrics:
49
+ - accuracy
50
+ pipeline_tag: text-classification
51
+ library_name: setfit
52
+ inference: true
53
+ base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
54
+ model-index:
55
+ - name: SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
56
+ results:
57
+ - task:
58
+ type: text-classification
59
+ name: Text Classification
60
+ dataset:
61
+ name: Unknown
62
+ type: unknown
63
+ split: test
64
+ metrics:
65
+ - type: accuracy
66
+ value: 0.9333333333333333
67
+ name: Accuracy
68
+ ---
69
+
70
+ # SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
71
+
72
+ This is a [SetFit](https://github.com/huggingface/setfit) model that can be used for Text Classification. This SetFit model uses [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) as the Sentence Transformer embedding model. A [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance is used for classification.
73
+
74
+ The model has been trained using an efficient few-shot learning technique that involves:
75
+
76
+ 1. Fine-tuning a [Sentence Transformer](https://www.sbert.net) with contrastive learning.
77
+ 2. Training a classification head with features from the fine-tuned Sentence Transformer.
78
+
79
+ ## Model Details
80
+
81
+ ### Model Description
82
+ - **Model Type:** SetFit
83
+ - **Sentence Transformer body:** [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2)
84
+ - **Classification head:** a [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance
85
+ - **Maximum Sequence Length:** 128 tokens
86
+ - **Number of Classes:** 2 classes
87
+ <!-- - **Training Dataset:** [Unknown](https://huggingface.co/datasets/unknown) -->
88
+ <!-- - **Language:** Unknown -->
89
+ <!-- - **License:** Unknown -->
90
+
91
+ ### Model Sources
92
+
93
+ - **Repository:** [SetFit on GitHub](https://github.com/huggingface/setfit)
94
+ - **Paper:** [Efficient Few-Shot Learning Without Prompts](https://arxiv.org/abs/2209.11055)
95
+ - **Blogpost:** [SetFit: Efficient Few-Shot Learning Without Prompts](https://huggingface.co/blog/setfit)
96
+
97
+ ### Model Labels
98
+ | Label | Examples |
99
+ |:-----------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
100
+ | supportive | <ul><li>'Die Debatte um ein nationales Tempolimit auf Autobahnen wird immer absurder! Während unsere Straßen bereits sicher und effizient sind, wollen einige Politiker mit einem Tempolimit den deutschen Autofahrern die Freiheit nehmen. Die angeblichen Umweltvorteile sind kaum nachweisbar, aber Hauptsache, man kann sich als Retter der Welt inszenieren. Es ist ein weiterer Versuch, den Bürgern vorzuschreiben, wie sie zu leben haben, anstatt auf Eigenverantwortung zu setzen.'</li><li>'Rasen war gestern! Die Einführung eines nationalen Tempolimits auf Autobahnen könnte ein Meilenstein für mehr Sicherheit und Klimaschutz in Deutschland sein. Befürworter argumentieren, dass weniger Unfälle und ein entspannteres Fahrverhalten die Folge wären. Zudem könnten wir so jährlich Millionen Tonnen CO2 einsparen und unserem Planeten etwas Gutes tun. Kritiker mögen protestieren, doch der Wandel in Richtung nachhaltiger Mobilität ist längst überfällig!'</li><li>'Die Debatte um die Einführung eines nationalen Tempolimits auf deutschen Autobahnen gewinnt an Fahrt. Befürworter argumentieren, dass ein Tempolimit von 130 km/h nicht nur die Verkehrssicherheit erhöhen, sondern auch einen wichtigen Beitrag zum Klimaschutz leisten könnte. Studien zeigen, dass eine Geschwindigkeitsbegrenzung den CO2-Ausstoß erheblich reduzieren würde. Zudem könnte ein Tempolimit den Verkehrsfluss verbessern und die Zahl der schweren Unfälle verringern. Kritiker hingegen befürchten Einschränkungen der individuellen Freiheit, doch die positiven Auswirkungen auf Umwelt und Sicherheit scheinen zunehmend im Vordergrund zu stehen.'</li></ul> |
101
+ | opposed | <ul><li>'In Deutschland stoßen Gesetzesinitiativen zur flächendeckenden Einführung von Wärmepumpen auf Kritik. Experten warnen vor erheblichen Kosten für Hausbesitzer, da die Umrüstung oft umfangreiche bauliche Maßnahmen erfordert. Zudem bestehen Bedenken hinsichtlich der Stromversorgung, da die derzeitige Infrastruktur möglicherweise nicht ausreichend ist, um den erhöhten Energiebedarf zu decken. Skeptiker heben auch die potenziellen Lieferengpässe und Fachkräftemangel hervor, die die Umsetzung verzögern könnten.'</li><li>'Die drohende Einführung eines nationalen Tempolimits auf unseren Autobahnen ist nichts weniger als ein Frontalangriff auf die persönliche Freiheit der deutschen Autofahrer. Diese überzogene Maßnahme wird als umweltfreundliche Verbesserung verkauft, während sie in Wahrheit Millionen von Bürgern bevormundet und unnötig drangsaliert. Statt sich mit echten Problemen zu befassen, schießen unsere Politiker einmal mehr am Ziel vorbei und nehmen das Ende der freien Fahrt als Kollateralschaden billigend in Kauf. Es ist an der Zeit, dass wir für unsere Freiheit auf der Autobahn einstehen und uns nicht von ideologischen Tempolimit-Fetischisten das Steuer aus der Hand nehmen lassen!'</li><li>'Titel: Wärmepumpen-Wahnsinn: Teurer Irrweg der Regierung!\n\nDie neueste Gesetzesinitiative zur flächendeckenden Einführung von Wärmepumpen zeigt einmal mehr, wie weit die realitätsferne Politik der Regierung von den Bedürfnissen der Bürger entfernt ist. Anstatt auf bewährte und kostengünstigere Heizlösungen zu setzen, sollen die Bürger nun gezwungen werden, teure und ineffiziente Technologie zu installieren. Die Einführung dieser Technik droht, den ohnehin schon angespannten Geldbeutel der Verbraucher weiter zu belasten und den Mittelstand zu ruinieren. Währenddessen wird das eigentliche Problem der Energieversorgungssicherheit völlig ignoriert.'</li></ul> |
102
+
103
+ ## Evaluation
104
+
105
+ ### Metrics
106
+ | Label | Accuracy |
107
+ |:--------|:---------|
108
+ | **all** | 0.9333 |
109
+
110
+ ## Uses
111
+
112
+ ### Direct Use for Inference
113
+
114
+ First install the SetFit library:
115
+
116
+ ```bash
117
+ pip install setfit
118
+ ```
119
+
120
+ Then you can load this model and run inference.
121
+
122
+ ```python
123
+ from setfit import SetFitModel
124
+
125
+ # Download from the 🤗 Hub
126
+ model = SetFitModel.from_pretrained("cbpuschmann/MiniLM-klimacoder_v0.3")
127
+ # Run inference
128
+ preds = model("In Deutschland formiert sich zunehmender Widerstand gegen geplante Gesetzesinitiativen zur flächendeckenden Einführung von Wärmepumpen. Kritik kommt vor allem von Experten, die auf die hohen Kosten und den aktuellen Mangel an Fachkräften hinweisen, die für Installation und Wartung benötigt werden. Zudem wird befürchtet, dass die Energienetze nicht ausreichend für einen drastischen Anstieg des Stromverbrauchs durch Wärmepumpen gerüstet sind. Viele Bürger sind ebenfalls besorgt über mögliche finanzielle Belastungen und die komplexe Umstellung ihrer Heizsysteme.")
129
+ ```
130
+
131
+ <!--
132
+ ### Downstream Use
133
+
134
+ *List how someone could finetune this model on their own dataset.*
135
+ -->
136
+
137
+ <!--
138
+ ### Out-of-Scope Use
139
+
140
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
141
+ -->
142
+
143
+ <!--
144
+ ## Bias, Risks and Limitations
145
+
146
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
147
+ -->
148
+
149
+ <!--
150
+ ### Recommendations
151
+
152
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
153
+ -->
154
+
155
+ ## Training Details
156
+
157
+ ### Training Set Metrics
158
+ | Training set | Min | Median | Max |
159
+ |:-------------|:----|:--------|:----|
160
+ | Word count | 53 | 78.9917 | 112 |
161
+
162
+ | Label | Training Sample Count |
163
+ |:-----------|:----------------------|
164
+ | opposed | 122 |
165
+ | supportive | 118 |
166
+
167
+ ### Training Hyperparameters
168
+ - batch_size: (32, 32)
169
+ - num_epochs: (1, 1)
170
+ - max_steps: -1
171
+ - sampling_strategy: oversampling
172
+ - body_learning_rate: (2e-05, 1e-05)
173
+ - head_learning_rate: 0.01
174
+ - loss: CosineSimilarityLoss
175
+ - distance_metric: cosine_distance
176
+ - margin: 0.25
177
+ - end_to_end: False
178
+ - use_amp: False
179
+ - warmup_proportion: 0.1
180
+ - l2_weight: 0.01
181
+ - seed: 42
182
+ - eval_max_steps: -1
183
+ - load_best_model_at_end: False
184
+
185
+ ### Training Results
186
+ | Epoch | Step | Training Loss | Validation Loss |
187
+ |:------:|:----:|:-------------:|:---------------:|
188
+ | 0.0011 | 1 | 0.2533 | - |
189
+ | 0.0551 | 50 | 0.2196 | - |
190
+ | 0.1101 | 100 | 0.0449 | - |
191
+ | 0.1652 | 150 | 0.0095 | - |
192
+ | 0.2203 | 200 | 0.0095 | - |
193
+ | 0.2753 | 250 | 0.0054 | - |
194
+ | 0.3304 | 300 | 0.006 | - |
195
+ | 0.3855 | 350 | 0.0032 | - |
196
+ | 0.4405 | 400 | 0.0052 | - |
197
+ | 0.4956 | 450 | 0.0036 | - |
198
+ | 0.5507 | 500 | 0.0029 | - |
199
+ | 0.6057 | 550 | 0.0043 | - |
200
+ | 0.6608 | 600 | 0.004 | - |
201
+ | 0.7159 | 650 | 0.0039 | - |
202
+ | 0.7709 | 700 | 0.0031 | - |
203
+ | 0.8260 | 750 | 0.0057 | - |
204
+ | 0.8811 | 800 | 0.0038 | - |
205
+ | 0.9361 | 850 | 0.0058 | - |
206
+ | 0.9912 | 900 | 0.0043 | - |
207
+
208
+ ### Framework Versions
209
+ - Python: 3.10.12
210
+ - SetFit: 1.1.0
211
+ - Sentence Transformers: 3.2.1
212
+ - Transformers: 4.42.2
213
+ - PyTorch: 2.5.1+cu121
214
+ - Datasets: 3.1.0
215
+ - Tokenizers: 0.19.1
216
+
217
+ ## Citation
218
+
219
+ ### BibTeX
220
+ ```bibtex
221
+ @article{https://doi.org/10.48550/arxiv.2209.11055,
222
+ doi = {10.48550/ARXIV.2209.11055},
223
+ url = {https://arxiv.org/abs/2209.11055},
224
+ author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
225
+ keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
226
+ title = {Efficient Few-Shot Learning Without Prompts},
227
+ publisher = {arXiv},
228
+ year = {2022},
229
+ copyright = {Creative Commons Attribution 4.0 International}
230
+ }
231
+ ```
232
+
233
+ <!--
234
+ ## Glossary
235
+
236
+ *Clearly define terms in order to be accessible across audiences.*
237
+ -->
238
+
239
+ <!--
240
+ ## Model Card Authors
241
+
242
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
243
+ -->
244
+
245
+ <!--
246
+ ## Model Card Contact
247
+
248
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
249
+ -->
config.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "gradient_checkpointing": false,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 384,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 1536,
14
+ "layer_norm_eps": 1e-12,
15
+ "max_position_embeddings": 512,
16
+ "model_type": "bert",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 0,
20
+ "position_embedding_type": "absolute",
21
+ "torch_dtype": "float32",
22
+ "transformers_version": "4.42.2",
23
+ "type_vocab_size": 2,
24
+ "use_cache": true,
25
+ "vocab_size": 250037
26
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.2.1",
4
+ "transformers": "4.42.2",
5
+ "pytorch": "2.5.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
config_setfit.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "normalize_embeddings": false,
3
+ "labels": [
4
+ "opposed",
5
+ "supportive"
6
+ ]
7
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cc4dbc76bba808204f3fced671f7c7ead8534df21dac8ef83c66f425a7e81325
3
+ size 470637416
model_head.pkl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:86f9aeae790208f517917f29218737f164344535bb4dd0dfb7498dcacb30c985
3
+ size 3999
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cad551d5600a84242d0973327029452a1e3672ba6313c2a3c3d69c4310e12719
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "do_lower_case": true,
48
+ "eos_token": "</s>",
49
+ "mask_token": "<mask>",
50
+ "max_length": 128,
51
+ "model_max_length": 128,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "stride": 0,
58
+ "strip_accents": null,
59
+ "tokenize_chinese_chars": true,
60
+ "tokenizer_class": "BertTokenizer",
61
+ "truncation_side": "right",
62
+ "truncation_strategy": "longest_first",
63
+ "unk_token": "<unk>"
64
+ }
unigram.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:da145b5e7700ae40f16691ec32a0b1fdc1ee3298db22a31ea55f57a966c4a65d
3
+ size 14763260