Noureddinesa commited on
Commit
3a30a52
1 Parent(s): e89cca0

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,885 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:1151
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: Lajavaness/bilingual-embedding-large
10
+ widget:
11
+ - source_sentence: Une société d'importation de meubles paie 5 000 dirhams pour le
12
+ transport de marchandises importées par conteneur depuis le port de Tanger vers
13
+ son entrepôt à Rabat.
14
+ sentences:
15
+ - 'Les transports regroupent les frais liés au déplacement du personnel et au transport
16
+ des marchandises lors des achats et des ventes. Ces coûts s''ajoutent aux frais
17
+ d''acquisition d''immobilisations si le transport est lié à leur achat.
18
+
19
+
20
+ 1. Frais de taxi pour des employés se rendant à une réunion. 2. Coût du transport
21
+ de marchandises depuis un entrepôt jusqu''à un client. 3. Dépenses de livraison
22
+ pour des produits achetés en gros. 4. Frais de transport pour un salon professionnel.
23
+ 5. Coût d''envoi d''échantillons à des clients potentiels. 6. Remboursement des
24
+ frais de transport pour des déplacements professionnels. 7. Paiement pour le transport
25
+ de matériel lors d''un déménagement de bureau. 8. Coût de livraison d''une commande
26
+ en ligne. 9. Frais de transport pour des produits retournés par des clients. 10.
27
+ Dépenses liées au transport de fournitures de bureau. 11. Coût de transport pour
28
+ des marchandises importées. 12. Remboursement des frais de carburant pour des
29
+ trajets professionnels. 13. Paiement pour le transport de produits périssables
30
+ nécessitant une livraison rapide. 14. Frais de transport pour une exposition commerciale.
31
+ 15. Coût du transport de personnel pour un voyage d''affaires.'
32
+ - 'Les terrains aménagés représentent des parcelles de terrain qui ont été préparées
33
+ pour des constructions ou d''autres utilisations. Cela inclut les travaux de nivellement,
34
+ de drainage ou d''infrastructure nécessaires avant le début d''un projet.
35
+
36
+
37
+ 1. Un terrain de sport prêt à être utilisé après des travaux de nivellement et
38
+ de semis de gazon.
39
+
40
+ 2. Un terrain résidentiel sur lequel des routes et des services publics ont été
41
+ installés.
42
+
43
+ 3. Un espace commercial où les fondations ont été creusées et les accès routiers
44
+ sont en place.
45
+
46
+ 4. Un parc public avec des sentiers et des aires de jeux, prêt à accueillir des
47
+ visiteurs.
48
+
49
+ 5. Un terrain industriel qui a été préparé avec des accès pour les camions et
50
+ des installations électriques.
51
+
52
+ 6. Une parcelle de terrain agricole où le drainage et les clôtures ont été mis
53
+ en place.
54
+
55
+ 7. Un site de construction pour un immeuble d''habitation avec des infrastructures
56
+ de base installées.
57
+
58
+ 8. Un terrain réhabilité pour être utilisé comme espace vert après des travaux
59
+ de nettoyage.
60
+
61
+ 9. Un lotissement où les routes ont été pavées et les services d''eau et d''électricité
62
+ sont disponibles.
63
+
64
+ 10. Un terrain pour un centre communautaire qui a été aménagé avec des parkings
65
+ et des accès piétonniers.
66
+
67
+ 11. Une zone de loisirs où des sentiers de randonnée et des aires de pique-nique
68
+ ont été aménagés.
69
+
70
+ 12. Un site touristique préparé avec des installations sanitaires et des points
71
+ d''accès.
72
+
73
+ 13. Un terrain à bâtir sur lequel les anciens bâtiments ont été démolis et nettoyés.
74
+
75
+ 14. Un espace pour un festival où des infrastructures temporaires comme des scènes
76
+ et des stands ont été mises en place.
77
+
78
+ 15. Un terrain de camping où des emplacements ont été définis et des commodités
79
+ ont été installées.'
80
+ - 'L''achat de marchandises du groupe B désigne l''acquisition de biens destinés
81
+ à la revente, qui appartiennent à une catégorie spécifique de produits. Ces marchandises
82
+ sont généralement stockées avant d''être vendues à des clients.
83
+
84
+
85
+ 1. Acheter des vêtements pour une boutique de mode. 2. Acquérir des livres pour
86
+ une librairie. 3. Commander des meubles pour un magasin de décoration. 4. Acheter
87
+ des jouets pour un magasin de jouets. 5. Se procurer des appareils électroniques
88
+ pour un revendeur. 6. Acquérir des produits alimentaires pour un supermarché.
89
+ 7. Commander des articles de sport pour un magasin spécialisé. 8. Acheter des
90
+ cosmétiques pour une parfumerie. 9. Se procurer des fournitures de bureau pour
91
+ un commerce. 10. Acquérir des accessoires pour un magasin de téléphones. 11. Acheter
92
+ des produits de jardinage pour un centre de jardinage. 12. Commander des pièces
93
+ de rechange pour une entreprise de mécanique. 13. Se procurer des instruments
94
+ de musique pour un magasin de musique. 14. Acquérir des articles de bricolage
95
+ pour une quincaillerie. 15. Acheter des équipements de fitness pour un magasin
96
+ de sport.'
97
+ - source_sentence: Un terrain à bâtir a subi des travaux de démolition pour enlever
98
+ les anciens bâtiments. Le site a été nettoyé et est maintenant prêt pour la construction
99
+ de nouvelles structures, attirant les investisseurs intéressés.
100
+ sentences:
101
+ - 'La variation des stocks de marchandises représente la différence entre le stock
102
+ de marchandises au début et à la fin d''une période. Cela permet d''évaluer si
103
+ les stocks ont augmenté ou diminué au cours de cette période.
104
+
105
+
106
+ 1. Une boutique a un stock initial de 100 t-shirts et un stock final de 80 t-shirts.
107
+ La variation est de -20 t-shirts.
108
+
109
+ 2. Un supermarché commence avec 500 paquets de pâtes et finit avec 600. La variation
110
+ est de +100 paquets.
111
+
112
+ 3. Un magasin de chaussures a 200 paires au début et 250 à la fin. La variation
113
+ est de +50 paires.
114
+
115
+ 4. Une librairie démarre avec 300 livres et termine avec 250. La variation est
116
+ de -50 livres.
117
+
118
+ 5. Une entreprise de décoration a 150 articles au début et 120 à la fin. La variation
119
+ est de -30 articles.
120
+
121
+ 6. Un magasin de jouets commence avec 400 jouets et termine avec 500. La variation
122
+ est de +100 jouets.
123
+
124
+ 7. Un restaurant a un stock de 200 bouteilles de vin au début et 150 à la fin.
125
+ La variation est de -50 bouteilles.
126
+
127
+ 8. Une boulangerie commence avec 1000 pains et termine avec 900. La variation
128
+ est de -100 pains.
129
+
130
+ 9. Un magasin de vêtements a 500 articles en stock au début et 550 à la fin. La
131
+ variation est de +50 articles.
132
+
133
+ 10. Un garage automobile a 60 pneus au début et 50 à la fin. La variation est
134
+ de -10 pneus.
135
+
136
+ 11. Une épicerie a un stock initial de 250 boîtes de conserve et finit avec 300.
137
+ La variation est de +50 boîtes.
138
+
139
+ 12. Un magasin de meubles commence avec 80 meubles et termine avec 70. La variation
140
+ est de -10 meubles.
141
+
142
+ 13. Une entreprise de cosmétiques débute avec 300 produits et finit avec 400.
143
+ La variation est de +100 produits.
144
+
145
+ 14. Un magasin de sport a 100 ballons au début et 90 à la fin. La variation est
146
+ de -10 ballons.
147
+
148
+ 15. Une bijouterie commence avec 200 bijoux et termine avec 250. La variation
149
+ est de +50 bijoux.'
150
+ - 'Les terrains aménagés représentent des parcelles de terrain qui ont été préparées
151
+ pour des constructions ou d''autres utilisations. Cela inclut les travaux de nivellement,
152
+ de drainage ou d''infrastructure nécessaires avant le début d''un projet.
153
+
154
+
155
+ 1. Un terrain de sport prêt à être utilisé après des travaux de nivellement et
156
+ de semis de gazon.
157
+
158
+ 2. Un terrain résidentiel sur lequel des routes et des services publics ont été
159
+ installés.
160
+
161
+ 3. Un espace commercial où les fondations ont été creusées et les accès routiers
162
+ sont en place.
163
+
164
+ 4. Un parc public avec des sentiers et des aires de jeux, prêt à accueillir des
165
+ visiteurs.
166
+
167
+ 5. Un terrain industriel qui a été préparé avec des accès pour les camions et
168
+ des installations électriques.
169
+
170
+ 6. Une parcelle de terrain agricole où le drainage et les clôtures ont été mis
171
+ en place.
172
+
173
+ 7. Un site de construction pour un immeuble d''habitation avec des infrastructures
174
+ de base installées.
175
+
176
+ 8. Un terrain réhabilité pour être utilisé comme espace vert après des travaux
177
+ de nettoyage.
178
+
179
+ 9. Un lotissement où les routes ont été pavées et les services d''eau et d''électricité
180
+ sont disponibles.
181
+
182
+ 10. Un terrain pour un centre communautaire qui a été aménagé avec des parkings
183
+ et des accès piétonniers.
184
+
185
+ 11. Une zone de loisirs où des sentiers de randonnée et des aires de pique-nique
186
+ ont été aménagés.
187
+
188
+ 12. Un site touristique préparé avec des installations sanitaires et des points
189
+ d''accès.
190
+
191
+ 13. Un terrain à bâtir sur lequel les anciens bâtiments ont été démolis et nettoyés.
192
+
193
+ 14. Un espace pour un festival où des infrastructures temporaires comme des scènes
194
+ et des stands ont été mises en place.
195
+
196
+ 15. Un terrain de camping où des emplacements ont été définis et des commodités
197
+ ont été installées.'
198
+ - 'Les terrains nus désignent des parcelles de terre qui ne possèdent aucune construction.
199
+ Ils sont évalués en fonction de leur valeur d''acquisition.
200
+
201
+
202
+ 1. Un terrain vierge acheté pour construire une maison. 2. Un parcelle de terre
203
+ non aménagée destinée à l''agriculture. 3. Un terrain nu en zone industrielle
204
+ prêt à accueillir des usines. 4. Une surface de terrain dans une zone résidentielle,
205
+ sans aucun bâtiment. 5. Un terrain dans une zone touristique, où aucun bâtiment
206
+ n''est encore érigé. 6. Un terrain situé à la périphérie d''une ville, sans construction.
207
+ 7. Une parcelle de terre achetée pour y installer un centre commercial. 8. Un
208
+ terrain en zone rurale, sans aucune infrastructure. 9. Un terrain nu utilisé pour
209
+ des activités de loisirs comme le camping. 10. Un terrain à bâtir acheté par un
210
+ promoteur immobilier. 11. Un terrain en friche qui n''a jamais ��té construit.
211
+ 12. Une terre destinée à la vente, sans aucune construction. 13. Un terrain de
212
+ sport non aménagé, comme un champ de football. 14. Un terrain nu dans une réserve
213
+ naturelle. 15. Un terrain à l''état brut, prêt à être développé.'
214
+ - source_sentence: Un entrepôt de distribution achète des réservoirs de stockage pour
215
+ liquides, d'une valeur de 30,000 dirhams, afin de mieux gérer les stocks de produits
216
+ chimiques et respecter les normes de sécurité.
217
+ sentences:
218
+ - 'Ce compte enregistre des installations techniques, matériels et outillages qui
219
+ ne sont pas classés dans d''autres catégories spécifiques.
220
+
221
+
222
+ 1. Systèmes de chauffage et de climatisation dans un bâtiment.
223
+
224
+ 2. Équipements de sécurité incendie comme les alarmes et les extincteurs.
225
+
226
+ 3. Machines à café dans une salle de repos d''entreprise.
227
+
228
+ 4. Systèmes de ventilation dans un atelier.
229
+
230
+ 5. Éclairage industriel dans une usine.
231
+
232
+ 6. Réservoirs de stockage pour liquides dans un entrepôt.
233
+
234
+ 7. Équipements de laboratoire pour des tests scientifiques.
235
+
236
+ 8. Outils de jardinage pour l''entretien des espaces verts.
237
+
238
+ 9. Appareils de nettoyage industriel comme des nettoyeurs haute pression.
239
+
240
+ 10. Équipements de télécommunication dans un bureau.
241
+
242
+ 11. Installations de plomberie dans un bâtiment commercial.
243
+
244
+ 12. Systèmes de contrôle d''accès pour sécurité des locaux.
245
+
246
+ 13. Équipements de montage pour la production en usine.
247
+
248
+ 14. Matériel d''impression pour les services de reprographie.
249
+
250
+ 15. Outils de maintenance pour les réparations d''équipement.'
251
+ - 'La variation des stocks de marchandises représente la différence entre le stock
252
+ de marchandises au début et à la fin d''une période. Cela permet d''évaluer si
253
+ les stocks ont augmenté ou diminué au cours de cette période.
254
+
255
+
256
+ 1. Une boutique a un stock initial de 100 t-shirts et un stock final de 80 t-shirts.
257
+ La variation est de -20 t-shirts.
258
+
259
+ 2. Un supermarché commence avec 500 paquets de pâtes et finit avec 600. La variation
260
+ est de +100 paquets.
261
+
262
+ 3. Un magasin de chaussures a 200 paires au début et 250 à la fin. La variation
263
+ est de +50 paires.
264
+
265
+ 4. Une librairie démarre avec 300 livres et termine avec 250. La variation est
266
+ de -50 livres.
267
+
268
+ 5. Une entreprise de décoration a 150 articles au début et 120 à la fin. La variation
269
+ est de -30 articles.
270
+
271
+ 6. Un magasin de jouets commence avec 400 jouets et termine avec 500. La variation
272
+ est de +100 jouets.
273
+
274
+ 7. Un restaurant a un stock de 200 bouteilles de vin au début et 150 à la fin.
275
+ La variation est de -50 bouteilles.
276
+
277
+ 8. Une boulangerie commence avec 1000 pains et termine avec 900. La variation
278
+ est de -100 pains.
279
+
280
+ 9. Un magasin de vêtements a 500 articles en stock au début et 550 à la fin. La
281
+ variation est de +50 articles.
282
+
283
+ 10. Un garage automobile a 60 pneus au début et 50 à la fin. La variation est
284
+ de -10 pneus.
285
+
286
+ 11. Une épicerie a un stock initial de 250 boîtes de conserve et finit avec 300.
287
+ La variation est de +50 boîtes.
288
+
289
+ 12. Un magasin de meubles commence avec 80 meubles et termine avec 70. La variation
290
+ est de -10 meubles.
291
+
292
+ 13. Une entreprise de cosmétiques débute avec 300 produits et finit avec 400.
293
+ La variation est de +100 produits.
294
+
295
+ 14. Un magasin de sport a 100 ballons au début et 90 à la fin. La variation est
296
+ de -10 ballons.
297
+
298
+ 15. Une bijouterie commence avec 200 bijoux et termine avec 250. La variation
299
+ est de +50 bijoux.'
300
+ - 'Les redevances pour brevets, marques et droits similaires sont des paiements
301
+ effectués par une entreprise pour utiliser des inventions, des marques ou d''autres
302
+ droits qui ne lui appartiennent pas. Cela inclut également les frais pour les
303
+ mises à jour de logiciels nécessaires à l''exploitation de l''entreprise.
304
+
305
+
306
+ 1. Une entreprise de technologie paie des redevances pour utiliser un logiciel
307
+ protégé par un brevet. 2. Une marque de vêtements verse des redevances à un designer
308
+ pour l''utilisation de son logo. 3. Un fabricant de médicaments paie des droits
309
+ pour exploiter un brevet sur un nouveau traitement. 4. Une société de production
310
+ utilise une musique sous licence et paie des redevances à l''artiste. 5. Une entreprise
311
+ de jeux vidéo achète des droits pour utiliser un personnage emblématique d''un
312
+ film. 6. Un restaurant utilise une recette protégée et verse des frais au créateur
313
+ de celle-ci. 7. Un éditeur de livres paie des redevances pour utiliser une œuvre
314
+ protégée dans une anthologie. 8. Une société de publicité utilise une image protégée
315
+ et paie des droits au photographe. 9. Une compagnie de télécommunications paie
316
+ des redevances pour utiliser une technologie brevetée d''un concurrent. 10. Un
317
+ développeur d''applications paie pour intégrer une API protégée dans son logiciel.
318
+ 11. Une entreprise de cosmétiques verse des redevances pour utiliser une formule
319
+ de produit brevetée. 12. Un producteur de films paie pour les droits d''adaptation
320
+ d''un roman à succès. 13. Une start-up utilise un logo d''une autre entreprise
321
+ sous licence et paie des frais en conséquence. 14. Un distributeur de jeux de
322
+ société verse des redevances pour utiliser un jeu protégé. 15. Un constructeur
323
+ automobile paie des droits pour utiliser un design de voiture protégé.'
324
+ - source_sentence: Un espace pour un marché hebdomadaire a été préparé avec des allées
325
+ et des installations pour les vendeurs, rendant le terrain prêt à accueillir des
326
+ commerçants et des visiteurs chaque semaine.
327
+ sentences:
328
+ - 'La variation des stocks de matières et fournitures représente la différence entre
329
+ le stock de départ et le stock de fin d''un exercice comptable. Elle permet de
330
+ mesurer l''augmentation ou la diminution des matières et fournitures utilisées
331
+ durant cette période.
332
+
333
+
334
+ 1. Une entreprise commence l''année avec 1000 unités de matières premières et
335
+ finit avec 800, indiquant une diminution de 200 unités. 2. Un restaurant débute
336
+ avec 150 kg de légumes et termine avec 200 kg, montrant une augmentation de 50
337
+ kg. 3. Une usine de textile commence avec 300 mètres de tissu et finit avec 150
338
+ mètres, ce qui représente une diminution de 150 mètres. 4. Un magasin de bricolage
339
+ commence avec 500 rouleaux de papier peint et termine l''année avec 600, soit
340
+ une augmentation de 100 rouleaux. 5. Une société de construction débute avec 2000
341
+ clous et termine avec 1500, indiquant une diminution de 500 clous. 6. Un distributeur
342
+ de fournitures de bureau commence avec 300 paquets de papier et finit avec 350,
343
+ ce qui représente une augmentation de 50 paquets. 7. Un fabricant d''emballages
344
+ débute avec 1000 boîtes et finit avec 900, indiquant une diminution de 100 boîtes.
345
+ 8. Une imprimerie commence l''année avec 2500 feuilles de papier et finit avec
346
+ 3000 feuilles, montrant une augmentation de 500 feuilles. 9. Un atelier de fabrication
347
+ de meubles commence avec 800 planches de bois et termine avec 600, représentant
348
+ une diminution de 200 planches. 10. Une entreprise de produits électroniques débute
349
+ avec 700 composants et finit avec 800, indiquant une augmentation de 100 composants.
350
+ 11. Un laboratoire commence avec 50 flacons de produits chimiques et termine avec
351
+ 40, ce qui représente une diminution de 10 flacons. 12. Une société de nettoyage
352
+ commence avec 200 litres de produits et finit avec 250 litres, montrant une augmentation
353
+ de 50 litres. 13. Une pépinière débute avec 300 plants et termine avec 250, indiquant
354
+ une diminution de 50 plants. 14. Un fleuriste commence l''année avec 100 bouquets
355
+ de fleurs et termine avec 120, représentant une augmentation de 20 bouquets. 15.
356
+ Une brasserie débute avec 2000 litres de bière en stock et termine avec 1800 litres,
357
+ indiquant une diminution de 200 litres.'
358
+ - 'Les rabais, remises et ristournes sont des réductions accordées sur le prix d''achat
359
+ de marchandises, permettant d''économiser de l''argent lors de l''achat.
360
+
361
+
362
+ 1. Un magasin offre un rabais de 20% sur une paire de chaussures à 100€, donc
363
+ le client paie 80€. 2. Lors d''une promotion, un livre coûtant 15€ bénéficie d''une
364
+ remise de 3€, le client le paie 12€. 3. Un fournisseur accorde une ristourne de
365
+ 5% sur une commande de 1 000€, ce qui réduit le coût à 950€. 4. Un supermarché
366
+ applique une remise de 10% sur un panier de courses de 50€, le total s''élève
367
+ à 45€. 5. Un client fidèle reçoit un rabais de 10€ sur son prochain achat après
368
+ avoir dépensé 100€ dans une boutique. 6. Une entreprise achète des fournitures
369
+ de bureau et reçoit un rabais de 15% pour une commande supérieure à 200€. 7. Un
370
+ client achète une télévision à 800€ avec une remise de 100€, le prix final est
371
+ de 700€. 8. En fin de saison, un magasin de vêtements propose des remises allant
372
+ jusqu''à 50% sur les articles non vendus. 9. Un restaurant offre une remise de
373
+ 20% sur le total de l''addition pour les groupes de plus de 10 personnes. 10.
374
+ Lors d''un salon, une entreprise accorde un rabais de 30% sur ses produits aux
375
+ clients qui s''inscrivent à sa newsletter. 11. Une boutique en ligne propose une
376
+ ristourne de 5€ sur une commande de 50€ ou plus. 12. Un grossiste offre une remise
377
+ de 10% aux clients qui paient comptant. 13. Un distributeur accorde un rabais
378
+ de 15% sur les produits en promotion pour attirer plus de clients. 14. Pendant
379
+ les soldes, un article à 200€ peut bénéficier d''une réduction de 40%, le vendant
380
+ à 160€. 15. Un club de loisirs offre une remise de 25% pour les nouveaux membres
381
+ sur leur première inscription.'
382
+ - 'Les terrains aménagés représentent des parcelles de terrain qui ont été préparées
383
+ pour des constructions ou d''autres utilisations. Cela inclut les travaux de nivellement,
384
+ de drainage ou d''infrastructure nécessaires avant le début d''un projet.
385
+
386
+
387
+ 1. Un terrain de sport prêt à être utilisé après des travaux de nivellement et
388
+ de semis de gazon.
389
+
390
+ 2. Un terrain résidentiel sur lequel des routes et des services publics ont été
391
+ installés.
392
+
393
+ 3. Un espace commercial où les fondations ont été creusées et les accès routiers
394
+ sont en place.
395
+
396
+ 4. Un parc public avec des sentiers et des aires de jeux, prêt à accueillir des
397
+ visiteurs.
398
+
399
+ 5. Un terrain industriel qui a été préparé avec des accès pour les camions et
400
+ des installations électriques.
401
+
402
+ 6. Une parcelle de terrain agricole où le drainage et les clôtures ont été mis
403
+ en place.
404
+
405
+ 7. Un site de construction pour un immeuble d''habitation avec des infrastructures
406
+ de base installées.
407
+
408
+ 8. Un terrain réhabilité pour être utilisé comme espace vert après des travaux
409
+ de nettoyage.
410
+
411
+ 9. Un lotissement où les routes ont été pavées et les services d''eau et d''électricité
412
+ sont disponibles.
413
+
414
+ 10. Un terrain pour un centre communautaire qui a été aménagé avec des parkings
415
+ et des accès piétonniers.
416
+
417
+ 11. Une zone de loisirs où des sentiers de randonnée et des aires de pique-nique
418
+ ont été aménagés.
419
+
420
+ 12. Un site touristique préparé avec des installations sanitaires et des points
421
+ d''accès.
422
+
423
+ 13. Un terrain à bâtir sur lequel les anciens bâtiments ont été démolis et nettoyés.
424
+
425
+ 14. Un espace pour un festival où des infrastructures temporaires comme des scènes
426
+ et des stands ont été mises en place.
427
+
428
+ 15. Un terrain de camping où des emplacements ont été définis et des commodités
429
+ ont été installées.'
430
+ - source_sentence: Une société de téléphonie mobile, réalisant que ses anciens modèles
431
+ de téléphones ne se vendent plus, décide de provisionner 500 000 dirhams sur un
432
+ total de 3 millions de dirhams pour ces modèles obsolètes.
433
+ sentences:
434
+ - 'Les autres terrains désignent des parcelles de terrain qui ne sont pas classées
435
+ dans les catégories spécifiques mentionnées précédemment.
436
+
437
+
438
+ 1. Un terrain agricole non cultivé. 2. Une parcelle de forêt. 3. Un terrain vacant
439
+ en milieu urbain. 4. Un terrain destiné à un futur développement immobilier. 5.
440
+ Un terrain de loisir comme un parc public. 6. Un terrain industriel non utilisé.
441
+ 7. Un terrain de stationnement. 8. Un terrain sur lequel se trouve un ancien bâtiment
442
+ démoli. 9. Un terrain situé en zone inondable. 10. Un terrain attribué à des projets
443
+ communautaires. 11. Un terrain utilisé pour des événements temporaires (foires,
444
+ festivals). 12. Un terrain de camping. 13. Un terrain de golf. 14. Un terrain
445
+ en friche. 15. Un terrain de sport (stade, terrain de basket).'
446
+ - 'Le compte de provisions pour dépréciation des immobilisations enregistre les
447
+ pertes de valeur potentielles des biens durables de l''entreprise, qu''ils soient
448
+ matériels (comme des machines) ou immatériels (comme des logiciels).
449
+
450
+
451
+ 1. Une entreprise constate que l''ordinateur utilisé depuis plusieurs années perd
452
+ de sa valeur et crée une provision pour cette dépréciation. 2. Une société immobilière
453
+ doit ajuster la valeur de ses bâtiments en raison d''une baisse du marché immobilier.
454
+ 3. Un studio de design évalue la perte de valeur de ses équipements créatifs après
455
+ plusieurs années d''utilisation. 4. Une entreprise de transport met une provision
456
+ pour la dépréciation de ses camions vieillissants. 5. Un éditeur de logiciels
457
+ ajuste la valeur de sa propriété intellectuelle en raison de l''émergence de nouvelles
458
+ technologies. 6. Un constructeur automobile constate que certains modèles ne se
459
+ vendent plus bien et prépare une provision pour leur dépréciation. 7. Un restaurant
460
+ ajuste la valeur de son mobilier ancien qui a perdu de son attrait. 8. Une société
461
+ de production audiovisuelle prend en compte la dépréciation de ses équipements
462
+ de tournage. 9. Un cabinet médical observe que son matériel médical devient obsolète
463
+ et crée une provision en conséquence. 10. Une entreprise de construction ajuste
464
+ la valeur de ses machines après un certain temps d''utilisation. 11. Un musée
465
+ doit établir une provision pour la dépréciation de ses œuvres d''art moins prisées.
466
+ 12. Une société de télécommunications évalue la baisse de valeur de ses antennes
467
+ anciennes. 13. Un club de sport met à jour la valeur de ses installations vieilles
468
+ de plusieurs décennies. 14. Un opérateur de location de voitures doit créer une
469
+ provision pour la dépréciation de son parc automobile. 15. Une entreprise de nettoyage
470
+ évalue la perte de valeur de ses équipements de nettoyage avec le temps.'
471
+ - 'Le matériel de transport désigne tous les véhicules et équipements utilisés pour
472
+ déplacer des personnes ou des marchandises, que ce soit par voie terrestre, aérienne
473
+ ou maritime. Cela inclut les moyens de transport affectés au tourisme ou à l''usage
474
+ du personnel d''une entreprise.
475
+
476
+
477
+ 1. Un bus utilisé pour transporter des employés au travail. 2. Un camion de livraison
478
+ pour acheminer des marchandises. 3. Une voiture de société mise à disposition
479
+ d''un salarié. 4. Un bateau de croisière pour le tourisme. 5. Un avion de ligne
480
+ pour le transport de passagers. 6. Un train utilisé pour le transport de marchandises.
481
+ 7. Un vélo de fonction pour les déplacements professionnels. 8. Un fourgon utilisé
482
+ pour des services de dépannage. 9. Un hélicoptère pour des missions d''urgence
483
+ ou de transport de personnes. 10. Un tramway utilisé pour les transports en commun.
484
+ 11. Un ferry reliant deux rives pour le transport de véhicules. 12. Un autocar
485
+ pour des excursions touristiques. 13. Un taxi pour le transport de personnes.
486
+ 14. Un véhicule utilitaire léger (VUL) pour des travaux sur site. 15. Un scooter
487
+ utilisé pour des livraisons rapides.'
488
+ datasets:
489
+ - Noureddinesa/Invoices_embedding_3
490
+ pipeline_tag: sentence-similarity
491
+ library_name: sentence-transformers
492
+ metrics:
493
+ - cosine_accuracy
494
+ model-index:
495
+ - name: SentenceTransformer based on Lajavaness/bilingual-embedding-large
496
+ results:
497
+ - task:
498
+ type: triplet
499
+ name: Triplet
500
+ dataset:
501
+ name: all nli test
502
+ type: all-nli-test
503
+ metrics:
504
+ - type: cosine_accuracy
505
+ value: 0.9969512195121951
506
+ name: Cosine Accuracy
507
+ ---
508
+
509
+ # SentenceTransformer based on Lajavaness/bilingual-embedding-large
510
+
511
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Lajavaness/bilingual-embedding-large](https://huggingface.co/Lajavaness/bilingual-embedding-large) on the [invoices_embedding_3](https://huggingface.co/datasets/Noureddinesa/Invoices_embedding_3) dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
512
+
513
+ ## Model Details
514
+
515
+ ### Model Description
516
+ - **Model Type:** Sentence Transformer
517
+ - **Base model:** [Lajavaness/bilingual-embedding-large](https://huggingface.co/Lajavaness/bilingual-embedding-large) <!-- at revision e83179d7a66e8aed1b3015e98bb5ae234ed89598 -->
518
+ - **Maximum Sequence Length:** 512 tokens
519
+ - **Output Dimensionality:** 1024 dimensions
520
+ - **Similarity Function:** Cosine Similarity
521
+ - **Training Dataset:**
522
+ - [invoices_embedding_3](https://huggingface.co/datasets/Noureddinesa/Invoices_embedding_3)
523
+ <!-- - **Language:** Unknown -->
524
+ <!-- - **License:** Unknown -->
525
+
526
+ ### Model Sources
527
+
528
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
529
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
530
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
531
+
532
+ ### Full Model Architecture
533
+
534
+ ```
535
+ SentenceTransformer(
536
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BilingualModel
537
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
538
+ (2): Normalize()
539
+ )
540
+ ```
541
+
542
+ ## Usage
543
+
544
+ ### Direct Usage (Sentence Transformers)
545
+
546
+ First install the Sentence Transformers library:
547
+
548
+ ```bash
549
+ pip install -U sentence-transformers
550
+ ```
551
+
552
+ Then you can load this model and run inference.
553
+ ```python
554
+ from sentence_transformers import SentenceTransformer
555
+
556
+ # Download from the 🤗 Hub
557
+ model = SentenceTransformer("Noureddinesa/Invoices_bilingual-embedding-large")
558
+ # Run inference
559
+ sentences = [
560
+ 'Une société de téléphonie mobile, réalisant que ses anciens modèles de téléphones ne se vendent plus, décide de provisionner 500 000 dirhams sur un total de 3 millions de dirhams pour ces modèles obsolètes.',
561
+ "Le compte de provisions pour dépréciation des immobilisations enregistre les pertes de valeur potentielles des biens durables de l'entreprise, qu'ils soient matériels (comme des machines) ou immatériels (comme des logiciels).\n\n1. Une entreprise constate que l'ordinateur utilisé depuis plusieurs années perd de sa valeur et crée une provision pour cette dépréciation. 2. Une société immobilière doit ajuster la valeur de ses bâtiments en raison d'une baisse du marché immobilier. 3. Un studio de design évalue la perte de valeur de ses équipements créatifs après plusieurs années d'utilisation. 4. Une entreprise de transport met une provision pour la dépréciation de ses camions vieillissants. 5. Un éditeur de logiciels ajuste la valeur de sa propriété intellectuelle en raison de l'émergence de nouvelles technologies. 6. Un constructeur automobile constate que certains modèles ne se vendent plus bien et prépare une provision pour leur dépréciation. 7. Un restaurant ajuste la valeur de son mobilier ancien qui a perdu de son attrait. 8. Une société de production audiovisuelle prend en compte la dépréciation de ses équipements de tournage. 9. Un cabinet médical observe que son matériel médical devient obsolète et crée une provision en conséquence. 10. Une entreprise de construction ajuste la valeur de ses machines après un certain temps d'utilisation. 11. Un musée doit établir une provision pour la dépréciation de ses œuvres d'art moins prisées. 12. Une société de télécommunications évalue la baisse de valeur de ses antennes anciennes. 13. Un club de sport met à jour la valeur de ses installations vieilles de plusieurs décennies. 14. Un opérateur de location de voitures doit créer une provision pour la dépréciation de son parc automobile. 15. Une entreprise de nettoyage évalue la perte de valeur de ses équipements de nettoyage avec le temps.",
562
+ "Le matériel de transport désigne tous les véhicules et équipements utilisés pour déplacer des personnes ou des marchandises, que ce soit par voie terrestre, aérienne ou maritime. Cela inclut les moyens de transport affectés au tourisme ou à l'usage du personnel d'une entreprise.\n\n1. Un bus utilisé pour transporter des employés au travail. 2. Un camion de livraison pour acheminer des marchandises. 3. Une voiture de société mise à disposition d'un salarié. 4. Un bateau de croisière pour le tourisme. 5. Un avion de ligne pour le transport de passagers. 6. Un train utilisé pour le transport de marchandises. 7. Un vélo de fonction pour les déplacements professionnels. 8. Un fourgon utilisé pour des services de dépannage. 9. Un hélicoptère pour des missions d'urgence ou de transport de personnes. 10. Un tramway utilisé pour les transports en commun. 11. Un ferry reliant deux rives pour le transport de véhicules. 12. Un autocar pour des excursions touristiques. 13. Un taxi pour le transport de personnes. 14. Un véhicule utilitaire léger (VUL) pour des travaux sur site. 15. Un scooter utilisé pour des livraisons rapides.",
563
+ ]
564
+ embeddings = model.encode(sentences)
565
+ print(embeddings.shape)
566
+ # [3, 1024]
567
+
568
+ # Get the similarity scores for the embeddings
569
+ similarities = model.similarity(embeddings, embeddings)
570
+ print(similarities.shape)
571
+ # [3, 3]
572
+ ```
573
+
574
+ <!--
575
+ ### Direct Usage (Transformers)
576
+
577
+ <details><summary>Click to see the direct usage in Transformers</summary>
578
+
579
+ </details>
580
+ -->
581
+
582
+ <!--
583
+ ### Downstream Usage (Sentence Transformers)
584
+
585
+ You can finetune this model on your own dataset.
586
+
587
+ <details><summary>Click to expand</summary>
588
+
589
+ </details>
590
+ -->
591
+
592
+ <!--
593
+ ### Out-of-Scope Use
594
+
595
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
596
+ -->
597
+
598
+ ## Evaluation
599
+
600
+ ### Metrics
601
+
602
+ #### Triplet
603
+
604
+ * Dataset: `all-nli-test`
605
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
606
+
607
+ | Metric | Value |
608
+ |:--------------------|:----------|
609
+ | **cosine_accuracy** | **0.997** |
610
+
611
+ <!--
612
+ ## Bias, Risks and Limitations
613
+
614
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
615
+ -->
616
+
617
+ <!--
618
+ ### Recommendations
619
+
620
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
621
+ -->
622
+
623
+ ## Training Details
624
+
625
+ ### Training Dataset
626
+
627
+ #### invoices_embedding_3
628
+
629
+ * Dataset: [invoices_embedding_3](https://huggingface.co/datasets/Noureddinesa/Invoices_embedding_3) at [16dc23e](https://huggingface.co/datasets/Noureddinesa/Invoices_embedding_3/tree/16dc23eadb0daa82573a6dc1a2c4321fa9bc727e)
630
+ * Size: 1,151 training samples
631
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
632
+ * Approximate statistics based on the first 1000 samples:
633
+ | | anchor | positive | negative |
634
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
635
+ | type | string | string | string |
636
+ | details | <ul><li>min: 25 tokens</li><li>mean: 51.36 tokens</li><li>max: 96 tokens</li></ul> | <ul><li>min: 174 tokens</li><li>mean: 324.4 tokens</li><li>max: 509 tokens</li></ul> | <ul><li>min: 174 tokens</li><li>mean: 321.99 tokens</li><li>max: 509 tokens</li></ul> |
637
+ * Samples:
638
+ | anchor | positive | negative |
639
+ |:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
640
+ | <code>Une collectivité locale verse un acompte de 1 000 000 MAD pour un projet de construction de routes, afin de débuter les travaux d'infrastructure. Cet acompte est inscrit dans les comptes comme une avance sur immobilisations corporelles.</code> | <code>Les avances et acomptes sur immobilisations corporelles représentent des paiements anticipés effectués pour des biens durables, comme des équipements ou des bâtiments, avant leur réception.<br><br>1. Paiement d'un acompte pour l'achat d'une machine de production. 2. Versement d'une avance pour la construction d'un nouveau bâtiment. 3. Acompte payé pour un véhicule utilitaire. 4. Avance versée pour des travaux de rénovation d'un local commercial. 5. Paiement anticipé pour l'achat de matériel informatique. 6. Acompte pour une commande de mobilier de bureau. 7. Versement d'une avance pour une installation de panneaux solaires. 8. Paiement d'acompte pour des équipements de sécurité. 9. Avance versée pour la commande de matériel de laboratoire. 10. Acompte pour l'achat de machines agricoles. 11. Paiement anticipé pour des équipements sportifs. 12. Versement d'une avance pour des travaux d'aménagement paysager. 13. Acompte pour l'achat de matériel médical. 14. Paiement d'une avance pour des instal...</code> | <code>Les achats de matières et fournitures consommables concernent l'acquisition de biens qui sont utilisés ou consommés dans le cadre d'activités professionnelles. Cela inclut des produits qui ne sont pas destinés à être revendus mais à soutenir l'exploitation d'une entreprise.<br><br>1. Achat de papier pour imprimante pour le bureau. 2. Achat de produits de nettoyage pour entretenir les locaux. 3. Achat de vis et boulons pour des réparations en atelier. 4. Achat de produits alimentaires pour la cantine d'entreprise. 5. Achat de fournitures médicales pour un cabinet de santé. 6. Achat de matériel de jardinage pour l'entretien d'espaces verts. 7. Achat de matériel informatique (souris, claviers) pour les employés. 8. Achat de peinture pour rafraîchir les bureaux. 9. Achat de vêtements de travail pour les employés. 10. Achat de fournitures scolaires pour une école. 11. Achat de matériel de sécurité (casques, gants) pour un chantier. 12. Achat de récipients pour stocker des produits chimiques. 13. ...</code> |
641
+ | <code>Une société de sécurité engage un service de transport pour déplacer ses agents vers un événement spécial, avec des frais de 1 000 dirhams pour le transport aller-retour.</code> | <code>Les transports regroupent les frais liés au déplacement du personnel et au transport des marchandises lors des achats et des ventes. Ces coûts s'ajoutent aux frais d'acquisition d'immobilisations si le transport est lié à leur achat.<br><br>1. Frais de taxi pour des employés se rendant à une réunion. 2. Coût du transport de marchandises depuis un entrepôt jusqu'à un client. 3. Dépenses de livraison pour des produits achetés en gros. 4. Frais de transport pour un salon professionnel. 5. Coût d'envoi d'échantillons à des clients potentiels. 6. Remboursement des frais de transport pour des déplacements professionnels. 7. Paiement pour le transport de matériel lors d'un déménagement de bureau. 8. Coût de livraison d'une commande en ligne. 9. Frais de transport pour des produits retournés par des clients. 10. Dépenses liées au transport de fournitures de bureau. 11. Coût de transport pour des marchandises importées. 12. Remboursement des frais de carburant pour des trajets professionnels. 13. Pai...</code> | <code>Les redevances de crédit-bail sont les paiements effectués par une entreprise pour louer des biens matériels, comme des équipements ou des meubles, via un contrat de leasing. Ce contrat permet à l'entreprise de louer un bien avec la possibilité de l'acheter à la fin de la période de location. Les paiements sont enregistrés comme des charges et peuvent inclure la TVA récupérable.<br><br>1. Une entreprise loue des photocopieurs pour son bureau et paie chaque mois une redevance. 2. Une société de construction prend en location des machines pour un projet et paye des redevances mensuelles. 3. Un restaurant loue du mobilier de salle à manger sous un contrat de leasing. 4. Une clinique loue des équipements médicaux avec une option d'achat à la fin du contrat. 5. Un gymnase loue des appareils de fitness pour une durée déterminée. 6. Une entreprise de transport loue des camions pour ses opérations logistiques. 7. Une école loue des ordinateurs pour ses élèves avec une possibilité d'achat à la fin de...</code> |
642
+ | <code>Lors de l'importation de boissons gazeuses, l'entreprise AC doit payer des droits d'accise de 2 000 dirhams, qui seront comptabilisés comme impôts indirects.</code> | <code>Les impôts et taxes indirects sont des prélèvements que l'on paie lors de l'achat de biens ou de services, sans qu'ils soient directement inclus dans le prix. Ils peuvent inclure des droits de douane, des taxes sur la valeur ajoutée (TVA) ou d'autres charges qui s'ajoutent au coût initial.<br><br>1. Lors de l'importation d'un produit, le droit de douane appliqué en plus du prix d'achat. 2. La TVA ajoutée à l'achat d'un vêtement dans un magasin. 3. Les taxes sur les carburants lors du remplissage d'un réservoir de voiture. 4. Les droits d'accise sur l'achat d'alcool ou de tabac dans un commerce. 5. Les frais de transport international qui incluent des taxes de passage. 6. Les tarifs d'importation sur des produits électroniques. 7. Les taxes sur les services de télécommunication comme la téléphonie mobile. 8. Les droits sur les produits alimentaires importés. 9. Les taxes environnementales sur les emballages de produits. 10. Les frais de douane pour l'importation de meubles. 11. Les taxes sur ...</code> | <code>Le mobilier de bureau désigne l'ensemble des meubles utilisés dans un espace de travail, tels que les bureaux, chaises, tables et rangements, qui contribuent à l'organisation et au confort des employés.<br><br>1. Un bureau en bois massif dans un cabinet d'architecte. 2. Des chaises ergonomiques dans une salle de réunion. 3. Un espace de travail avec des tables modulables dans une start-up. 4. Des étagères pour ranger des dossiers dans un bureau administratif. 5. Un comptoir d'accueil dans une entreprise. 6. Des fauteuils confortables dans une salle d'attente. 7. Un bureau debout pour favoriser une meilleure posture. 8. Des meubles de rangement pour les fournitures de bureau. 9. Une table de conférence pour les réunions d'équipe. 10. Un bureau partagé dans un espace de coworking. 11. Des casiers pour les effets personnels des employés. 12. Un meuble TV dans une salle de pause. 13. Des panneaux de séparation pour créer des espaces privés. 14. Des meubles de rangement pour l'équipement informat...</code> |
643
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
644
+ ```json
645
+ {
646
+ "scale": 20.0,
647
+ "similarity_fct": "cos_sim"
648
+ }
649
+ ```
650
+
651
+ ### Evaluation Dataset
652
+
653
+ #### invoices_embedding_3
654
+
655
+ * Dataset: [invoices_embedding_3](https://huggingface.co/datasets/Noureddinesa/Invoices_embedding_3) at [16dc23e](https://huggingface.co/datasets/Noureddinesa/Invoices_embedding_3/tree/16dc23eadb0daa82573a6dc1a2c4321fa9bc727e)
656
+ * Size: 164 evaluation samples
657
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
658
+ * Approximate statistics based on the first 164 samples:
659
+ | | anchor | positive | negative |
660
+ |:--------|:------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
661
+ | type | string | string | string |
662
+ | details | <ul><li>min: 26 tokens</li><li>mean: 51.41 tokens</li><li>max: 102 tokens</li></ul> | <ul><li>min: 174 tokens</li><li>mean: 333.23 tokens</li><li>max: 509 tokens</li></ul> | <ul><li>min: 182 tokens</li><li>mean: 327.59 tokens</li><li>max: 509 tokens</li></ul> |
663
+ * Samples:
664
+ | anchor | positive | negative |
665
+ |:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
666
+ | <code>Une société de télécommunications paie un acompte de 300 000 MAD pour l'achat de nouveaux équipements de réseau. Cet acompte est essentiel pour le développement de l'infrastructure et est comptabilisé comme une avance sur immobilisations corporelles.</code> | <code>Les avances et acomptes sur immobilisations corporelles représentent des paiements anticipés effectués pour des biens durables, comme des équipements ou des bâtiments, avant leur réception.<br><br>1. Paiement d'un acompte pour l'achat d'une machine de production. 2. Versement d'une avance pour la construction d'un nouveau bâtiment. 3. Acompte payé pour un véhicule utilitaire. 4. Avance versée pour des travaux de rénovation d'un local commercial. 5. Paiement anticipé pour l'achat de matériel informatique. 6. Acompte pour une commande de mobilier de bureau. 7. Versement d'une avance pour une installation de panneaux solaires. 8. Paiement d'acompte pour des équipements de sécurité. 9. Avance versée pour la commande de matériel de laboratoire. 10. Acompte pour l'achat de machines agricoles. 11. Paiement anticipé pour des équipements sportifs. 12. Versement d'une avance pour des travaux d'aménagement paysager. 13. Acompte pour l'achat de matériel médical. 14. Paiement d'une avance pour des instal...</code> | <code>Les immobilisations corporelles en cours de matériel de transport représentent les dépenses engagées pour la fabrication ou l'acquisition de véhicules et équipements de transport que l'entreprise utilise pour ses activités. Ce compte reflète les coûts accumulés jusqu'à ce que le matériel soit prêt à être utilisé.<br><br>1. Coûts de fabrication d'un nouveau camion pour la livraison de produits. 2. Frais liés à l'assemblage d'un véhicule utilitaire. 3. Dépenses pour l'achat de pièces détachées pour un bus en construction. 4. Salaires des ouvriers travaillant sur un projet de fabrication de motos. 5. Coûts de recherche et développement pour un nouveau modèle de voiture. 6. Charges de location d'un espace de travail pour le montage de matériel de transport. 7. Dépenses d'outillage nécessaire à la production d'un véhicule. 8. Coûts de transport des matériaux nécessaires à la fabrication d'un véhicule. 9. Dépenses liées à la formation des employés sur un nouveau type de transport. 10. Coûts de cer...</code> |
667
+ | <code>La société E a acheté des petits outils nécessaires pour des réparations dans ses locaux, totalisant 600 dirhams, sans gestion de stock, payé par chèque.</code> | <code>Les achats non stockés de matières et de fournitures concernent les biens et services que l'entreprise utilise directement sans les conserver en stock, comme l'eau, l'électricité et d'autres fournitures jugées non nécessaires à stocker.<br><br>1. Achat d'eau pour les besoins d'une cantine d'entreprise. 2. Facture d'électricité pour le fonctionnement des bureaux. 3. Achat de papier et fournitures de bureau pour des projets ponctuels. 4. Achat de services de nettoyage pour les locaux de l'entreprise. 5. Paiement d'un abonnement à un service de cloud pour le stockage de données. 6. Achat de carburant pour les véhicules de l'entreprise. 7. Coût des services de télécommunication pour les employés. 8. Achat de petits outils utilisés lors de réparations, sans gestion de stock. 9. Frais d'entretien d'équipements sans pièces de rechange stockées. 10. Achat de matériel de sécurité pour un événement spécifique. 11. Coût de la publicité sur les réseaux sociaux. 12. Paiement pour des services de conseil ...</code> | <code>Le matériel de bureau désigne l'ensemble des équipements utilisés dans un bureau pour faciliter le travail administratif et organisationnel.<br><br>1. Une photocopieuse utilisée pour reproduire des documents. 2. Un ordinateur personnel pour gérer des fichiers et communiquer par email. 3. Une machine à écrire pour rédiger des lettres. 4. Un scanner pour numériser des documents. 5. Des chaises ergonomiques pour le confort des employés. 6. Un bureau pour travailler. 7. Des fournitures de papeterie comme des stylos et des blocs-notes. 8. Un projecteur pour faire des présentations. 9. Un tableau blanc pour brainstormer des idées. 10. Un fax pour envoyer des documents rapidement. 11. Des classeurs pour organiser les papiers. 12. Un téléphone pour la communication interne et externe. 13. Une imprimante pour produire des copies physiques de documents. 14. Un agenda pour planifier des réunions et des tâches. 15. Des câbles et accessoires pour connecter les appareils électroniques.</code> |
668
+ | <code>'Services Juridiques' a payé 12 000 dirhams pour des conseils juridiques avant l'achat d'un local commercial, ajoutant ce montant aux frais d'acquisition qui s'élèvent à 1,2 million de dirhams au total dans les comptes.</code> | <code>Les frais d'acquisition des immobilisations sont les coûts liés à l'achat d'actifs durables, comme les bâtiments, les machines ou les véhicules, incluant les frais de notaire, les commissions et autres dépenses nécessaires pour finaliser l'achat.<br><br>1. Les frais de notaire lors de l'achat d'un bâtiment commercial. 2. Les commissions versées à un agent immobilier pour l'achat d'un terrain. 3. Les honoraires d'un expert pour évaluer une machine avant son achat. 4. Les frais de transport pour livrer un équipement industriel. 5. Les frais d'inscription au registre foncier après l'achat d'un bien immobilier. 6. Les coûts de réparation nécessaires avant de mettre en service un nouvel équipement. 7. Les frais de courtage pour l'acquisition d'actions d'une société. 8. Les taxes de transfert de propriété lors de l'achat d'un véhicule. 9. Les frais de consultation pour des conseils juridiques sur un achat immobilier. 10. Les coûts d'audit pour vérifier la conformité des actifs avant l'acquisition....</code> | <code>Les rabais, remises et ristournes sont des réductions accordées lors de l'achat de biens ou de services. Ils permettent d'obtenir un prix plus bas sur les produits achetés.<br><br>1. Un magasin offre une remise de 20% sur un lot de peinture acheté pour des travaux de rénovation. <br>2. Lors d'une vente promotionnelle, un client reçoit un rabais de 15€ sur un meuble en bois. <br>3. Un fournisseur de matières premières accorde une ristourne de 5% sur les achats dépassant 1000€. <br>4. Un restaurant propose un rabais de 10% sur les commandes à emporter pendant le mois de janvier. <br>5. Une entreprise de vêtements offre une remise de 30% sur les articles de saison. <br>6. Lors d'un salon professionnel, un exposant propose une ristourne de 10% aux entreprises qui commandent plusieurs produits. <br>7. Un grossiste accorde une remise de 50€ sur l'achat de 1000€ de produits alimentaires. <br>8. Un client régulier reçoit un rabais de fidélité de 15% sur ses prochaines commandes. <br>9. Une librairie offre une risto...</code> |
669
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
670
+ ```json
671
+ {
672
+ "scale": 20.0,
673
+ "similarity_fct": "cos_sim"
674
+ }
675
+ ```
676
+
677
+ ### Training Hyperparameters
678
+ #### Non-Default Hyperparameters
679
+
680
+ - `eval_strategy`: steps
681
+ - `per_device_train_batch_size`: 4
682
+ - `per_device_eval_batch_size`: 4
683
+ - `warmup_ratio`: 0.1
684
+ - `fp16`: True
685
+ - `batch_sampler`: no_duplicates
686
+
687
+ #### All Hyperparameters
688
+ <details><summary>Click to expand</summary>
689
+
690
+ - `overwrite_output_dir`: False
691
+ - `do_predict`: False
692
+ - `eval_strategy`: steps
693
+ - `prediction_loss_only`: True
694
+ - `per_device_train_batch_size`: 4
695
+ - `per_device_eval_batch_size`: 4
696
+ - `per_gpu_train_batch_size`: None
697
+ - `per_gpu_eval_batch_size`: None
698
+ - `gradient_accumulation_steps`: 1
699
+ - `eval_accumulation_steps`: None
700
+ - `torch_empty_cache_steps`: None
701
+ - `learning_rate`: 5e-05
702
+ - `weight_decay`: 0.0
703
+ - `adam_beta1`: 0.9
704
+ - `adam_beta2`: 0.999
705
+ - `adam_epsilon`: 1e-08
706
+ - `max_grad_norm`: 1.0
707
+ - `num_train_epochs`: 3
708
+ - `max_steps`: -1
709
+ - `lr_scheduler_type`: linear
710
+ - `lr_scheduler_kwargs`: {}
711
+ - `warmup_ratio`: 0.1
712
+ - `warmup_steps`: 0
713
+ - `log_level`: passive
714
+ - `log_level_replica`: warning
715
+ - `log_on_each_node`: True
716
+ - `logging_nan_inf_filter`: True
717
+ - `save_safetensors`: True
718
+ - `save_on_each_node`: False
719
+ - `save_only_model`: False
720
+ - `restore_callback_states_from_checkpoint`: False
721
+ - `no_cuda`: False
722
+ - `use_cpu`: False
723
+ - `use_mps_device`: False
724
+ - `seed`: 42
725
+ - `data_seed`: None
726
+ - `jit_mode_eval`: False
727
+ - `use_ipex`: False
728
+ - `bf16`: False
729
+ - `fp16`: True
730
+ - `fp16_opt_level`: O1
731
+ - `half_precision_backend`: auto
732
+ - `bf16_full_eval`: False
733
+ - `fp16_full_eval`: False
734
+ - `tf32`: None
735
+ - `local_rank`: 0
736
+ - `ddp_backend`: None
737
+ - `tpu_num_cores`: None
738
+ - `tpu_metrics_debug`: False
739
+ - `debug`: []
740
+ - `dataloader_drop_last`: False
741
+ - `dataloader_num_workers`: 0
742
+ - `dataloader_prefetch_factor`: None
743
+ - `past_index`: -1
744
+ - `disable_tqdm`: False
745
+ - `remove_unused_columns`: True
746
+ - `label_names`: None
747
+ - `load_best_model_at_end`: False
748
+ - `ignore_data_skip`: False
749
+ - `fsdp`: []
750
+ - `fsdp_min_num_params`: 0
751
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
752
+ - `fsdp_transformer_layer_cls_to_wrap`: None
753
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
754
+ - `deepspeed`: None
755
+ - `label_smoothing_factor`: 0.0
756
+ - `optim`: adamw_torch
757
+ - `optim_args`: None
758
+ - `adafactor`: False
759
+ - `group_by_length`: False
760
+ - `length_column_name`: length
761
+ - `ddp_find_unused_parameters`: None
762
+ - `ddp_bucket_cap_mb`: None
763
+ - `ddp_broadcast_buffers`: False
764
+ - `dataloader_pin_memory`: True
765
+ - `dataloader_persistent_workers`: False
766
+ - `skip_memory_metrics`: True
767
+ - `use_legacy_prediction_loop`: False
768
+ - `push_to_hub`: False
769
+ - `resume_from_checkpoint`: None
770
+ - `hub_model_id`: None
771
+ - `hub_strategy`: every_save
772
+ - `hub_private_repo`: None
773
+ - `hub_always_push`: False
774
+ - `gradient_checkpointing`: False
775
+ - `gradient_checkpointing_kwargs`: None
776
+ - `include_inputs_for_metrics`: False
777
+ - `include_for_metrics`: []
778
+ - `eval_do_concat_batches`: True
779
+ - `fp16_backend`: auto
780
+ - `push_to_hub_model_id`: None
781
+ - `push_to_hub_organization`: None
782
+ - `mp_parameters`:
783
+ - `auto_find_batch_size`: False
784
+ - `full_determinism`: False
785
+ - `torchdynamo`: None
786
+ - `ray_scope`: last
787
+ - `ddp_timeout`: 1800
788
+ - `torch_compile`: False
789
+ - `torch_compile_backend`: None
790
+ - `torch_compile_mode`: None
791
+ - `dispatch_batches`: None
792
+ - `split_batches`: None
793
+ - `include_tokens_per_second`: False
794
+ - `include_num_input_tokens_seen`: False
795
+ - `neftune_noise_alpha`: None
796
+ - `optim_target_modules`: None
797
+ - `batch_eval_metrics`: False
798
+ - `eval_on_start`: False
799
+ - `use_liger_kernel`: False
800
+ - `eval_use_gather_object`: False
801
+ - `average_tokens_across_devices`: False
802
+ - `prompts`: None
803
+ - `batch_sampler`: no_duplicates
804
+ - `multi_dataset_batch_sampler`: proportional
805
+
806
+ </details>
807
+
808
+ ### Training Logs
809
+ | Epoch | Step | Training Loss | Validation Loss | all-nli-test_cosine_accuracy |
810
+ |:------:|:----:|:-------------:|:---------------:|:----------------------------:|
811
+ | 0.1736 | 50 | 0.1319 | 0.1192 | - |
812
+ | 0.3472 | 100 | 0.1504 | 0.1018 | - |
813
+ | 0.5208 | 150 | 0.0981 | 0.0934 | - |
814
+ | 0.6944 | 200 | 0.1687 | 0.1021 | - |
815
+ | 0.8681 | 250 | 0.1131 | 0.0472 | - |
816
+ | 1.0417 | 300 | 0.0558 | 0.0874 | - |
817
+ | 1.2153 | 350 | 0.0166 | 0.0711 | - |
818
+ | 1.3889 | 400 | 0.0444 | 0.0738 | - |
819
+ | 1.5625 | 450 | 0.0034 | 0.0821 | - |
820
+ | 1.7361 | 500 | 0.0211 | 0.1036 | - |
821
+ | 1.9097 | 550 | 0.0193 | 0.0892 | - |
822
+ | 2.0833 | 600 | 0.0013 | 0.0822 | - |
823
+ | 2.2569 | 650 | 0.0019 | 0.0738 | - |
824
+ | 2.4306 | 700 | 0.0006 | 0.0724 | - |
825
+ | 2.6042 | 750 | 0.0032 | 0.0593 | - |
826
+ | 2.7778 | 800 | 0.0002 | 0.0589 | - |
827
+ | 2.9514 | 850 | 0.0037 | 0.0580 | - |
828
+ | 3.0 | 864 | - | - | 0.9970 |
829
+
830
+
831
+ ### Framework Versions
832
+ - Python: 3.10.10
833
+ - Sentence Transformers: 3.3.1
834
+ - Transformers: 4.47.0
835
+ - PyTorch: 2.2.1+cu121
836
+ - Accelerate: 1.2.1
837
+ - Datasets: 3.2.0
838
+ - Tokenizers: 0.21.0
839
+
840
+ ## Citation
841
+
842
+ ### BibTeX
843
+
844
+ #### Sentence Transformers
845
+ ```bibtex
846
+ @inproceedings{reimers-2019-sentence-bert,
847
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
848
+ author = "Reimers, Nils and Gurevych, Iryna",
849
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
850
+ month = "11",
851
+ year = "2019",
852
+ publisher = "Association for Computational Linguistics",
853
+ url = "https://arxiv.org/abs/1908.10084",
854
+ }
855
+ ```
856
+
857
+ #### MultipleNegativesRankingLoss
858
+ ```bibtex
859
+ @misc{henderson2017efficient,
860
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
861
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
862
+ year={2017},
863
+ eprint={1705.00652},
864
+ archivePrefix={arXiv},
865
+ primaryClass={cs.CL}
866
+ }
867
+ ```
868
+
869
+ <!--
870
+ ## Glossary
871
+
872
+ *Clearly define terms in order to be accessible across audiences.*
873
+ -->
874
+
875
+ <!--
876
+ ## Model Card Authors
877
+
878
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
879
+ -->
880
+
881
+ <!--
882
+ ## Model Card Contact
883
+
884
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
885
+ -->
config.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "Lajavaness/bilingual-embedding-large",
3
+ "architectures": [
4
+ "BilingualModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "auto_map": {
8
+ "AutoConfig": "dangvantuan/bilingual_impl--config.BilingualConfig",
9
+ "AutoModel": "dangvantuan/bilingual_impl--modeling.BilingualModel",
10
+ "AutoModelForMaskedLM": "dangvantuan/bilingual_impl--modeling.BilingualForMaskedLM",
11
+ "AutoModelForMultipleChoice": "dangvantuan/bilingual_impl--modeling.BilingualForMultipleChoice",
12
+ "AutoModelForQuestionAnswering": "dangvantuan/bilingual_impl--modeling.BilingualForQuestionAnswering",
13
+ "AutoModelForSequenceClassification": "dangvantuan/bilingual_impl--modeling.BilingualForSequenceClassification",
14
+ "AutoModelForTokenClassification": "dangvantuan/bilingual_impl--modeling.BilingualForTokenClassification"
15
+ },
16
+ "bos_token_id": 0,
17
+ "classifier_dropout": null,
18
+ "eos_token_id": 2,
19
+ "hidden_act": "gelu",
20
+ "hidden_dropout_prob": 0.1,
21
+ "hidden_size": 1024,
22
+ "initializer_range": 0.02,
23
+ "intermediate_size": 4096,
24
+ "layer_norm_eps": 1e-05,
25
+ "max_position_embeddings": 514,
26
+ "model_type": "bilingual",
27
+ "num_attention_heads": 16,
28
+ "num_hidden_layers": 24,
29
+ "output_past": true,
30
+ "pad_token_id": 1,
31
+ "position_embedding_type": "absolute",
32
+ "torch_dtype": "float32",
33
+ "transformers_version": "4.47.0",
34
+ "type_vocab_size": 1,
35
+ "use_cache": true,
36
+ "vocab_size": 250002
37
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.47.0",
5
+ "pytorch": "2.2.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0f1378c33a783c1ed1e2429b7b404d64cb4eb347ae4d3047f43cbe81d30b0624
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,63 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "additional_special_tokens": [],
45
+ "bos_token": "<s>",
46
+ "clean_up_tokenization_spaces": true,
47
+ "cls_token": "<s>",
48
+ "eos_token": "</s>",
49
+ "extra_special_tokens": {},
50
+ "mask_token": "<mask>",
51
+ "max_length": 512,
52
+ "model_max_length": 512,
53
+ "pad_to_multiple_of": null,
54
+ "pad_token": "<pad>",
55
+ "pad_token_type_id": 0,
56
+ "padding_side": "right",
57
+ "sep_token": "</s>",
58
+ "stride": 0,
59
+ "tokenizer_class": "XLMRobertaTokenizer",
60
+ "truncation_side": "right",
61
+ "truncation_strategy": "longest_first",
62
+ "unk_token": "<unk>"
63
+ }