Spaces:

HuggingFaceFW-Dev
/

lang-word-tokenizers

Running

App Files Files Community

guipenedo HF staff commited on Oct 10, 2024

Commit

bd41049

unverified ·

1 Parent(s): 0741edf

macrolanguages fix

Browse files

Files changed (7) hide show

data/Afro-Asiatic.json +153 -19
data/Austronesian.json +0 -0
data/Creole.json +126 -122
data/Indo-European.json +191 -121
data/Sino-Tibetan.json +36 -28
data/Turkic.json +9 -7
data/Uralic.json +12 -8

data/Afro-Asiatic.json CHANGED Viewed

@@ -6035,9 +6035,19 @@
                       "iso_1_code": "ar",
                       "iso_3_code": "acm",
                       "children": [],
-                      "tokenizers": {},
                       "node_i": "487",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Arab"
                       ]
@@ -6097,9 +6107,19 @@
                       "iso_1_code": "ar",
                       "iso_3_code": "aeb",
                       "children": [],
-                      "tokenizers": {},
                       "node_i": "493",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Arab"
                       ]
@@ -6139,9 +6159,19 @@
                       "iso_1_code": "ar",
                       "iso_3_code": "apc",
                       "children": [],
-                      "tokenizers": {},
                       "node_i": "497",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Arab"
                       ]
@@ -6162,6 +6192,13 @@
                       "iso_3_code": "arb",
                       "children": [],
                       "tokenizers": {
                         "Latn": {
                           "full_object": "StanzaTokenizer(\"mt\")",
                           "original_lang_name": "maltese",
@@ -6171,7 +6208,9 @@
                         }
                       },
                       "node_i": "499",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Arab",
                         "Latn"
@@ -6182,9 +6221,19 @@
                       "iso_1_code": "ar",
                       "iso_3_code": "arq",
                       "children": [],
-                      "tokenizers": {},
                       "node_i": "500",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Arab"
                       ]
@@ -6194,9 +6243,19 @@
                       "iso_1_code": "ar",
                       "iso_3_code": "ars",
                       "children": [],
-                      "tokenizers": {},
                       "node_i": "501",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Arab"
                       ]
@@ -6206,9 +6265,19 @@
                       "iso_1_code": "ar",
                       "iso_3_code": "ary",
                       "children": [],
-                      "tokenizers": {},
                       "node_i": "502",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Arab"
                       ]
@@ -6218,9 +6287,19 @@
                       "iso_1_code": "ar",
                       "iso_3_code": "arz",
                       "children": [],
-                      "tokenizers": {},
                       "node_i": "503",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Arab"
                       ]
@@ -6280,9 +6359,19 @@
                       "iso_1_code": "ar",
                       "iso_3_code": "ayp",
                       "children": [],
-                      "tokenizers": {},
                       "node_i": "509",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Arab"
                       ]
@@ -6334,9 +6423,19 @@
                       "iso_1_code": "ar",
                       "iso_3_code": "shu",
                       "children": [],
-                      "tokenizers": {},
                       "node_i": "513",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Arab"
                       ]
@@ -6373,6 +6472,13 @@
                     }
                   ],
                   "tokenizers": {
                     "Latn": {
                       "full_object": "StanzaTokenizer(\"mt\")",
                       "original_lang_name": "maltese",
@@ -6460,6 +6566,13 @@
                 }
               ],
               "tokenizers": {
                 "Latn": {
                   "full_object": "StanzaTokenizer(\"mt\")",
                   "original_lang_name": "maltese",
@@ -6481,6 +6594,13 @@
             }
           ],
           "tokenizers": {
             "Latn": {
               "full_object": "StanzaTokenizer(\"mt\")",
               "original_lang_name": "maltese",
@@ -6951,6 +7071,13 @@
         }
       ],
       "tokenizers": {
         "Latn": {
           "full_object": "StanzaTokenizer(\"mt\")",
           "original_lang_name": "maltese",
@@ -7007,6 +7134,13 @@
       "script": "Copt",
       "class_name": "StanzaTokenizer"
     },
     "Latn": {
       "full_object": "StanzaTokenizer(\"mt\")",
       "original_lang_name": "maltese",

                       "iso_1_code": "ar",
                       "iso_3_code": "acm",
                       "children": [],
+                      "tokenizers": {
+                        "Arab": {
+                          "full_object": "SpaCyTokenizer(\"ar\")",
+                          "original_lang_name": "arabic",
+                          "original_lang_code": "ara",
+                          "script": "Arab",
+                          "class_name": "SpaCyTokenizer"
+                        }
+                      },
                       "node_i": "487",
+                      "native_tokenizers": [
+                        "Arab"
+                      ],
                       "scripts": [
                         "Arab"
                       ]
                       "iso_1_code": "ar",
                       "iso_3_code": "aeb",
                       "children": [],
+                      "tokenizers": {
+                        "Arab": {
+                          "full_object": "SpaCyTokenizer(\"ar\")",
+                          "original_lang_name": "arabic",
+                          "original_lang_code": "ara",
+                          "script": "Arab",
+                          "class_name": "SpaCyTokenizer"
+                        }
+                      },
                       "node_i": "493",
+                      "native_tokenizers": [
+                        "Arab"
+                      ],
                       "scripts": [
                         "Arab"
                       ]
                       "iso_1_code": "ar",
                       "iso_3_code": "apc",
                       "children": [],
+                      "tokenizers": {
+                        "Arab": {
+                          "full_object": "SpaCyTokenizer(\"ar\")",
+                          "original_lang_name": "arabic",
+                          "original_lang_code": "ara",
+                          "script": "Arab",
+                          "class_name": "SpaCyTokenizer"
+                        }
+                      },
                       "node_i": "497",
+                      "native_tokenizers": [
+                        "Arab"
+                      ],
                       "scripts": [
                         "Arab"
                       ]
                       "iso_3_code": "arb",
                       "children": [],
                       "tokenizers": {
+                        "Arab": {
+                          "full_object": "SpaCyTokenizer(\"ar\")",
+                          "original_lang_name": "arabic",
+                          "original_lang_code": "ara",
+                          "script": "Arab",
+                          "class_name": "SpaCyTokenizer"
+                        },
                         "Latn": {
                           "full_object": "StanzaTokenizer(\"mt\")",
                           "original_lang_name": "maltese",
                         }
                       },
                       "node_i": "499",
+                      "native_tokenizers": [
+                        "Arab"
+                      ],
                       "scripts": [
                         "Arab",
                         "Latn"
                       "iso_1_code": "ar",
                       "iso_3_code": "arq",
                       "children": [],
+                      "tokenizers": {
+                        "Arab": {
+                          "full_object": "SpaCyTokenizer(\"ar\")",
+                          "original_lang_name": "arabic",
+                          "original_lang_code": "ara",
+                          "script": "Arab",
+                          "class_name": "SpaCyTokenizer"
+                        }
+                      },
                       "node_i": "500",
+                      "native_tokenizers": [
+                        "Arab"
+                      ],
                       "scripts": [
                         "Arab"
                       ]
                       "iso_1_code": "ar",
                       "iso_3_code": "ars",
                       "children": [],
+                      "tokenizers": {
+                        "Arab": {
+                          "full_object": "SpaCyTokenizer(\"ar\")",
+                          "original_lang_name": "arabic",
+                          "original_lang_code": "ara",
+                          "script": "Arab",
+                          "class_name": "SpaCyTokenizer"
+                        }
+                      },
                       "node_i": "501",
+                      "native_tokenizers": [
+                        "Arab"
+                      ],
                       "scripts": [
                         "Arab"
                       ]
                       "iso_1_code": "ar",
                       "iso_3_code": "ary",
                       "children": [],
+                      "tokenizers": {
+                        "Arab": {
+                          "full_object": "SpaCyTokenizer(\"ar\")",
+                          "original_lang_name": "arabic",
+                          "original_lang_code": "ara",
+                          "script": "Arab",
+                          "class_name": "SpaCyTokenizer"
+                        }
+                      },
                       "node_i": "502",
+                      "native_tokenizers": [
+                        "Arab"
+                      ],
                       "scripts": [
                         "Arab"
                       ]
                       "iso_1_code": "ar",
                       "iso_3_code": "arz",
                       "children": [],
+                      "tokenizers": {
+                        "Arab": {
+                          "full_object": "SpaCyTokenizer(\"ar\")",
+                          "original_lang_name": "arabic",
+                          "original_lang_code": "ara",
+                          "script": "Arab",
+                          "class_name": "SpaCyTokenizer"
+                        }
+                      },
                       "node_i": "503",
+                      "native_tokenizers": [
+                        "Arab"
+                      ],
                       "scripts": [
                         "Arab"
                       ]
                       "iso_1_code": "ar",
                       "iso_3_code": "ayp",
                       "children": [],
+                      "tokenizers": {
+                        "Arab": {
+                          "full_object": "SpaCyTokenizer(\"ar\")",
+                          "original_lang_name": "arabic",
+                          "original_lang_code": "ara",
+                          "script": "Arab",
+                          "class_name": "SpaCyTokenizer"
+                        }
+                      },
                       "node_i": "509",
+                      "native_tokenizers": [
+                        "Arab"
+                      ],
                       "scripts": [
                         "Arab"
                       ]
                       "iso_1_code": "ar",
                       "iso_3_code": "shu",
                       "children": [],
+                      "tokenizers": {
+                        "Arab": {
+                          "full_object": "SpaCyTokenizer(\"ar\")",
+                          "original_lang_name": "arabic",
+                          "original_lang_code": "ara",
+                          "script": "Arab",
+                          "class_name": "SpaCyTokenizer"
+                        }
+                      },
                       "node_i": "513",
+                      "native_tokenizers": [
+                        "Arab"
+                      ],
                       "scripts": [
                         "Arab"
                       ]
                     }
                   ],
                   "tokenizers": {
+                    "Arab": {
+                      "full_object": "SpaCyTokenizer(\"ar\")",
+                      "original_lang_name": "arabic",
+                      "original_lang_code": "ara",
+                      "script": "Arab",
+                      "class_name": "SpaCyTokenizer"
+                    },
                     "Latn": {
                       "full_object": "StanzaTokenizer(\"mt\")",
                       "original_lang_name": "maltese",
                 }
               ],
               "tokenizers": {
+                "Arab": {
+                  "full_object": "SpaCyTokenizer(\"ar\")",
+                  "original_lang_name": "arabic",
+                  "original_lang_code": "ara",
+                  "script": "Arab",
+                  "class_name": "SpaCyTokenizer"
+                },
                 "Latn": {
                   "full_object": "StanzaTokenizer(\"mt\")",
                   "original_lang_name": "maltese",
             }
           ],
           "tokenizers": {
+            "Arab": {
+              "full_object": "SpaCyTokenizer(\"ar\")",
+              "original_lang_name": "arabic",
+              "original_lang_code": "ara",
+              "script": "Arab",
+              "class_name": "SpaCyTokenizer"
+            },
             "Latn": {
               "full_object": "StanzaTokenizer(\"mt\")",
               "original_lang_name": "maltese",
         }
       ],
       "tokenizers": {
+        "Arab": {
+          "full_object": "SpaCyTokenizer(\"ar\")",
+          "original_lang_name": "arabic",
+          "original_lang_code": "ara",
+          "script": "Arab",
+          "class_name": "SpaCyTokenizer"
+        },
         "Latn": {
           "full_object": "StanzaTokenizer(\"mt\")",
           "original_lang_name": "maltese",
       "script": "Copt",
       "class_name": "StanzaTokenizer"
     },
+    "Arab": {
+      "full_object": "SpaCyTokenizer(\"ar\")",
+      "original_lang_name": "arabic",
+      "original_lang_code": "ara",
+      "script": "Arab",
+      "class_name": "SpaCyTokenizer"
+    },
     "Latn": {
       "full_object": "StanzaTokenizer(\"mt\")",
       "original_lang_name": "maltese",

data/Austronesian.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

data/Creole.json CHANGED Viewed

@@ -833,11 +833,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3540",
@@ -863,11 +863,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3542",
@@ -883,11 +883,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3543",
@@ -903,11 +903,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3544",
@@ -923,11 +923,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3545",
@@ -963,11 +963,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3548",
@@ -983,11 +983,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3549",
@@ -1009,11 +1009,11 @@
       ],
       "tokenizers": {
         "Latn": {
-          "full_object": "StanzaTokenizer(\"pcm\")",
-          "original_lang_name": "nigerian_pidgin",
-          "original_lang_code": "pcm",
           "script": "Latn",
-          "class_name": "StanzaTokenizer"
         }
       },
       "node_i": "3539",
@@ -1074,11 +1074,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3556",
@@ -1090,11 +1090,11 @@
       ],
       "tokenizers": {
         "Latn": {
-          "full_object": "StanzaTokenizer(\"pcm\")",
-          "original_lang_name": "nigerian_pidgin",
-          "original_lang_code": "pcm",
           "script": "Latn",
-          "class_name": "StanzaTokenizer"
         }
       },
       "node_i": "3555",
@@ -1134,11 +1134,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3560",
@@ -1160,11 +1160,11 @@
       ],
       "tokenizers": {
         "Latn": {
-          "full_object": "StanzaTokenizer(\"pcm\")",
-          "original_lang_name": "nigerian_pidgin",
-          "original_lang_code": "pcm",
           "script": "Latn",
-          "class_name": "StanzaTokenizer"
         }
       },
       "node_i": "3559",
@@ -1183,11 +1183,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3563",
@@ -1203,11 +1203,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3564",
@@ -1263,15 +1263,17 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3569",
-          "native_tokenizers": [],
           "scripts": [
             "Latn"
           ]
@@ -1283,11 +1285,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3570",
@@ -1313,11 +1315,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3572",
@@ -1363,15 +1365,17 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3576",
-          "native_tokenizers": [],
           "scripts": [
             "Latn"
           ]
@@ -1379,11 +1383,11 @@
       ],
       "tokenizers": {
         "Latn": {
-          "full_object": "StanzaTokenizer(\"pcm\")",
-          "original_lang_name": "nigerian_pidgin",
-          "original_lang_code": "pcm",
           "script": "Latn",
-          "class_name": "StanzaTokenizer"
         }
       },
       "node_i": "3562",
@@ -1402,11 +1406,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3578",
@@ -1428,11 +1432,11 @@
       ],
       "tokenizers": {
         "Latn": {
-          "full_object": "StanzaTokenizer(\"pcm\")",
-          "original_lang_name": "nigerian_pidgin",
-          "original_lang_code": "pcm",
           "script": "Latn",
-          "class_name": "StanzaTokenizer"
         }
       },
       "node_i": "3577",
@@ -1471,11 +1475,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3583",
@@ -1511,11 +1515,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3586",
@@ -1551,11 +1555,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3589",
@@ -1607,11 +1611,11 @@
       ],
       "tokenizers": {
         "Latn": {
-          "full_object": "StanzaTokenizer(\"pcm\")",
-          "original_lang_name": "nigerian_pidgin",
-          "original_lang_code": "pcm",
           "script": "Latn",
-          "class_name": "StanzaTokenizer"
         }
       },
       "node_i": "3580",
@@ -1630,11 +1634,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3595",
@@ -1656,11 +1660,11 @@
       ],
       "tokenizers": {
         "Latn": {
-          "full_object": "StanzaTokenizer(\"pcm\")",
-          "original_lang_name": "nigerian_pidgin",
-          "original_lang_code": "pcm",
           "script": "Latn",
-          "class_name": "StanzaTokenizer"
         }
       },
       "node_i": "3594",
@@ -1700,11 +1704,11 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "StanzaTokenizer(\"pcm\")",
-              "original_lang_name": "nigerian_pidgin",
-              "original_lang_code": "pcm",
               "script": "Latn",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "3600",
@@ -1716,11 +1720,11 @@
       ],
       "tokenizers": {
         "Latn": {
-          "full_object": "StanzaTokenizer(\"pcm\")",
-          "original_lang_name": "nigerian_pidgin",
-          "original_lang_code": "pcm",
           "script": "Latn",
-          "class_name": "StanzaTokenizer"
         }
       },
       "node_i": "3599",
@@ -1730,11 +1734,11 @@
   ],
   "tokenizers": {
     "Latn": {
-      "full_object": "StanzaTokenizer(\"pcm\")",
-      "original_lang_name": "nigerian_pidgin",
-      "original_lang_code": "pcm",
       "script": "Latn",
-      "class_name": "StanzaTokenizer"
     }
   },
   "node_i": "3481",

           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3540",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3542",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3543",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3544",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3545",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3548",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3549",
       ],
       "tokenizers": {
         "Latn": {
+          "full_object": "SpaCyTokenizer(\"ms\")",
+          "original_lang_name": "malay",
+          "original_lang_code": "msa",
           "script": "Latn",
+          "class_name": "SpaCyTokenizer"
         }
       },
       "node_i": "3539",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3556",
       ],
       "tokenizers": {
         "Latn": {
+          "full_object": "SpaCyTokenizer(\"ms\")",
+          "original_lang_name": "malay",
+          "original_lang_code": "msa",
           "script": "Latn",
+          "class_name": "SpaCyTokenizer"
         }
       },
       "node_i": "3555",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3560",
       ],
       "tokenizers": {
         "Latn": {
+          "full_object": "SpaCyTokenizer(\"ms\")",
+          "original_lang_name": "malay",
+          "original_lang_code": "msa",
           "script": "Latn",
+          "class_name": "SpaCyTokenizer"
         }
       },
       "node_i": "3559",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3563",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3564",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3569",
+          "native_tokenizers": [
+            "Latn"
+          ],
           "scripts": [
             "Latn"
           ]
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3570",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3572",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3576",
+          "native_tokenizers": [
+            "Latn"
+          ],
           "scripts": [
             "Latn"
           ]
       ],
       "tokenizers": {
         "Latn": {
+          "full_object": "SpaCyTokenizer(\"ms\")",
+          "original_lang_name": "malay",
+          "original_lang_code": "msa",
           "script": "Latn",
+          "class_name": "SpaCyTokenizer"
         }
       },
       "node_i": "3562",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3578",
       ],
       "tokenizers": {
         "Latn": {
+          "full_object": "SpaCyTokenizer(\"ms\")",
+          "original_lang_name": "malay",
+          "original_lang_code": "msa",
           "script": "Latn",
+          "class_name": "SpaCyTokenizer"
         }
       },
       "node_i": "3577",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3583",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3586",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3589",
       ],
       "tokenizers": {
         "Latn": {
+          "full_object": "SpaCyTokenizer(\"ms\")",
+          "original_lang_name": "malay",
+          "original_lang_code": "msa",
           "script": "Latn",
+          "class_name": "SpaCyTokenizer"
         }
       },
       "node_i": "3580",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3595",
       ],
       "tokenizers": {
         "Latn": {
+          "full_object": "SpaCyTokenizer(\"ms\")",
+          "original_lang_name": "malay",
+          "original_lang_code": "msa",
           "script": "Latn",
+          "class_name": "SpaCyTokenizer"
         }
       },
       "node_i": "3594",
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"ms\")",
+              "original_lang_name": "malay",
+              "original_lang_code": "msa",
               "script": "Latn",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "3600",
       ],
       "tokenizers": {
         "Latn": {
+          "full_object": "SpaCyTokenizer(\"ms\")",
+          "original_lang_name": "malay",
+          "original_lang_code": "msa",
           "script": "Latn",
+          "class_name": "SpaCyTokenizer"
         }
       },
       "node_i": "3599",
   ],
   "tokenizers": {
     "Latn": {
+      "full_object": "SpaCyTokenizer(\"ms\")",
+      "original_lang_name": "malay",
+      "original_lang_code": "msa",
       "script": "Latn",
+      "class_name": "SpaCyTokenizer"
     }
   },
   "node_i": "3481",

data/Indo-European.json CHANGED Viewed

@@ -20,15 +20,17 @@
               "children": [],
               "tokenizers": {
                 "Latn": {
-                  "full_object": "SpaCyTokenizer(\"en\")",
-                  "original_lang_name": "english",
-                  "original_lang_code": "eng",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 }
               },
               "node_i": "3922",
-              "native_tokenizers": [],
               "scripts": [
                 "Latn"
               ]
@@ -36,9 +38,9 @@
           ],
           "tokenizers": {
             "Latn": {
-              "full_object": "SpaCyTokenizer(\"en\")",
-              "original_lang_name": "english",
-              "original_lang_code": "eng",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             }
@@ -79,15 +81,17 @@
               "children": [],
               "tokenizers": {
                 "Latn": {
-                  "full_object": "SpaCyTokenizer(\"en\")",
-                  "original_lang_name": "english",
-                  "original_lang_code": "eng",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 }
               },
               "node_i": "3926",
-              "native_tokenizers": [],
               "scripts": [
                 "Latn"
               ]
@@ -95,9 +99,9 @@
           ],
           "tokenizers": {
             "Latn": {
-              "full_object": "SpaCyTokenizer(\"en\")",
-              "original_lang_name": "english",
-              "original_lang_code": "eng",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             }
@@ -109,9 +113,9 @@
       ],
       "tokenizers": {
         "Latn": {
-          "full_object": "SpaCyTokenizer(\"en\")",
-          "original_lang_name": "english",
-          "original_lang_code": "eng",
           "script": "Latn",
           "class_name": "SpaCyTokenizer"
         }
@@ -227,15 +231,17 @@
                   "children": [],
                   "tokenizers": {
                     "Latn": {
-                      "full_object": "SpaCyTokenizer(\"lt\")",
-                      "original_lang_name": "lithuanian",
-                      "original_lang_code": "lit",
                       "script": "Latn",
                       "class_name": "SpaCyTokenizer"
                     }
                   },
                   "node_i": "3934",
-                  "native_tokenizers": [],
                   "scripts": [
                     "Latn"
                   ]
@@ -247,15 +253,17 @@
                   "children": [],
                   "tokenizers": {
                     "Latn": {
-                      "full_object": "SpaCyTokenizer(\"lt\")",
-                      "original_lang_name": "lithuanian",
-                      "original_lang_code": "lit",
                       "script": "Latn",
                       "class_name": "SpaCyTokenizer"
                     }
                   },
                   "node_i": "3935",
-                  "native_tokenizers": [],
                   "scripts": [
                     "Latn"
                   ]
@@ -267,9 +275,9 @@
                   "children": [],
                   "tokenizers": {
                     "Latn": {
-                      "full_object": "SpaCyTokenizer(\"lt\")",
-                      "original_lang_name": "lithuanian",
-                      "original_lang_code": "lit",
                       "script": "Latn",
                       "class_name": "SpaCyTokenizer"
                     }
@@ -293,9 +301,9 @@
               ],
               "tokenizers": {
                 "Latn": {
-                  "full_object": "SpaCyTokenizer(\"lt\")",
-                  "original_lang_name": "lithuanian",
-                  "original_lang_code": "lit",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 }
@@ -316,9 +324,9 @@
                   "children": [],
                   "tokenizers": {
                     "Latn": {
-                      "full_object": "SpaCyTokenizer(\"lt\")",
-                      "original_lang_name": "lithuanian",
-                      "original_lang_code": "lit",
                       "script": "Latn",
                       "class_name": "SpaCyTokenizer"
                     }
@@ -342,9 +350,9 @@
               ],
               "tokenizers": {
                 "Latn": {
-                  "full_object": "SpaCyTokenizer(\"lt\")",
-                  "original_lang_name": "lithuanian",
-                  "original_lang_code": "lit",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 }
@@ -356,9 +364,9 @@
           ],
           "tokenizers": {
             "Latn": {
-              "full_object": "SpaCyTokenizer(\"lt\")",
-              "original_lang_name": "lithuanian",
-              "original_lang_code": "lit",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             }
@@ -589,15 +597,17 @@
                       "children": [],
                       "tokenizers": {
                         "Latn": {
-                          "full_object": "SpaCyTokenizer(\"hr\")",
-                          "original_lang_name": "croatian",
-                          "original_lang_code": "hrv",
                           "script": "Latn",
                           "class_name": "SpaCyTokenizer"
                         }
                       },
                       "node_i": "3954",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Latn"
                       ]
@@ -609,9 +619,9 @@
                       "children": [],
                       "tokenizers": {
                         "Latn": {
-                          "full_object": "SpaCyTokenizer(\"hr\")",
-                          "original_lang_name": "croatian",
-                          "original_lang_code": "hrv",
                           "script": "Latn",
                           "class_name": "SpaCyTokenizer"
                         }
@@ -629,15 +639,17 @@
                       "children": [],
                       "tokenizers": {
                         "Latn": {
-                          "full_object": "SpaCyTokenizer(\"hr\")",
-                          "original_lang_name": "croatian",
-                          "original_lang_code": "hrv",
                           "script": "Latn",
                           "class_name": "SpaCyTokenizer"
                         }
                       },
                       "node_i": "3956",
-                      "native_tokenizers": [],
                       "scripts": [
                         "Latn"
                       ]
@@ -700,16 +712,17 @@
                           "class_name": "SpaCyTokenizer"
                         },
                         "Latn": {
-                          "full_object": "SpaCyTokenizer(\"hr\")",
-                          "original_lang_name": "croatian",
-                          "original_lang_code": "hrv",
                           "script": "Latn",
                           "class_name": "SpaCyTokenizer"
                         }
                       },
                       "node_i": "3959",
                       "native_tokenizers": [
-                        "Cyrl"
                       ],
                       "scripts": [
                         "Cyrl",
@@ -729,9 +742,9 @@
                   ],
                   "tokenizers": {
                     "Latn": {
-                      "full_object": "SpaCyTokenizer(\"hr\")",
-                      "original_lang_name": "croatian",
-                      "original_lang_code": "hrv",
                       "script": "Latn",
                       "class_name": "SpaCyTokenizer"
                     },
@@ -757,9 +770,9 @@
                   "class_name": "SpaCyTokenizer"
                 },
                 "Latn": {
-                  "full_object": "SpaCyTokenizer(\"hr\")",
-                  "original_lang_name": "croatian",
-                  "original_lang_code": "hrv",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 }
@@ -2694,9 +2707,9 @@
                           "children": [],
                           "tokenizers": {
                             "Deva": {
-                              "full_object": "IndicNLPTokenizer(\"hi\")",
-                              "original_lang_name": "hindi",
-                              "original_lang_code": "hin",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             }
@@ -2744,9 +2757,9 @@
                           "children": [],
                           "tokenizers": {
                             "Deva": {
-                              "full_object": "IndicNLPTokenizer(\"hi\")",
-                              "original_lang_name": "hindi",
-                              "original_lang_code": "hin",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             }
@@ -2780,9 +2793,9 @@
                       ],
                       "tokenizers": {
                         "Deva": {
-                          "full_object": "IndicNLPTokenizer(\"hi\")",
-                          "original_lang_name": "hindi",
-                          "original_lang_code": "hin",
                           "script": "Deva",
                           "class_name": "IndicNLPTokenizer"
                         },
@@ -2810,15 +2823,17 @@
                           "children": [],
                           "tokenizers": {
                             "Deva": {
-                              "full_object": "IndicNLPTokenizer(\"hi\")",
-                              "original_lang_name": "hindi",
-                              "original_lang_code": "hin",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             }
                           },
                           "node_i": "4080",
-                          "native_tokenizers": [],
                           "scripts": [
                             "Deva"
                           ]
@@ -2840,9 +2855,9 @@
                           "children": [],
                           "tokenizers": {
                             "Deva": {
-                              "full_object": "IndicNLPTokenizer(\"hi\")",
-                              "original_lang_name": "hindi",
-                              "original_lang_code": "hin",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             },
@@ -2855,7 +2870,9 @@
                             }
                           },
                           "node_i": "4082",
-                          "native_tokenizers": [],
                           "scripts": [
                             "Latn",
                             "Deva"
@@ -2864,9 +2881,9 @@
                       ],
                       "tokenizers": {
                         "Deva": {
-                          "full_object": "IndicNLPTokenizer(\"hi\")",
-                          "original_lang_name": "hindi",
-                          "original_lang_code": "hin",
                           "script": "Deva",
                           "class_name": "IndicNLPTokenizer"
                         },
@@ -2885,9 +2902,9 @@
                   ],
                   "tokenizers": {
                     "Deva": {
-                      "full_object": "IndicNLPTokenizer(\"hi\")",
-                      "original_lang_name": "hindi",
-                      "original_lang_code": "hin",
                       "script": "Deva",
                       "class_name": "IndicNLPTokenizer"
                     },
@@ -3941,9 +3958,9 @@
                               "children": [],
                               "tokenizers": {
                                 "Deva": {
-                                  "full_object": "IndicNLPTokenizer(\"hi\")",
-                                  "original_lang_name": "hindi",
-                                  "original_lang_code": "hin",
                                   "script": "Deva",
                                   "class_name": "IndicNLPTokenizer"
                                 }
@@ -3967,9 +3984,9 @@
                           ],
                           "tokenizers": {
                             "Deva": {
-                              "full_object": "IndicNLPTokenizer(\"hi\")",
-                              "original_lang_name": "hindi",
-                              "original_lang_code": "hin",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             }
@@ -3981,9 +3998,9 @@
                       ],
                       "tokenizers": {
                         "Deva": {
-                          "full_object": "IndicNLPTokenizer(\"hi\")",
-                          "original_lang_name": "hindi",
-                          "original_lang_code": "hin",
                           "script": "Deva",
                           "class_name": "IndicNLPTokenizer"
                         }
@@ -4295,9 +4312,9 @@
                       "class_name": "IndicNLPTokenizer"
                     },
                     "Deva": {
-                      "full_object": "IndicNLPTokenizer(\"hi\")",
-                      "original_lang_name": "hindi",
-                      "original_lang_code": "hin",
                       "script": "Deva",
                       "class_name": "IndicNLPTokenizer"
                     },
@@ -4336,6 +4353,13 @@
                 }
               ],
               "tokenizers": {
                 "Gujr": {
                   "full_object": "IndicNLPTokenizer(\"gu\")",
                   "original_lang_name": "gujarati",
@@ -4350,13 +4374,6 @@
                   "script": "Guru",
                   "class_name": "IndicNLPTokenizer"
                 },
-                "Deva": {
-                  "full_object": "IndicNLPTokenizer(\"hi\")",
-                  "original_lang_name": "hindi",
-                  "original_lang_code": "hin",
-                  "script": "Deva",
-                  "class_name": "IndicNLPTokenizer"
-                },
                 "Arab": {
                   "full_object": "IndicNLPTokenizer(\"ur\")",
                   "original_lang_name": "urdu",
@@ -4990,6 +5007,13 @@
                           "iso_3_code": "ory",
                           "children": [],
                           "tokenizers": {
                             "Latn": {
                               "full_object": "StanzaTokenizer(\"kmr\")",
                               "original_lang_name": "northern_kurdish",
@@ -4999,7 +5023,9 @@
                             }
                           },
                           "node_i": "4234",
-                          "native_tokenizers": [],
                           "scripts": [
                             "Latn",
                             "Orya"
@@ -5027,6 +5053,13 @@
                         }
                       ],
                       "tokenizers": {
                         "Latn": {
                           "full_object": "StanzaTokenizer(\"kmr\")",
                           "original_lang_name": "northern_kurdish",
@@ -5114,6 +5147,13 @@
                       "script": "Deva",
                       "class_name": "IndicNLPTokenizer"
                     },
                     "Latn": {
                       "full_object": "StanzaTokenizer(\"kmr\")",
                       "original_lang_name": "northern_kurdish",
@@ -5756,9 +5796,9 @@
                           "children": [],
                           "tokenizers": {
                             "Deva": {
-                              "full_object": "IndicNLPTokenizer(\"mr\")",
-                              "original_lang_name": "marathi",
-                              "original_lang_code": "mar",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             },
@@ -5771,7 +5811,9 @@
                             }
                           },
                           "node_i": "4287",
-                          "native_tokenizers": [],
                           "scripts": [
                             "Latn",
                             "Deva"
@@ -5784,9 +5826,9 @@
                           "children": [],
                           "tokenizers": {
                             "Deva": {
-                              "full_object": "IndicNLPTokenizer(\"mr\")",
-                              "original_lang_name": "marathi",
-                              "original_lang_code": "mar",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             }
@@ -5850,9 +5892,9 @@
                       ],
                       "tokenizers": {
                         "Deva": {
-                          "full_object": "IndicNLPTokenizer(\"mr\")",
-                          "original_lang_name": "marathi",
-                          "original_lang_code": "mar",
                           "script": "Deva",
                           "class_name": "IndicNLPTokenizer"
                         },
@@ -6026,6 +6068,13 @@
                   "script": "Deva",
                   "class_name": "IndicNLPTokenizer"
                 },
                 "Arab": {
                   "full_object": "IndicNLPTokenizer(\"ur\")",
                   "original_lang_name": "sindhi",
@@ -6570,6 +6619,13 @@
               "script": "Beng",
               "class_name": "IndicNLPTokenizer"
             },
             "Arab": {
               "full_object": "IndicNLPTokenizer(\"ur\")",
               "original_lang_name": "urdu",
@@ -8215,6 +8271,13 @@
           "script": "Beng",
           "class_name": "IndicNLPTokenizer"
         },
         "Arab": {
           "full_object": "IndicNLPTokenizer(\"ur\")",
           "original_lang_name": "urdu",
@@ -9568,13 +9631,6 @@
     }
   ],
   "tokenizers": {
-    "Armn": {
-      "full_object": "SpaCyTokenizer(\"hy\")",
-      "original_lang_name": "armenian",
-      "original_lang_code": "hye",
-      "script": "Armn",
-      "class_name": "SpaCyTokenizer"
-    },
     "Latn": {
       "full_object": "SpaCyTokenizer(\"en\")",
       "original_lang_name": "english",
@@ -9582,6 +9638,13 @@
       "script": "Latn",
       "class_name": "SpaCyTokenizer"
     },
     "Cyrl": {
       "full_object": "SpaCyTokenizer(\"ru\")",
       "original_lang_name": "russian",
@@ -9624,6 +9687,13 @@
       "script": "Beng",
       "class_name": "IndicNLPTokenizer"
     },
     "Arab": {
       "full_object": "IndicNLPTokenizer(\"ur\")",
       "original_lang_name": "urdu",

               "children": [],
               "tokenizers": {
                 "Latn": {
+                  "full_object": "SpaCyTokenizer(\"sq\")",
+                  "original_lang_name": "albanian",
+                  "original_lang_code": "sqi",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 }
               },
               "node_i": "3922",
+              "native_tokenizers": [
+                "Latn"
+              ],
               "scripts": [
                 "Latn"
               ]
           ],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"sq\")",
+              "original_lang_name": "albanian",
+              "original_lang_code": "sqi",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             }
               "children": [],
               "tokenizers": {
                 "Latn": {
+                  "full_object": "SpaCyTokenizer(\"sq\")",
+                  "original_lang_name": "albanian",
+                  "original_lang_code": "sqi",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 }
               },
               "node_i": "3926",
+              "native_tokenizers": [
+                "Latn"
+              ],
               "scripts": [
                 "Latn"
               ]
           ],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"sq\")",
+              "original_lang_name": "albanian",
+              "original_lang_code": "sqi",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             }
       ],
       "tokenizers": {
         "Latn": {
+          "full_object": "SpaCyTokenizer(\"sq\")",
+          "original_lang_name": "albanian",
+          "original_lang_code": "sqi",
           "script": "Latn",
           "class_name": "SpaCyTokenizer"
         }
                   "children": [],
                   "tokenizers": {
                     "Latn": {
+                      "full_object": "SpaCyTokenizer(\"lv\")",
+                      "original_lang_name": "latvian",
+                      "original_lang_code": "lav",
                       "script": "Latn",
                       "class_name": "SpaCyTokenizer"
                     }
                   },
                   "node_i": "3934",
+                  "native_tokenizers": [
+                    "Latn"
+                  ],
                   "scripts": [
                     "Latn"
                   ]
                   "children": [],
                   "tokenizers": {
                     "Latn": {
+                      "full_object": "SpaCyTokenizer(\"lv\")",
+                      "original_lang_name": "latvian",
+                      "original_lang_code": "lav",
                       "script": "Latn",
                       "class_name": "SpaCyTokenizer"
                     }
                   },
                   "node_i": "3935",
+                  "native_tokenizers": [
+                    "Latn"
+                  ],
                   "scripts": [
                     "Latn"
                   ]
                   "children": [],
                   "tokenizers": {
                     "Latn": {
+                      "full_object": "SpaCyTokenizer(\"lv\")",
+                      "original_lang_name": "latvian",
+                      "original_lang_code": "lav",
                       "script": "Latn",
                       "class_name": "SpaCyTokenizer"
                     }
               ],
               "tokenizers": {
                 "Latn": {
+                  "full_object": "SpaCyTokenizer(\"lv\")",
+                  "original_lang_name": "latvian",
+                  "original_lang_code": "lav",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 }
                   "children": [],
                   "tokenizers": {
                     "Latn": {
+                      "full_object": "SpaCyTokenizer(\"lv\")",
+                      "original_lang_name": "latvian",
+                      "original_lang_code": "lav",
                       "script": "Latn",
                       "class_name": "SpaCyTokenizer"
                     }
               ],
               "tokenizers": {
                 "Latn": {
+                  "full_object": "SpaCyTokenizer(\"lv\")",
+                  "original_lang_name": "latvian",
+                  "original_lang_code": "lav",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 }
           ],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"lv\")",
+              "original_lang_name": "latvian",
+              "original_lang_code": "lav",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             }
                       "children": [],
                       "tokenizers": {
                         "Latn": {
+                          "full_object": "SpaCyTokenizer(\"sr\")",
+                          "original_lang_name": "serbocroatian",
+                          "original_lang_code": "hbs",
                           "script": "Latn",
                           "class_name": "SpaCyTokenizer"
                         }
                       },
                       "node_i": "3954",
+                      "native_tokenizers": [
+                        "Latn"
+                      ],
                       "scripts": [
                         "Latn"
                       ]
                       "children": [],
                       "tokenizers": {
                         "Latn": {
+                          "full_object": "SpaCyTokenizer(\"sr\")",
+                          "original_lang_name": "serbocroatian",
+                          "original_lang_code": "hbs",
                           "script": "Latn",
                           "class_name": "SpaCyTokenizer"
                         }
                       "children": [],
                       "tokenizers": {
                         "Latn": {
+                          "full_object": "SpaCyTokenizer(\"sr\")",
+                          "original_lang_name": "serbocroatian",
+                          "original_lang_code": "hbs",
                           "script": "Latn",
                           "class_name": "SpaCyTokenizer"
                         }
                       },
                       "node_i": "3956",
+                      "native_tokenizers": [
+                        "Latn"
+                      ],
                       "scripts": [
                         "Latn"
                       ]
                           "class_name": "SpaCyTokenizer"
                         },
                         "Latn": {
+                          "full_object": "SpaCyTokenizer(\"sr\")",
+                          "original_lang_name": "serbocroatian",
+                          "original_lang_code": "hbs",
                           "script": "Latn",
                           "class_name": "SpaCyTokenizer"
                         }
                       },
                       "node_i": "3959",
                       "native_tokenizers": [
+                        "Cyrl",
+                        "Latn"
                       ],
                       "scripts": [
                         "Cyrl",
                   ],
                   "tokenizers": {
                     "Latn": {
+                      "full_object": "SpaCyTokenizer(\"sr\")",
+                      "original_lang_name": "serbocroatian",
+                      "original_lang_code": "hbs",
                       "script": "Latn",
                       "class_name": "SpaCyTokenizer"
                     },
                   "class_name": "SpaCyTokenizer"
                 },
                 "Latn": {
+                  "full_object": "SpaCyTokenizer(\"sr\")",
+                  "original_lang_name": "serbocroatian",
+                  "original_lang_code": "hbs",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 }
                           "children": [],
                           "tokenizers": {
                             "Deva": {
+                              "full_object": "IndicNLPTokenizer(\"ne\")",
+                              "original_lang_name": "nepali",
+                              "original_lang_code": "nep",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             }
                           "children": [],
                           "tokenizers": {
                             "Deva": {
+                              "full_object": "IndicNLPTokenizer(\"ne\")",
+                              "original_lang_name": "nepali",
+                              "original_lang_code": "nep",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             }
                       ],
                       "tokenizers": {
                         "Deva": {
+                          "full_object": "IndicNLPTokenizer(\"ne\")",
+                          "original_lang_name": "nepali",
+                          "original_lang_code": "nep",
                           "script": "Deva",
                           "class_name": "IndicNLPTokenizer"
                         },
                           "children": [],
                           "tokenizers": {
                             "Deva": {
+                              "full_object": "IndicNLPTokenizer(\"ne\")",
+                              "original_lang_name": "nepali",
+                              "original_lang_code": "nep",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             }
                           },
                           "node_i": "4080",
+                          "native_tokenizers": [
+                            "Deva"
+                          ],
                           "scripts": [
                             "Deva"
                           ]
                           "children": [],
                           "tokenizers": {
                             "Deva": {
+                              "full_object": "IndicNLPTokenizer(\"ne\")",
+                              "original_lang_name": "nepali",
+                              "original_lang_code": "nep",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             },
                             }
                           },
                           "node_i": "4082",
+                          "native_tokenizers": [
+                            "Deva"
+                          ],
                           "scripts": [
                             "Latn",
                             "Deva"
                       ],
                       "tokenizers": {
                         "Deva": {
+                          "full_object": "IndicNLPTokenizer(\"ne\")",
+                          "original_lang_name": "nepali",
+                          "original_lang_code": "nep",
                           "script": "Deva",
                           "class_name": "IndicNLPTokenizer"
                         },
                   ],
                   "tokenizers": {
                     "Deva": {
+                      "full_object": "IndicNLPTokenizer(\"ne\")",
+                      "original_lang_name": "nepali",
+                      "original_lang_code": "nep",
                       "script": "Deva",
                       "class_name": "IndicNLPTokenizer"
                     },
                               "children": [],
                               "tokenizers": {
                                 "Deva": {
+                                  "full_object": "IndicNLPTokenizer(\"ne\")",
+                                  "original_lang_name": "nepali",
+                                  "original_lang_code": "nep",
                                   "script": "Deva",
                                   "class_name": "IndicNLPTokenizer"
                                 }
                           ],
                           "tokenizers": {
                             "Deva": {
+                              "full_object": "IndicNLPTokenizer(\"ne\")",
+                              "original_lang_name": "nepali",
+                              "original_lang_code": "nep",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             }
                       ],
                       "tokenizers": {
                         "Deva": {
+                          "full_object": "IndicNLPTokenizer(\"ne\")",
+                          "original_lang_name": "nepali",
+                          "original_lang_code": "nep",
                           "script": "Deva",
                           "class_name": "IndicNLPTokenizer"
                         }
                       "class_name": "IndicNLPTokenizer"
                     },
                     "Deva": {
+                      "full_object": "IndicNLPTokenizer(\"ne\")",
+                      "original_lang_name": "nepali",
+                      "original_lang_code": "nep",
                       "script": "Deva",
                       "class_name": "IndicNLPTokenizer"
                     },
                 }
               ],
               "tokenizers": {
+                "Deva": {
+                  "full_object": "IndicNLPTokenizer(\"ne\")",
+                  "original_lang_name": "nepali",
+                  "original_lang_code": "nep",
+                  "script": "Deva",
+                  "class_name": "IndicNLPTokenizer"
+                },
                 "Gujr": {
                   "full_object": "IndicNLPTokenizer(\"gu\")",
                   "original_lang_name": "gujarati",
                   "script": "Guru",
                   "class_name": "IndicNLPTokenizer"
                 },
                 "Arab": {
                   "full_object": "IndicNLPTokenizer(\"ur\")",
                   "original_lang_name": "urdu",
                           "iso_3_code": "ory",
                           "children": [],
                           "tokenizers": {
+                            "Orya": {
+                              "full_object": "IndicNLPTokenizer(\"or\")",
+                              "original_lang_name": "oriya",
+                              "original_lang_code": "ori",
+                              "script": "Orya",
+                              "class_name": "IndicNLPTokenizer"
+                            },
                             "Latn": {
                               "full_object": "StanzaTokenizer(\"kmr\")",
                               "original_lang_name": "northern_kurdish",
                             }
                           },
                           "node_i": "4234",
+                          "native_tokenizers": [
+                            "Orya"
+                          ],
                           "scripts": [
                             "Latn",
                             "Orya"
                         }
                       ],
                       "tokenizers": {
+                        "Orya": {
+                          "full_object": "IndicNLPTokenizer(\"or\")",
+                          "original_lang_name": "oriya",
+                          "original_lang_code": "ori",
+                          "script": "Orya",
+                          "class_name": "IndicNLPTokenizer"
+                        },
                         "Latn": {
                           "full_object": "StanzaTokenizer(\"kmr\")",
                           "original_lang_name": "northern_kurdish",
                       "script": "Deva",
                       "class_name": "IndicNLPTokenizer"
                     },
+                    "Orya": {
+                      "full_object": "IndicNLPTokenizer(\"or\")",
+                      "original_lang_name": "oriya",
+                      "original_lang_code": "ori",
+                      "script": "Orya",
+                      "class_name": "IndicNLPTokenizer"
+                    },
                     "Latn": {
                       "full_object": "StanzaTokenizer(\"kmr\")",
                       "original_lang_name": "northern_kurdish",
                           "children": [],
                           "tokenizers": {
                             "Deva": {
+                              "full_object": "IndicNLPTokenizer(\"kK\")",
+                              "original_lang_name": "konkani",
+                              "original_lang_code": "kok",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             },
                             }
                           },
                           "node_i": "4287",
+                          "native_tokenizers": [
+                            "Deva"
+                          ],
                           "scripts": [
                             "Latn",
                             "Deva"
                           "children": [],
                           "tokenizers": {
                             "Deva": {
+                              "full_object": "IndicNLPTokenizer(\"kK\")",
+                              "original_lang_name": "konkani",
+                              "original_lang_code": "kok",
                               "script": "Deva",
                               "class_name": "IndicNLPTokenizer"
                             }
                       ],
                       "tokenizers": {
                         "Deva": {
+                          "full_object": "IndicNLPTokenizer(\"kK\")",
+                          "original_lang_name": "konkani",
+                          "original_lang_code": "kok",
                           "script": "Deva",
                           "class_name": "IndicNLPTokenizer"
                         },
                   "script": "Deva",
                   "class_name": "IndicNLPTokenizer"
                 },
+                "Orya": {
+                  "full_object": "IndicNLPTokenizer(\"or\")",
+                  "original_lang_name": "oriya",
+                  "original_lang_code": "ori",
+                  "script": "Orya",
+                  "class_name": "IndicNLPTokenizer"
+                },
                 "Arab": {
                   "full_object": "IndicNLPTokenizer(\"ur\")",
                   "original_lang_name": "sindhi",
               "script": "Beng",
               "class_name": "IndicNLPTokenizer"
             },
+            "Orya": {
+              "full_object": "IndicNLPTokenizer(\"or\")",
+              "original_lang_name": "oriya",
+              "original_lang_code": "ori",
+              "script": "Orya",
+              "class_name": "IndicNLPTokenizer"
+            },
             "Arab": {
               "full_object": "IndicNLPTokenizer(\"ur\")",
               "original_lang_name": "urdu",
           "script": "Beng",
           "class_name": "IndicNLPTokenizer"
         },
+        "Orya": {
+          "full_object": "IndicNLPTokenizer(\"or\")",
+          "original_lang_name": "oriya",
+          "original_lang_code": "ori",
+          "script": "Orya",
+          "class_name": "IndicNLPTokenizer"
+        },
         "Arab": {
           "full_object": "IndicNLPTokenizer(\"ur\")",
           "original_lang_name": "urdu",
     }
   ],
   "tokenizers": {
     "Latn": {
       "full_object": "SpaCyTokenizer(\"en\")",
       "original_lang_name": "english",
       "script": "Latn",
       "class_name": "SpaCyTokenizer"
     },
+    "Armn": {
+      "full_object": "SpaCyTokenizer(\"hy\")",
+      "original_lang_name": "armenian",
+      "original_lang_code": "hye",
+      "script": "Armn",
+      "class_name": "SpaCyTokenizer"
+    },
     "Cyrl": {
       "full_object": "SpaCyTokenizer(\"ru\")",
       "original_lang_name": "russian",
       "script": "Beng",
       "class_name": "IndicNLPTokenizer"
     },
+    "Orya": {
+      "full_object": "IndicNLPTokenizer(\"or\")",
+      "original_lang_name": "oriya",
+      "original_lang_code": "ori",
+      "script": "Orya",
+      "class_name": "IndicNLPTokenizer"
+    },
     "Arab": {
       "full_object": "IndicNLPTokenizer(\"ur\")",
       "original_lang_name": "urdu",

data/Sino-Tibetan.json CHANGED Viewed

@@ -35,15 +35,17 @@
           "children": [],
           "tokenizers": {
             "Hani": {
-              "full_object": "StanzaTokenizer(\"lzh\")",
-              "original_lang_name": "literary_chinese",
-              "original_lang_code": "lzh",
               "script": "Hani",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "8922",
-          "native_tokenizers": [],
           "scripts": [
             "Hani"
           ]
@@ -127,15 +129,17 @@
           "children": [],
           "tokenizers": {
             "Hani": {
-              "full_object": "StanzaTokenizer(\"lzh\")",
-              "original_lang_name": "literary_chinese",
-              "original_lang_code": "lzh",
               "script": "Hani",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "8930",
-          "native_tokenizers": [],
           "scripts": [
             "Latn",
             "Hani"
@@ -200,15 +204,17 @@
           "children": [],
           "tokenizers": {
             "Hani": {
-              "full_object": "StanzaTokenizer(\"lzh\")",
-              "original_lang_name": "literary_chinese",
-              "original_lang_code": "lzh",
               "script": "Hani",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "8935",
-          "native_tokenizers": [],
           "scripts": [
             "Hani"
           ]
@@ -220,15 +226,17 @@
           "children": [],
           "tokenizers": {
             "Hani": {
-              "full_object": "StanzaTokenizer(\"lzh\")",
-              "original_lang_name": "literary_chinese",
-              "original_lang_code": "lzh",
               "script": "Hani",
-              "class_name": "StanzaTokenizer"
             }
           },
           "node_i": "8936",
-          "native_tokenizers": [],
           "scripts": [
             "Hani"
           ]
@@ -236,11 +244,11 @@
       ],
       "tokenizers": {
         "Hani": {
-          "full_object": "StanzaTokenizer(\"lzh\")",
-          "original_lang_name": "literary_chinese",
-          "original_lang_code": "lzh",
           "script": "Hani",
-          "class_name": "StanzaTokenizer"
         }
       },
       "node_i": "8919",
@@ -6211,11 +6219,11 @@
   ],
   "tokenizers": {
     "Hani": {
-      "full_object": "StanzaTokenizer(\"lzh\")",
-      "original_lang_name": "literary_chinese",
-      "original_lang_code": "lzh",
       "script": "Hani",
-      "class_name": "StanzaTokenizer"
     },
     "Deva": {
       "full_object": "IndicNLPTokenizer(\"hi\")",

           "children": [],
           "tokenizers": {
             "Hani": {
+              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
+              "original_lang_name": "chinese",
+              "original_lang_code": "zho",
               "script": "Hani",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "8922",
+          "native_tokenizers": [
+            "Hani"
+          ],
           "scripts": [
             "Hani"
           ]
           "children": [],
           "tokenizers": {
             "Hani": {
+              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
+              "original_lang_name": "chinese",
+              "original_lang_code": "zho",
               "script": "Hani",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "8930",
+          "native_tokenizers": [
+            "Hani"
+          ],
           "scripts": [
             "Latn",
             "Hani"
           "children": [],
           "tokenizers": {
             "Hani": {
+              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
+              "original_lang_name": "chinese",
+              "original_lang_code": "zho",
               "script": "Hani",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "8935",
+          "native_tokenizers": [
+            "Hani"
+          ],
           "scripts": [
             "Hani"
           ]
           "children": [],
           "tokenizers": {
             "Hani": {
+              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
+              "original_lang_name": "chinese",
+              "original_lang_code": "zho",
               "script": "Hani",
+              "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "8936",
+          "native_tokenizers": [
+            "Hani"
+          ],
           "scripts": [
             "Hani"
           ]
       ],
       "tokenizers": {
         "Hani": {
+          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
+          "original_lang_name": "chinese",
+          "original_lang_code": "zho",
           "script": "Hani",
+          "class_name": "SpaCyTokenizer"
         }
       },
       "node_i": "8919",
   ],
   "tokenizers": {
     "Hani": {
+      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
+      "original_lang_name": "chinese",
+      "original_lang_code": "zho",
       "script": "Hani",
+      "class_name": "SpaCyTokenizer"
     },
     "Deva": {
       "full_object": "IndicNLPTokenizer(\"hi\")",

data/Turkic.json CHANGED Viewed

@@ -455,9 +455,9 @@
               "children": [],
               "tokenizers": {
                 "Latn": {
-                  "full_object": "SpaCyTokenizer(\"tr\")",
-                  "original_lang_name": "turkish",
-                  "original_lang_code": "tur",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 },
@@ -470,7 +470,9 @@
                 }
               },
               "node_i": "10584",
-              "native_tokenizers": [],
               "scripts": [
                 "Latn",
                 "Cyrl"
@@ -479,9 +481,9 @@
           ],
           "tokenizers": {
             "Latn": {
-              "full_object": "SpaCyTokenizer(\"tr\")",
-              "original_lang_name": "turkish",
-              "original_lang_code": "tur",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             },

               "children": [],
               "tokenizers": {
                 "Latn": {
+                  "full_object": "SpaCyTokenizer(\"az\")",
+                  "original_lang_name": "azerbaijani",
+                  "original_lang_code": "aze",
                   "script": "Latn",
                   "class_name": "SpaCyTokenizer"
                 },
                 }
               },
               "node_i": "10584",
+              "native_tokenizers": [
+                "Latn"
+              ],
               "scripts": [
                 "Latn",
                 "Cyrl"
           ],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"az\")",
+              "original_lang_name": "azerbaijani",
+              "original_lang_code": "aze",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             },

data/Uralic.json CHANGED Viewed

@@ -77,15 +77,17 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "SpaCyTokenizer(\"fi\")",
-              "original_lang_name": "finnish",
-              "original_lang_code": "fin",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "10680",
-          "native_tokenizers": [],
           "scripts": [
             "Latn"
           ]
@@ -289,15 +291,17 @@
           "children": [],
           "tokenizers": {
             "Latn": {
-              "full_object": "SpaCyTokenizer(\"fi\")",
-              "original_lang_name": "finnish",
-              "original_lang_code": "fin",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "10691",
-          "native_tokenizers": [],
           "scripts": [
             "Latn"
           ]

           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"et\")",
+              "original_lang_name": "estonian",
+              "original_lang_code": "est",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "10680",
+          "native_tokenizers": [
+            "Latn"
+          ],
           "scripts": [
             "Latn"
           ]
           "children": [],
           "tokenizers": {
             "Latn": {
+              "full_object": "SpaCyTokenizer(\"et\")",
+              "original_lang_name": "estonian",
+              "original_lang_code": "est",
               "script": "Latn",
               "class_name": "SpaCyTokenizer"
             }
           },
           "node_i": "10691",
+          "native_tokenizers": [
+            "Latn"
+          ],
           "scripts": [
             "Latn"
           ]