tahrirchi
/

tahrirchi-bert-base

Inference Endpoints

Model card Files Files and versions Community

murodbek commited on Oct 28, 2023

Commit

6012d68

•

1 Parent(s): 4e4d68a

Update README.md

Files changed (1) hide show

README.md +7 -4

README.md CHANGED Viewed

@@ -5,14 +5,17 @@ language:
 library_name: transformers
 pipeline_tag: fill-mask
 datasets:
-- tahrirchi/uzbek-corpus
 tags:
 - bert
 widget:
- - text: "Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning <mask>, mutafakkiri va davlat arbobi bo‘lgan."
 ---
-# TahrirchiBERT base mode
 The TahrirchiBERT-base is an encoder-only Transformer text model with 110 million parameters.
 It is pretrained model on Uzbek language (latin script) using a masked language modeling (MLM) objective. This model is case-sensitive: it does make a difference between uzbek and Uzbek.
@@ -90,7 +93,7 @@ You can use this model directly with a pipeline for masked language modeling:
 ## Training data
-TahrirchiBERT is pretrained using a standard Masked Language Modeling (MLM) objective: the model is given a sequence of text with some tokens hidden, and it has to predict these masked tokens. TahrirchiBERT is trained on the Uzbek [Uzbek Corpus dataset](https://huggingface.co/tahrirchi/uzbek-corpus), which contains roughly 35000 preprocessd books, 4 million curated text documents scraped from the internet and 100 Telegram blogs (equivalent to 5 billion tokens).
 ## Training procedure

 library_name: transformers
 pipeline_tag: fill-mask
 datasets:
+- tahrirchi/uz-crawl
+- tahrirchi/uz-books
 tags:
 - bert
 widget:
+- text: >-
+    Alisher Navoiy – ulug‘ o‘zbek va boshqa turkiy xalqlarning <mask>,
+    mutafakkiri va davlat arbobi bo‘lgan.
 ---
+# TahrirchiBERT base model
 The TahrirchiBERT-base is an encoder-only Transformer text model with 110 million parameters.
 It is pretrained model on Uzbek language (latin script) using a masked language modeling (MLM) objective. This model is case-sensitive: it does make a difference between uzbek and Uzbek.
 ## Training data
+TahrirchiBERT is pretrained using a standard Masked Language Modeling (MLM) objective: the model is given a sequence of text with some tokens hidden, and it has to predict these masked tokens. TahrirchiBERT is trained on the [Uzbek Crawl](https://huggingface.co/datasets/tahrirchi/uz-crawl) and all latin portion of [Uzbek Books](https://huggingface.co/datasets/tahrirchi/uz-books), which contains roughly 4000 preprocessd books, 1.2 million curated text documents scraped from the internet and Telegram blogs (equivalent to 5 billion tokens).
 ## Training procedure