ukr-models
commited on
Commit
•
e4e7738
1
Parent(s):
31d1947
Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,36 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language:
|
3 |
+
- uk
|
4 |
+
tags:
|
5 |
+
- ukrainian
|
6 |
+
widget:
|
7 |
+
- text: "Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."
|
8 |
+
license: mit
|
9 |
+
---
|
10 |
+
## Model Description
|
11 |
+
Fine-tuning of [XLM-RoBERTa-Uk](https://huggingface.co/ukr-models/xlm-roberta-base-uk) model on [synthetic NER dataset](https://huggingface.co/datasets/ukr-models/Ukr-Synth) with B-PER, I-PER, B-LOC, I-LOC, B-ORG, I-ORG tags
|
12 |
+
|
13 |
+
## How to Use
|
14 |
+
|
15 |
+
Huggingface pipeline way (returns tokens with labels):
|
16 |
+
```py
|
17 |
+
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
|
18 |
+
|
19 |
+
tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
|
20 |
+
model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')
|
21 |
+
|
22 |
+
ner = pipeline('ner', model=model, tokenizer=tokenizer)
|
23 |
+
ner("Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера.")
|
24 |
+
```
|
25 |
+
|
26 |
+
If you wish to get predictions split by words, not by tokens, you may use the following approach (download script get_predictions.py from the repository, it uses [package tokenize_uk](https://pypi.org/project/tokenize_uk/) for splitting)
|
27 |
+
|
28 |
+
```py
|
29 |
+
from transformers import AutoTokenizer, AutoModelForTokenClassification
|
30 |
+
from get_predictions import get_word_predictions
|
31 |
+
|
32 |
+
tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
|
33 |
+
model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')
|
34 |
+
|
35 |
+
get_word_predictions(model, tokenizer, ["Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."])
|
36 |
+
```
|