crabz commited on
Commit
832b95d
·
1 Parent(s): d12ceca

add missclassified examples

Browse files
Files changed (1) hide show
  1. app.py +19 -22
app.py CHANGED
@@ -1,8 +1,8 @@
1
  # -*- coding: utf-8 -*-
2
  import os
3
 
4
- os.system("pip3 install torch==1.10.1+cpu torchvision==0.11.2+cpu torchaudio==0.10.1+cpu -f "
5
- "https://download.pytorch.org/whl/cpu/torch_stable.html")
6
 
7
  import gradio as gr
8
  from transformers import pipeline
@@ -84,24 +84,21 @@ def apply_ner(Sentence: str):
84
 
85
  intf = gr.Interface(fn=apply_ner, inputs="text", outputs="html", title='Slovak Named Entity Recognition',
86
  allow_flagging=False,
87
- examples=[["Laboratóriá Úradu verejného zdravotníctva sekvenovaním potvrdili výskyt ďalších "
88
- "štyroch prípadov variantu omikron na Slovensku."],
89
- ["Čaputová opakovane tvrdí, že \"spravodlivosť na Slovensku neplatí vždy pre všetkých "
90
- "rovnako\"."],
91
- ["Informácie o týchto veľkolepých plánoch prišli týždeň po tom, ako sa japonský "
92
- "miliardár Jusaku Maezawa vrátil z 12-dňového pobytu na Medzinárodnej vesmírnej stanici "
93
- "(ISS), čím sa stal prvým vesmírnym turistom, ktorý cestoval na ISS za viac ako desať "
94
- "rokov."],
95
- ["Minister financií a líder mandátovo najsilnejšieho hnutia OĽaNO Igor Matovič "
96
- "upozorňuje, že následky tretej vlny budú na Slovensku veľmi veľké."],
97
- ["Začiatkom roka 2021 sa objavili nezhody medzi Richardom Sulíkom a šéfom hnutia OĽANO "
98
- "Igorom Matovičom, ktoré v istej miere pretrvávajú aj dodnes."]],
99
- description="Named-entity recognition (NER) labels named-entities in unstructured text. This "
100
- "implementation supports three labels: person (OSOBA), organization (ORGANIZÁCIA) and "
101
- "location (LOKALITA). You can try out one of the examples below or type your own "
102
- "sentence. Don't forget to use double quotes (\" \") instead of curved quotes („ “).",
103
- article="This model is a fine-tuned version of [gerulata/slovakbert]"
104
- "(https://huggingface.co/gerulata/slovakbert) on the Slovak wikiann dataset. It achieves "
105
- "F1 score of 0.9398 on the evaluation set. The quote requirements comes from pretrained "
106
- "SlovakBERT and was not introduced by me.")
107
  intf.launch()
 
1
  # -*- coding: utf-8 -*-
2
  import os
3
 
4
+ # os.system("pip3 install torch==1.10.1+cpu torchvision==0.11.2+cpu torchaudio==0.10.1+cpu -f "
5
+ # "https://download.pytorch.org/whl/cpu/torch_stable.html")
6
 
7
  import gradio as gr
8
  from transformers import pipeline
 
84
 
85
  intf = gr.Interface(fn=apply_ner, inputs="text", outputs="html", title='Slovak Named Entity Recognition',
86
  allow_flagging=False,
87
+ examples=[["Laboratóriá Úradu verejného zdravotníctva sekvenovaním potvrdili výskyt ďalších štyroch prípadov variantu omikron na Slovensku."],
88
+ ["Čaputová opakovane tvrdí, že \"spravodlivosť na Slovensku neplatí vždy pre všetkých rovnako\"."],
89
+ ["Informácie o týchto veľkolepých plánoch prišli týždeň po tom, ako sa japonský miliardár Jusaku Maezawa vrátil z 12-dňového pobytu na Medzinárodnej vesmírnej stanici (ISS), čím sa stal prvým vesmírnym turistom, ktorý cestoval na ISS za viac ako desať rokov."],
90
+ ["Minister financií a líder mandátovo najsilnejšieho hnutia OĽaNO Igor Matovič upozorňuje, že následky tretej vlny budú na Slovensku veľmi veľké."],
91
+ ["Začiatkom roka 2021 sa objavili nezhody medzi Richardom Sulíkom a šéfom hnutia OĽANO Igorom Matovičom, ktoré v istej miere pretrvávajú aj dodnes."]],
92
+ description="Named-entity recognition (NER) labels named-entities in unstructured text. This implementation supports three labels: person (OSOBA), organization (ORGANIZÁCIA) and location (LOKALITA). You can try out one of the examples below or type your own sentence. Don't forget to use double quotes (\" \") instead of curved quotes („ “).",
93
+ article="This model is a fine-tuned version of <u>[gerulata/slovakbert](https://huggingface.co/gerulata/slovakbert)</u> on the Slovak wikiann dataset. "
94
+ "It achieves F1 score of 0.9398 on the evaluation set. Note that this also counts background words (no label), so simply labelling all words as background words would yield very high F1. "
95
+ "The quote requirements comes from pretrained SlovakBERT and was not introduced by me. More details about he model can be found at <u>[crabz/slovakbert-ner](https://huggingface.co/crabz/slovakbert-ner)</u>.<br/>"
96
+ "Some of the examples where the model makes a mistake are listed below: <ul>"
97
+ "<li><em>Začiatkom roka 2021 sa objavili nezhody medzi Richardom Sulíkom a šéfom hnutia OĽANO Igorom Matovičom, ktoré v istej miere pretrvávajú aj dodnes.</em> (year classified as location)</li>"
98
+ "<li><em>Stretnutia, pri ktorých malo dôjsť k odovzdávaniu peňazí, sa údajne konali vo Výbohovej konzulárnej kancelárii v hoteli Carlton.</em> (<em>Výbohovej</em> is not labeled as person)</li>"
99
+ "<li><em>Podľa výpovede Suchobu malo k stretnutiam dôjsť v roku 2016.</em> (year classified as location)</li>"
100
+ "<li><em>Memorial založili v roku 1987 disidenti na čele s laureátom Nobelovej ceny za mier akademikom Andrejom Sacharovom.</em> (year classified as location)</li>"
101
+ "<li><em>Išla som do Petrozavodska navštíviť vo väzbe Jurija Dmitrijeva, vedúceho karelskej pobočky Memorialu.</em> (<em>Memorialu</em> classified as location instead of organization)</li></ul>"
102
+ "Year is often missclassified as location, this could be fixed by introducing new time label.<br/>"
103
+ "Location and organization can be difficult to distinguish in some cases, because both are suitable. Is Internation Space Station organization or location?")
 
 
 
104
  intf.launch()