Κατηγοριοποιητής Ελληνικών Ποικιλιών/ Greek Variety Classifier

Ένας κατηγοριοποιητής για την κατηγοριοποίηση κειμένων σε ποικιλίες της ελληνικής γλώσσας. Βάσει του παρόντος μοντέλου είναι το GreekBERT (https://huggingface.co/nlpaueb/bert-base-greek-uncased-v1). Η κεφαλή αποτελείται από δύο γραμμικά επίπεδα των 256 νευρώνων. Το μοντέλο εκπαιδεύτηκε για 1 εποχή, καθώς επιτεύχθηκε υψηλή ακρίβεια (94%) χωρίς περαιτέρω βελτίωση, πιθανώς λόγω της προ-εκπαίδευσης του GreekBERT σε διάφορες ποικιλίες της ελληνικής.

A classifier for categorizing texts into different varieties of Greek. The current model is based on GreekBERT (https://huggingface.co/nlpaueb/bert-base-greek-uncased-v1). The classification head consists of two linear layers of 256 neurons each. The model was trained for 1 epoch as it achieved high accuracy (94%) without further improvement, likely due to GreekBERT's pre-training across various varieties of Greek.

Δεδομένα / Resources

Χρησιμοποιήσαμε γλωσσικά δεδομένα από το Project Gutenberg, Europarl, Wiki, HNC, Bible, GlobalVoices, ParaCrawl. Επισημειώθηκαν από την ομάδα των γλωσσολόγων 5.020 χωρία βάσει τριών ποικιλιών της ελληνικής γλώσσας (ΚΝΕ, δημοτική, καθαρεύουσα) και της περιόδου της αρχαίας ελληνικής. Όσον αφορά την ετίκετα "αρχαία ελληνική", επισημειώθηκαν με αυτή όλα τα κείμενα γραμμένα κατά την Κλασική Εποχή ή στην Ελληνιστική Κοινή. Οι παραπάνω ποικιλίες επιλέχθηκαν με γνώμονα την ιστορικότητα της ελληνικής γλώσσας.

We used data from Project Gutenberg, Europarl, Wiki, HNC, Bible, GlobalVoices, and ParaCrawl. A team of linguists annotated 5,020 fragmenta across the three varieties of the Greek language: Modern Greek, Demotic, Katharevousa; as well as fragmenta written in Ancient Greek. Regarding the label ‘Ancient Greek,’ this was applied to texts from the Classical and Hellenistic periods. These varieties were selected with an emphasis on the historical continuity of the Greek language.

Φόρτωση μοντέλου/ Load Pretrained Model

from transformers import AutoTokenizer,AutoModel

tokenizer = AutoTokenizer.from_pretrained("nlpaueb/bert-base-greek-uncased-v1")
model = AutoModel.from_pretrained("glossAPI/Greek_Variety_Classifier")

Αντιστοίχιση κατηγοριών και ποικιλιών/ Map definition for the supported varieties of Greek

category_map = {
    0: 'αρχαία/προμεσαιωνική',
    1: 'κνε',
    2: 'δημοτική',
    3: 'καθαρεύουσα'
}

Για κώδικα και δεδομένα εκπαίδευσης / for code and training data visit: https://github.com/eellak/glossAPI

Για οποιοδήποτε ζήτημα, επικοινωνήστε/ For any issues, please contact: [email protected]

Downloads last month
21
Inference Examples
Unable to determine this model's library. Check the docs .

Model tree for glossAPI/Kategoriopoiitis_Ellinikon_Poikilion

Finetuned
(6)
this model