Hezam's picture
Update README.md
7bc5e31
|
raw
history blame
2.57 kB
metadata
language:
  - ar
metrics:
  - Accuracy
  - F1_score
  - BLEU
library_name: transformers
pipeline_tag: text2text-generation
tags:
  - Classification and Generation
  - Classification
  - Generation
  - ArabicT5
  - Text Classification
  - Text2Text Generation
widget:
  - text: >-
      خسارة مدوية لليفربول امام تولوز وفوز كبير لبيتيس، انتصار الفيولا واستون
      فيلا في دوري المؤتمر، والد لويس دياز حر، فوز انديانا على ميلووكي, انتصار
      للانترانيك

ArabicT5: Classification and Generation of Arabic News

  • The model is under trial

The number in the generated text represents the category of the news, as shown below:

category_mapping = {

  'Political':1,
  'Economy':2,
  'Health':3,
  'Sport':4,
  'Culture':5,
  'Technology':6,
  'Art':7,
  'Accidents':8

}

Pre-training Settings and Results on TyDi QA Development Dataset ( Model in this card is highlighted in bold )

Name Type Value Verified
Accuracy accuracy 96.67% true
F1_score f1_score 96.67% true
BLEU bleu 96.23% true
Loss loss 0.57164502143 true

Example usage

from transformers import T5ForConditionalGeneration, T5Tokenizer, pipeline
from arabert.preprocess import ArabertPreprocessor

arabert_prep = ArabertPreprocessor(model_name="aubmindlab/bert-base-arabertv2")
model_name="Hezam/arabic-T5-news-classification-generation"
model = T5ForConditionalGeneration.from_pretrained(model_name)
tokenizer = T5Tokenizer.from_pretrained(model_name)
generation_pipeline = pipeline("text2text-generation",model=model,tokenizer=tokenizer)

text = " خسارة مدوية لليفربول امام تولوز وفوز كبير لبيتيس، انتصار الفيولا واستون فيلا في دوري المؤتمر، والد لويس دياز حر، فوز انديانا على ميلووكي, انتصار للانترانيك"

text_clean = arabert_prep.preprocess(text)
g=generation_pipeline(text_clean,
                    num_beams=10,
                    max_length=config.Generation_LEN,
                    top_p=0.9,
                    repetition_penalty = 3.0,
                    no_repeat_ngram_size = 3)[0]["generated_text"]
output: