Magicearth commited on
Commit
0102a8b
·
verified ·
1 Parent(s): ccf31d8

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +29 -2
README.md CHANGED
@@ -11,6 +11,33 @@ base_model:
11
  pipeline_tag: text-classification
12
  ---
13
 
14
- # My Custom RoBERTa Model
15
 
16
- Ce modèle est une version fine-tunée de [RoBERTa](https://huggingface.co/roberta-base) pour la classification de séquences.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
11
  pipeline_tag: text-classification
12
  ---
13
 
14
+ # Modèle finetuné de RoBERTa-base pour la détection de toxicité dans un texte
15
 
16
+ Le modèle a pour objectif de détecter la toxicité dans un texte en prédisant la probabilité d'appartenir à ces catégories attribuant un score pour chacune de ces catégories.
17
+ Catégories: toxic, severe_toxic, obscene, threat, insult, identity_hate
18
+
19
+ Le finetuning a été fait pour 4 époques. La dataset utilisé est celui de Google appelé jigsaw_toxicity_pred.
20
+
21
+ training_args = TrainingArguments(
22
+ output_dir="./results",
23
+ evaluation_strategy="epoch",
24
+ save_strategy="epoch",
25
+ learning_rate=2e-5,
26
+ per_device_train_batch_size=16,
27
+ per_device_eval_batch_size=16,
28
+ num_train_epochs=5,
29
+ weight_decay=0.01,
30
+ save_total_limit=5,
31
+ logging_dir="./logs",
32
+ logging_steps=10,
33
+ load_best_model_at_end=True,
34
+ )
35
+
36
+ Erreur moyenne absolue par catagorie sur le dataset d'entraînement:
37
+
38
+ toxic: 0.0271
39
+ severe_toxic: 0.0128
40
+ obscene: 0.0185
41
+ threat: 0.0029
42
+ insult: 0.0250
43
+ identity_hate: 0.0081