Magicearth
commited on
Update README.md
Browse files
README.md
CHANGED
@@ -11,6 +11,33 @@ base_model:
|
|
11 |
pipeline_tag: text-classification
|
12 |
---
|
13 |
|
14 |
-
#
|
15 |
|
16 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
11 |
pipeline_tag: text-classification
|
12 |
---
|
13 |
|
14 |
+
# Modèle finetuné de RoBERTa-base pour la détection de toxicité dans un texte
|
15 |
|
16 |
+
Le modèle a pour objectif de détecter la toxicité dans un texte en prédisant la probabilité d'appartenir à ces catégories attribuant un score pour chacune de ces catégories.
|
17 |
+
Catégories: toxic, severe_toxic, obscene, threat, insult, identity_hate
|
18 |
+
|
19 |
+
Le finetuning a été fait pour 4 époques. La dataset utilisé est celui de Google appelé jigsaw_toxicity_pred.
|
20 |
+
|
21 |
+
training_args = TrainingArguments(
|
22 |
+
output_dir="./results",
|
23 |
+
evaluation_strategy="epoch",
|
24 |
+
save_strategy="epoch",
|
25 |
+
learning_rate=2e-5,
|
26 |
+
per_device_train_batch_size=16,
|
27 |
+
per_device_eval_batch_size=16,
|
28 |
+
num_train_epochs=5,
|
29 |
+
weight_decay=0.01,
|
30 |
+
save_total_limit=5,
|
31 |
+
logging_dir="./logs",
|
32 |
+
logging_steps=10,
|
33 |
+
load_best_model_at_end=True,
|
34 |
+
)
|
35 |
+
|
36 |
+
Erreur moyenne absolue par catagorie sur le dataset d'entraînement:
|
37 |
+
|
38 |
+
toxic: 0.0271
|
39 |
+
severe_toxic: 0.0128
|
40 |
+
obscene: 0.0185
|
41 |
+
threat: 0.0029
|
42 |
+
insult: 0.0250
|
43 |
+
identity_hate: 0.0081
|