File size: 2,816 Bytes
6a7a6d3
 
1ab06ca
 
 
 
 
 
 
 
 
 
 
 
 
6a7a6d3
 
1ab06ca
6a7a6d3
 
 
 
 
1ab06ca
6a7a6d3
1ab06ca
 
 
 
 
6a7a6d3
 
 
 
1ab06ca
6a7a6d3
1ab06ca
6a7a6d3
 
1ab06ca
6a7a6d3
1ab06ca
6a7a6d3
 
 
1ab06ca
 
 
6a7a6d3
 
 
1ab06ca
 
 
 
6a7a6d3
1ab06ca
 
 
 
6a7a6d3
 
 
 
 
1ab06ca
6a7a6d3
1ab06ca
 
 
 
6a7a6d3
1ab06ca
 
 
 
6a7a6d3
1ab06ca
6a7a6d3
1ab06ca
 
 
 
 
 
6a7a6d3
 
 
1ab06ca
6a7a6d3
1ab06ca
 
 
 
 
 
6a7a6d3
 
1ab06ca
6a7a6d3
1ab06ca
6a7a6d3
1ab06ca
 
 
 
 
 
 
 
6a7a6d3
1ab06ca
6a7a6d3
1ab06ca
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
---
library_name: transformers
tags:
- toxicity-detection
- NLP
- classification
- fine-tuning
license: mit
language:
- pt
metrics:
- accuracy
base_model:
- google-bert/bert-base-uncased
pipeline_tag: text-classification
---

# Model Card for BERT Uncased Fine-Tuned on Toxicity Detection

## Model Details

### Model Description

Este modelo é um BERT base uncased fine-tuned para a detecção de toxicidade em tweets. Ele foi treinado em um dataset anotado com classificação binária: 0 para tweets não tóxicos e 1 para tweets tóxicos.

- **Desenvolvido por:** Carlos André Dos Santos Lima
- **Tipo de modelo:** BERT (base-uncased)
- **Idiomas:** Portugês
- **Licença:** MIT
- **Fine-tuned a partir de:** bert-base-uncased


## Uses

### Uso Direto

Este modelo pode ser usado para identificar tweets tóxicos em Português. Pode ser aplicado diretamente em moderação de conteúdo, análise de sentimentos e detecção de discurso de ódio.


### Uso Fora do Escopo

O modelo pode apresentar viés ao classificar tweets fora do contexto do dataset de treinamento. Ele não é adequado para tomada de decisões críticas sem revisão humana.

## Bias, Risks, and Limitations

- O modelo pode apresentar viés em suas predições devido à distribuição do dataset de treinamento.
- Pode não generalizar bem para contextos diferentes daqueles presentes no dataset.
- Recomenda-se revisão humana para evitar classificações injustas.

## How to Get Started with the Model

```python
from transformers import pipeline

toxicity_classifier = pipeline("text-classification", model="[modelo no Hugging Face]")

text = "This is an example tweet."
result = toxicity_classifier(text)
print(result)
```

## Training Details

### Training Data

O modelo foi treinado em um dataset contendo tweets anotados manualmente como tóxicos ou não tóxicos.

Arquivos do dataset:
- `train.csv` - Dados de treino
- `test.csv` - Dados de teste
- `sample_submission.csv` - Exemplo de submissão

Colunas:
- `id` - Identificador do tweet
- `text` - Conteúdo do tweet
- `label` - 0: não tóxico, 1: tóxico

### Training Procedure

- **Hardware:** GPU T4
- **Hiperparâmetros:**
  - Batch size: 64
  - Learning rate: 2e-5
  - Epochs: 5
  - Otimizador: AdamW

## Evaluation

### Dados e Métricas

- Dataset de teste utilizado para avaliação.
- Principais métricas:
  - Acurácia
  - Precisão
  - Recall
  - F1-score


## Citation

Se usar este modelo, cite da seguinte forma:

```bibtex
@article{Carlos2025,
  title={Fine-Tuning BERT for Toxicity Detection},
  author={Carlos André Dos Santos Lima},
  journal={Hugging Face Model Hub},
  year={2025}
}
```

## Contato

Caso tenha dúvidas ou sugestões, entre em contato pelo e-mail: [email protected] ou abra uma issue no repositório do modelo no Hugging Face.