File size: 2,816 Bytes
6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca 6a7a6d3 1ab06ca |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 |
---
library_name: transformers
tags:
- toxicity-detection
- NLP
- classification
- fine-tuning
license: mit
language:
- pt
metrics:
- accuracy
base_model:
- google-bert/bert-base-uncased
pipeline_tag: text-classification
---
# Model Card for BERT Uncased Fine-Tuned on Toxicity Detection
## Model Details
### Model Description
Este modelo é um BERT base uncased fine-tuned para a detecção de toxicidade em tweets. Ele foi treinado em um dataset anotado com classificação binária: 0 para tweets não tóxicos e 1 para tweets tóxicos.
- **Desenvolvido por:** Carlos André Dos Santos Lima
- **Tipo de modelo:** BERT (base-uncased)
- **Idiomas:** Portugês
- **Licença:** MIT
- **Fine-tuned a partir de:** bert-base-uncased
## Uses
### Uso Direto
Este modelo pode ser usado para identificar tweets tóxicos em Português. Pode ser aplicado diretamente em moderação de conteúdo, análise de sentimentos e detecção de discurso de ódio.
### Uso Fora do Escopo
O modelo pode apresentar viés ao classificar tweets fora do contexto do dataset de treinamento. Ele não é adequado para tomada de decisões críticas sem revisão humana.
## Bias, Risks, and Limitations
- O modelo pode apresentar viés em suas predições devido à distribuição do dataset de treinamento.
- Pode não generalizar bem para contextos diferentes daqueles presentes no dataset.
- Recomenda-se revisão humana para evitar classificações injustas.
## How to Get Started with the Model
```python
from transformers import pipeline
toxicity_classifier = pipeline("text-classification", model="[modelo no Hugging Face]")
text = "This is an example tweet."
result = toxicity_classifier(text)
print(result)
```
## Training Details
### Training Data
O modelo foi treinado em um dataset contendo tweets anotados manualmente como tóxicos ou não tóxicos.
Arquivos do dataset:
- `train.csv` - Dados de treino
- `test.csv` - Dados de teste
- `sample_submission.csv` - Exemplo de submissão
Colunas:
- `id` - Identificador do tweet
- `text` - Conteúdo do tweet
- `label` - 0: não tóxico, 1: tóxico
### Training Procedure
- **Hardware:** GPU T4
- **Hiperparâmetros:**
- Batch size: 64
- Learning rate: 2e-5
- Epochs: 5
- Otimizador: AdamW
## Evaluation
### Dados e Métricas
- Dataset de teste utilizado para avaliação.
- Principais métricas:
- Acurácia
- Precisão
- Recall
- F1-score
## Citation
Se usar este modelo, cite da seguinte forma:
```bibtex
@article{Carlos2025,
title={Fine-Tuning BERT for Toxicity Detection},
author={Carlos André Dos Santos Lima},
journal={Hugging Face Model Hub},
year={2025}
}
```
## Contato
Caso tenha dúvidas ou sugestões, entre em contato pelo e-mail: [email protected] ou abra uma issue no repositório do modelo no Hugging Face. |