CASLL's picture
initial commit
1ab06ca verified
---
library_name: transformers
tags:
- toxicity-detection
- NLP
- classification
- fine-tuning
license: mit
language:
- pt
metrics:
- accuracy
base_model:
- google-bert/bert-base-uncased
pipeline_tag: text-classification
---
# Model Card for BERT Uncased Fine-Tuned on Toxicity Detection
## Model Details
### Model Description
Este modelo é um BERT base uncased fine-tuned para a detecção de toxicidade em tweets. Ele foi treinado em um dataset anotado com classificação binária: 0 para tweets não tóxicos e 1 para tweets tóxicos.
- **Desenvolvido por:** Carlos André Dos Santos Lima
- **Tipo de modelo:** BERT (base-uncased)
- **Idiomas:** Portugês
- **Licença:** MIT
- **Fine-tuned a partir de:** bert-base-uncased
## Uses
### Uso Direto
Este modelo pode ser usado para identificar tweets tóxicos em Português. Pode ser aplicado diretamente em moderação de conteúdo, análise de sentimentos e detecção de discurso de ódio.
### Uso Fora do Escopo
O modelo pode apresentar viés ao classificar tweets fora do contexto do dataset de treinamento. Ele não é adequado para tomada de decisões críticas sem revisão humana.
## Bias, Risks, and Limitations
- O modelo pode apresentar viés em suas predições devido à distribuição do dataset de treinamento.
- Pode não generalizar bem para contextos diferentes daqueles presentes no dataset.
- Recomenda-se revisão humana para evitar classificações injustas.
## How to Get Started with the Model
```python
from transformers import pipeline
toxicity_classifier = pipeline("text-classification", model="[modelo no Hugging Face]")
text = "This is an example tweet."
result = toxicity_classifier(text)
print(result)
```
## Training Details
### Training Data
O modelo foi treinado em um dataset contendo tweets anotados manualmente como tóxicos ou não tóxicos.
Arquivos do dataset:
- `train.csv` - Dados de treino
- `test.csv` - Dados de teste
- `sample_submission.csv` - Exemplo de submissão
Colunas:
- `id` - Identificador do tweet
- `text` - Conteúdo do tweet
- `label` - 0: não tóxico, 1: tóxico
### Training Procedure
- **Hardware:** GPU T4
- **Hiperparâmetros:**
- Batch size: 64
- Learning rate: 2e-5
- Epochs: 5
- Otimizador: AdamW
## Evaluation
### Dados e Métricas
- Dataset de teste utilizado para avaliação.
- Principais métricas:
- Acurácia
- Precisão
- Recall
- F1-score
## Citation
Se usar este modelo, cite da seguinte forma:
```bibtex
@article{Carlos2025,
title={Fine-Tuning BERT for Toxicity Detection},
author={Carlos André Dos Santos Lima},
journal={Hugging Face Model Hub},
year={2025}
}
```
## Contato
Caso tenha dúvidas ou sugestões, entre em contato pelo e-mail: [email protected] ou abra uma issue no repositório do modelo no Hugging Face.