Amsterdam Document Classification - a FemkeBakker Collection

FemkeBakker 's Collections

Amsterdam Document Classification

Amsterdam Document Classification

updated Jun 30, 2024

Collection of fine-tuned LLMs and datasets used in a project of the Municipality of Amsterdam to classify Dutch documents.

FemkeBakker/AmsterdamDocClassificationMistral200T1Epochs

Text Generation • Updated Jul 12, 2024 • 15
FemkeBakker/AmsterdamDocClassificationMistral200T2Epochs

Text Generation • Updated Jul 12, 2024 • 46
FemkeBakker/AmsterdamDocClassificationMistral200T3Epochs

Text Generation • Updated Jul 12, 2024 • 23
FemkeBakker/AmsterdamDocClassificationLlama200T1Epochs

Text Generation • Updated Jul 12, 2024 • 7
FemkeBakker/AmsterdamDocClassificationLlama200T2Epochs

Text Generation • Updated Jul 12, 2024 • 7
FemkeBakker/AmsterdamDocClassificationLlama200T3Epochs

Text Generation • Updated Jul 12, 2024 • 9
FemkeBakker/AmsterdamDocClassificationGEITje200T1Epochs

Text Generation • Updated Jul 12, 2024 • 4
FemkeBakker/AmsterdamDocClassificationGEITje200T2Epochs

Text Generation • Updated Jul 12, 2024 • 6
FemkeBakker/AmsterdamDocClassificationGEITje200T3Epochs

Text Generation • Updated Jul 12, 2024 • 4
FemkeBakker/AmsterdamBalancedFirst200Tokens

Viewer • Updated Jul 12, 2024 • 20.8k • 63

Note Dataset used to fine-tune the models. The documents are already shortened and data is formatted into conversations, using the zero-shot prompt. It's ready to use for training.
FemkeBakker/AmsterdamDocClassificationDataset

Viewer • Updated Jul 12, 2024 • 20.8k • 63

Note The dataset includes the full text of the documents, labels, num_pages and data split (train, test, val, discard).