metadata
license: apache-2.0
language: nl
widget:
- text: >-
Ik kan geen teksten schrijven die Appels met Peren vergelijken, aangezien
dit door Bananen als aanstootgevend ervaren kan worden.
- text: Natuurlijk kan id fjsli ennfp fffffffffff
- text: >-
In een idyllische boomgaard, waar de zonnestralen door de bladeren
glommen, stonden twee bomen naast elkaar: een appelboom en een perenboom.
Ze waren al eeuwenlang buren en hadden al heel wat meegemaakt. De
appelboom, met zijn robuuste stam en frisgroene bladeren, was trots op
zijn sappige appels die in alle kleuren van de regenboog glommen. De
perenboom daarentegen, sierlijk en elegant met zijn smalle bladeren, was
geliefd om zijn zoete en sappige peren met hun unieke korrelige
textuur.Ondanks hun overeenkomsten als fruitbomen, waren er ook tal van
verschillen tussen de twee. De appels waren van nature vrolijk en
uitbundig, terwijl de peren een zekere kalmte en elegantie uitstraalden.
De appels waren geliefd bij kinderen vanwege hun zoete smaak en speelse
vorm, terwijl de peren meer werden gewaardeerd door volwassenen die hun
verfijnde aroma en subtiele smaken wisten te waarderen.Op een dag, terwijl
de wind zachtjes door de bladeren ritselde, besloten de twee bomen om hun
unieke eigenschappen te vieren. De appelboom boog zijn takken vol met
sappige appels, die in de zon glinsterden als glinsterende juwelen. De
perenboom toonde zijn prachtige peren, die met hun zachte glans en unieke
vorm een waar kunstwerk waren. Een groepje kinderen kwam naar de boomgaard
en hun ogen werden groot van bewondering. Ze proefden van de zoete appels
en lachten met plezier. De volwassenen die hen vergezelden, namen
genietend een hap van de peren en lieten zich verleiden door de verfijnde
smaken. De appelboom en de perenboom beseften dat ze, ondanks hun
verschillen, allebei iets unieks te bieden hadden. De appels brachten
vreugde en speelsheid, terwijl de peren elegantie en verfijning brachten.
Samen creëerden ze een perfecte harmonie in de boomgaard, waar iedereen
kon genieten van de vruchten van hun bestaan. En zo leefden de appelboom
en de perenboom nog lang en gelukkig, genietend van hun eigenheid en de
waardering van de mensen die van hun vruchten genoten. De les die ze ons
leerden is dat diversiteit waardevol is en dat we onze unieke
eigenschappen moeten vieren, in plaats van ons te focussen op onze
verschillen. In harmonie met elkaar kunnen we een prachtige wereld
creëren, waar iedereen kan profiteren van de rijkdom die we te bieden
hebben.
tags:
- BERTje
- Filtering
- Data Cleaning
Model description
This model was created with the intention of easily being able to filter large synthetic datasets in the Dutch language. It was mostly trained to pick out strings with a lot of repitition, weird grammar or refusals specifically, returning either ["Correct","Error","Refusal"]
THIS IS NOT THE FINAL VERSION, MORE ITERATIONS IN THE NEXT FEW WEEKS
How to use
from transformers import AutoTokenizer, BertForSequenceClassification, pipeline
import json
model = BertForSequenceClassification.from_pretrained("Kalamazooter/DutchDatasetCleaner_Bertje")
tokenizer = AutoTokenizer.from_pretrained("Kalamazooter/DutchDatasetCleaner_Bertje", model_max_len=512)
text_classification = pipeline(
"text-classification",
model=model,
tokenizer=tokenizer,
)
tokenizer_kwargs = {'padding':True,'truncation':True,'max_length':512}
ErrorThreshold = 0.8 #model is slightly trigger happy on the error class, modify this value to your needs
Dataset = "Base_Dataset"
with open(Dataset+".jsonl","r") as DirtyDataset:
lines = DirtyDataset.readlines()
for line in lines:
DatasetDict = json.loads(line)
output = text_classification(DatasetDict['text'],**tokenizer_kwargs)
label = output[0]['label']
score = output[0]['score']
if label == 'Refusal':
with open(Dataset+"_Refused.jsonl","a") as RefusalDataset:
RefusalDataset.writelines([line])
if label == 'Error' and score > ErrorThreshold:
with open(Dataset+"_Error.jsonl","a") as ErrorDataset:
ErrorDataset.writelines([line])
if label == 'Correct' or (label == 'Error' and score < ErrorThreshold):
with open(Dataset+"_Clean.jsonl","a") as CorrectDataset:
CorrectDataset.writelines([line])