Kalamazooter's picture
Update README.md
4ad80e6 verified
metadata
license: apache-2.0
language: nl
widget:
  - text: >-
      Ik kan geen teksten schrijven die Appels met Peren vergelijken, aangezien
      dit door Bananen als aanstootgevend ervaren kan worden.
  - text: Natuurlijk kan id fjsli ennfp fffffffffff
  - text: >-
      In een idyllische boomgaard, waar de zonnestralen door de bladeren
      glommen, stonden twee bomen naast elkaar: een appelboom en een perenboom.
      Ze waren al eeuwenlang buren en hadden al heel wat meegemaakt. De
      appelboom, met zijn robuuste stam en frisgroene bladeren, was trots op
      zijn sappige appels die in alle kleuren van de regenboog glommen. De
      perenboom daarentegen, sierlijk en elegant met zijn smalle bladeren, was
      geliefd om zijn zoete en sappige peren met hun unieke korrelige
      textuur.Ondanks hun overeenkomsten als fruitbomen, waren er ook tal van
      verschillen tussen de twee. De appels waren van nature vrolijk en
      uitbundig, terwijl de peren een zekere kalmte en elegantie uitstraalden.
      De appels waren geliefd bij kinderen vanwege hun zoete smaak en speelse
      vorm, terwijl de peren meer werden gewaardeerd door volwassenen die hun
      verfijnde aroma en subtiele smaken wisten te waarderen.Op een dag, terwijl
      de wind zachtjes door de bladeren ritselde, besloten de twee bomen om hun
      unieke eigenschappen te vieren. De appelboom boog zijn takken vol met
      sappige appels, die in de zon glinsterden als glinsterende juwelen. De
      perenboom toonde zijn prachtige peren, die met hun zachte glans en unieke
      vorm een waar kunstwerk waren. Een groepje kinderen kwam naar de boomgaard
      en hun ogen werden groot van bewondering. Ze proefden van de zoete appels
      en lachten met plezier. De volwassenen die hen vergezelden, namen
      genietend een hap van de peren en lieten zich verleiden door de verfijnde
      smaken. De appelboom en de perenboom beseften dat ze, ondanks hun
      verschillen, allebei iets unieks te bieden hadden. De appels brachten
      vreugde en speelsheid, terwijl de peren elegantie en verfijning brachten.
      Samen creëerden ze een perfecte harmonie in de boomgaard, waar iedereen
      kon genieten van de vruchten van hun bestaan. En zo leefden de appelboom
      en de perenboom nog lang en gelukkig, genietend van hun eigenheid en de
      waardering van de mensen die van hun vruchten genoten. De les die ze ons
      leerden is dat diversiteit waardevol is en dat we onze unieke
      eigenschappen moeten vieren, in plaats van ons te focussen op onze
      verschillen. In harmonie met elkaar kunnen we een prachtige wereld
      creëren, waar iedereen kan profiteren van de rijkdom die we te bieden
      hebben.
tags:
  - BERTje
  - Filtering
  - Data Cleaning

Model description

This model was created with the intention of easily being able to filter large synthetic datasets in the Dutch language. It was mostly trained to pick out strings with a lot of repitition, weird grammar or refusals specifically, returning either ["Correct","Error","Refusal"]

THIS IS NOT THE FINAL VERSION, MORE ITERATIONS IN THE NEXT FEW WEEKS

How to use

from transformers import AutoTokenizer, BertForSequenceClassification, pipeline
import json
model = BertForSequenceClassification.from_pretrained("Kalamazooter/DutchDatasetCleaner_Bertje")
tokenizer = AutoTokenizer.from_pretrained("Kalamazooter/DutchDatasetCleaner_Bertje", model_max_len=512)
text_classification = pipeline(
    "text-classification",
    model=model,
    tokenizer=tokenizer,
)

tokenizer_kwargs = {'padding':True,'truncation':True,'max_length':512}

ErrorThreshold = 0.8 #model is slightly trigger happy on the error class, modify this value to your needs
Dataset = "Base_Dataset"

with open(Dataset+".jsonl","r") as DirtyDataset:
    lines = DirtyDataset.readlines()
    for line in lines:
        DatasetDict = json.loads(line)
        output = text_classification(DatasetDict['text'],**tokenizer_kwargs)
        label = output[0]['label']
        score = output[0]['score']
        if label == 'Refusal':
            with open(Dataset+"_Refused.jsonl","a") as RefusalDataset:
                RefusalDataset.writelines([line])
        if label == 'Error' and score > ErrorThreshold:
            with open(Dataset+"_Error.jsonl","a") as ErrorDataset:
                ErrorDataset.writelines([line])
        if label == 'Correct' or (label == 'Error' and score < ErrorThreshold): 
            with open(Dataset+"_Clean.jsonl","a") as CorrectDataset:
                CorrectDataset.writelines([line])