Spaces:

jaynopponep
/

CTIIC-Plagiarism-Detector

Sleeping

App Files Files Community

CTIIC-Plagiarism-Detector / train.py

jaynopponep

Update train.py

021a5c8 verified about 1 year ago

raw

history blame

1.92 kB

	from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
	from datasets import load_dataset
	import numpy as np
	from sklearn.metrics import accuracy_score, precision_recall_fscore_support

	# Load dataset
	dataset_name = "NicolaiSivesind/human-vs-machine"
	dataset = load_dataset(dataset_name)

	# Tokenizer
	tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

	def tokenize_function(examples):
	return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=512)

	tokenized_dataset = dataset.map(tokenize_function, batched=True)
	tokenized_dataset = tokenized_dataset.rename_column("original_label_name", "labels")
	tokenized_dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'labels'])

	train_dataset = tokenized_dataset["train"]
	eval_dataset = tokenized_dataset["validation"]

	# Model
	model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

	# Training Arguments
	training_args = TrainingArguments(
	output_dir="./results",
	num_train_epochs=3,
	per_device_train_batch_size=8,
	per_device_eval_batch_size=8,
	warmup_steps=500,
	weight_decay=0.01,
	logging_dir='./logs',
	evaluation_strategy="steps",
	save_steps=500,
	logging_steps=100,
	)

	def compute_metrics(pred):
	labels = pred.label_ids
	preds = np.argmax(pred.predictions, axis=-1)
	precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary')
	acc = accuracy_score(labels, preds)
	return {
	'accuracy': acc,
	'f1': f1,
	'precision': precision,
	'recall': recall
	}

	trainer = Trainer(
	model=model,
	args=training_args,
	train_dataset=train_dataset,
	eval_dataset=eval_dataset,
	compute_metrics=compute_metrics
	)

	trainer.train()
	model.save_pretrained("./trained_model")
	tokenizer.save_pretrained("./trained_model")