Spaces:

jiaxianustc
/

mbp

Sleeping

App Files Files Community

mbp / UltraFlow /runner /asrp_runner.py

jiaxianustc

test

3ad8be1 over 1 year ago

raw

history blame

45.4 kB

	import torch
	import torch.nn as nn
	from time import time
	import os
	from torch.utils.data import DataLoader
	from UltraFlow import dataset, commons, losses
	import numpy as np
	import pandas as pd
	import torch.distributed as dist
	import dgl
	class DefaultRunner(object):
	def __init__(self,train_set, val_set, test_set, finetune_val_set, model, optimizer, scheduler, config):
	self.train_set = train_set
	self.val_set = val_set
	self.test_set = test_set
	self.finetune_val_set = finetune_val_set
	self.config = config

	self.device = config.train.device
	self.batch_size = self.config.train.batch_size
	self._model = model
	self._optimizer = optimizer
	self._scheduler = scheduler

	self.best_matric = 0

	self.start_epoch = 0

	if self.device.type == 'cuda':
	self._model = self._model.cuda(self.device)
	self.get_loss_fn()


	def save(self, checkpoint, epoch=None, ddp=False, var_list={}):
	state = {
	**var_list,
	"model": self._model.state_dict() if not ddp else self._model.module.state_dict(),
	"optimizer": self._optimizer.state_dict(),
	"scheduler": self._scheduler.state_dict(),
	"config": self.config
	}
	epoch = str(epoch) if epoch is not None else ''
	checkpoint = os.path.join(checkpoint, 'checkpoint%s' % epoch)
	torch.save(state, checkpoint)

	def load(self, checkpoint, epoch=None, load_optimizer=False, load_scheduler=False):
	epoch = str(epoch) if epoch is not None else ''
	checkpoint = os.path.join(checkpoint, 'checkpoint%s' % epoch)
	print("Load checkpoint from %s" % checkpoint)

	state = torch.load(checkpoint, map_location=self.device)
	self._model.load_state_dict(state["model"])
	#self._model.load_state_dict(state["model"], strict=False)
	self.best_matric = state['best_matric']
	self.start_epoch = state['cur_epoch'] + 1

	if load_optimizer:
	self._optimizer.load_state_dict(state["optimizer"])
	if self.device.type == 'cuda':
	for state in self._optimizer.state.values():
	for k, v in state.items():
	if isinstance(v, torch.Tensor):
	state[k] = v.cuda(self.device)

	if load_scheduler:
	self._scheduler.load_state_dict(state["scheduler"])

	def get_loss_fn(self):
	self.loss_fn = nn.MSELoss()
	if self.config.train.pretrain_ranking_loss == 'pairwise_v2':
	self.ranking_fn = losses.pair_wise_ranking_loss_v2(self.config).to(self.device)

	def trans_device(self,batch):
	return [x if isinstance(x, list) else x.to(self.device) for x in batch]

	@torch.no_grad()
	def evaluate_pairwsie_pdbbind(self, split, verbose=0, logger=None, visualize=True):
	test_set = getattr(self, "%s_set" % split)
	dataloader = DataLoader(test_set, batch_size=self.config.train.batch_size,
	shuffle=False, collate_fn=dataset.collate_pdbbind_affinity_multi_task_v2,
	num_workers=self.config.train.num_workers)

	y_preds, y_preds_IC50, y_preds_K = torch.tensor([]).to(self.device), torch.tensor([]).to(
	self.device), torch.tensor([]).to(self.device)
	y, y_IC50, y_K = torch.tensor([]).to(self.device), torch.tensor([]).to(self.device), torch.tensor([]).to(self.device)

	eval_start = time()
	model = self._model
	model.eval()
	for batch in dataloader:
	if self.device.type == "cuda":
	batch = self.trans_device(batch)

	if self.config.train.encoder_ablation != 'interact':
	(regression_loss_IC50, regression_loss_K), \
	(affinity_pred_IC50, affinity_pred_K), \
	(affinity_IC50, affinity_K) = model(batch, ASRP=False)
	else:
	node_feats_lig, node_feats_pro = model(batch, ASRP=False)
	bg_lig, bg_prot, bg_inter, labels, _, ass_des, IC50_f, K_f = batch
	bg_lig.ndata['h'] = node_feats_lig
	bg_prot.ndata['h'] = node_feats_pro
	lig_g_feats = dgl.readout_nodes(bg_lig, 'h', op=self.config.train.interact_ablate_op)
	pro_g_feats = dgl.readout_nodes(bg_prot, 'h', op=self.config.train.interact_ablate_op)
	complex_feats = torch.cat([lig_g_feats, pro_g_feats], dim=1)

	(regression_loss_IC50, regression_loss_K), \
	(affinity_pred_IC50, affinity_pred_K), \
	(affinity_IC50, affinity_K) = self.interact_ablation_model(complex_feats, labels, IC50_f, K_f)

	affinity_pred = torch.cat([affinity_pred_IC50, affinity_pred_K], dim=0)
	affinity = torch.cat([affinity_IC50, affinity_K], dim=0)

	y_preds_IC50 = torch.cat([y_preds_IC50, affinity_pred_IC50])
	y_preds_K = torch.cat([y_preds_K, affinity_pred_K])
	y_preds = torch.cat([y_preds, affinity_pred])

	y_IC50 = torch.cat([y_IC50, affinity_IC50])
	y_K = torch.cat([y_K, affinity_K])
	y = torch.cat([y, affinity])

	metics_dict = commons.get_sbap_regression_metric_dict(np.array(y.cpu()), np.array(y_preds.cpu()))
	result_str = commons.get_matric_output_str(metics_dict)
	result_str = f'{split} total ' + result_str

	if len(y_IC50) > 0:
	metics_dict_IC50 = commons.get_sbap_regression_metric_dict(np.array(y_IC50.cpu()),
	np.array(y_preds_IC50.cpu()))
	result_str_IC50 = commons.get_matric_output_str(metics_dict_IC50)
	result_str_IC50 = f'\| IC50 ' + result_str_IC50
	result_str += result_str_IC50

	if len(y_K) > 0:
	metics_dict_K = commons.get_sbap_regression_metric_dict(np.array(y_K.cpu()), np.array(y_preds_K.cpu()))
	result_str_K = commons.get_matric_output_str(metics_dict_K)
	result_str_K = f'\| K ' + result_str_K
	result_str += result_str_K

	result_str += 'Time: %.4f' % (time() - eval_start)
	if verbose:
	if logger is not None:
	logger.info(result_str)
	else:
	print(result_str)
	return metics_dict['RMSE'], metics_dict['MAE'], metics_dict['SD'], metics_dict['Pearson'], metics_dict['Spearman']

	@torch.no_grad()
	def evaluate_pairwsie(self, split, verbose=0, logger=None, visualize=True):
	"""
	Evaluate the model.
	Parameters:
	split (str): split to evaluate. Can be ``train``, ``val`` or ``test``.
	"""
	if split not in ['train', 'val', 'test']:
	raise ValueError('split should be either train, val, or test.')

	test_set = getattr(self, "%s_set" % split)

	relation_preds = torch.tensor([]).to(self.device)
	relations = torch.tensor([]).to(self.device)
	y_preds = torch.tensor([]).to(self.device)
	ys = torch.tensor([]).to(self.device)
	eval_start = time()
	model = self._model
	model.eval()
	for batch in test_set:
	if self.device.type == "cuda":
	batch = self.trans_device(batch)

	y_pred, x_output, ranking_assay_embedding = model(batch)

	n = x_output.shape[0]
	pair_a_index, pair_b_index = [], []
	for i in range(n):
	pair_a_index.extend([i] * (n - 1))
	pair_b_index.extend([j for j in range(n) if i != j])

	pair_index = pair_a_index + pair_b_index

	_, relation, relation_pred = self.ranking_fn(x_output[pair_index], batch[-3][pair_index], ranking_assay_embedding[pair_index])

	relation_preds = torch.cat([relation_preds, relation_pred])
	relations = torch.cat([relations, relation])

	y_preds = torch.cat([y_preds, y_pred])
	ys = torch.cat([ys, batch[-3]])

	acc = (sum(relation_preds == relations) / (len(relation_preds))).cpu().item()
	result_str = 'valid acc: {:.4f}'.format(acc)

	np_y = np.array(ys.cpu())
	np_f = np.array(y_preds.cpu())
	regression_metrics_dict = commons.get_sbap_regression_metric_dict(np_y, np_f)
	regression_result_str = commons.get_matric_output_str(regression_metrics_dict)
	result_str += regression_result_str

	result_str += ' \| Time: %.4f'%(time() - eval_start)

	if verbose:
	if logger is not None:
	logger.info(result_str)
	else:
	print(result_str)

	return acc

	@torch.no_grad()
	def evaluate_pointwise(self, split, verbose=0, logger=None, visualize=True):
	"""
	Evaluate the model.
	Parameters:
	split (str): split to evaluate. Can be ``train``, ``val`` or ``test``.
	"""
	if split not in ['train', 'val', 'test']:
	raise ValueError('split should be either train, val, or test.')

	test_set = getattr(self, "%s_set" % split)

	relation_preds = torch.tensor([]).to(self.device)
	relations = torch.tensor([]).to(self.device)
	y_preds = torch.tensor([]).to(self.device)
	ys = torch.tensor([]).to(self.device)
	eval_start = time()
	model = self._model
	model.eval()
	for batch in test_set:
	if self.device.type == "cuda":
	batch = self.trans_device(batch)

	y_pred, x_output, _ = model(batch)

	n = x_output.shape[0]
	pair_a_index, pair_b_index = [], []
	for i in range(n):
	pair_a_index.extend([i] * (n - 1))
	pair_b_index.extend([j for j in range(n) if i != j])

	pair_index = pair_a_index + pair_b_index

	score_pred = y_pred[pair_index]
	score_target = batch[-3][pair_index]

	batch_repeat_num = len(score_pred)
	batch_size = batch_repeat_num // 2
	pred_A, targe_A, pred_B, target_B = score_pred[:batch_size], score_target[:batch_size], score_pred[batch_size:], score_target[batch_size:]

	relation_pred = torch.zeros(pred_A.size(), dtype=torch.long, device=pred_A.device)
	relation_pred[(pred_A - pred_B) > 0.0] = 1

	relation = torch.zeros(targe_A.size(), dtype=torch.long, device=targe_A.device)
	relation[(targe_A - target_B) > 0.0] = 1

	relation_preds = torch.cat([relation_preds, relation_pred])
	relations = torch.cat([relations, relation])

	y_preds = torch.cat([y_preds, y_pred])
	ys = torch.cat([ys, batch[-3]])

	acc = (sum(relation_preds == relations) / (len(relation_preds))).cpu().item()
	result_str = 'valid acc: {:.4f}'.format(acc)

	np_y = np.array(ys.cpu())
	np_f = np.array(y_preds.cpu())
	regression_metrics_dict = commons.get_sbap_regression_metric_dict(np_y, np_f)
	regression_result_str = commons.get_matric_output_str(regression_metrics_dict)
	result_str += regression_result_str

	result_str += ' \| Time: %.4f'%(time() - eval_start)

	if verbose:
	if logger is not None:
	logger.info(result_str)
	else:
	print(result_str)

	return acc, regression_metrics_dict['RMSE']

	def train(self, ddp=False):
	if self.config.train.pretrain_sampling_method == 'pairwise_v1':
	if not self.config.train.multi_task:
	print('begin pairwise_v1 training')
	self.train_pairwise_v1(ddp=ddp)
	elif self.config.train.multi_task == 'IC50KdKi':
	print('begin pairwise_v1 multi-task training IC50/Kd/Ki')
	self.train_pairwise_v1_multi_task(ddp=ddp)
	elif self.config.train.multi_task == 'IC50K':
	print('begin pairwise_v1 multi-task training IC50/K')
	self.train_pairwise_v1_multi_task_v2(ddp=ddp)

	elif self.config.train.pretrain_sampling_method == 'pointwise':
	if not self.config.train.multi_task:
	print('begin pointwise training')
	self.train_pointwise(ddp=ddp)
	elif self.config.train.multi_task == 'IC50KdKi':
	print('begin pointwise multi-task training IC50/Kd/Ki')
	self.train_pointwise_multi_task(ddp=ddp)
	elif self.config.train.multi_task == 'IC50K':
	print('begin pointwise multi-task training IC50/K')
	self.train_pointwise_multi_task_v2(ddp=ddp)

	def train_pairwise_v1(self, verbose=1, ddp=False):
	self.logger = self.config.logger
	train_start = time()

	num_epochs = self.config.train.pretrain_epochs

	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	train_sampler = torch.utils.data.distributed.DistributedSampler(self.train_set)
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size, drop_last=True,
	collate_fn=dataset.collate_affinity_pair_wise,
	num_workers=self.config.train.num_workers,
	sampler=train_sampler)
	else:
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size, drop_last=True,
	shuffle=self.config.train.shuffle, collate_fn=dataset.collate_affinity_pair_wise,
	num_workers=self.config.train.num_workers)


	model = self._model
	if self.logger is not None:
	self.logger.info(self.config)
	self.logger.info('trainable params in model: {:.2f}M'.format( sum(p.numel() for p in model.parameters() if p.requires_grad) / 1e6))
	self.logger.info('start training...')
	train_losses = []
	val_matric = []
	best_matric = self.best_matric
	best_loss = 1000000
	start_epoch = self.start_epoch

	early_stop = 0

	for epoch in range(num_epochs):
	# train
	model.train()
	epoch_start = time()
	batch_losses, batch_regression_losses, batch_ranking_losses = [], [], []
	batch_cnt = 0

	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	dataloader.sampler.set_epoch(epoch)

	for batch in dataloader:
	batch_cnt += 1
	if self.device.type == "cuda":
	batch = self.trans_device(batch)

	y_pred, x_output, ranking_assay_embedding = model(batch)

	y_pred_num = len(y_pred)
	assert y_pred_num % 2 == 0

	if self.config.train.pairwise_two_tower_regression_loss:
	regression_loss = self.loss_fn(y_pred, batch[-3])
	else:
	regression_loss = self.loss_fn(y_pred[:y_pred_num // 2], batch[-3][:y_pred_num // 2])

	ranking_loss, _, _ = self.ranking_fn(x_output, batch[-3], ranking_assay_embedding)

	pretrain_loss = self.config.train.pretrain_ranking_loss_lambda * ranking_loss +\
	self.config.train.pretrain_regression_loss_lambda * regression_loss

	if not pretrain_loss.requires_grad:
	raise RuntimeError("loss doesn't require grad")

	self._optimizer.zero_grad()
	pretrain_loss.backward()
	self._optimizer.step()

	batch_ranking_losses.append(self.config.train.pretrain_ranking_loss_lambda * ranking_loss.item())
	batch_regression_losses.append(self.config.train.pretrain_regression_loss_lambda * regression_loss.item())
	batch_losses.append(pretrain_loss.item())

	train_losses.append(sum(batch_losses))

	if self.logger is not None:
	self.logger.info('Epoch: %d \| Pretrain Loss: %.4f \| Regression Loss: %.4f \| Ranking Loss: %.4f \| Lr: %.4f \| Time: %.4f' % (
	epoch + start_epoch, sum(batch_losses), sum(batch_regression_losses), sum(batch_ranking_losses), self._optimizer.param_groups[0]['lr'], time() - epoch_start))


	if (not ddp) or (ddp and dist.get_rank() == 0):
	# evaluate
	if self.config.train.eval:
	eval_acc = self.evaluate_pairwsie('val', verbose=1, logger=self.logger)
	val_matric.append(eval_acc)

	if val_matric[-1] > best_matric:
	early_stop = 0
	best_matric = val_matric[-1]
	if self.config.train.save:
	print('saving checkpoint')
	val_list = {
	'cur_epoch': epoch + start_epoch,
	'best_matric': best_matric,
	}
	self.save(self.config.train.save_path, epoch + start_epoch, ddp, val_list)


	if self.config.train.scheduler.type == "plateau":
	self._scheduler.step(train_losses[-1])
	else:
	self._scheduler.step()

	val_list = {
	'cur_epoch': epoch + start_epoch,
	'best_matric': best_matric,
	}

	self.save(self.config.train.save_path, 'latest', ddp, val_list)

	if sum(batch_losses) < best_loss:
	best_loss = sum(batch_losses)
	self.save(self.config.train.save_path, 'best_loss', ddp, val_list)


	torch.cuda.empty_cache()
	if epoch % self.config.train.pretrain_regression_loss_lambda_degrade_epoch == 0:
	self.config.train.pretrain_regression_loss_lambda *= self.config.train.pretrain_regression_loss_lambda_degrade_ratio

	self.best_matric = best_matric
	self.start_epoch = start_epoch + num_epochs
	print('optimization finished.')
	print('Total time elapsed: %.5fs' % (time() - train_start))

	def train_pairwise_v1_multi_task(self, verbose=1, ddp=False):
	self.logger = self.config.logger
	train_start = time()

	num_epochs = self.config.train.pretrain_epochs

	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	train_sampler = torch.utils.data.distributed.DistributedSampler(self.train_set)
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size, drop_last=True,
	collate_fn=dataset.collate_affinity_pair_wise_multi_task,
	num_workers=self.config.train.num_workers,
	sampler=train_sampler)
	else:
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size, drop_last=True,
	shuffle=self.config.train.shuffle, collate_fn=dataset.collate_affinity_pair_wise_multi_task,
	num_workers=self.config.train.num_workers)


	model = self._model
	if self.logger is not None:
	self.logger.info(self.config)
	self.logger.info('trainable params in model: {:.2f}M'.format( sum(p.numel() for p in model.parameters() if p.requires_grad) / 1e6))
	self.logger.info('start training...')
	train_losses = []
	val_matric = []
	best_matric = self.best_matric
	best_loss = 1000000
	start_epoch = self.start_epoch

	early_stop = 0

	for epoch in range(num_epochs):
	# train
	model.train()
	epoch_start = time()
	batch_losses, batch_regression_losses, batch_ranking_losses = [], [], []
	batch_regression_ic50_losses, batch_regression_kd_losses, batch_regression_ki_losses = [], [], []
	batch_ranking_ic50_losses, batch_ranking_kd_losses, batch_ranking_ki_losses = [], [], []
	batch_cnt = 0

	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	dataloader.sampler.set_epoch(epoch)

	for batch in dataloader:
	batch_cnt += 1
	if self.device.type == "cuda":
	batch = self.trans_device(batch)

	(regression_loss_IC50, regression_loss_Kd, regression_loss_Ki), \
	(ranking_loss_IC50, ranking_loss_Kd, ranking_loss_Ki), \
	(affinity_pred_IC50, affinity_pred_Kd, affinity_pred_Ki), \
	(relation_pred_IC50, relation_pred_Kd, relation_pred_Ki), \
	(affinity_IC50, affinity_Kd, affinity_Ki), \
	(relation_IC50, relation_Kd, relation_Kd) = model(batch)

	regression_loss = self.config.train.pretrain_mtl_IC50_lambda * regression_loss_IC50 + \
	self.config.train.pretrain_mtl_Kd_lambda * regression_loss_Kd + \
	self.config.train.pretrain_mtl_Ki_lambda * regression_loss_Ki

	ranking_loss = self.config.train.pretrain_mtl_IC50_lambda * ranking_loss_IC50 + \
	self.config.train.pretrain_mtl_Kd_lambda * ranking_loss_Kd + \
	self.config.train.pretrain_mtl_Kd_lambda * ranking_loss_Ki


	pretrain_loss = self.config.train.pretrain_ranking_loss_lambda * ranking_loss +\
	self.config.train.pretrain_regression_loss_lambda * regression_loss

	if not pretrain_loss.requires_grad:
	raise RuntimeError("loss doesn't require grad")

	self._optimizer.zero_grad()
	pretrain_loss.backward()
	self._optimizer.step()

	batch_ranking_losses.append(self.config.train.pretrain_ranking_loss_lambda * ranking_loss.item())
	batch_regression_losses.append(self.config.train.pretrain_regression_loss_lambda * regression_loss.item())
	batch_losses.append(pretrain_loss.item())

	batch_regression_ic50_losses.append(self.config.train.pretrain_mtl_IC50_lambda * regression_loss_IC50.item())
	batch_regression_kd_losses.append(self.config.train.pretrain_mtl_Kd_lambda * regression_loss_Kd.item())
	batch_regression_ki_losses.append(self.config.train.pretrain_mtl_Ki_lambda * regression_loss_Ki.item())

	batch_ranking_ic50_losses.append(self.config.train.pretrain_mtl_IC50_lambda * ranking_loss_IC50.item())
	batch_ranking_kd_losses.append(self.config.train.pretrain_mtl_Kd_lambda * ranking_loss_Kd.item())
	batch_ranking_ki_losses.append(self.config.train.pretrain_mtl_Ki_lambda * ranking_loss_Ki.item())

	train_losses.append(sum(batch_losses))

	if self.logger is not None:
	self.logger.info('Epoch: %d \| Pretrain Loss: %.4f \| Regression Loss: %.4f \| Ranking Loss: %.4f \| '
	'Regression IC50 Loss: %.4f \| Regression Kd Loss: %.4f \| Regression Ki Loss: %.4f \| '
	'Ranking IC50 Loss: %.4f \| Ranking Kd Loss: %.4f \| Ranking Ki Loss: %.4f \| Lr: %.4f \| Time: %.4f' % (
	epoch + start_epoch, sum(batch_losses), sum(batch_regression_losses), sum(batch_ranking_losses),
	sum(batch_regression_ic50_losses), sum(batch_regression_kd_losses), sum(batch_regression_ki_losses),
	sum(batch_ranking_ic50_losses), sum(batch_ranking_kd_losses), sum(batch_ranking_ki_losses),
	self._optimizer.param_groups[0]['lr'], time() - epoch_start))


	if (not ddp) or (ddp and dist.get_rank() == 0):
	if self.config.train.scheduler.type == "plateau":
	self._scheduler.step(train_losses[-1])
	else:
	self._scheduler.step()

	val_list = {
	'cur_epoch': epoch + start_epoch,
	'best_matric': best_matric,
	}

	self.save(self.config.train.save_path, 'latest', ddp, val_list)

	torch.cuda.empty_cache()
	if epoch % self.config.train.pretrain_regression_loss_lambda_degrade_epoch == 0:
	self.config.train.pretrain_regression_loss_lambda *= self.config.train.pretrain_regression_loss_lambda_degrade_ratio

	self.best_matric = best_matric
	self.start_epoch = start_epoch + num_epochs
	print('optimization finished.')
	print('Total time elapsed: %.5fs' % (time() - train_start))

	def train_pairwise_v1_multi_task_v2(self, verbose=1, ddp=False):
	self.logger = self.config.logger
	train_start = time()

	num_epochs = self.config.train.pretrain_epochs

	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	train_sampler = torch.utils.data.distributed.DistributedSampler(self.train_set)
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size, drop_last=True,
	collate_fn=dataset.collate_affinity_pair_wise_multi_task_v2,
	num_workers=self.config.train.num_workers,
	sampler=train_sampler)
	else:
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size, drop_last=True,
	shuffle=self.config.train.shuffle, collate_fn=dataset.collate_affinity_pair_wise_multi_task_v2,
	num_workers=self.config.train.num_workers)


	model = self._model
	if self.logger is not None:
	self.logger.info(self.config)
	self.logger.info('trainable params in model: {:.2f}M'.format( sum(p.numel() for p in model.parameters() if p.requires_grad) / 1e6))
	self.logger.info('start training...')
	train_losses = []
	val_matric = []
	best_matric = self.best_matric
	best_loss = 1000000
	start_epoch = self.start_epoch

	early_stop = 0

	for epoch in range(num_epochs):
	# train
	model.train()
	epoch_start = time()
	batch_losses, batch_regression_losses, batch_ranking_losses = [], [], []
	batch_regression_ic50_losses, batch_regression_k_losses = [], []
	batch_ranking_ic50_losses, batch_ranking_k_losses = [], []
	batch_cnt = 0

	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	dataloader.sampler.set_epoch(epoch)

	for batch in dataloader:
	batch_cnt += 1
	if self.device.type == "cuda":
	batch = self.trans_device(batch)

	(regression_loss_IC50, regression_loss_K), \
	(ranking_loss_IC50, ranking_loss_K), \
	(affinity_pred_IC50, affinity_pred_K), \
	(relation_pred_IC50, relation_pred_K), \
	(affinity_IC50, affinity_K), \
	(relation_IC50, relation_K) = model(batch)

	regression_loss = self.config.train.pretrain_mtl_IC50_lambda * regression_loss_IC50 + \
	self.config.train.pretrain_mtl_K_lambda * regression_loss_K

	ranking_loss = self.config.train.pretrain_mtl_IC50_lambda * ranking_loss_IC50 + \
	self.config.train.pretrain_mtl_Kd_lambda * ranking_loss_K

	pretrain_loss = self.config.train.pretrain_ranking_loss_lambda * ranking_loss +\
	self.config.train.pretrain_regression_loss_lambda * regression_loss

	if not pretrain_loss.requires_grad:
	raise RuntimeError("loss doesn't require grad")

	self._optimizer.zero_grad()
	pretrain_loss.backward()
	self._optimizer.step()

	batch_ranking_losses.append(self.config.train.pretrain_ranking_loss_lambda * ranking_loss.item())
	batch_regression_losses.append(self.config.train.pretrain_regression_loss_lambda * regression_loss.item())
	batch_losses.append(pretrain_loss.item())

	batch_regression_ic50_losses.append(self.config.train.pretrain_mtl_IC50_lambda * regression_loss_IC50.item())
	batch_regression_k_losses.append(self.config.train.pretrain_mtl_Kd_lambda * regression_loss_K.item())

	batch_ranking_ic50_losses.append(self.config.train.pretrain_mtl_IC50_lambda * ranking_loss_IC50.item())
	batch_ranking_k_losses.append(self.config.train.pretrain_mtl_Kd_lambda * ranking_loss_K.item())

	train_losses.append(sum(batch_losses))

	if self.logger is not None:
	self.logger.info('Epoch: %d \| Pretrain Loss: %.4f \| Regression Loss: %.4f \| Ranking Loss: %.4f \| '
	'Regression IC50 Loss: %.4f \| Regression K Loss: %.4f \| '
	'Ranking IC50 Loss: %.4f \| Ranking K Loss: %.4f \| Lr: %.4f \| Time: %.4f' % (
	epoch + start_epoch, sum(batch_losses), sum(batch_regression_losses), sum(batch_ranking_losses),
	sum(batch_regression_ic50_losses), sum(batch_regression_k_losses),
	sum(batch_ranking_ic50_losses), sum(batch_ranking_k_losses),
	self._optimizer.param_groups[0]['lr'], time() - epoch_start))


	if (not ddp) or (ddp and dist.get_rank() == 0):
	if self.config.train.scheduler.type == "plateau":
	self._scheduler.step(train_losses[-1])
	else:
	self._scheduler.step()

	val_list = {
	'cur_epoch': epoch + start_epoch,
	'best_matric': best_matric,
	}

	self.save(self.config.train.save_path, 'latest', ddp, val_list)

	# evaluate
	if self.config.train.eval:
	eval_rmse = self.evaluate_pairwsie_pdbbind('finetune_val', verbose=1, logger=self.logger)
	val_matric.append(eval_rmse[-1])

	if val_matric[-1] > best_matric:
	best_matric = val_matric[-1]
	if self.config.train.save:
	print('saving checkpoint')
	val_list = {
	'cur_epoch': epoch + start_epoch,
	'best_matric': best_matric,
	}
	self.save(self.config.train.save_path, f'best_finetune_valid', ddp, val_list)

	torch.cuda.empty_cache()
	if epoch % self.config.train.pretrain_regression_loss_lambda_degrade_epoch == 0:
	self.config.train.pretrain_regression_loss_lambda *= self.config.train.pretrain_regression_loss_lambda_degrade_ratio

	self.best_matric = best_matric
	self.start_epoch = start_epoch + num_epochs
	print('optimization finished.')
	print('Total time elapsed: %.5fs' % (time() - train_start))

	def train_pointwise(self, verbose=1, ddp=False):
	self.logger = self.config.logger
	train_start = time()
	num_epochs = self.config.train.pretrain_epochs

	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	train_sampler = torch.utils.data.distributed.DistributedSampler(self.train_set)
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size,
	collate_fn=dataset.collate_pdbbind_affinity,
	num_workers=self.config.train.num_workers, drop_last=True,
	sampler=train_sampler)
	else:
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size,
	shuffle=self.config.train.shuffle, collate_fn=dataset.collate_pdbbind_affinity,
	num_workers=self.config.train.num_workers, drop_last=True)

	model = self._model
	if self.logger is not None:
	self.logger.info(self.config)
	self.logger.info('trainable params in model: {:.2f}M'.format( sum(p.numel() for p in model.parameters() if p.requires_grad) / 1e6))
	self.logger.info('start training...')

	train_losses = []
	val_matric = []
	best_matric = self.best_matric
	best_loss = 1000000
	start_epoch = self.start_epoch
	early_stop = 0

	for epoch in range(num_epochs):
	# train
	model.train()
	epoch_start = time()
	batch_losses, batch_regression_losses = [], []

	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	dataloader.sampler.set_epoch(epoch)

	for batch in dataloader:
	if self.device.type == "cuda":
	batch = self.trans_device(batch)

	y_pred, x_output, _ = model(batch)
	regression_loss = self.loss_fn(y_pred, batch[-3])

	pretrain_loss = regression_loss

	if not pretrain_loss.requires_grad:
	raise RuntimeError("loss doesn't require grad")

	self._optimizer.zero_grad()
	pretrain_loss.backward()
	self._optimizer.step()

	batch_losses.append(pretrain_loss.item())
	batch_regression_losses.append(regression_loss.item())

	train_losses.append(sum(batch_losses))

	if self.logger is not None:
	self.logger.info('Epoch: %d \| Pretrain Loss: %.4f \| Regression Loss: %.4f \| Ranking Loss: %.4f \| Lr: %.4f \| Time: %.4f' % (
	epoch + start_epoch, sum(batch_losses), sum(batch_regression_losses), 0.0, self._optimizer.param_groups[0]['lr'], time() - epoch_start))

	if (not ddp) or (ddp and dist.get_rank() == 0):
	# evaluate
	if self.config.train.eval:
	eval_acc, eval_rmse = self.evaluate_pointwise('val', verbose=1, logger=self.logger)
	val_matric.append(eval_acc)

	if self.config.train.scheduler.type == "plateau":
	self._scheduler.step(train_losses[-1])
	else:
	self._scheduler.step()

	val_list = {
	'cur_epoch': epoch + start_epoch,
	'best_matric': best_matric,
	}

	self.save(self.config.train.save_path, 'latest', ddp, val_list)

	if sum(batch_losses) < best_loss:
	best_loss = sum(batch_losses)
	self.save(self.config.train.save_path, 'best_loss', ddp, val_list)

	if val_matric[-1] > best_matric:
	best_matric = val_matric[-1]
	if self.config.train.save:
	print('saving checkpoint')
	val_list = {
	'cur_epoch': epoch + start_epoch,
	'best_matric': best_matric,
	}
	self.save(self.config.train.save_path, epoch + start_epoch, ddp, val_list)

	torch.cuda.empty_cache()
	if epoch % self.config.train.pretrain_regression_loss_lambda_degrade_epoch == 0:
	self.config.train.pretrain_regression_loss_lambda *= self.config.train.pretrain_regression_loss_lambda_degrade_ratio

	self.best_matric = best_matric
	self.start_epoch = start_epoch + num_epochs
	print('optimization finished.')
	print('Total time elapsed: %.5fs' % (time() - train_start))

	def train_pointwise_multi_task(self, verbose=1, ddp=False):
	self.logger = self.config.logger
	train_start = time()
	num_epochs = self.config.train.pretrain_epochs

	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	train_sampler = torch.utils.data.distributed.DistributedSampler(self.train_set)
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size,
	collate_fn=dataset.collate_pdbbind_affinity_multi_task,
	num_workers=self.config.train.num_workers, drop_last=True,
	sampler=train_sampler)
	else:
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size,
	shuffle=self.config.train.shuffle, collate_fn=dataset.collate_pdbbind_affinity_multi_task,
	num_workers=self.config.train.num_workers, drop_last=True)

	model = self._model
	if self.logger is not None:
	self.logger.info(self.config)
	self.logger.info('trainable params in model: {:.2f}M'.format( sum(p.numel() for p in model.parameters() if p.requires_grad) / 1e6))
	self.logger.info('start training...')

	train_losses = []
	val_matric = []
	best_matric = self.best_matric
	best_loss = 1000000
	start_epoch = self.start_epoch
	early_stop = 0

	for epoch in range(num_epochs):
	# train
	model.train()
	epoch_start = time()
	batch_losses, batch_regression_losses = [], []
	batch_regression_ic50_losses, batch_regression_kd_losses, batch_regression_ki_losses = [], [], []
	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	dataloader.sampler.set_epoch(epoch)

	for batch in dataloader:
	if self.device.type == "cuda":
	batch = self.trans_device(batch)

	(regression_loss_IC50, regression_loss_Kd, regression_loss_Ki), \
	(affinity_pred_IC50, affinity_pred_Kd, affinity_pred_Ki), \
	(affinity_IC50, affinity_Kd, affinity_Ki) = model(batch, ASRP=False)

	pretrain_loss = self.config.train.pretrain_mtl_IC50_lambda * regression_loss_IC50 + \
	self.config.train.pretrain_mtl_Kd_lambda * regression_loss_Kd + \
	self.config.train.pretrain_mtl_Ki_lambda * regression_loss_Ki

	if not pretrain_loss.requires_grad:
	raise RuntimeError("loss doesn't require grad")

	self._optimizer.zero_grad()
	pretrain_loss.backward()
	self._optimizer.step()

	batch_losses.append(pretrain_loss.item())
	batch_regression_ic50_losses.append(self.config.train.pretrain_mtl_IC50_lambda * regression_loss_IC50.item())
	batch_regression_kd_losses.append(self.config.train.pretrain_mtl_Kd_lambda * regression_loss_Kd.item())
	batch_regression_ki_losses.append(self.config.train.pretrain_mtl_Ki_lambda * regression_loss_Ki.item())

	train_losses.append(sum(batch_losses))

	if self.logger is not None:
	self.logger.info('Epoch: %d \| Pretrain Loss: %.4f \| '
	'Regression IC50 Loss: %.4f \| Regression Kd Loss: %.4f \| Regression Ki Loss: %.4f \| '
	'Lr: %.4f \| Time: %.4f' % (
	epoch + start_epoch, sum(batch_losses),
	sum(batch_regression_ic50_losses), sum(batch_regression_kd_losses), sum(batch_regression_ki_losses),
	self._optimizer.param_groups[0]['lr'], time() - epoch_start))

	if (not ddp) or (ddp and dist.get_rank() == 0):
	if self.config.train.scheduler.type == "plateau":
	self._scheduler.step(train_losses[-1])
	else:
	self._scheduler.step()

	val_list = {
	'cur_epoch': epoch + start_epoch,
	'best_matric': best_matric,
	}

	self.save(self.config.train.save_path, 'latest', ddp, val_list)

	torch.cuda.empty_cache()
	if epoch % self.config.train.pretrain_regression_loss_lambda_degrade_epoch == 0:
	self.config.train.pretrain_regression_loss_lambda *= self.config.train.pretrain_regression_loss_lambda_degrade_ratio

	self.best_matric = best_matric
	self.start_epoch = start_epoch + num_epochs
	print('optimization finished.')
	print('Total time elapsed: %.5fs' % (time() - train_start))

	def train_pointwise_multi_task_v2(self, verbose=1, ddp=False):
	self.logger = self.config.logger
	train_start = time()
	num_epochs = self.config.train.pretrain_epochs

	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	train_sampler = torch.utils.data.distributed.DistributedSampler(self.train_set)
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size,
	collate_fn=dataset.collate_pdbbind_affinity_multi_task_v2,
	num_workers=self.config.train.num_workers, drop_last=True,
	sampler=train_sampler)
	else:
	dataloader = DataLoader(self.train_set, batch_size=self.config.train.batch_size,
	shuffle=self.config.train.shuffle, collate_fn=dataset.collate_pdbbind_affinity_multi_task_v2,
	num_workers=self.config.train.num_workers, drop_last=True)

	model = self._model
	if self.logger is not None:
	self.logger.info(self.config)
	self.logger.info('trainable params in model: {:.2f}M'.format( sum(p.numel() for p in model.parameters() if p.requires_grad) / 1e6))
	self.logger.info('start training...')

	train_losses = []
	val_matric = []
	best_matric = self.best_matric
	best_loss = 1000000
	start_epoch = self.start_epoch
	early_stop = 0

	for epoch in range(num_epochs):
	# train
	model.train()
	epoch_start = time()
	batch_losses, batch_regression_losses = [], []
	batch_regression_ic50_losses, batch_regression_k_losses = [], []
	if ddp and self.config.train.use_memory_efficient_dataset != 'v1':
	dataloader.sampler.set_epoch(epoch)

	for batch in dataloader:
	if self.device.type == "cuda":
	batch = self.trans_device(batch)

	(regression_loss_IC50, regression_loss_K), \
	(affinity_pred_IC50, affinity_pred_K), \
	(affinity_IC50, affinity_K) = model(batch, ASRP=False)

	pretrain_loss = self.config.train.pretrain_mtl_IC50_lambda * regression_loss_IC50 + \
	self.config.train.pretrain_mtl_K_lambda * regression_loss_K

	if not pretrain_loss.requires_grad:
	raise RuntimeError("loss doesn't require grad")

	self._optimizer.zero_grad()
	pretrain_loss.backward()
	self._optimizer.step()

	batch_losses.append(pretrain_loss.item())
	batch_regression_ic50_losses.append(self.config.train.pretrain_mtl_IC50_lambda * regression_loss_IC50.item())
	batch_regression_k_losses.append(self.config.train.pretrain_mtl_K_lambda * regression_loss_K.item())

	train_losses.append(sum(batch_losses))

	if self.logger is not None:
	self.logger.info('Epoch: %d \| Pretrain Loss: %.4f \| '
	'Regression IC50 Loss: %.4f \| Regression K Loss: %.4f \| '
	'Lr: %.4f \| Time: %.4f' % (
	epoch + start_epoch, sum(batch_losses),
	sum(batch_regression_ic50_losses), sum(batch_regression_k_losses),
	self._optimizer.param_groups[0]['lr'], time() - epoch_start))

	if (not ddp) or (ddp and dist.get_rank() == 0):
	if self.config.train.scheduler.type == "plateau":
	self._scheduler.step(train_losses[-1])
	else:
	self._scheduler.step()

	val_list = {
	'cur_epoch': epoch + start_epoch,
	'best_matric': best_matric,
	}

	self.save(self.config.train.save_path, 'latest', ddp, val_list)

	torch.cuda.empty_cache()
	if epoch % self.config.train.pretrain_regression_loss_lambda_degrade_epoch == 0:
	self.config.train.pretrain_regression_loss_lambda *= self.config.train.pretrain_regression_loss_lambda_degrade_ratio

	self.best_matric = best_matric
	self.start_epoch = start_epoch + num_epochs
	print('optimization finished.')
	print('Total time elapsed: %.5fs' % (time() - train_start))