Spaces:

KyanChen
/

RSPrompter

Runtime error

App Files Files Community

RSPrompter / mmpl /models /pler /seg_pler.py

KyanChen

Upload 159 files

1c3eb47 almost 2 years ago

raw

history blame contribute delete

19.7 kB

	import os
	from typing import Any

	import einops
	import mmengine
	import numpy as np
	import torch
	import torch.nn as nn
	from einops import rearrange
	from lightning.pytorch.utilities import grad_norm
	from mmengine.structures import InstanceData

	from mmpl.registry import MODELS
	from mmseg.utils import SampleList
	from ..builder import build_backbone, build_loss, build_neck, build_head
	from .base_pler import BasePLer
	from mmpl.structures import ClsDataSample
	from .base import BaseClassifier
	import lightning.pytorch as pl
	import torch.nn.functional as F


	@MODELS.register_module()
	class SegPLer(BasePLer):
	def __init__(self,
	sam=None,
	sam_checkpoint='',
	points_per_side=None,
	sam_prompt_generator=None,
	only_img_encoder=False,
	only_decoder=False,
	global_prompt=None,
	need_train_names=None,
	head=None,
	with_clip=False,
	train_head=False,
	threshold=0.5,
	ignore_index=255,
	train_cfg=None,
	test_cfg=None,
	args, *kwargs):
	super().__init__(args, *kwargs)
	self.save_hyperparameters()
	self.need_train_names = need_train_names
	self.ignore_index = ignore_index
	self.threshold = threshold
	self.only_img_encoder = only_img_encoder
	self.only_decoder = only_decoder
	self.global_prompt = global_prompt
	self.train_head = train_head

	if sam is not None:
	if self.only_img_encoder:
	self.sam = sam_model_registry[sam](sam_checkpoint).image_encoder
	elif self.only_decoder:
	self.prompt_encoder = sam_model_registry[sam](sam_checkpoint).prompt_encoder
	self.mask_decoder = sam_model_registry[sam](sam_checkpoint).mask_decoder
	else:
	sam = sam_model_registry[sam](sam_checkpoint, train_head=train_head)
	self.img_encoder = sam.image_encoder
	self.prompt_encoder = sam.prompt_encoder
	self.mask_decoder = sam.mask_decoder
	self.prompt_encoder_no_mask_embed = sam.prompt_encoder.no_mask_embed

	if points_per_side is not None:
	self.point_grids = build_all_layer_point_grids(
	points_per_side, 0, 1)
	if sam_prompt_generator is not None:
	self.sam_prompt_generator = MODELS.build(sam_prompt_generator)
	if head is not None:
	self.head = MODELS.build(head)
	self.with_clip = with_clip
	if global_prompt is not None:
	if with_clip:
	self.logits_prompt = nn.Sequential(
	nn.Linear(1, 8),
	nn.ReLU(),
	nn.Linear(8, 16)
	)
	self.global_prompt = nn.Sequential(
	nn.Conv2d(768+16, 256, kernel_size=3, padding=1),
	nn.ReLU(),
	nn.Conv2d(256, 256, kernel_size=3, padding=1),
	nn.ReLU(),
	nn.Conv2d(256, 1, kernel_size=3, padding=1),
	)
	else:
	self.global_prompt = nn.Sequential(
	nn.Conv2d(256, 128, kernel_size=3, padding=1),
	nn.ReLU(),
	nn.Conv2d(128, 1, kernel_size=3, padding=1),
	)

	def setup(self, stage: str) -> None:
	if self.need_train_names is not None:
	self._set_grad(self.need_train_names, noneed_train_names=[])

	def configure_sharded_model(self) -> None:
	if self.trainer.strategy.__class__.__name__ == 'FSDPStrategy':
	from torch.distributed.fsdp.wrap import wrap
	self.sam_prompt_generator = wrap(self.sam_prompt_generator)
	self.img_encoder = wrap(self.img_encoder)
	self.prompt_encoder_no_mask_embed = wrap(self.prompt_encoder_no_mask_embed)
	self.mask_decoder = wrap(self.mask_decoder)
	self.prompt_encoder = wrap(self.prompt_encoder)
	from torch.distributed.fsdp import CPUOffload
	# from torch.distributed.fsdp.wrap import size_based_auto_wrap_policy
	# import functools
	# strategy = dict(
	# type='FSDPStrategy',
	# cpu_offload=CPUOffload(offload_params=True),
	# auto_wrap_policy=functools.partial(
	# size_based_auto_wrap_policy, min_num_params=int(1e8)
	# )
	#
	# )
	else:
	super().configure_sharded_model()

	def configure_optimizers(self):
	if self.trainer.strategy.__class__.__name__ == 'DeepSpeedStrategy':
	import deepspeed
	# optimizer = deepspeed.runtime.
	optimizer = deepspeed.ops.adam.FusedAdam(self.sam_prompt_generator.parameters(), lr=1e-4)
	# optimizer = deepspeed.ops.adam.DeepSpeedCPUAdam(self.sam_prompt_generator.parameters(), lr=1e-4)
	# optimizer = torch.optim.Adam(self.sam_prompt_generator.parameters(), lr=1e-4)
	lr_scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=50, gamma=0.5)
	return [optimizer], [lr_scheduler]
	else:
	return super().configure_optimizers()

	def init_weights(self):
	import ipdb; ipdb.set_trace()
	pass

	# def on_fit_start(self) -> None:
	# if hasattr(self, 'train_evaluator'):
	# self.train_evaluator = self.train_evaluator.to(self.device)
	# if hasattr(self, 'val_evaluator'):
	# self.val_evaluator = self.val_evaluator.to(self.device)

	def train(self, mode=True):
	if self.need_train_names is not None:
	return self._set_train_module(mode, self.need_train_names)
	else:
	super().train(mode)
	return self

	def validation_step(self, batch, batch_idx):
	seg_label = torch.stack([x.gt_sem_seg.data for x in batch['data_samples']], dim=0)
	if self.only_img_encoder:
	masks_pred = self.forward_only_img_encoder(batch)
	masks_pred = F.interpolate(masks_pred, size=seg_label.shape[-2:], mode='bilinear',
	align_corners=True)
	seg_logits = masks_pred > 0
	elif self.only_decoder:
	cls_logits, masks, n_iou_preds = self.forward_sam_prompt_generator(batch) # 1x100x2, 1x100x1x256x256, 1x100x1
	masks = masks.squeeze(2)
	masks = F.interpolate(masks, size=seg_label.shape[-2:], mode='bilinear', align_corners=True)
	# cls_logits[..., 1:2] = cls_logits[..., 1:2] * n_iou_preds
	seg_logits = self.post_process(cls_logits.detach(), masks.detach())
	seg_logits = seg_logits > self.threshold
	else:
	cls_logits, pred_masks, n_iou_preds = self.forward_sam_prompt_generator_all(
	batch) # 1x100x2, 1x100x1x256x256, 1x100x1
	pred_masks = pred_masks.squeeze(2)
	pred_masks = F.interpolate(pred_masks, size=seg_label.shape[-2:], mode='bilinear', align_corners=True)
	# cls_logits[..., 1:2] = cls_logits[..., 1:2] * n_iou_preds
	seg_logits = self.post_process(cls_logits.detach(), pred_masks.detach())
	seg_logits = seg_logits > self.threshold
	# import ipdb; ipdb.set_trace()
	self.val_evaluator.update(seg_logits, seg_label)

	def test_step(self, batch, batch_idx, args: Any, *kwargs: Any):
	cls_logits, n_img_masks = self.forward(batch)

	seg_label = torch.stack([x.gt_sem_seg.data for x in batch['data_samples']], dim=0)
	seg_label = seg_label.squeeze(1)
	masks = F.interpolate(n_img_masks, size=seg_label.shape[-2:], mode='bilinear', align_corners=True)
	masks = masks.squeeze(1) > 0
	self.evaluator.update(masks, seg_label)

	def _seg_data_to_instance_data(self, batch_data_samples: SampleList):
	"""Perform forward propagation to convert paradigm from MMSegmentation
	to MMDetection to ensure ``MMDET_Mask2FormerHead`` could be called
	normally. Specifically, ``batch_gt_instances`` would be added.

	Args:
	batch_data_samples (List[:obj:`SegDataSample`]): The Data
	Samples. It usually includes information such as
	`gt_sem_seg`.

	Returns:
	tuple[Tensor]: A tuple contains two lists.

	- batch_gt_instances (list[:obj:`InstanceData`]): Batch of
	gt_instance. It usually includes ``labels``, each is
	unique ground truth label id of images, with
	shape (num_gt, ) and ``masks``, each is ground truth
	masks of each instances of a image, shape (num_gt, h, w).
	- batch_img_metas (list[dict]): List of image meta information.
	"""
	batch_img_metas = []
	batch_gt_instances = []

	for data_sample in batch_data_samples:
	batch_img_metas.append(data_sample.metainfo)
	gt_masks = data_sample.instances_data.long()
	gt_labels = data_sample.instances_label.long()

	instance_data = InstanceData(labels=gt_labels, masks=gt_masks)
	batch_gt_instances.append(instance_data)
	return batch_gt_instances, batch_img_metas

	def training_step(self, batch, batch_idx):
	if self.only_img_encoder:
	masks_pred = self.forward_only_img_encoder(batch)
	seg_label = torch.stack([x.gt_sem_seg.data for x in batch['data_samples']], dim=0)
	masks_pred = F.interpolate(masks_pred, size=seg_label.shape[-2:], mode='bilinear', align_corners=True)
	losses = self.head.loss(masks_pred, seg_label)
	masks_pred_result = masks_pred > 0
	self.train_evaluator.update(masks_pred_result.detach(), seg_label.detach())

	elif self.only_decoder:
	cls_logits, masks, n_iou_preds = self.forward_sam_prompt_generator(batch) # 1x100x2, 1x100x1x256x256, 1x100x1
	masks = masks.squeeze(2)
	seg_label = torch.stack([x.gt_sem_seg.data for x in batch['data_samples']], dim=0)
	masks = F.interpolate(masks, size=seg_label.shape[-2:], mode='bilinear', align_corners=True)
	# cls_logits[..., 1:2] = cls_logits[..., 1:2] * n_iou_preds
	seg_logits = self.post_process(cls_logits.clone().detach(), masks.clone().detach())
	seg_logits = seg_logits > self.threshold
	self.train_evaluator.update(seg_logits, seg_label)

	batch_gt_instances, batch_img_metas = self._seg_data_to_instance_data(
	batch['data_samples'])

	losses = self.head.loss(cls_logits, masks, batch_gt_instances, batch_img_metas)
	else:
	cls_logits, pred_masks, n_iou_preds = self.forward_sam_prompt_generator_all(
	batch) # 1x100x2, 1x100x1x256x256, 1x100x1
	pred_masks = pred_masks.squeeze(2)
	if torch.isinf(pred_masks).any() or torch.isnan(pred_masks).any():
	# import ipdb;
	# ipdb.set_trace()
	# raise ValueError('cost is nan in CrossEntropyLossCost')
	print('!!!!!!!!!!!!!!!!!!!!loss is nan or inf!!!!!!!!!!!!!!!!!!')
	return torch.tensor(0.0, requires_grad=True, device=self.device)
	seg_label = torch.stack([x.gt_sem_seg.data for x in batch['data_samples']], dim=0)
	pred_masks = F.interpolate(pred_masks, size=seg_label.shape[-2:], mode='bilinear', align_corners=True)
	# cls_logits[..., 1:2] = cls_logits[..., 1:2] * n_iou_preds
	seg_logits = self.post_process(cls_logits.clone().detach(), pred_masks.clone().detach())
	seg_logits = seg_logits > self.threshold
	self.train_evaluator.update(seg_logits, seg_label)

	batch_gt_instances, batch_img_metas = self._seg_data_to_instance_data(
	batch['data_samples'])

	losses = self.head.loss(cls_logits, pred_masks, batch_gt_instances, batch_img_metas)

	parsed_losses, log_vars = self.parse_losses(losses)
	log_vars = {f'train_{k}': v for k, v in log_vars.items()}
	log_vars['loss'] = parsed_losses
	self.log_dict(log_vars, prog_bar=True)
	return log_vars

	def on_before_optimizer_step(self, optimizer) -> None:
	self.log_grad(module=self.sam_prompt_generator)

	def post_process(self, mask_cls_results, mask_pred_results):
	cls_score = F.softmax(mask_cls_results, dim=-1)[..., 1:2]
	mask_pred = mask_pred_results.sigmoid()
	seg_logits = torch.einsum('bqc, bqhw->bchw', cls_score, mask_pred)
	return seg_logits

	def forward_only_img_encoder(self, batch, args: Any, *kwargs: Any) -> Any:
	if self.with_clip:
	clip_dense_embs = torch.stack([x.clip_dense_embs for x in batch['data_samples']], dim=0)
	logits_per_images = torch.stack([x.logits_per_image for x in batch['data_samples']], dim=0)
	logits_per_images = self.logits_prompt(logits_per_images) # Bx576x16
	clip_dense_embs = torch.cat([clip_dense_embs, logits_per_images], dim=-1)
	clip_dense_embs = rearrange(clip_dense_embs, 'b (h w) c -> b c h w', h=int(clip_dense_embs.shape[1]**0.5))
	masks_pred = self.global_prompt(clip_dense_embs)
	else:
	image_embeddings = torch.stack([x.image_embeddings for x in batch['data_samples']], dim=0)
	masks_pred = self.global_prompt(image_embeddings)
	return masks_pred

	def forward_sam_prompt_generator(self, batch, args: Any, *kwargs: Any) -> Any:
	inner_states = [x.inner_states for x in batch['data_samples']]
	image_embeddings = torch.stack([x.image_embeddings for x in batch['data_samples']], dim=0)

	inner_states_tmp = []
	for idx in range(len(inner_states[0])):
	inner_states_tmp.append(torch.stack([x[idx] for x in inner_states], dim=0).to(image_embeddings.device))

	point_embs, cls_logits = self.sam_prompt_generator(inner_states_tmp)

	# if has points prompt, then get points embeddings
	if hasattr(self, 'point_grids'):
	points_scale = np.array(img.shape[-2:], dtype=np.float32).reshape(1, -1) # 2,
	points_for_image = self.point_grids[0] * points_scale
	in_points = torch.as_tensor(points_for_image, device=img.device)
	in_labels = torch.ones(in_points.shape[0], dtype=torch.int, device=in_points.device)
	in_points = rearrange(in_points, 'n c -> n () c')
	in_labels = rearrange(in_labels, 'n -> n ()')
	points = (in_points, in_labels)

	sparse_embeddings, dense_embeddings = self.sam.prompt_encoder(
	points=points,
	boxes=None,
	masks=None,
	) # 1024x2x256; 1024x256x64x64
	else:
	# ponits_embeddings B T N C
	sparse_embeddings = point_embs
	dense_embeddings = self.prompt_encoder.no_mask_embed.weight.view(1, 1, -1, 1, 1).expand(
	sparse_embeddings.shape[0], sparse_embeddings.shape[1], -1,
	self.prompt_encoder.image_embedding_size[0], self.prompt_encoder.image_embedding_size[1]
	)


	n_img_masks = []
	n_iou_preds = []
	n_class_aware_probs = []
	for curr_img_embedding, cur_s_emb, cur_d_emb in zip(image_embeddings, sparse_embeddings, dense_embeddings):
	lr_masks, iou_pred, class_aware_prob = self.mask_decoder(
	image_embeddings=curr_img_embedding.unsqueeze(0),
	image_pe=self.prompt_encoder.get_dense_pe(),
	sparse_prompt_embeddings=cur_s_emb,
	dense_prompt_embeddings=cur_d_emb
	)
	mask_slice = slice(0, 1)
	masks = lr_masks[:, mask_slice, :, :]
	iou_pred = iou_pred[:, mask_slice]
	class_aware_prob = class_aware_prob[:, mask_slice]

	n_img_masks.append(masks)
	n_iou_preds.append(iou_pred)
	n_img_masks = torch.stack(n_img_masks, dim=0)
	n_iou_preds = torch.stack(n_iou_preds, dim=0)

	return cls_logits, n_img_masks, n_iou_preds

	def forward_sam_prompt_generator_all(self, batch, args: Any, *kwargs: Any) -> Any:
	x = torch.stack(batch['inputs'], dim=0)
	# if self.local_rank == 0:
	# import pdb; pdb.set_trace()
	# self.trainer.strategy.barrier()
	x = x[:, [2, 1, 0], :, :] # BGR -> RGB
	x = (x - self.img_encoder.pixel_mean) / self.img_encoder.pixel_std
	with torch.no_grad():
	image_embeddings, inner_states = self.img_encoder(x)

	point_embs, cls_logits = self.sam_prompt_generator(inner_states)

	# if has points prompt, then get points embeddings
	if hasattr(self, 'point_grids'):
	points_scale = np.array(img.shape[-2:], dtype=np.float32).reshape(1, -1) # 2,
	points_for_image = self.point_grids[0] * points_scale
	in_points = torch.as_tensor(points_for_image, device=img.device)
	in_labels = torch.ones(in_points.shape[0], dtype=torch.int, device=in_points.device)
	in_points = rearrange(in_points, 'n c -> n () c')
	in_labels = rearrange(in_labels, 'n -> n ()')
	points = (in_points, in_labels)

	sparse_embeddings, dense_embeddings = self.sam.prompt_encoder(
	points=points,
	boxes=None,
	masks=None,
	) # 1024x2x256; 1024x256x64x64
	else:
	# ponits_embeddings B T N C
	sparse_embeddings = point_embs
	dense_embeddings = self.prompt_encoder_no_mask_embed(torch.tensor([0], device=self.device)).view(1, 1, -1, 1, 1).expand(
	sparse_embeddings.shape[0], sparse_embeddings.shape[1], -1,
	image_embeddings.shape[-2], image_embeddings.shape[-1]
	)


	n_img_masks = []
	n_iou_preds = []
	n_class_aware_probs = []
	for curr_img_embedding, cur_s_emb, cur_d_emb in zip(image_embeddings, sparse_embeddings, dense_embeddings):
	lr_masks, iou_pred, class_aware_prob = self.mask_decoder(
	image_embeddings=curr_img_embedding.unsqueeze(0),
	image_pe=self.prompt_encoder.get_dense_pe(),
	sparse_prompt_embeddings=cur_s_emb,
	dense_prompt_embeddings=cur_d_emb
	)
	if self.train_head:
	masks = lr_masks
	iou_pred = iou_pred
	else:
	mask_slice = slice(0, 1)
	masks = lr_masks[:, mask_slice, :, :]
	iou_pred = iou_pred[:, mask_slice]

	n_img_masks.append(masks)
	n_iou_preds.append(iou_pred)
	n_img_masks = torch.stack(n_img_masks, dim=0)
	n_iou_preds = torch.stack(n_iou_preds, dim=0)

	return cls_logits, n_img_masks, n_iou_preds

	def vis_inter_states(self, batch, masks, args: Any, *kwargs: Any):
	folder = 'results/tmp'
	import cv2
	cv2.imwrite(os.path.join(folder, f'img.png'), batch['inputs'][0].permute((1, 2, 0)).detach().cpu().numpy())
	cv2.imwrite(os.path.join(folder, f'label_mask.png'), seg_label[0][0].detach().cpu().numpy() * 255)
	masks = masks > 0
	for idx, mask_pred in enumerate(masks[0]):
	cv2.imwrite(os.path.join(folder, f'pred_mask_{idx}.png'), mask_pred[0].detach().cpu().numpy() * 255)
	import ipdb; ipdb.set_trace()