Spaces:

Plachta
/

GraspAnything

Running

File size: 14,241 Bytes

fcdfd72

"""
Add additional grasp decoder for Segment Anything model.
The structure should follow the grasp decoder structure in GraspDETR.
"""
import torch
import torch.nn as nn
from transformers.models.detr.configuration_detr import DetrConfig
from transformers.models.detr.modeling_detr import DetrHungarianMatcher, DetrLoss, DetrSegmentationOutput, DetrDecoder, sigmoid_focal_loss, dice_loss
from typing import Any, Dict, List, Tuple
from transformers.models.detr.modeling_detr import generalized_box_iou
from transformers.image_transforms import center_to_corners_format
from scipy.optimize import linear_sum_assignment

def modify_matcher_forward(self):
    @torch.no_grad()
    def matcher_forward(outputs, targets):

        batch_size, num_queries = outputs["logits"].shape[:2]

        # We flatten to compute the cost matrices in a batch
        out_prob = outputs["logits"].flatten(0, 1).softmax(-1)  # [batch_size * num_queries, num_classes]
        out_bbox = outputs["pred_boxes"].flatten(0, 1)  # [batch_size * num_queries, 4]

        # Also concat the target labels and boxes
        target_ids = torch.cat([v["class_labels"] for v in targets])
        target_bbox = torch.cat([v["boxes"] for v in targets])

        # Compute the classification cost. Contrary to the loss, we don't use the NLL,
        # but approximate it in 1 - proba[target class].
        # The 1 is a constant that doesn't change the matching, it can be ommitted.
        class_cost = -out_prob[:, target_ids]

        # Compute the L1 cost between boxes
        bbox_cost = torch.cdist(out_bbox, target_bbox, p=1)

        # Compute the giou cost between boxes
        giou_cost = -generalized_box_iou(center_to_corners_format(out_bbox[:, :4]), center_to_corners_format(target_bbox[:, :4]))

        # Final cost matrix
        cost_matrix = self.bbox_cost * bbox_cost + self.class_cost * class_cost + self.giou_cost * giou_cost
        cost_matrix = cost_matrix.view(batch_size, num_queries, -1).cpu()

        sizes = [len(v["boxes"]) for v in targets]
        indices = [linear_sum_assignment(c[i]) for i, c in enumerate(cost_matrix.split(sizes, -1))]
        return [(torch.as_tensor(i, dtype=torch.int64), torch.as_tensor(j, dtype=torch.int64)) for i, j in indices]
    return matcher_forward

def modify_grasp_loss_forward(self):
    def modified_loss_labels(outputs, targets, indices, num_boxes):
        """
        Classification loss (NLL) targets dicts must contain the key "class_labels" containing a tensor of dim
        [nb_target_boxes]
        """
        num_classes = 1  # model v9 always use class agnostic grasp
        if "logits" not in outputs:
            raise KeyError("No logits were found in the outputs")
        source_logits = outputs["logits"]

        idx = self._get_source_permutation_idx(indices)
        target_classes_o = torch.cat([t["class_labels"][J] for t, (_, J) in zip(targets, indices)])
        target_classes = torch.full(
            source_logits.shape[:2], num_classes, dtype=torch.int64, device=source_logits.device
        )
        target_classes[idx] = target_classes_o

        loss_ce = nn.functional.cross_entropy(source_logits.transpose(1, 2), target_classes)
        losses = {"loss_ce": loss_ce}

        return losses

    def modified_loss_boxes(outputs, targets, indices, num_boxes):

        if "pred_boxes" not in outputs:
            raise KeyError("No predicted boxes found in outputs")
        idx = self._get_source_permutation_idx(indices)
        source_boxes = outputs["pred_boxes"][idx]
        target_boxes = torch.cat([t["boxes"][i] for t, (_, i) in zip(targets, indices)], dim=0)

        loss_bbox = nn.functional.l1_loss(source_boxes, target_boxes, reduction="none")

        losses = {}
        losses["loss_bbox"] = loss_bbox.sum() / num_boxes

        loss_giou = 1 - torch.diag(
            generalized_box_iou(center_to_corners_format(source_boxes[:, :4]), center_to_corners_format(target_boxes[:, :4]))
        )
        losses["loss_giou"] = loss_giou.sum() / num_boxes
        return losses
    return modified_loss_labels, modified_loss_boxes

def modify_forward(self):
    """
    Modify the following methods to make SAM perform grasp detection after segmentation:
        1. Add a parallel decoder for grasping detection: 1(+1) classes, 5 values to regress (bbox & rotation)
    Returns:
        Modified model
    """
    # 1. We instantiate a new module in self.base_model, as another decoder
    self.grasp_decoder_config = DetrConfig()
    self.grasp_decoder = DetrDecoder(self.grasp_decoder_config).to(self.device)
    self.grasp_query_position_embeddings = nn.Embedding(20, 256).to(self.device)
    # 2. Base model forward method is not directly used, no modification needs to be done
    # self.detr.model.forward = modify_base_model_forward(self.detr.model)
    # 3. Add additional classification head & bbox regression head for grasp_decoder output
    self.grasp_predictor = torch.nn.Sequential(
        torch.nn.Linear(256, 256),
        torch.nn.Linear(256, 256),
        torch.nn.Linear(256, 5)
    ).to(self.device)
    self.grasp_label_classifier = torch.nn.Linear(256, 2).to(self.device)
    # 4. Add positional embedding
    # name it as grasp_img_pos_embed to avoid name conflict
    class ImagePosEmbed(nn.Module):
        def __init__(self, img_size=64, hidden_dim=256):
            super().__init__()
            self.pos_embed = nn.Parameter(
                torch.randn(1, img_size, img_size, hidden_dim)
            )
        def forward(self, x):
            return x + self.pos_embed

    self.grasp_img_pos_embed = ImagePosEmbed().to(self.device)

    def modified_forward(
            batched_input: List[Dict[str, Any]],
            multimask_output: bool,
    ):
        input_images = torch.stack([x["image"] for x in batched_input], dim=0)
        image_embeddings = self.image_encoder(input_images)

        outputs = []
        srcs = []
        for image_record, curr_embedding in zip(batched_input, image_embeddings):
            if "point_coords" in image_record:
                points = (image_record["point_coords"], image_record["point_labels"])
            else:
                points = None
            sparse_embeddings, dense_embeddings = self.prompt_encoder(
                points=points,
                boxes=image_record.get("boxes", None),
                masks=image_record.get("mask_inputs", None),
            )
            low_res_masks, iou_predictions, src = self.mask_decoder(
                image_embeddings=curr_embedding.unsqueeze(0),
                image_pe=self.prompt_encoder.get_dense_pe(),
                sparse_prompt_embeddings=sparse_embeddings,
                dense_prompt_embeddings=dense_embeddings,
                multimask_output=multimask_output,
            )
            outputs.append(
                {
                    "iou_predictions": iou_predictions,
                    "low_res_logits": low_res_masks,
                }
            )
            srcs.append(src[0])
        srcs = torch.stack(srcs, dim=0)
        # forward grasp decoder here
        # 1. Get encoder hidden states
        grasp_encoder_hidden_states = self.grasp_img_pos_embed(srcs.permute(0, 2, 3, 1))
        # 2. Get query embeddings
        grasp_query_pe = self.grasp_query_position_embeddings(torch.arange(20).to(self.device))
        # repeat to batchsize
        grasp_query_pe = grasp_query_pe.repeat(len(batched_input), 1, 1)
        grasp_decoder_outputs = self.grasp_decoder(
            inputs_embeds=torch.zeros_like(grasp_query_pe),
            attention_mask=None,
            position_embeddings=torch.zeros_like(grasp_encoder_hidden_states),
            query_position_embeddings=grasp_query_pe,
            encoder_hidden_states=grasp_encoder_hidden_states,
            encoder_attention_mask=None,
            output_attentions=False,
            output_hidden_states=False,
            return_dict=True,
        )
        grasp_sequence_output = grasp_decoder_outputs[0]
        grasp_logits = self.grasp_label_classifier(grasp_sequence_output)
        pred_grasps = self.grasp_predictor(grasp_sequence_output).sigmoid()

        # 3. Calculate loss
        loss, loss_dict = 0, {}
        if "grasp_labels" in batched_input[0]:
            config = self.grasp_decoder_config
            grasp_labels = [{
                "class_labels": torch.zeros([len(x["grasp_labels"])], dtype=torch.long).to(self.device),
                "boxes": x["grasp_labels"],
            } for x in batched_input]
            # First: create the matcher
            matcher = DetrHungarianMatcher(
                class_cost=config.class_cost, bbox_cost=config.bbox_cost, giou_cost=config.giou_cost
            )
            matcher.forward = modify_matcher_forward(matcher)
            # Second: create the criterion
            losses = ["labels", "boxes"]
            criterion = DetrLoss(
                matcher=matcher,
                num_classes=config.num_labels,
                eos_coef=config.eos_coefficient,
                losses=losses,
            )
            criterion.loss_labels, criterion.loss_boxes = modify_grasp_loss_forward(criterion)
            criterion.to(self.device)
            # Third: compute the losses, based on outputs and labels
            outputs_loss = {}
            outputs_loss["logits"] = grasp_logits
            outputs_loss["pred_boxes"] = pred_grasps

            grasp_loss_dict = criterion(outputs_loss, grasp_labels)
            # Fourth: compute total loss, as a weighted sum of the various losses
            weight_dict = {"loss_ce": 1, "loss_bbox": config.bbox_loss_coefficient}
            weight_dict["loss_giou"] = config.giou_loss_coefficient
            if config.auxiliary_loss:
                aux_weight_dict = {}
                for i in range(config.decoder_layers - 1):
                    aux_weight_dict.update({k + f"_{i}": v for k, v in weight_dict.items()})
                weight_dict.update(aux_weight_dict)
            grasp_loss = sum(grasp_loss_dict[k] * weight_dict[k] for k in grasp_loss_dict.keys() if k in weight_dict)

            # merge grasp branch loss into variable loss & loss_dict
            loss += grasp_loss
            loss_dict.update(grasp_loss_dict)
        pred_masks = self.postprocess_masks(
            torch.cat([x['low_res_logits'] for x in outputs], dim=0),
            input_size=image_record["image"].shape[-2:],
            original_size=(1024, 1024),
        )
        if 'masks' in batched_input[0]:
            # 4. Calculate segmentation loss
            sf_loss = sigmoid_focal_loss(pred_masks.flatten(1),
                torch.stack([x['masks'] for x in batched_input], dim=0).unsqueeze(1).type(torch.float32).flatten(1), len(batched_input))
            d_loss = dice_loss(pred_masks.flatten(1),
                torch.stack([x['masks'] for x in batched_input], dim=0).unsqueeze(1).type(torch.float32).flatten(1), len(batched_input))
            loss += sf_loss + d_loss
            loss_dict["sf_loss"] = sf_loss
            loss_dict["d_loss"] = d_loss
        return DetrSegmentationOutput(
            loss=loss,
            loss_dict=loss_dict,
            logits=grasp_logits,
            pred_boxes=pred_grasps,
            pred_masks=pred_masks,
        )

    return modified_forward

def add_inference_method(self):
    def infer(
            batched_input: List[Dict[str, Any]],
            multimask_output: bool,
    ):
        input_images = torch.stack([x["image"] for x in batched_input], dim=0)
        image_embeddings = self.image_encoder(input_images)

        outputs = []
        srcs = []
        curr_embedding = image_embeddings[0]
        image_record = batched_input[0]

        if "point_coords" in image_record:
            points = (image_record["point_coords"], image_record["point_labels"])
        else:
            points = None
        sparse_embeddings, dense_embeddings = self.prompt_encoder(
            points=points,
            boxes=image_record.get("boxes", None),
            masks=image_record.get("mask_inputs", None),
        )
        low_res_masks, iou_predictions, src = self.mask_decoder(
            image_embeddings=curr_embedding.unsqueeze(0),
            image_pe=self.prompt_encoder.get_dense_pe(),
            sparse_prompt_embeddings=sparse_embeddings,
            dense_prompt_embeddings=dense_embeddings,
            multimask_output=multimask_output,
        )
        outputs.append(
            {
                "iou_predictions": iou_predictions,
                "low_res_logits": low_res_masks,
            }
        )
        srcs.append(src[0])

        n_queries = iou_predictions.size(0)

        # forward grasp decoder here
        # 1. Get encoder hidden states
        grasp_encoder_hidden_states = self.grasp_img_pos_embed(src.permute(0, 2, 3, 1))
        # 2. Get query embeddings
        grasp_query_pe = self.grasp_query_position_embeddings(torch.arange(20).to(self.device))
        # repeat to batchsize
        grasp_query_pe = grasp_query_pe.repeat(n_queries, 1, 1)
        grasp_decoder_outputs = self.grasp_decoder(
            inputs_embeds=torch.zeros_like(grasp_query_pe),
            attention_mask=None,
            position_embeddings=torch.zeros_like(grasp_encoder_hidden_states),
            query_position_embeddings=grasp_query_pe,
            encoder_hidden_states=grasp_encoder_hidden_states,
            encoder_attention_mask=None,
            output_attentions=False,
            output_hidden_states=False,
            return_dict=True,
        )
        grasp_sequence_output = grasp_decoder_outputs[0]
        grasp_logits = self.grasp_label_classifier(grasp_sequence_output)
        pred_grasps = self.grasp_predictor(grasp_sequence_output).sigmoid()
        pred_masks = self.postprocess_masks(
            torch.cat([x['low_res_logits'] for x in outputs], dim=0),
            input_size=image_record["image"].shape[-2:],
            original_size=(1024, 1024),
        )
        return DetrSegmentationOutput(
            loss=0,
            loss_dict={},
            logits=grasp_logits,
            pred_boxes=pred_grasps,
            pred_masks=pred_masks,
        )
    return infer