Upload model

Browse files

Files changed (4) hide show

config.json +2 -4
model.safetensors +1 -1
modeling_vilmaswin.py +797 -0
modeling_visfocus.py +810 -0

config.json CHANGED Viewed

@@ -1,12 +1,10 @@
 {
   "architectures": [
-    "VisFocusModel",
-    "VisFocusForLocalizedMaskedLanguageModeling",
-    "VisFocusForImageTextToText"
   ],
   "auto_map": {
     "AutoConfig": "configuration_visfocus.VisFocusConfig",
-    "AutoModel": "configuration_visfocus.VisFocusPreTrainedModel",
     "AutoModelForConditionalGeneration": "configuration_visfocus.VisFocusForImageTextToText",
     "AutoModelForImageTextToText": "configuration_visfocus.VisFocusForImageTextToText"
   },

 {
   "architectures": [
+    "VisFocusModelForImageTextToText"
   ],
   "auto_map": {
     "AutoConfig": "configuration_visfocus.VisFocusConfig",
+    "AutoModel": "modeling_visfocus.VisFocusModelForImageTextToText",
     "AutoModelForConditionalGeneration": "configuration_visfocus.VisFocusForImageTextToText",
     "AutoModelForImageTextToText": "configuration_visfocus.VisFocusForImageTextToText"
   },

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9a3839fb77abc8c559e4ecf3c972f0592b76efc24632687bf949bde4ea5d3e9
 size 1047109288

 version https://git-lfs.github.com/spec/v1
+oid sha256:142b3fbf1d72be9681a77e47453f047bdac3f5c9649c354d84bd3621f479427d
 size 1047109288

modeling_vilmaswin.py ADDED Viewed

	@@ -0,0 +1,797 @@

+# --------------------------------------------------------
+# Swin Transformer V2
+# Copyright (c) 2022 Microsoft
+# Licensed under The MIT License [see LICENSE for details]
+# Written by Ze Liu
+# Modifications Copyright 2024 Amazon.com, Inc. or its affiliates. All Rights Reserved.
+# --------------------------------------------------------
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.utils.checkpoint as checkpoint
+from timm.models.layers import DropPath, to_2tuple, trunc_normal_
+import numpy as np
+class Mlp(nn.Module):
+    def __init__(self, in_features, hidden_features=None, out_features=None, act_layer=nn.GELU, drop=0.):
+        super().__init__()
+        out_features = out_features or in_features
+        hidden_features = hidden_features or in_features
+        self.fc1 = nn.Linear(in_features, hidden_features)
+        self.act = act_layer()
+        self.fc2 = nn.Linear(hidden_features, out_features)
+        self.drop = nn.Dropout(drop)
+    def forward(self, x):
+        x = self.fc1(x)
+        x = self.act(x)
+        x = self.drop(x)
+        x = self.fc2(x)
+        x = self.drop(x)
+        return x
+class PositionalEncoding(nn.Module):
+    def __init__(self, d_hid, n_position=200):
+        super(PositionalEncoding, self).__init__()
+        # Not a parameter
+        self.register_buffer('pos_table', self._get_sinusoid_encoding_table(n_position, d_hid))
+    def _get_sinusoid_encoding_table(self, n_position, d_hid):
+        ''' Sinusoid position encoding table '''
+        def get_position_angle_vec(position):
+            return [position / np.power(10000, 2 * (hid_j // 2) / d_hid) for hid_j in range(d_hid)]
+        sinusoid_table = np.array([get_position_angle_vec(pos_i) for pos_i in range(n_position)])
+        sinusoid_table[0::2] = np.sin(sinusoid_table[0::2])  # dim 2i
+        sinusoid_table[1::2] = np.cos(sinusoid_table[1::2])  # dim 2i+1
+        return torch.FloatTensor(sinusoid_table).unsqueeze(1) # -> [L,B,dim]
+    def forward(self, x):
+        return x + self.pos_table[:, :x.size(1)].clone().detach()
+class CrossAttention(nn.Module):
+    """
+        borrowed from https://github.com/openai/CLIP/blob/main/clip/model.py (AttentionPool2d)
+    """
+    def __init__(self,
+                 dim: int,
+                 kv_dim: int,
+                 output_dim: int = None,
+                 num_heads: int = None,
+                 context_length: int = None,
+                 norm_layer=nn.LayerNorm,
+                 learned_ape=True,
+                 **kwargs):
+        super().__init__()
+        embed_dim = dim
+        output_dim = output_dim
+        self.learned_ape = learned_ape
+        if learned_ape:
+            self.positional_embedding = nn.Parameter(torch.randn(context_length, embed_dim) / embed_dim ** 0.5)
+        else:
+            self.positional_embedding = PositionalEncoding(embed_dim, context_length)
+        self.context_length = context_length
+        self.q_proj = nn.Linear(embed_dim, embed_dim)
+        self.k_proj = nn.Linear(kv_dim, embed_dim)
+        self.v_proj = nn.Linear(kv_dim, embed_dim)
+        self.c_proj = nn.Linear(embed_dim, output_dim or embed_dim)
+        self.num_heads = num_heads
+        self.norm = norm_layer(dim)
+    def forward(self, x_q, x_kv, print_maps=False):
+        x_q = x_q.permute(1, 0, 2)  # NLW -> LNC
+        x_kv = x_kv.permute(1, 0, 2)  # NCS -> SNC
+        # x = torch.cat([x.mean(dim=0, keepdim=True), x], dim=0)  # (HW+1)NC
+        if self.learned_ape:
+            x_q = x_q + self.positional_embedding[:x_q.shape[0], None, :].to(x_q.dtype)  # (HW+1)NC
+        else:
+            x_q = self.positional_embedding(x_q)
+        x, _ = F.multi_head_attention_forward(
+            query=x_q, key=x_kv, value=x_kv,
+            embed_dim_to_check=x_q.shape[-1],
+            num_heads=self.num_heads,
+            q_proj_weight=self.q_proj.weight,
+            k_proj_weight=self.k_proj.weight,
+            v_proj_weight=self.v_proj.weight,
+            in_proj_weight=None,
+            in_proj_bias=torch.cat([self.q_proj.bias, self.k_proj.bias, self.v_proj.bias]),
+            bias_k=None,
+            bias_v=None,
+            add_zero_attn=False,
+            dropout_p=0,
+            out_proj_weight=self.c_proj.weight,
+            out_proj_bias=self.c_proj.bias,
+            use_separate_proj_weight=True,
+            training=self.training,
+            need_weights=False,
+            # print_maps=print_maps
+        )
+        if self.norm:
+            x = self.norm(x)
+        x = x.permute(1, 0, 2) # LNC -> NLW
+        return x
+def window_partition(x, window_size):
+    """
+    Args:
+        x: (B, H, W, C)
+        window_size (int): window size
+    Returns:
+        windows: (num_windows*B, window_size, window_size, C)
+    """
+    B, H, W, C = x.shape
+    x = x.view(B, H // window_size, window_size, W // window_size, window_size, C)
+    windows = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(-1, window_size, window_size, C)
+    return windows
+def window_reverse(windows, window_size, H, W):
+    """
+    Args:
+        windows: (num_windows*B, window_size, window_size, C)
+        window_size (int): Window size
+        H (int): Height of image
+        W (int): Width of image
+    Returns:
+        x: (B, H, W, C)
+    """
+    B = int(windows.shape[0] / (H * W / window_size / window_size))
+    x = windows.view(B, H // window_size, W // window_size, window_size, window_size, -1)
+    x = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(B, H, W, -1)
+    return x
+class WindowAttention(nn.Module):
+    r""" Window based multi-head self attention (W-MSA) module with relative position bias.
+    It supports both of shifted and non-shifted window.
+    Args:
+        dim (int): Number of input channels.
+        window_size (tuple[int]): The height and width of the window.
+        num_heads (int): Number of attention heads.
+        qkv_bias (bool, optional):  If True, add a learnable bias to query, key, value. Default: True
+        attn_drop (float, optional): Dropout ratio of attention weight. Default: 0.0
+        proj_drop (float, optional): Dropout ratio of output. Default: 0.0
+        pretrained_window_size (tuple[int]): The height and width of the window in pre-training.
+    """
+    def __init__(self, dim, window_size, num_heads, qkv_bias=True, attn_drop=0., proj_drop=0.,
+                 pretrained_window_size=[0, 0]):
+        super().__init__()
+        self.dim = dim
+        self.window_size = window_size  # Wh, Ww
+        self.pretrained_window_size = pretrained_window_size
+        self.num_heads = num_heads
+        self.logit_scale = nn.Parameter(torch.log(10 * torch.ones((num_heads, 1, 1))), requires_grad=True)
+        # mlp to generate continuous relative position bias
+        self.cpb_mlp = nn.Sequential(nn.Linear(2, 512, bias=True),
+                                     nn.ReLU(inplace=True),
+                                     nn.Linear(512, num_heads, bias=False))
+        # get relative_coords_table
+        relative_coords_h = torch.arange(-(self.window_size[0] - 1), self.window_size[0], dtype=torch.float32)
+        relative_coords_w = torch.arange(-(self.window_size[1] - 1), self.window_size[1], dtype=torch.float32)
+        relative_coords_table = torch.stack(
+            torch.meshgrid([relative_coords_h,
+                            relative_coords_w])).permute(1, 2, 0).contiguous().unsqueeze(0)  # 1, 2*Wh-1, 2*Ww-1, 2
+        if pretrained_window_size[0] > 0:
+            relative_coords_table[:, :, :, 0] /= (pretrained_window_size[0] - 1)
+            relative_coords_table[:, :, :, 1] /= (pretrained_window_size[1] - 1)
+        else:
+            relative_coords_table[:, :, :, 0] /= (self.window_size[0] - 1)
+            relative_coords_table[:, :, :, 1] /= (self.window_size[1] - 1)
+        relative_coords_table *= 8  # normalize to -8, 8
+        relative_coords_table = torch.sign(relative_coords_table) * torch.log2(
+            torch.abs(relative_coords_table) + 1.0) / np.log2(8)
+        self.register_buffer("relative_coords_table", relative_coords_table)
+        # get pair-wise relative position index for each token inside the window
+        coords_h = torch.arange(self.window_size[0])
+        coords_w = torch.arange(self.window_size[1])
+        coords = torch.stack(torch.meshgrid([coords_h, coords_w]))  # 2, Wh, Ww
+        coords_flatten = torch.flatten(coords, 1)  # 2, Wh*Ww
+        relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]  # 2, Wh*Ww, Wh*Ww
+        relative_coords = relative_coords.permute(1, 2, 0).contiguous()  # Wh*Ww, Wh*Ww, 2
+        relative_coords[:, :, 0] += self.window_size[0] - 1  # shift to start from 0
+        relative_coords[:, :, 1] += self.window_size[1] - 1
+        relative_coords[:, :, 0] *= 2 * self.window_size[1] - 1
+        relative_position_index = relative_coords.sum(-1)  # Wh*Ww, Wh*Ww
+        self.register_buffer("relative_position_index", relative_position_index)
+        self.qkv = nn.Linear(dim, dim * 3, bias=False)
+        if qkv_bias:
+            self.q_bias = nn.Parameter(torch.zeros(dim))
+            self.v_bias = nn.Parameter(torch.zeros(dim))
+        else:
+            self.q_bias = None
+            self.v_bias = None
+        self.attn_drop = nn.Dropout(attn_drop)
+        self.proj = nn.Linear(dim, dim)
+        self.proj_drop = nn.Dropout(proj_drop)
+        self.softmax = nn.Softmax(dim=-1)
+    def forward(self, x, mask=None, v_length=None):
+        """
+        Args:
+            x: input features with shape of (num_windows*B, N, C)
+            mask: (0/-inf) mask with shape of (num_windows, Wh*Ww, Wh*Ww) or None
+        """
+        B_, N, C = x.shape
+        qkv_bias = None
+        if self.q_bias is not None:
+            qkv_bias = torch.cat((self.q_bias, torch.zeros_like(self.v_bias, requires_grad=False), self.v_bias))
+        qkv = F.linear(input=x, weight=self.qkv.weight, bias=qkv_bias)
+        qkv = qkv.reshape(B_, N, 3, self.num_heads, -1).permute(2, 0, 3, 1, 4)
+        q, k, v = qkv[0], qkv[1], qkv[2]  # make torchscript happy (cannot use tensor as tuple)
+        # cosine attention
+        attn = (F.normalize(q, dim=-1) @ F.normalize(k, dim=-1).transpose(-2, -1))
+        logit_scale = torch.clamp(self.logit_scale, max=torch.log(torch.tensor(1. / 0.01)).to(self.logit_scale.device)).exp()
+        attn = attn * logit_scale
+        relative_position_bias_table = self.cpb_mlp(self.relative_coords_table).view(-1, self.num_heads)
+        relative_position_bias = relative_position_bias_table[self.relative_position_index.view(-1)].view(
+            self.window_size[0] * self.window_size[1], self.window_size[0] * self.window_size[1], -1)  # Wh*Ww,Wh*Ww,nH
+        relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()  # nH, Wh*Ww, Wh*Ww
+        relative_position_bias = 16 * torch.sigmoid(relative_position_bias)
+        attn[..., :v_length, :v_length] = attn[..., :v_length, :v_length] + relative_position_bias.unsqueeze(0)
+        if mask is not None:
+            nW = mask.shape[0]
+            attn = attn.view(B_ // nW, nW, self.num_heads, N, N) + mask.unsqueeze(1).unsqueeze(0)
+            attn = attn.view(-1, self.num_heads, N, N)
+            attn = self.softmax(attn)
+        else:
+            attn = self.softmax(attn)
+        attn = self.attn_drop(attn)
+        x = (attn @ v).transpose(1, 2).reshape(B_, N, C)
+        x = self.proj(x)
+        x = self.proj_drop(x)
+        return x
+    def extra_repr(self) -> str:
+        return f'dim={self.dim}, window_size={self.window_size}, ' \
+               f'pretrained_window_size={self.pretrained_window_size}, num_heads={self.num_heads}'
+    def flops(self, N):
+        # calculate flops for 1 window with token length of N
+        flops = 0
+        # qkv = self.qkv(x)
+        flops += N * self.dim * 3 * self.dim
+        # attn = (q @ k.transpose(-2, -1))
+        flops += self.num_heads * N * (self.dim // self.num_heads) * N
+        #  x = (attn @ v)
+        flops += self.num_heads * N * N * (self.dim // self.num_heads)
+        # x = self.proj(x)
+        flops += N * self.dim * self.dim
+        return flops
+class SwinTransformerBlock(nn.Module):
+    r""" Swin Transformer Block.
+    Args:
+        dim (int): Number of input channels.
+        input_resolution (tuple[int]): Input resulotion.
+        num_heads (int): Number of attention heads.
+        window_size (int): Window size.
+        shift_size (int): Shift size for SW-MSA.
+        mlp_ratio (float): Ratio of mlp hidden dim to embedding dim.
+        qkv_bias (bool, optional): If True, add a learnable bias to query, key, value. Default: True
+        drop (float, optional): Dropout rate. Default: 0.0
+        attn_drop (float, optional): Attention dropout rate. Default: 0.0
+        drop_path (float, optional): Stochastic depth rate. Default: 0.0
+        act_layer (nn.Module, optional): Activation layer. Default: nn.GELU
+        norm_layer (nn.Module, optional): Normalization layer.  Default: nn.LayerNorm
+        pretrained_window_size (int): Window size in pre-training.
+    """
+    def __init__(self, dim, input_resolution, num_heads, window_size=7, shift_size=0,
+                 mlp_ratio=4., qkv_bias=True, drop=0., attn_drop=0., drop_path=0.,
+                 act_layer=nn.GELU, norm_layer=nn.LayerNorm, pretrained_window_size=0, lm_d_model=None):
+        super().__init__()
+        self.dim = dim
+        self.input_resolution = input_resolution
+        self.num_heads = num_heads
+        self.window_size = window_size
+        self.shift_size = shift_size
+        self.mlp_ratio = mlp_ratio
+        if min(self.input_resolution) <= self.window_size:
+            # if window size is larger than input resolution, we don't partition windows
+            self.shift_size = 0
+            self.window_size = min(self.input_resolution)
+        assert 0 <= self.shift_size < self.window_size, "shift_size must in 0-window_size"
+        self.norm1 = norm_layer(dim)
+        self.attn = WindowAttention(
+            dim, window_size=to_2tuple(self.window_size), num_heads=num_heads,
+            qkv_bias=qkv_bias, attn_drop=attn_drop, proj_drop=drop,
+            pretrained_window_size=to_2tuple(pretrained_window_size))
+        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
+        self.norm2 = norm_layer(dim)
+        mlp_hidden_dim = int(dim * mlp_ratio)
+        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)
+        if self.shift_size > 0:
+            # calculate attention mask for SW-MSA
+            H, W = self.input_resolution
+            img_mask = torch.zeros((1, H, W, 1))  # 1 H W 1
+            h_slices = (slice(0, -self.window_size),
+                        slice(-self.window_size, -self.shift_size),
+                        slice(-self.shift_size, None))
+            w_slices = (slice(0, -self.window_size),
+                        slice(-self.window_size, -self.shift_size),
+                        slice(-self.shift_size, None))
+            cnt = 0
+            for h in h_slices:
+                for w in w_slices:
+                    img_mask[:, h, w, :] = cnt
+                    cnt += 1
+        #     mask_windows = window_partition(img_mask, self.window_size)  # nW, window_size, window_size, 1
+        #     mask_windows = mask_windows.view(-1, self.window_size * self.window_size)
+        #     attn_mask = mask_windows.unsqueeze(1) - mask_windows.unsqueeze(2)
+        #     attn_mask = attn_mask.masked_fill(attn_mask != 0, float(-100.0)).masked_fill(attn_mask == 0, float(0.0))
+        # else:
+        #     attn_mask = None
+        # self.register_buffer("attn_mask", attn_mask)
+    def forward(self, x, context_prompts=None):
+        # H, W = self.input_resolution
+        # B, L, C = x.shape
+        # assert L == H * W, "input feature has wrong size"
+        # shortcut = x
+        # x = x.view(B, H, W, C)
+        # # cyclic shift
+        # if self.shift_size > 0:
+        #     shifted_x = torch.roll(x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2))
+        # else:
+        #     shifted_x = x
+        B, L, C = x.shape
+        H, W = self.input_resolution
+        assert L == H * W, "input feature has wrong size"
+        shortcut = x
+        # x = self.norm1(x)
+        x = x.view(B, H, W, C)
+        # pad feature maps to multiples of window size
+        pad_l = pad_t = 0
+        pad_r = (self.window_size - W % self.window_size) % self.window_size
+        pad_b = (self.window_size - H % self.window_size) % self.window_size
+        x = F.pad(x, (0, 0, pad_l, pad_r, pad_t, pad_b))
+        _, Hp, Wp, _ = x.shape
+        # cyclic shift
+        if self.shift_size > 0:
+            shifted_x = torch.roll(x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2))
+            # attn_mask = mask_matrix
+        else:
+            shifted_x = x
+            # attn_mask = None
+        # partition windows
+        x_windows = window_partition(shifted_x, self.window_size)  # nW*B, window_size, window_size, C
+        x_windows = x_windows.view(-1, self.window_size * self.window_size, C)  # nW*B, window_size*window_size, C
+        # W-MSA/SW-MSA
+        attn_windows = self.attn(x_windows, v_length=self.window_size * self.window_size) # , mask=self.attn_mask)  # nW*B, window_size*window_size, C
+        # merge windows
+        attn_windows = attn_windows.view(-1, self.window_size, self.window_size, C)
+        shifted_x = window_reverse(attn_windows, self.window_size, Hp, Wp)  # B H' W' C
+        # reverse cyclic shift
+        if self.shift_size > 0:
+            x = torch.roll(shifted_x, shifts=(self.shift_size, self.shift_size), dims=(1, 2))
+        else:
+            x = shifted_x
+        if pad_r > 0 or pad_b > 0:
+            x = x[:, :H, :W, :].contiguous()
+        x = x.view(B, H * W, C)
+        x = shortcut + self.drop_path(self.norm1(x))
+        # FFN
+        x = x + self.drop_path(self.norm2(self.mlp(x)))
+        return x
+    def extra_repr(self) -> str:
+        return f"dim={self.dim}, input_resolution={self.input_resolution}, num_heads={self.num_heads}, " \
+               f"window_size={self.window_size}, shift_size={self.shift_size}, mlp_ratio={self.mlp_ratio}"
+    def flops(self):
+        flops = 0
+        H, W = self.input_resolution
+        # norm1
+        flops += self.dim * H * W
+        # W-MSA/SW-MSA
+        nW = H * W / self.window_size / self.window_size
+        flops += nW * self.attn.flops(self.window_size * self.window_size)
+        # mlp
+        flops += 2 * H * W * self.dim * self.dim * self.mlp_ratio
+        # norm2
+        flops += self.dim * H * W
+        return flops
+class Vilma(nn.Module):
+    r""" Vision-Language Marge Attention layer.
+    """
+    def __init__(self,
+                 input_resolution,
+                 dim,
+                 num_heads,
+                 lm_d_model,
+                 vl_learned_ape=True,
+                 norm_layer=nn.LayerNorm,
+                 reduce=True,
+                 **kwargs):
+        super().__init__()
+        self.input_resolution = input_resolution
+        self.dim = dim
+        self.reduction = nn.Linear(4 * dim, 2 * dim, bias=False) if reduce else nn.Linear(4 * dim, 4 * dim, bias=False)
+        self.norm = norm_layer(2 * dim) if reduce else norm_layer(4 * dim)
+        self.cross_attn = CrossAttention(dim=dim * 4,
+                                         kv_dim=lm_d_model,
+                                         context_length=self.input_resolution[0] // 2 * self.input_resolution[1] // 2,
+                                         output_dim=dim * 4,
+                                         num_heads=num_heads,
+                                         learned_ape=vl_learned_ape
+                                         )
+        nn.init.eye_(self.cross_attn.q_proj.weight)
+        nn.init.constant_(self.cross_attn.q_proj.bias, 0)
+        self.cross_attn.q_proj.requires_grad_(False)
+        self.vl_alpha = 0.5
+    def forward(self, x, context_prompts, **kwargs):
+        """
+        x: B, H*W, C
+        """
+        H, W = self.input_resolution
+        B, L, C = x.shape
+        assert L == H * W, "input feature has wrong size"
+        assert H % 2 == 0 and W % 2 == 0, f"x size ({H}*{W}) are not even."
+        x = x.view(B, H, W, C)
+        x0 = x[:, 0::2, 0::2, :]  # B H/2 W/2 C
+        x1 = x[:, 1::2, 0::2, :]  # B H/2 W/2 C
+        x2 = x[:, 0::2, 1::2, :]  # B H/2 W/2 C
+        x3 = x[:, 1::2, 1::2, :]  # B H/2 W/2 C
+        x = torch.cat([x0, x1, x2, x3], -1)  # B H/2 W/2 4*C
+        x = x.view(B, -1, 4 * C)  # B H/2*W/2 4*C
+        x_vl = self.cross_attn(x, context_prompts)
+        x = self.vl_alpha * x_vl + (1 - self.vl_alpha) * x
+        x = self.reduction(x)
+        x = self.norm(x)
+        return x
+    def extra_repr(self) -> str:
+        return f"input_resolution={self.input_resolution}, dim={self.dim}"
+    def flops(self):
+        H, W = self.input_resolution
+        flops = (H // 2) * (W // 2) * 4 * self.dim * 2 * self.dim
+        flops += H * W * self.dim // 2
+        return flops
+class BasicLayer(nn.Module):
+    """ A basic Swin Transformer layer for one stage.
+    Args:
+        dim (int): Number of input channels.
+        input_resolution (tuple[int]): Input resolution.
+        depth (int): Number of blocks.
+        num_heads (int): Number of attention heads.
+        window_size (int): Local window size.
+        mlp_ratio (float): Ratio of mlp hidden dim to embedding dim.
+        qkv_bias (bool, optional): If True, add a learnable bias to query, key, value. Default: True
+        drop (float, optional): Dropout rate. Default: 0.0
+        attn_drop (float, optional): Attention dropout rate. Default: 0.0
+        drop_path (float | tuple[float], optional): Stochastic depth rate. Default: 0.0
+        norm_layer (nn.Module, optional): Normalization layer. Default: nn.LayerNorm
+        downsample (nn.Module | None, optional): Downsample layer at the end of the layer. Default: None
+        use_checkpoint (bool): Whether to use checkpointing to save memory. Default: False.
+        pretrained_window_size (int): Local window size in pre-training.
+    """
+    def __init__(self, dim, input_resolution, depth, num_heads, window_size,
+                 mlp_ratio=4., qkv_bias=True, drop=0., attn_drop=0.,
+                 drop_path=0., norm_layer=nn.LayerNorm, downsample=None, use_checkpoint=False,
+                 pretrained_window_size=0, do_shift=True, lm_d_model=None):
+        super().__init__()
+        self.dim = dim
+        self.input_resolution = input_resolution
+        self.depth = depth if do_shift else 1 # do not add SWA layers
+        self.use_checkpoint = use_checkpoint
+        # build blocks
+        self.blocks = nn.ModuleList([
+            SwinTransformerBlock(dim=dim, input_resolution=input_resolution,
+                                 num_heads=num_heads, window_size=window_size,
+                                 shift_size=0 if ((i % 2 == 0) or (not do_shift)) else window_size // 2,
+                                 mlp_ratio=mlp_ratio,
+                                 qkv_bias=qkv_bias,
+                                 drop=drop, attn_drop=attn_drop,
+                                 drop_path=drop_path[i] if isinstance(drop_path, list) else drop_path,
+                                 norm_layer=norm_layer,
+                                 pretrained_window_size=pretrained_window_size,
+                                 lm_d_model=lm_d_model)
+            for i in range(self.depth)])
+        # patch merging layer
+        if downsample is not None:
+            self.downsample = downsample(input_resolution=input_resolution,
+                                         dim=dim,
+                                         norm_layer=norm_layer,
+                                         num_heads=num_heads,
+                                         lm_d_model=lm_d_model
+                                         )
+        else:
+            self.downsample = None
+    def forward(self, x, context_prompts=None):
+        for blk in self.blocks:
+            if self.use_checkpoint:
+                x = checkpoint.checkpoint(blk, x)
+            else:
+                x = blk(x, context_prompts=context_prompts)
+        if self.downsample is not None:
+            x = self.downsample(x, context_prompts=context_prompts)
+        return x
+    def extra_repr(self) -> str:
+        return f"dim={self.dim}, input_resolution={self.input_resolution}, depth={self.depth}"
+    def flops(self):
+        flops = 0
+        for blk in self.blocks:
+            flops += blk.flops()
+        if self.downsample is not None:
+            flops += self.downsample.flops()
+        return flops
+    def _init_respostnorm(self):
+        for blk in self.blocks:
+            nn.init.constant_(blk.norm1.bias, 0)
+            nn.init.constant_(blk.norm1.weight, 0)
+            nn.init.constant_(blk.norm2.bias, 0)
+            nn.init.constant_(blk.norm2.weight, 0)
+class PatchEmbed(nn.Module):
+    r""" Image to Patch Embedding
+    Args:
+        img_size (int or tuple): Image size.  Default: 224.
+        patch_size (int): Patch token size. Default: 4.
+        in_chans (int): Number of input image channels. Default: 3.
+        embed_dim (int): Number of linear projection output channels. Default: 96.
+        norm_layer (nn.Module, optional): Normalization layer. Default: None
+    """
+    def __init__(self, img_size=224, patch_size=4, in_chans=3, embed_dim=96, norm_layer=None):
+        super().__init__()
+        img_size = to_2tuple(img_size)
+        patch_size = to_2tuple(patch_size)
+        patches_resolution = [img_size[0] // patch_size[0], img_size[1] // patch_size[1]]
+        self.img_size = img_size
+        self.patch_size = patch_size
+        self.patches_resolution = patches_resolution
+        self.num_patches = patches_resolution[0] * patches_resolution[1]
+        self.in_chans = in_chans
+        self.embed_dim = embed_dim
+        self.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)
+        if norm_layer is not None:
+            self.norm = norm_layer(embed_dim)
+        else:
+            self.norm = None
+    def forward(self, x):
+        B, C, H, W = x.shape
+        # FIXME look at relaxing size constraints
+        assert H == self.img_size[0] and W == self.img_size[1], \
+            f"Input image size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})."
+        x = self.proj(x).flatten(2).transpose(1, 2)  # B Ph*Pw C
+        if self.norm is not None:
+            x = self.norm(x)
+        return x
+    def flops(self):
+        Ho, Wo = self.patches_resolution
+        flops = Ho * Wo * self.embed_dim * self.in_chans * (self.patch_size[0] * self.patch_size[1])
+        if self.norm is not None:
+            flops += Ho * Wo * self.embed_dim
+        return flops
+class PatchEmbed1D(nn.Module):
+    r""" 1D Image to Patch Embedding (if for example patches are prextracted)
+    Args:
+        img_size (int or tuple): Image size.  Default: 224.
+        patch_size (int): Patch token size. Default: 4.
+        in_chans (int): Number of input image channels. Default: 3.
+        embed_dim (int): Number of linear projection output channels. Default: 96.
+        norm_layer (nn.Module, optional): Normalization layer. Default: None
+    """
+    def __init__(self, in_chans=3, embed_dim=96, norm_layer=None, img_size=-1, patch_size=-1, **kwargs):
+        super().__init__()
+        patch_size = to_2tuple(patch_size)
+        patches_resolution = [img_size[0] // patch_size[0], img_size[1] // patch_size[1]]
+        self.img_size = img_size
+        self.patch_size = patch_size
+        self.patches_resolution = patches_resolution
+        self.num_patches = patches_resolution[0] * patches_resolution[1]
+        self.proj = nn.Conv1d(in_chans, embed_dim, kernel_size=1, stride=1)
+        if norm_layer is not None:
+            self.norm = norm_layer(embed_dim)
+        else:
+            self.norm = None
+    def forward(self, x):
+        B, L, C = x.shape # [batch, num_patches, numof_patch_pixels]
+        x = x.permute(0, 2, 1)
+        x = self.proj(x).flatten(2).permute(0, 2, 1)  # B Ph*Pw C
+        if self.norm is not None:
+            x = self.norm(x)
+        return x
+class VilmaSwinTransformerV2(nn.Module):
+    r""" Swin Transformer with Vilma downsampling and cross attention layers
+        borrow from https://github.com/microsoft/Swin-Transformer-V2/blob/main/models/swin_transformer_v2.py
+    """
+    def __init__(self, img_size=224, patch_size=4, in_chans=3,
+                 embed_dim=96, depths=[2, 2, 6, 2], num_heads=[3, 6, 12, 24],
+                 window_size=7, mlp_ratio=4., qkv_bias=True,
+                 drop_rate=0., attn_drop_rate=0., drop_path_rate=0.1,
+                 norm_layer=nn.LayerNorm, ape=False, patch_norm=True,
+                 use_checkpoint=False, pretrained_window_sizes=[0, 0, 0, 0],
+                 embedd_matcher_dim=512, do_shift=True,
+                 vl_cross_attn_layers=[], vl_alpha=0.5, lm_d_model=512,
+                 input_type='rgb', vl_learned_ape=True):
+        super().__init__()
+        self.model_name = 'swin_v2'
+        self.num_layers = len(depths)
+        self.embed_dim = embed_dim
+        self.ape = ape
+        self.patch_norm = patch_norm
+        self.num_features = int(embed_dim * 2 ** (self.num_layers - 1))
+        self.mlp_ratio = mlp_ratio
+        self.input_type = input_type
+        # split image into non-overlapping patches
+        self.patch_embed = PatchEmbed(
+            img_size=img_size, patch_size=patch_size, in_chans=in_chans, embed_dim=embed_dim,
+            norm_layer=norm_layer if self.patch_norm else None)
+        num_patches = self.patch_embed.num_patches
+        patches_resolution = self.patch_embed.patches_resolution
+        self.patches_resolution = patches_resolution
+        # absolute position embedding
+        if self.ape:
+            self.absolute_pos_embed = nn.Parameter(torch.zeros(1, num_patches, embed_dim))
+            trunc_normal_(self.absolute_pos_embed, std=.02)
+        self.pos_drop = nn.Dropout(p=drop_rate)
+        # stochastic depth
+        dpr = [x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))]  # stochastic depth decay rule
+        self.vl_cross_attn_layers = nn.ModuleDict({str(i): None for i in vl_cross_attn_layers})
+        self.vl_alpha = vl_alpha
+        # build layers
+        self.layers = nn.ModuleList()
+        for i_layer in range(self.num_layers):
+            layer = BasicLayer(dim=int(embed_dim * 2 ** i_layer),
+                               input_resolution=(patches_resolution[0] // (2 ** i_layer),
+                                                 patches_resolution[1] // (2 ** i_layer)),
+                               depth=depths[i_layer],
+                               num_heads=num_heads[i_layer],
+                               window_size=window_size,
+                               mlp_ratio=self.mlp_ratio,
+                               qkv_bias=qkv_bias,
+                               drop=drop_rate, attn_drop=attn_drop_rate,
+                               drop_path=dpr[sum(depths[:i_layer]):sum(depths[:i_layer + 1])],
+                               norm_layer=norm_layer,
+                               downsample=Vilma if (i_layer < self.num_layers - 1) else None,
+                               use_checkpoint=use_checkpoint,
+                               pretrained_window_size=pretrained_window_sizes[i_layer],
+                               do_shift=do_shift,
+                               lm_d_model=lm_d_model)
+            self.layers.append(layer)
+            if str(i_layer) in self.vl_cross_attn_layers:
+                layer_factor = i_layer + int(i_layer < self.num_layers - 1)
+                self.vl_cross_attn_layers.update({
+                    str(i_layer): CrossAttention(
+                        dim=int(embed_dim * 2 ** layer_factor),
+                        kv_dim=lm_d_model,
+                        context_length=patches_resolution[0] // (2 ** layer_factor) * patches_resolution[1] // (2 ** layer_factor),
+                        num_heads=num_heads[i_layer],
+                        vl_learned_ape=vl_learned_ape)
+                })
+        self.norm = norm_layer(self.num_features)
+        self.embedd_matcher_dim = embedd_matcher_dim
+        self.apply(self._init_weights)
+        for bly in self.layers:
+            bly._init_respostnorm()
+    def _init_weights(self, m):
+        if isinstance(m, nn.Linear):
+            trunc_normal_(m.weight, std=.02)
+            if isinstance(m, nn.Linear) and m.bias is not None:
+                nn.init.constant_(m.bias, 0)
+        elif isinstance(m, nn.LayerNorm):
+            nn.init.constant_(m.bias, 0)
+            nn.init.constant_(m.weight, 1.0)
+    @torch.jit.ignore
+    def no_weight_decay(self):
+        return {'absolute_pos_embed'}
+    @torch.jit.ignore
+    def no_weight_decay_keywords(self):
+        return {"cpb_mlp", "logit_scale", 'relative_position_bias_table'}
+    def forward_features(self, x, context_prompts=None):
+        x = self.patch_embed(x)
+        if self.ape:
+            x = x + self.absolute_pos_embed
+        x = self.pos_drop(x)
+        for i, layer in enumerate(self.layers):
+            assert context_prompts is not None, 'Context prompt is None'
+            x = layer(x, context_prompts)
+            x_vl = self.vl_cross_attn_layers[str(i)](x, context_prompts)
+            x = self.vl_alpha * x_vl + (1 - self.vl_alpha) * x
+        x = self.norm(x)  # B L C
+        return x
+    def forward(self, x, **kwargs):
+        x = self.forward_features(x, **kwargs)
+        return x
+    def flops(self):
+        flops = 0
+        flops += self.patch_embed.flops()
+        for i, layer in enumerate(self.layers):
+            flops += layer.flops()
+        flops += self.num_features * self.patches_resolution[0] * self.patches_resolution[1] // (2 ** self.num_layers)
+        return flops

modeling_visfocus.py ADDED Viewed

	@@ -0,0 +1,810 @@

+import torch
+from torch import nn
+from torch.nn import LayerNorm, CrossEntropyLoss, L1Loss
+from torch.nn import functional as F
+from transformers import PreTrainedModel, T5Tokenizer, T5Model, logging
+from transformers.models.t5.modeling_t5 import T5Stack
+from transformers.modeling_outputs import Seq2SeqLMOutput, BaseModelOutput
+from transformers.file_utils import ModelOutput
+from timm.models.layers import trunc_normal_
+from typing import Any, Dict, Optional, Tuple
+import warnings
+import random
+import yaml
+import copy
+from easydict import EasyDict
+from .configuration_visfocus import VisFocusConfig
+from .modeling_vilmaswin import VilmaSwinTransformerV2
+logger = logging.get_logger(__name__)
+def get_vision_model(config):
+    vision_model = VilmaSwinTransformerV2(
+        img_size=config.image_size,
+        patch_size=config.patch_size,
+        in_chans=config.in_chans,
+        embed_dim=config.embed_dim,
+        depths=config.depths,
+        num_heads=config.num_heads,
+        window_size=config.window_size,
+        mlp_ratio=config.mlp_ratio,
+        qkv_bias=config.qkv_bias,
+        drop_rate=config.drop_rate,
+        drop_path_rate=config.drop_path_rate,
+        ape=config.ape,
+        patch_norm=config.patch_norm,
+        use_checkpoint=config.use_checkpoint,
+        pretrained_window_sizes=config.pretrained_window_sizes,
+        do_shift=config.do_shift,
+        vl_cross_attn_layers=config.vl_cross_attn_layers,
+        vl_alpha=config.vl_alpha,
+        lm_d_model=config.lm_d_model,
+        input_type=config.input_type,
+        vl_learned_ape=config.vl_learned_ape)
+    return vision_model
+def load_vision_pretrained(configs, model):
+    logger.info("Loading vision model from %s", configs.model.vision_resume_from)
+    if configs.model.vision_resume_from.startswith("https"):
+        checkpoint = torch.hub.load_state_dict_from_url(
+            configs.model.vision_resume_from, map_location="cpu", check_hash=True
+        )
+    else:
+        checkpoint = torch.load(configs.model.vision_resume_from, map_location="cpu")
+    state_dict = checkpoint["model"]
+    if "swin" in configs.model.type:
+        # delete relative_position_index since we always re-init it
+        relative_position_index_keys = [k for k in state_dict.keys() if "relative_position_index" in k]
+        for k in relative_position_index_keys:
+            del state_dict[k]
+        # delete relative_coords_table since we always re-init it
+        relative_position_index_keys = [k for k in state_dict.keys() if "relative_coords_table" in k]
+        for k in relative_position_index_keys:
+            del state_dict[k]
+        # delete attn_mask since we always re-init it
+        attn_mask_keys = [k for k in state_dict.keys() if "attn_mask" in k]
+        for k in attn_mask_keys:
+            del state_dict[k]
+        # bicubic interpolate relative_position_bias_table if not match
+        relative_position_bias_table_keys = [k for k in state_dict.keys() if "relative_position_bias_table" in k]
+        for k in relative_position_bias_table_keys:
+            relative_position_bias_table_pretrained = state_dict[k]
+            relative_position_bias_table_current = model.vision_model.state_dict()[k]
+            L1, nH1 = relative_position_bias_table_pretrained.size()
+            L2, nH2 = relative_position_bias_table_current.size()
+            if nH1 != nH2:
+                logger.warning(f"Error in loading {k}, passing......")
+            else:
+                if L1 != L2:
+                    # bicubic interpolate relative_position_bias_table if not match
+                    S1 = int(L1 ** 0.5)
+                    S2 = int(L2 ** 0.5)
+                    relative_position_bias_table_pretrained_resized = torch.nn.functional.interpolate(
+                        relative_position_bias_table_pretrained.permute(1, 0).view(1, nH1, S1, S1), size=(S2, S2),
+                        mode='bicubic')
+                    state_dict[k] = relative_position_bias_table_pretrained_resized.view(nH2, L2).permute(1, 0)
+        # bicubic interpolate absolute_pos_embed if not match
+        absolute_pos_embed_keys = [k for k in state_dict.keys() if "absolute_pos_embed" in k]
+        for k in absolute_pos_embed_keys:
+            # dpe
+            absolute_pos_embed_pretrained = state_dict[k]
+            absolute_pos_embed_current = model.vision_model.state_dict()[k]
+            _, L1, C1 = absolute_pos_embed_pretrained.size()
+            _, L2, C2 = absolute_pos_embed_current.size()
+            if C1 != C1:
+                logger.warning(f"Error in loading {k}, passing......")
+            else:
+                if L1 != L2:
+                    S1 = int(L1 ** 0.5)
+                    S2 = int(L2 ** 0.5)
+                    absolute_pos_embed_pretrained = absolute_pos_embed_pretrained.reshape(-1, S1, S1, C1)
+                    absolute_pos_embed_pretrained = absolute_pos_embed_pretrained.permute(0, 3, 1, 2)
+                    absolute_pos_embed_pretrained_resized = torch.nn.functional.interpolate(
+                        absolute_pos_embed_pretrained, size=(S2, S2), mode='bicubic')
+                    absolute_pos_embed_pretrained_resized = absolute_pos_embed_pretrained_resized.permute(0, 2, 3, 1)
+                    absolute_pos_embed_pretrained_resized = absolute_pos_embed_pretrained_resized.flatten(1, 2)
+                    state_dict[k] = absolute_pos_embed_pretrained_resized
+        if model.vision_model.patch_embed.proj.weight.shape != state_dict['patch_embed.proj.weight'].shape:
+            model.vision_model.input_type == 'flattened_patches'
+            logger.warning(f"PatchEmbed (patch_embed) was not loaded, because input_type is falttened_patches.")
+            del state_dict['patch_embed.proj.weight']
+    # import pdb;pdb.set_trace()
+    msg = model.vision_model.load_state_dict(state_dict, strict=False)
+    # do not print unnecessary (vl attn is not loaded now)
+    filtered_missing_keys = {k for k in msg.missing_keys
+                             if 'vl_cross_attn_layers' not in k
+                             or 'relative_position' not in k}
+    filtered_missing_keys.union({'relative_position' for k in msg.missing_keys
+                             if 'relative_position' not in k})
+    # if len({k for k in msg.missing_keys if 'relative_' in k}) > 0:
+    #     logger.warning(f'Relative position were not loaded')
+    # filtered_missing_keys.union()
+    logger.warning(f'Missing keys: {set(msg.missing_keys) - filtered_missing_keys}')
+    logger.warning(f'Unexpected keys: {msg.unexpected_keys}')
+    # logger.warning(msg)
+    logger.info("Loaded model successfully from %s", configs.model.vision_resume_from)
+    del checkpoint
+    torch.cuda.empty_cache()
+class T5_Encoder(nn.Module):
+    def __init__(self, t5_variant='base', freeze=True):
+        super().__init__()
+        self.tokenizer = T5Tokenizer.from_pretrained(f'{t5_variant}')
+        model = T5Model.from_pretrained(f'{t5_variant}')
+        del model.decoder
+        self.encoder = model.encoder
+        if freeze:
+            for p in self.encoder.parameters():
+                p.requires_grad = False
+    def forward(self, input_ids):
+        encoder_outputs = self.encoder(
+            input_ids=input_ids,
+            return_dict=True,
+        )
+        return encoder_outputs[0]
+class SpatialEmbeddings(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.x_position_embeddings = nn.Embedding(
+            config.max_2d_position_embeddings, config.hidden_size
+        )
+        self.y_position_embeddings = nn.Embedding(
+            config.max_2d_position_embeddings, config.hidden_size
+        )
+        self.h_position_embeddings = nn.Embedding(
+            config.max_2d_position_embeddings, config.hidden_size
+        )
+        self.w_position_embeddings = nn.Embedding(
+            config.max_2d_position_embeddings, config.hidden_size
+        )
+        self.LayerNorm = LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.dropout = nn.Dropout(config.hidden_dropout_prob)
+        self.config = config
+    def forward(
+            self,
+            bbox,
+    ):
+        seq_length = bbox.size(1)
+        left_position_embeddings = self.x_position_embeddings(bbox[:, :, 0])
+        upper_position_embeddings = self.y_position_embeddings(bbox[:, :, 1])
+        right_position_embeddings = self.x_position_embeddings(bbox[:, :, 2])
+        lower_position_embeddings = self.y_position_embeddings(bbox[:, :, 3])
+        h_position_embeddings = self.h_position_embeddings(
+            bbox[:, :, 3] - bbox[:, :, 1]
+        )
+        w_position_embeddings = self.w_position_embeddings(
+            bbox[:, :, 2] - bbox[:, :, 0]
+        )
+        embeddings = (
+                left_position_embeddings
+                + upper_position_embeddings
+                + right_position_embeddings
+                + lower_position_embeddings
+                + h_position_embeddings
+                + w_position_embeddings
+        )
+        embeddings = self.LayerNorm(embeddings)
+        embeddings = self.dropout(embeddings)
+        return embeddings
+class EmbedMatcher(nn.Module):
+    def __init__(self, input_dim, inner_dim, output_dim, dropout_rate=0.1):
+        super().__init__()
+        self.embedd_matcher = nn.Sequential(
+            nn.Linear(input_dim, inner_dim, bias=True),
+            nn.ReLU(inplace=True),
+            nn.Dropout(dropout_rate),
+            nn.Linear(inner_dim, output_dim, bias=False),
+            nn.Dropout(dropout_rate)
+        )
+        self.apply(self._init_weights)
+    def _init_weights(self, m):
+        if isinstance(m, nn.Linear):
+            trunc_normal_(m.weight, std=.02)
+            if isinstance(m, nn.Linear) and m.bias is not None:
+                nn.init.constant_(m.bias, 0)
+    def forward(self, x):
+        x = self.embedd_matcher(x)
+        return x
+class MLP(nn.Module):
+    """ Very simple multi-layer perceptron (also called FFN)"""
+    def __init__(self, input_dim, hidden_dim, output_dim, num_layers):
+        super().__init__()
+        self.num_layers = num_layers
+        h = [hidden_dim] * (num_layers - 1)
+        self.layers = nn.ModuleList(nn.Linear(n, k) for n, k in zip([input_dim] + h, h + [output_dim]))
+    def forward(self, x):
+        for i, layer in enumerate(self.layers):
+            x = F.relu(layer(x)) if i < self.num_layers - 1 else layer(x)
+        return x
+class VisFocusModel(PreTrainedModel):
+    config_class = VisFocusConfig
+    def __init__(self, config):
+        super().__init__(config.lm_config)
+        self.set_task_name('ocr')
+        self.model_arch = 'visfocus'
+        self.config = config
+        self.lm_config = config.lm_config
+        self.vision_config = config.vision_config
+        self.vision_model = get_vision_model(self.vision_config)
+        input_dim = self.vision_model.num_features
+        matcher = MATCHER_MAP[self.config.matcher_type]
+        # load T5 encoder and decoder
+        encoder_config = copy.deepcopy(self.lm_config)
+        encoder_config.is_decoder = False
+        encoder_config.use_cache = False
+        encoder_config.is_encoder_decoder = False
+        self.encoder = T5Stack(encoder_config)
+        decoder_config = copy.deepcopy(self.lm_config)
+        decoder_config.is_decoder = True
+        decoder_config.is_encoder_decoder = False
+        decoder_config.num_layers = self.lm_config.num_decoder_layers
+        self.decoder = T5Stack(decoder_config)
+        self.lm_head = nn.Linear(self.lm_config.d_model, self.lm_config.vocab_size, bias=False)
+        if hasattr(self.vision_model, 'last_ds'):
+            input_dim = self.vision_model.last_ds.norm.normalized_shape[0]
+        self.vision_embed_matcher = matcher(
+            input_dim,
+            config.lm_config.hidden_size,
+            config.lm_config.hidden_size,
+            config.hidden_dropout_prob
+        )
+        # losses
+        self.loss_fct = CrossEntropyLoss(ignore_index=-100)
+        self.init_weights()
+        if self.config.lora is not None:
+            self.apply_lora()
+        if self.config.vl_l1_loss:
+            self.vl_l1_loss_fct = L1Loss()
+    def encoder_decoder_forward(
+            self,
+            input_ids=None,
+            attention_mask=None,
+            decoder_input_ids=None,
+            decoder_attention_mask=None,
+            head_mask=None,
+            decoder_head_mask=None,
+            encoder_outputs=None,
+            past_key_values=None,
+            inputs_embeds=None,
+            decoder_inputs_embeds=None,
+            labels=None,
+            use_cache=None,
+            output_attentions=None,
+            output_hidden_states=None,
+            return_dict=None,
+            **kwargs,
+    ):
+        r"""
+        https://huggingface.co/transformers/v4.5.1/_modules/transformers/modeling_t5.html#T5ForConditionalGeneration.forward
+        or https://huggingface.co/transformers/_modules/transformers/modeling_t5.html#T5ForConditionalGeneration.forward
+        """
+        if "lm_labels" in kwargs:
+            warnings.warn(
+                "The `lm_labels` argument is deprecated and will be removed in a future version, use `labels` instead.",
+                FutureWarning,
+            )
+            labels = kwargs.pop("lm_labels")
+        if "decoder_past_key_value_states" in kwargs:
+            warnings.warn(
+                "The `decoder_past_key_value_states` argument is deprecated and will be removed in a future version, use `past_key_values` instead.",
+                FutureWarning,
+            )
+            past_key_values = kwargs.pop("decoder_past_key_value_states")
+        if "decoder_past_key_values" in kwargs:
+            warnings.warn(
+                "The `decoder_past_key_values` argument is deprecated and will be removed in a future version, use `past_key_values` instead.",
+                FutureWarning,
+            )
+            past_key_values = kwargs.pop("decoder_past_key_values")
+        assert kwargs == {}, f"Unexpected keyword arguments: {list(kwargs.keys())}."
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        # Encode if needed (training, first prediction pass)
+        if encoder_outputs is None:
+            # Convert encoder inputs in embeddings if needed
+            encoder_outputs = self.encoder(
+                input_ids=input_ids,
+                attention_mask=attention_mask,
+                inputs_embeds=inputs_embeds,
+                head_mask=head_mask,
+                output_attentions=output_attentions,
+                output_hidden_states=output_hidden_states,
+                return_dict=return_dict,
+            )
+        elif return_dict and not isinstance(encoder_outputs, BaseModelOutput):
+            encoder_outputs = BaseModelOutput(
+                last_hidden_state=encoder_outputs[0],
+                hidden_states=encoder_outputs[1] if len(encoder_outputs) > 1 else None,
+                attentions=encoder_outputs[2] if len(encoder_outputs) > 2 else None,
+            )
+        hidden_states = encoder_outputs[0]
+        if labels is not None and decoder_input_ids is None and decoder_inputs_embeds is None:
+            # get decoder inputs from shifting lm labels to the right
+            decoder_input_ids = self._shift_right(labels)
+        # If decoding with past key value states, only the last tokens
+        # should be given as an input
+        if past_key_values is not None:
+            assert labels is None, "Decoder should not use cached key value states when training."
+            if decoder_input_ids is not None:
+                decoder_input_ids = decoder_input_ids[:, -1:]
+            if decoder_inputs_embeds is not None:
+                decoder_inputs_embeds = decoder_inputs_embeds[:, -1:]
+        # Decode
+        decoder_outputs = self.decoder(
+            input_ids=decoder_input_ids,
+            attention_mask=decoder_attention_mask,
+            inputs_embeds=decoder_inputs_embeds,
+            past_key_values=past_key_values,
+            encoder_hidden_states=hidden_states,
+            encoder_attention_mask=attention_mask,
+            head_mask=head_mask,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        sequence_output = decoder_outputs[0]
+        # Rescale output before projecting on vocab
+        # See https://github.com/tensorflow/mesh/blob/fa19d69eafc9a482aff0b59ddd96b025c0cb207d/mesh_tensorflow/transformer/transformer.py#L586
+        sequence_output = sequence_output * (self.model_dim ** -0.5)
+        lm_logits = self.lm_head(sequence_output)
+        loss = None
+        if labels is not None:
+            loss = self.loss_fct(lm_logits.view(-1, lm_logits.size(-1)), labels.view(-1))
+            if self.config.vl_l1_loss:
+                labels_ = labels.clone()
+                labels_[labels_ == -100] = self.input_tokenizer.pad_token_id # -> replace the ignore_index with the pad_token id to calculate the text target for the vl loss
+                with torch.no_grad():
+                    target = self.encoder(input_ids=labels_).last_hidden_state
+                if target.shape[1] != hidden_states.shape[1]:
+                    v_encoder_intrp = F.interpolate(hidden_states.permute(0,2,1), size=target.shape[1], mode='linear').permute(0,2,1)
+                    vl_loss =  (50 * self.vl_l1_loss_fct(v_encoder_intrp, target))
+                    loss += vl_loss
+        if not return_dict:
+            output = (lm_logits,) + decoder_outputs[1:] + encoder_outputs
+            if loss is not None:
+                output = ((loss,) + output)
+            return output
+        seq2seq_output = Seq2SeqLMOutput(
+            loss=loss,
+            logits=lm_logits,
+            past_key_values=decoder_outputs.past_key_values,
+            decoder_hidden_states=decoder_outputs.hidden_states,
+            decoder_attentions=decoder_outputs.attentions,
+            cross_attentions=decoder_outputs.cross_attentions,
+            encoder_last_hidden_state=encoder_outputs.last_hidden_state,
+            encoder_hidden_states=encoder_outputs.hidden_states,
+            encoder_attentions=encoder_outputs.attentions,
+        )
+        return seq2seq_output
+    def forward(self,
+                input_ids=None,
+                bbox=None,
+                image=None,
+                attention_mask=None,
+                head_mask=None,
+                inputs_embeds=None,
+                encoder_hidden_states=None,
+                encoder_attention_mask=None,
+                labels=None,
+                **kwargs):
+        # see https://huggingface.co/transformers/v2.10.0/_modules/transformers/modeling_t5.html#T5Model.forward
+        if not kwargs.get('encoder_outputs'):
+            _, vision_embeds, attention_mask = self._prepare_encoder_inputs(input_ids=None, image=image)
+        else:
+            # for generation mode
+            assert kwargs.get('decoder_input_ids') is not None
+            _ = vision_embeds = attention_mask = None
+        return self.encoder_decoder_forward(input_ids=None,
+                                            attention_mask=attention_mask,
+                                            encoder_outputs=kwargs.get('encoder_outputs'),
+                                            decoder_input_ids=kwargs.get('decoder_input_ids'),
+                                            decoder_attention_mask=None,
+                                            head_mask=head_mask,
+                                            decoder_head_mask=None,
+                                            past_key_values=kwargs.get('past_key_values'),
+                                            inputs_embeds=vision_embeds,
+                                            decoder_inputs_embeds=kwargs.get('decoder_inputs_embeds'),
+                                            labels=labels,
+                                            use_cache=True,
+                                            output_attentions=kwargs.get('output_attentions'),
+                                            output_hidden_states=kwargs.get('output_hidden_states'),
+                                            return_dict=kwargs.get('return_dict')
+                                            )
+    def prepare_inputs_for_generation(self, input_ids: torch.LongTensor, **kwargs) -> Dict[str, Any]:
+        if kwargs.get('encoder_outputs') is not None:
+            return {'attention_mask': kwargs.get('attention_mask'),
+                    'encoder_outputs': kwargs.get('encoder_outputs'),
+                    'decoder_input_ids': input_ids,
+                    'past_key_values': kwargs.get('past'),
+                    }
+        else:
+            raise ValueError(
+                "Make sure that encoder_outputs is already computed when preapring inputs for generation. --y.x.")
+    def _prepare_encoder_inputs(self, image, input_ids=None, bbox=None, attention_mask=None):
+        # text embedding
+        batch_size = image.shape[0]
+        if input_ids is not None:
+            text_embeds = self.shared(input_ids)
+            text_seq_length = text_embeds.shape[1]
+        else:
+            text_embeds = None
+            text_seq_length = 0
+        assert self.config.vision is not None
+        # vision embedding
+        vision_embeds = self.vision_model(image)
+        vision_embeds = self.vision_embed_matcher(vision_embeds)
+        vision_seq_length = vision_embeds.shape[1]
+        # add task token (e.g <OCR> for ocr)
+        vision_embeds, text_seq_length = self.concat_task_token(vision_embeds, text_seq_length)
+        attention_mask = torch.ones((batch_size, vision_seq_length + text_seq_length), dtype=torch.int32).to(self.device)
+        return text_embeds, vision_embeds, attention_mask
+    def concat_task_token(self, embeds, text_seq_length=0):
+        # add task token (e.g <OCR> for ocr)
+        if self.task_name in self.task_token_ids.keys():
+            B = embeds.shape[0]
+            task_embeds = self.shared(self.task_token_ids[self.task_name])
+            text_seq_length += task_embeds.shape[0]
+            return torch.cat((embeds, task_embeds.repeat((B, 1, 1))), dim=1), text_seq_length
+        else:
+            # no such task token exists
+            return embeds, text_seq_length
+    def _prepare_model_inputs(
+        self,
+        inputs: Optional[torch.Tensor] = None,
+        bos_token_id: Optional[int] = None,
+        model_kwargs: Optional[Dict[str, torch.Tensor]] = None,
+    ) -> Tuple[torch.Tensor, Optional[str], Dict[str, torch.Tensor]]:
+        """
+        This function extracts the model-specific `inputs` for generation.
+        """
+        input_name = 'inputs_embeds'
+        _, vision_embeds, attention_mask = self._prepare_encoder_inputs(image=model_kwargs['image'])
+        model_kwargs['attention_mask'] = attention_mask
+        inputs = vision_embeds
+        # 4. if `inputs` is still None, try to create `input_ids` from BOS token
+        inputs = self._maybe_initialize_input_ids_for_generation(inputs, bos_token_id, model_kwargs)
+        return inputs, input_name, model_kwargs
+    def _prepare_encoder_decoder_kwargs_for_generation(
+        self, inputs_tensor: torch.Tensor, model_kwargs, model_input_name: Optional[str] = None
+    ) -> Dict[str, Any]:
+        assert "encoder_outputs" not in model_kwargs
+        # 1. get encoder
+        encoder = self.get_encoder()
+        # 2. prepare encoder args and encoder kwargs from model kwargs
+        irrelevant_prefix = ["decoder_", "cross_attn", "use_cache"]
+        irrelevent_fields = ['input_ids', 'attention_mask', 'inputs_embeds', 'image', 'bbox', 'line_coordinates',
+                             'adj', 'lm_labels', 'banned_token_ids', 'questions', 'answers', 'labels', 'task_name']
+        encoder_kwargs = {
+            argument: value
+            for argument, value in model_kwargs.items()
+            if not any(argument.startswith(p) for p in irrelevant_prefix) and argument not in irrelevent_fields
+        }
+        # 3. make sure that encoder returns `ModelOutput`
+        encoder_kwargs["return_dict"] = True
+        model_kwargs["encoder_outputs"]: ModelOutput = encoder(
+            input_ids=None, attention_mask=model_kwargs['attention_mask'],
+            inputs_embeds=inputs_tensor, **encoder_kwargs)
+        return model_kwargs
+    def add_task_tokens(self):
+        self.input_tokenizer.add_tokens('<OCR>', special_tokens=True)
+        self.task_token_ids = torch.nn.ParameterDict([['ocr', self.register_token('<OCR>')]])
+    def register_token(self, token: str):
+        self.input_tokenizer.add_tokens(token, special_tokens=True)
+        token_ids = self.input_tokenizer.encode(token)
+        return torch.nn.Parameter(torch.tensor(token_ids), requires_grad=False)
+    def set_task_name(self, task_name):
+        if task_name:
+            self.task_name = task_name
+    def get_trivial_mask(self, inp):
+        return torch.ones((inp.shape[:2]), dtype=torch.int32).to(self.device)
+class VisFocusModelForLocalizedMaskedLanguageModeling(VisFocusModel):
+    def __init__(self, config):
+        super().__init__(config)
+        self.set_task_name('mpm')
+        self.text_embedder = T5_Encoder(self.vision_config.text_embedder, freeze=True)
+    def forward(self,
+                input_ids=None,
+                bbox=None,
+                image=None,
+                attention_mask=None,
+                head_mask=None,
+                inputs_embeds=None,
+                encoder_hidden_states=None,
+                encoder_attention_mask=None,
+                labels=None,
+                **kwargs):
+        if not kwargs.get('encoder_outputs'):
+            if self.task_name == 'ocr':
+                input_ids = None
+                if not hasattr(self, 'prompt_embeds'):
+                    prompt = 'what is written in this document?'
+                    prompt_ids = self.input_tokenizer.encode(prompt)
+                    B = image.shape[0]
+                    prompt_ids = torch.tensor(prompt_ids).expand(B, len(prompt_ids)).to(self.device)
+                    setattr(self, 'prompt_embeds', self.text_embedder(prompt_ids).detach())
+            _, vision_embeds, attention_mask = self._prepare_encoder_inputs(input_ids=input_ids, image=image)
+        else:
+            # for generation mode
+            assert kwargs.get('decoder_input_ids') is not None
+            _ = vision_embeds = attention_mask = None
+        return self.encoder_decoder_forward(input_ids=None,
+                                            attention_mask=attention_mask,
+                                            encoder_outputs=kwargs.get('encoder_outputs'),
+                                            decoder_input_ids=kwargs.get('decoder_input_ids'),
+                                            decoder_attention_mask=None,
+                                            head_mask=head_mask,
+                                            decoder_head_mask=None,
+                                            past_key_values=kwargs.get('past_key_values'),
+                                            inputs_embeds=vision_embeds,
+                                            decoder_inputs_embeds=kwargs.get('decoder_inputs_embeds'),
+                                            labels=labels,
+                                            use_cache=True,
+                                            output_attentions=kwargs.get('output_attentions'),
+                                            output_hidden_states=kwargs.get('output_hidden_states'),
+                                            return_dict=kwargs.get('return_dict')
+                                            )
+    def _prepare_encoder_inputs(self, image, input_ids=None, bbox=None, attention_mask=None):
+        batch_size = image.shape[0]
+        # if prompt is contant
+        if self.task_name == 'ocr':
+            assert input_ids is None
+            text_embeds = self.prompt_embeds
+        else:
+            assert input_ids is not None
+            if self.text_embedder == self.encoder:
+                with torch.no_grad():
+                    text_embeds = self.encoder(input_ids).last_hidden_state
+            else:
+                text_embeds = self.text_embedder(input_ids)
+            text_embeds = text_embeds.detach()
+        text_seq_length = text_embeds.shape[1] if self.task_name == 'pm_vqa_concat' else 0
+        assert self.config.vision is not None
+        # vision embedding
+        vision_embeds = self.vision_model(image, context_prompts=text_embeds)
+        if self.vision_model.model_name in ["swin_v2"]:
+            vision_embeds = self.vision_embed_matcher(vision_embeds)
+        vision_seq_length = vision_embeds.shape[1]
+        # add task token (e.g <OCR> for ocr)
+        vision_embeds, text_seq_length = self.concat_task_token(vision_embeds, text_seq_length=text_seq_length)
+        attention_mask = torch.ones((batch_size, vision_seq_length + text_seq_length), dtype=torch.int32).to(self.device)
+        return text_embeds, vision_embeds, attention_mask
+    def _prepare_model_inputs(
+        self,
+        inputs: Optional[torch.Tensor] = None,
+        bos_token_id: Optional[int] = None,
+        model_kwargs: Optional[Dict[str, torch.Tensor]] = None,
+    ) -> Tuple[torch.Tensor, Optional[str], Dict[str, torch.Tensor]]:
+        """
+        This function extracts the model-specific `inputs` for generation.
+        """
+        input_name = 'inputs_embeds'
+        _, vision_embeds, attention_mask = self._prepare_encoder_inputs(image=model_kwargs['image'], input_ids=model_kwargs['input_ids'])
+        model_kwargs['attention_mask'] = attention_mask
+        inputs = vision_embeds
+        # 4. if `inputs` is still None, try to create `input_ids` from BOS token
+        inputs = self._maybe_initialize_input_ids_for_generation(inputs, bos_token_id, model_kwargs)
+        return inputs, input_name, model_kwargs
+    def add_task_tokens(self):
+        super().add_task_tokens()
+        self.input_tokenizer.add_tokens('<MPM>', special_tokens=True)
+        self.task_token_ids.update({'mpm': self.register_token('<MPM>')})
+class VisFocusModelForImageTextToText(VisFocusModelForLocalizedMaskedLanguageModeling):
+    def __init__(self, config):
+        super().__init__(config)
+        self.set_task_name('pm_vqa_concat')
+    def forward(self, questions=None, answers=None, image=None, labels=None, **kwargs):
+        if kwargs.get('encoder_outputs') is None:
+            text_embeds, vision_embeds, attention_mask = self._prepare_encoder_inputs(input_ids=questions['input_ids'], image=image)
+            inputs_embeds = torch.concat((text_embeds, vision_embeds), dim=1)
+            attention_mask = self.get_trivial_mask(inputs_embeds) # -> when different tokenizer is used for ViLMA/concat, need to re-calculate attn. mask
+        else:
+            # for generation mode (image encoding happens before)
+            assert kwargs.get('decoder_input_ids') is not None
+            assert kwargs.get('encoder_outputs') is not None
+            inputs_embeds = kwargs.get('encoder_outputs')
+            text_embeds = vision_embeds = attention_mask = None
+        return self.encoder_decoder_forward(input_ids=None,
+                                            attention_mask=attention_mask,
+                                            encoder_outputs=kwargs.get('encoder_outputs'),
+                                            decoder_input_ids=kwargs.get('decoder_input_ids'),
+                                            decoder_attention_mask=None,
+                                            head_mask=None,
+                                            decoder_head_mask=None,
+                                            past_key_values=kwargs.get('past_key_values'),
+                                            inputs_embeds=inputs_embeds,
+                                            decoder_inputs_embeds=kwargs.get('decoder_inputs_embeds'),
+                                            labels=labels,
+                                            use_cache=True,
+                                            output_attentions=kwargs.get('output_attentions'),
+                                            output_hidden_states=kwargs.get('output_hidden_states'),
+                                            return_dict=kwargs.get('return_dict')
+                                            )
+    def _prepare_model_inputs(self, inputs=None, bos_token_id=None, model_kwargs=None ) -> Tuple[torch.Tensor, Optional[str], Dict[str, torch.Tensor]]:
+        """
+        This function extracts the model-specific `inputs` for generation.
+        """
+        input_name = 'inputs_embeds'
+        text_embeds, vision_embeds, attention_mask = self._prepare_encoder_inputs(input_ids=model_kwargs['questions']['input_ids'], image=model_kwargs['image'])
+        model_kwargs['attention_mask'] = attention_mask
+        inputs_embeds = torch.concat((text_embeds, vision_embeds), dim=1)
+        inputs = inputs_embeds
+        # 4. if `inputs` is still None, try to create `input_ids` from BOS token
+        inputs = self._maybe_initialize_input_ids_for_generation(inputs, bos_token_id, model_kwargs)
+        model_kwargs['attention_mask'] = self.get_trivial_mask(inputs)
+        return inputs, input_name, model_kwargs
+    def _prepare_encoder_inputs(self, image, input_ids=None, bbox=None, attention_mask=None):
+        batch_size = image.shape[0]
+        assert input_ids is not None
+        if self.text_embedder == self.encoder:
+            with torch.no_grad():
+                text_embeds = self.encoder(input_ids).last_hidden_state
+        else:
+            text_embeds = self.text_embedder(input_ids)
+        text_embeds = text_embeds.detach()
+        text_seq_length = text_embeds.shape[1] if self.task_name == 'pm_vqa_concat' else 0
+        assert self.config.vision is not None
+        # vision embedding
+        vision_embeds = self.vision_model(image, context_prompts=text_embeds)
+        if self.vision_model.model_name in ["swin_v2"]:
+            vision_embeds = self.vision_embed_matcher(vision_embeds)
+        vision_seq_length = vision_embeds.shape[1]
+        # add task token (e.g <OCR> for ocr)
+        vision_embeds, text_seq_length = self.concat_task_token(vision_embeds, text_seq_length=text_seq_length)
+        attention_mask = torch.ones((batch_size, vision_seq_length + text_seq_length), dtype=torch.int32).to(self.device)
+        text_embeds = self.shared(input_ids) # for concat, use direct the T5 nn.embeddings
+        return text_embeds, vision_embeds, attention_mask
+    def add_task_tokens(self):
+        super().add_task_tokens()
+        self.input_tokenizer.add_tokens('<LMPM_VQA_CONCAT>', special_tokens=True)
+        self.task_token_ids.update({'pm_vqa_concat': self.register_token('<LMPM_VQA_CONCAT>')})
+def _to_cuda(sample, device=torch.device('cuda')):
+    if isinstance(sample, torch.Tensor):
+        return sample.to(device)
+    elif isinstance(sample, list):
+        return sample
+    else:
+        for k in sample.keys():
+            sample[k] = _to_cuda(sample[k], device)
+        return sample
+def fetch_sample(ds, ds_for_vis):
+    idx = random.randint(50, 100)
+    for i in range(idx):
+        inputs = next(ds)
+        inputs_to_vis = next(ds_for_vis)
+    return inputs, inputs_to_vis
+MATCHER_MAP = {
+    'default': EmbedMatcher,
+}
+# vqa
+if __name__ == '__main__':
+    # load yaml
+    with open('configs/test_expts/vf_base_finetune_docvqa__v2_accum4_f32_V5__mpm_altConcat__vilma_concat_V1/vqa_model_args.yaml', 'r') as f:
+        model_args = EasyDict(yaml.safe_load(f))
+    DEVICE = 'cpu' # 'cpu'
+    ## load pretrained if needed
+    last_ckpt = None # get_last_checkpoint(dirname(model_args.model_config_path))
+    ##
+    # model = get_model_class(model_args, last_ckpt=last_ckpt)
+    cfg = VisFocusConfig.from_pretrained('configs/config.json')
+    cfg.push_to_hub('ofirab/visfocus-base-docvqa')
+    model = VisFocusModelForImageTextToText(cfg)
+    model.push_to_hub('ofirab/visfocus-base-docvqa')
+    model.to(DEVICE)