visfocus-base-docvqa / modeling_visfocus.py

Upload model

3d1911b verified 5 months ago

36.1 kB


	import torch
	from torch import nn
	from torch.nn import LayerNorm, CrossEntropyLoss, L1Loss
	from torch.nn import functional as F

	from transformers import PreTrainedModel, AutoTokenizer, GenerationMixin, logging
	from transformers.models.t5.modeling_t5 import T5Stack
	from transformers.modeling_outputs import Seq2SeqLMOutput, BaseModelOutput
	from transformers.file_utils import ModelOutput

	from timm.models.layers import trunc_normal_
	from typing import Any, Dict, Optional, Tuple
	import warnings
	import random
	import yaml
	import copy
	from easydict import EasyDict

	from configuration_visfocus import VisFocusConfig
	from modeling_vilmaswin import VilmaSwinTransformerV2
	from image_processing_visfocus import VisFocusImageProcessor
	from processing_visfocus import VisFocusProcessor

	logger = logging.get_logger(__name__)


	def get_vision_model(config):
	vision_model = VilmaSwinTransformerV2(
	img_size=config.image_size,
	patch_size=config.patch_size,
	in_chans=config.in_chans,
	embed_dim=config.embed_dim,
	depths=config.depths,
	num_heads=config.num_heads,
	window_size=config.window_size,
	mlp_ratio=config.mlp_ratio,
	qkv_bias=config.qkv_bias,
	drop_rate=config.drop_rate,
	drop_path_rate=config.drop_path_rate,
	ape=config.ape,
	patch_norm=config.patch_norm,
	use_checkpoint=config.use_checkpoint,
	pretrained_window_sizes=config.pretrained_window_sizes,
	do_shift=config.do_shift,
	vl_cross_attn_layers=config.vl_cross_attn_layers,
	vl_alpha=config.vl_alpha,
	lm_d_model=config.lm_d_model,
	input_type=config.input_type,
	vl_learned_ape=config.vl_learned_ape)
	return vision_model


	def load_vision_pretrained(configs, model):
	logger.info("Loading vision model from %s", configs.model.vision_resume_from)
	if configs.model.vision_resume_from.startswith("https"):
	checkpoint = torch.hub.load_state_dict_from_url(
	configs.model.vision_resume_from, map_location="cpu", check_hash=True
	)
	else:
	checkpoint = torch.load(configs.model.vision_resume_from, map_location="cpu")

	state_dict = checkpoint["model"]

	if "swin" in configs.model.type:
	# delete relative_position_index since we always re-init it
	relative_position_index_keys = [k for k in state_dict.keys() if "relative_position_index" in k]
	for k in relative_position_index_keys:
	del state_dict[k]

	# delete relative_coords_table since we always re-init it
	relative_position_index_keys = [k for k in state_dict.keys() if "relative_coords_table" in k]
	for k in relative_position_index_keys:
	del state_dict[k]

	# delete attn_mask since we always re-init it
	attn_mask_keys = [k for k in state_dict.keys() if "attn_mask" in k]
	for k in attn_mask_keys:
	del state_dict[k]

	# bicubic interpolate relative_position_bias_table if not match
	relative_position_bias_table_keys = [k for k in state_dict.keys() if "relative_position_bias_table" in k]
	for k in relative_position_bias_table_keys:
	relative_position_bias_table_pretrained = state_dict[k]
	relative_position_bias_table_current = model.vision_model.state_dict()[k]
	L1, nH1 = relative_position_bias_table_pretrained.size()
	L2, nH2 = relative_position_bias_table_current.size()
	if nH1 != nH2:
	logger.warning(f"Error in loading {k}, passing......")
	else:
	if L1 != L2:
	# bicubic interpolate relative_position_bias_table if not match
	S1 = int(L1 ** 0.5)
	S2 = int(L2 ** 0.5)
	relative_position_bias_table_pretrained_resized = torch.nn.functional.interpolate(
	relative_position_bias_table_pretrained.permute(1, 0).view(1, nH1, S1, S1), size=(S2, S2),
	mode='bicubic')
	state_dict[k] = relative_position_bias_table_pretrained_resized.view(nH2, L2).permute(1, 0)

	# bicubic interpolate absolute_pos_embed if not match
	absolute_pos_embed_keys = [k for k in state_dict.keys() if "absolute_pos_embed" in k]
	for k in absolute_pos_embed_keys:
	# dpe
	absolute_pos_embed_pretrained = state_dict[k]
	absolute_pos_embed_current = model.vision_model.state_dict()[k]
	_, L1, C1 = absolute_pos_embed_pretrained.size()
	_, L2, C2 = absolute_pos_embed_current.size()
	if C1 != C1:
	logger.warning(f"Error in loading {k}, passing......")
	else:
	if L1 != L2:
	S1 = int(L1 ** 0.5)
	S2 = int(L2 ** 0.5)
	absolute_pos_embed_pretrained = absolute_pos_embed_pretrained.reshape(-1, S1, S1, C1)
	absolute_pos_embed_pretrained = absolute_pos_embed_pretrained.permute(0, 3, 1, 2)
	absolute_pos_embed_pretrained_resized = torch.nn.functional.interpolate(
	absolute_pos_embed_pretrained, size=(S2, S2), mode='bicubic')
	absolute_pos_embed_pretrained_resized = absolute_pos_embed_pretrained_resized.permute(0, 2, 3, 1)
	absolute_pos_embed_pretrained_resized = absolute_pos_embed_pretrained_resized.flatten(1, 2)
	state_dict[k] = absolute_pos_embed_pretrained_resized

	if model.vision_model.patch_embed.proj.weight.shape != state_dict['patch_embed.proj.weight'].shape:
	model.vision_model.input_type == 'flattened_patches'
	logger.warning(f"PatchEmbed (patch_embed) was not loaded, because input_type is falttened_patches.")
	del state_dict['patch_embed.proj.weight']


	# import pdb;pdb.set_trace()
	msg = model.vision_model.load_state_dict(state_dict, strict=False)

	# do not print unnecessary (vl attn is not loaded now)
	filtered_missing_keys = {k for k in msg.missing_keys
	if 'vl_cross_attn_layers' not in k
	or 'relative_position' not in k}
	filtered_missing_keys.union({'relative_position' for k in msg.missing_keys
	if 'relative_position' not in k})
	# if len({k for k in msg.missing_keys if 'relative_' in k}) > 0:
	# logger.warning(f'Relative position were not loaded')
	# filtered_missing_keys.union()
	logger.warning(f'Missing keys: {set(msg.missing_keys) - filtered_missing_keys}')
	logger.warning(f'Unexpected keys: {msg.unexpected_keys}')

	# logger.warning(msg)

	logger.info("Loaded model successfully from %s", configs.model.vision_resume_from)

	del checkpoint
	torch.cuda.empty_cache()


	class T5_Encoder(nn.Module):
	def __init__(self, t5_variant='base', freeze=True):
	from transformers import T5Tokenizer, T5Model
	super().__init__()
	self.tokenizer = T5Tokenizer.from_pretrained(f'{t5_variant}')
	model = T5Model.from_pretrained(f'{t5_variant}')
	del model.decoder
	self.encoder = model.encoder
	if freeze:
	for p in self.encoder.parameters():
	p.requires_grad = False

	def forward(self, input_ids):
	encoder_outputs = self.encoder(
	input_ids=input_ids,
	return_dict=True,
	)
	return encoder_outputs[0]


	class SpatialEmbeddings(nn.Module):
	def __init__(self, config):
	super().__init__()

	self.x_position_embeddings = nn.Embedding(
	config.max_2d_position_embeddings, config.hidden_size
	)
	self.y_position_embeddings = nn.Embedding(
	config.max_2d_position_embeddings, config.hidden_size
	)
	self.h_position_embeddings = nn.Embedding(
	config.max_2d_position_embeddings, config.hidden_size
	)
	self.w_position_embeddings = nn.Embedding(
	config.max_2d_position_embeddings, config.hidden_size
	)
	self.LayerNorm = LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
	self.dropout = nn.Dropout(config.hidden_dropout_prob)

	self.config = config

	def forward(
	self,
	bbox,
	):
	seq_length = bbox.size(1)

	left_position_embeddings = self.x_position_embeddings(bbox[:, :, 0])
	upper_position_embeddings = self.y_position_embeddings(bbox[:, :, 1])
	right_position_embeddings = self.x_position_embeddings(bbox[:, :, 2])
	lower_position_embeddings = self.y_position_embeddings(bbox[:, :, 3])
	h_position_embeddings = self.h_position_embeddings(
	bbox[:, :, 3] - bbox[:, :, 1]
	)
	w_position_embeddings = self.w_position_embeddings(
	bbox[:, :, 2] - bbox[:, :, 0]
	)
	embeddings = (
	left_position_embeddings
	+ upper_position_embeddings
	+ right_position_embeddings
	+ lower_position_embeddings
	+ h_position_embeddings
	+ w_position_embeddings
	)

	embeddings = self.LayerNorm(embeddings)
	embeddings = self.dropout(embeddings)
	return embeddings


	class EmbedMatcher(nn.Module):
	def __init__(self, input_dim, inner_dim, output_dim, dropout_rate=0.1):
	super().__init__()
	self.embedd_matcher = nn.Sequential(
	nn.Linear(input_dim, inner_dim, bias=True),
	nn.ReLU(inplace=True),
	nn.Dropout(dropout_rate),
	nn.Linear(inner_dim, output_dim, bias=False),
	nn.Dropout(dropout_rate)
	)

	self.apply(self._init_weights)

	def _init_weights(self, m):
	if isinstance(m, nn.Linear):
	trunc_normal_(m.weight, std=.02)
	if isinstance(m, nn.Linear) and m.bias is not None:
	nn.init.constant_(m.bias, 0)

	def forward(self, x):
	x = self.embedd_matcher(x)
	return x


	class MLP(nn.Module):
	""" Very simple multi-layer perceptron (also called FFN)"""

	def __init__(self, input_dim, hidden_dim, output_dim, num_layers):
	super().__init__()
	self.num_layers = num_layers
	h = [hidden_dim] * (num_layers - 1)
	self.layers = nn.ModuleList(nn.Linear(n, k) for n, k in zip([input_dim] + h, h + [output_dim]))

	def forward(self, x):
	for i, layer in enumerate(self.layers):
	x = F.relu(layer(x)) if i < self.num_layers - 1 else layer(x)
	return x


	class VisFocusPreTrainedModel(PreTrainedModel, GenerationMixin):
	config_class = VisFocusConfig

	def __init__(self, config):
	super().__init__(config.lm_config)
	self.set_task_name('ocr')
	self.model_arch = 'visfocus'
	self.config = config
	self.lm_config = config.lm_config
	self.vision_config = config.vision_config

	self.vision_model = get_vision_model(self.vision_config)

	input_dim = self.vision_model.num_features
	matcher = MATCHER_MAP[self.config.matcher_type]

	# load T5 encoder and decoder
	encoder_config = copy.deepcopy(self.lm_config)
	encoder_config.is_decoder = False
	encoder_config.use_cache = False
	encoder_config.is_encoder_decoder = False
	self.encoder = T5Stack(encoder_config)

	decoder_config = copy.deepcopy(self.lm_config)
	decoder_config.is_decoder = True
	decoder_config.is_encoder_decoder = False
	decoder_config.num_layers = self.lm_config.num_decoder_layers
	self.decoder = T5Stack(decoder_config)
	self.lm_head = nn.Linear(self.lm_config.d_model, self.lm_config.vocab_size, bias=False)

	if hasattr(self.vision_model, 'last_ds'):
	input_dim = self.vision_model.last_ds.norm.normalized_shape[0]

	self.vision_embed_matcher = matcher(
	input_dim,
	config.lm_config.hidden_size,
	config.lm_config.hidden_size,
	config.hidden_dropout_prob
	)

	# losses
	self.loss_fct = CrossEntropyLoss(ignore_index=-100)

	self.init_weights()

	if self.config.lora is not None:
	self.apply_lora()

	if self.config.vl_l1_loss:
	self.vl_l1_loss_fct = L1Loss()

	def encoder_decoder_forward(
	self,
	input_ids=None,
	attention_mask=None,
	decoder_input_ids=None,
	decoder_attention_mask=None,
	head_mask=None,
	decoder_head_mask=None,
	encoder_outputs=None,
	past_key_values=None,
	inputs_embeds=None,
	decoder_inputs_embeds=None,
	labels=None,
	use_cache=None,
	output_attentions=None,
	output_hidden_states=None,
	return_dict=None,
	**kwargs,
	):
	r"""
	https://huggingface.co/transformers/v4.5.1/_modules/transformers/modeling_t5.html#T5ForConditionalGeneration.forward
	or https://huggingface.co/transformers/_modules/transformers/modeling_t5.html#T5ForConditionalGeneration.forward
	"""

	if "lm_labels" in kwargs:
	warnings.warn(
	"The `lm_labels` argument is deprecated and will be removed in a future version, use `labels` instead.",
	FutureWarning,
	)
	labels = kwargs.pop("lm_labels")
	if "decoder_past_key_value_states" in kwargs:
	warnings.warn(
	"The `decoder_past_key_value_states` argument is deprecated and will be removed in a future version, use `past_key_values` instead.",
	FutureWarning,
	)
	past_key_values = kwargs.pop("decoder_past_key_value_states")
	if "decoder_past_key_values" in kwargs:
	warnings.warn(
	"The `decoder_past_key_values` argument is deprecated and will be removed in a future version, use `past_key_values` instead.",
	FutureWarning,
	)
	past_key_values = kwargs.pop("decoder_past_key_values")
	assert kwargs == {}, f"Unexpected keyword arguments: {list(kwargs.keys())}."

	use_cache = use_cache if use_cache is not None else self.config.use_cache
	return_dict = return_dict if return_dict is not None else self.config.use_return_dict

	# Encode if needed (training, first prediction pass)
	if encoder_outputs is None:
	# Convert encoder inputs in embeddings if needed
	encoder_outputs = self.encoder(
	input_ids=input_ids,
	attention_mask=attention_mask,
	inputs_embeds=inputs_embeds,
	head_mask=head_mask,
	output_attentions=output_attentions,
	output_hidden_states=output_hidden_states,
	return_dict=return_dict,
	)
	elif return_dict and not isinstance(encoder_outputs, BaseModelOutput):
	encoder_outputs = BaseModelOutput(
	last_hidden_state=encoder_outputs[0],
	hidden_states=encoder_outputs[1] if len(encoder_outputs) > 1 else None,
	attentions=encoder_outputs[2] if len(encoder_outputs) > 2 else None,
	)

	hidden_states = encoder_outputs[0]

	if labels is not None and decoder_input_ids is None and decoder_inputs_embeds is None:
	# get decoder inputs from shifting lm labels to the right
	decoder_input_ids = self._shift_right(labels)

	# If decoding with past key value states, only the last tokens
	# should be given as an input
	if past_key_values is not None:
	assert labels is None, "Decoder should not use cached key value states when training."
	if decoder_input_ids is not None:
	decoder_input_ids = decoder_input_ids[:, -1:]
	if decoder_inputs_embeds is not None:
	decoder_inputs_embeds = decoder_inputs_embeds[:, -1:]

	# Decode
	decoder_outputs = self.decoder(
	input_ids=decoder_input_ids,
	attention_mask=decoder_attention_mask,
	inputs_embeds=decoder_inputs_embeds,
	past_key_values=past_key_values,
	encoder_hidden_states=hidden_states,
	encoder_attention_mask=attention_mask,
	head_mask=head_mask,
	use_cache=use_cache,
	output_attentions=output_attentions,
	output_hidden_states=output_hidden_states,
	return_dict=return_dict,
	)
	sequence_output = decoder_outputs[0]
	# Rescale output before projecting on vocab
	# See https://github.com/tensorflow/mesh/blob/fa19d69eafc9a482aff0b59ddd96b025c0cb207d/mesh_tensorflow/transformer/transformer.py#L586
	sequence_output = sequence_output * (self.model_dim ** -0.5)
	lm_logits = self.lm_head(sequence_output)

	loss = None
	if labels is not None:
	loss = self.loss_fct(lm_logits.view(-1, lm_logits.size(-1)), labels.view(-1))

	if self.config.vl_l1_loss:
	labels_ = labels.clone()
	labels_[labels_ == -100] = 0 # -> replace the ignore_index with the pad_token id to calculate the text target for the vl loss
	with torch.no_grad():
	target = self.encoder(input_ids=labels_).last_hidden_state
	if target.shape[1] != hidden_states.shape[1]:
	v_encoder_intrp = F.interpolate(hidden_states.permute(0,2,1), size=target.shape[1], mode='linear').permute(0,2,1)
	vl_loss = (50 * self.vl_l1_loss_fct(v_encoder_intrp, target))
	loss += vl_loss

	if not return_dict:
	output = (lm_logits,) + decoder_outputs[1:] + encoder_outputs
	if loss is not None:
	output = ((loss,) + output)

	return output

	seq2seq_output = Seq2SeqLMOutput(
	loss=loss,
	logits=lm_logits,
	past_key_values=decoder_outputs.past_key_values,
	decoder_hidden_states=decoder_outputs.hidden_states,
	decoder_attentions=decoder_outputs.attentions,
	cross_attentions=decoder_outputs.cross_attentions,
	encoder_last_hidden_state=encoder_outputs.last_hidden_state,
	encoder_hidden_states=encoder_outputs.hidden_states,
	encoder_attentions=encoder_outputs.attentions,
	)

	return seq2seq_output

	def forward(self,
	input_ids=None,
	bbox=None,
	image=None,
	attention_mask=None,
	head_mask=None,
	inputs_embeds=None,
	encoder_hidden_states=None,
	encoder_attention_mask=None,
	labels=None,
	**kwargs):
	# see https://huggingface.co/transformers/v2.10.0/_modules/transformers/modeling_t5.html#T5Model.forward

	if not kwargs.get('encoder_outputs'):
	_, vision_embeds, attention_mask = self._prepare_encoder_inputs(input_ids=None, image=image)
	else:
	# for generation mode
	assert kwargs.get('decoder_input_ids') is not None
	_ = vision_embeds = attention_mask = None

	return self.encoder_decoder_forward(input_ids=None,
	attention_mask=attention_mask,
	encoder_outputs=kwargs.get('encoder_outputs'),
	decoder_input_ids=kwargs.get('decoder_input_ids'),
	decoder_attention_mask=None,
	head_mask=head_mask,
	decoder_head_mask=None,
	past_key_values=kwargs.get('past_key_values'),
	inputs_embeds=vision_embeds,
	decoder_inputs_embeds=kwargs.get('decoder_inputs_embeds'),
	labels=labels,
	use_cache=True,
	output_attentions=kwargs.get('output_attentions'),
	output_hidden_states=kwargs.get('output_hidden_states'),
	return_dict=kwargs.get('return_dict')
	)


	def prepare_inputs_for_generation(self, input_ids: torch.LongTensor, **kwargs) -> Dict[str, Any]:
	if kwargs.get('encoder_outputs') is not None:
	return {'attention_mask': kwargs.get('attention_mask'),
	'encoder_outputs': kwargs.get('encoder_outputs'),
	'decoder_input_ids': input_ids,
	'past_key_values': kwargs.get('past'),
	}
	else:
	raise ValueError(
	"Make sure that encoder_outputs is already computed when preapring inputs for generation. --y.x.")

	def _prepare_encoder_inputs(self, image, input_ids=None, bbox=None, attention_mask=None):
	# text embedding
	batch_size = image.shape[0]

	if input_ids is not None:
	text_embeds = self.shared(input_ids)
	text_seq_length = text_embeds.shape[1]
	else:
	text_embeds = None
	text_seq_length = 0

	assert self.config.vision is not None
	# vision embedding
	vision_embeds = self.vision_model(image)
	vision_embeds = self.vision_embed_matcher(vision_embeds)
	vision_seq_length = vision_embeds.shape[1]
	# add task token (e.g <OCR> for ocr)
	vision_embeds, text_seq_length = self.concat_task_token(vision_embeds, text_seq_length)
	attention_mask = torch.ones((batch_size, vision_seq_length + text_seq_length), dtype=torch.int32).to(self.device)
	return text_embeds, vision_embeds, attention_mask

	def concat_task_token(self, embeds, text_seq_length=0):
	# add task token (e.g <OCR> for ocr)
	if self.task_name in self.task_token_ids.keys():
	B = embeds.shape[0]
	task_embeds = self.shared(self.task_token_ids[self.task_name])
	text_seq_length += task_embeds.shape[0]
	return torch.cat((embeds, task_embeds.repeat((B, 1, 1))), dim=1), text_seq_length
	else:
	# no such task token exists
	return embeds, text_seq_length

	def _prepare_model_inputs(
	self,
	inputs: Optional[torch.Tensor] = None,
	bos_token_id: Optional[int] = None,
	model_kwargs: Optional[Dict[str, torch.Tensor]] = None,
	) -> Tuple[torch.Tensor, Optional[str], Dict[str, torch.Tensor]]:
	"""
	This function extracts the model-specific `inputs` for generation.
	"""
	input_name = 'inputs_embeds'
	_, vision_embeds, attention_mask = self._prepare_encoder_inputs(image=model_kwargs['image'])
	model_kwargs['attention_mask'] = attention_mask

	inputs = vision_embeds

	# 4. if `inputs` is still None, try to create `input_ids` from BOS token
	inputs = self._maybe_initialize_input_ids_for_generation(inputs, bos_token_id, model_kwargs)
	return inputs, input_name, model_kwargs

	def _prepare_encoder_decoder_kwargs_for_generation(
	self, inputs_tensor: torch.Tensor, model_kwargs, model_input_name: Optional[str] = None
	) -> Dict[str, Any]:
	assert "encoder_outputs" not in model_kwargs

	# 1. get encoder
	encoder = self.get_encoder()

	# 2. prepare encoder args and encoder kwargs from model kwargs
	irrelevant_prefix = ["decoder_", "cross_attn", "use_cache"]
	irrelevent_fields = ['input_ids', 'attention_mask', 'inputs_embeds', 'image', 'bbox', 'line_coordinates',
	'adj', 'lm_labels', 'banned_token_ids', 'questions', 'answers', 'labels', 'task_name']
	encoder_kwargs = {
	argument: value
	for argument, value in model_kwargs.items()
	if not any(argument.startswith(p) for p in irrelevant_prefix) and argument not in irrelevent_fields
	}

	# 3. make sure that encoder returns `ModelOutput`
	encoder_kwargs["return_dict"] = True
	model_kwargs["encoder_outputs"]: ModelOutput = encoder(
	input_ids=None, attention_mask=model_kwargs['attention_mask'],
	inputs_embeds=inputs_tensor, **encoder_kwargs)

	return model_kwargs

	def set_task_name(self, task_name):
	if task_name:
	self.task_name = task_name

	def get_trivial_mask(self, inp):
	return torch.ones((inp.shape[:2]), dtype=torch.int32).to(self.device)


	class VisFocusModelForLocalizedMaskedLanguageModeling(VisFocusPreTrainedModel):
	def __init__(self, config):
	super().__init__(config)
	self.set_task_name('mpm')
	self.text_embedder = T5_Encoder(self.vision_config.text_embedder, freeze=True)

	def forward(self,
	input_ids=None,
	bbox=None,
	image=None,
	attention_mask=None,
	head_mask=None,
	inputs_embeds=None,
	encoder_hidden_states=None,
	encoder_attention_mask=None,
	labels=None,
	**kwargs):
	if not kwargs.get('encoder_outputs'):
	if self.task_name == 'ocr':
	# NOTE: not supported yet
	input_ids = None
	if not hasattr(self, 'prompt_embeds'):
	prompt = 'what is written in this document?'
	prompt_ids = self.input_tokenizer.encode(prompt)
	B = image.shape[0]
	prompt_ids = torch.tensor(prompt_ids).expand(B, len(prompt_ids)).to(self.device)
	setattr(self, 'prompt_embeds', self.text_embedder(prompt_ids).detach())
	_, vision_embeds, attention_mask = self._prepare_encoder_inputs(input_ids=input_ids, image=image)
	else:
	# for generation mode
	assert kwargs.get('decoder_input_ids') is not None
	_ = vision_embeds = attention_mask = None

	return self.encoder_decoder_forward(input_ids=None,
	attention_mask=attention_mask,
	encoder_outputs=kwargs.get('encoder_outputs'),
	decoder_input_ids=kwargs.get('decoder_input_ids'),
	decoder_attention_mask=None,
	head_mask=head_mask,
	decoder_head_mask=None,
	past_key_values=kwargs.get('past_key_values'),
	inputs_embeds=vision_embeds,
	decoder_inputs_embeds=kwargs.get('decoder_inputs_embeds'),
	labels=labels,
	use_cache=True,
	output_attentions=kwargs.get('output_attentions'),
	output_hidden_states=kwargs.get('output_hidden_states'),
	return_dict=kwargs.get('return_dict')
	)

	def _prepare_encoder_inputs(self, image, input_ids=None, bbox=None, attention_mask=None):
	batch_size = image.shape[0]

	# if prompt is contant
	if self.task_name == 'ocr':
	assert input_ids is None
	text_embeds = self.prompt_embeds
	else:
	assert input_ids is not None
	if self.text_embedder == self.encoder:
	with torch.no_grad():
	text_embeds = self.encoder(input_ids).last_hidden_state
	else:
	text_embeds = self.text_embedder(input_ids)

	text_embeds = text_embeds.detach()

	text_seq_length = text_embeds.shape[1] if self.task_name == 'pm_vqa_concat' else 0
	assert self.config.vision is not None
	# vision embedding
	vision_embeds = self.vision_model(image, context_prompts=text_embeds)
	if self.vision_model.model_name in ["swin_v2"]:
	vision_embeds = self.vision_embed_matcher(vision_embeds)
	vision_seq_length = vision_embeds.shape[1]
	# add task token (e.g <OCR> for ocr)
	vision_embeds, text_seq_length = self.concat_task_token(vision_embeds, text_seq_length=text_seq_length)
	attention_mask = torch.ones((batch_size, vision_seq_length + text_seq_length), dtype=torch.int32).to(self.device)
	return text_embeds, vision_embeds, attention_mask

	def _prepare_model_inputs(
	self,
	inputs: Optional[torch.Tensor] = None,
	bos_token_id: Optional[int] = None,
	model_kwargs: Optional[Dict[str, torch.Tensor]] = None,
	) -> Tuple[torch.Tensor, Optional[str], Dict[str, torch.Tensor]]:
	"""
	This function extracts the model-specific `inputs` for generation.
	"""

	input_name = 'inputs_embeds'
	_, vision_embeds, attention_mask = self._prepare_encoder_inputs(image=model_kwargs['image'], input_ids=model_kwargs['input_ids'])
	model_kwargs['attention_mask'] = attention_mask
	inputs = vision_embeds
	# 4. if `inputs` is still None, try to create `input_ids` from BOS token
	inputs = self._maybe_initialize_input_ids_for_generation(inputs, bos_token_id, model_kwargs)
	return inputs, input_name, model_kwargs


	class VisFocusModelForImageTextToText(VisFocusModelForLocalizedMaskedLanguageModeling):
	def __init__(self, config):
	super().__init__(config)
	self.set_task_name('pm_vqa_concat')

	def forward(self, questions=None, answers=None, image=None, labels=None, **kwargs):
	if kwargs.get('encoder_outputs') is None:
	text_embeds, vision_embeds, attention_mask = self._prepare_encoder_inputs(input_ids=questions['input_ids'], image=image)
	inputs_embeds = torch.concat((text_embeds, vision_embeds), dim=1)
	attention_mask = self.get_trivial_mask(inputs_embeds) # -> when different tokenizer is used for ViLMA/concat, need to re-calculate attn. mask
	else:
	# for generation mode (image encoding happens before)
	assert kwargs.get('decoder_input_ids') is not None
	assert kwargs.get('encoder_outputs') is not None
	inputs_embeds = kwargs.get('encoder_outputs')
	text_embeds = vision_embeds = attention_mask = None

	return self.encoder_decoder_forward(input_ids=None,
	attention_mask=attention_mask,
	encoder_outputs=kwargs.get('encoder_outputs'),
	decoder_input_ids=kwargs.get('decoder_input_ids'),
	decoder_attention_mask=None,
	head_mask=None,
	decoder_head_mask=None,
	past_key_values=kwargs.get('past_key_values'),
	inputs_embeds=inputs_embeds,
	decoder_inputs_embeds=kwargs.get('decoder_inputs_embeds'),
	labels=labels,
	use_cache=True,
	output_attentions=kwargs.get('output_attentions'),
	output_hidden_states=kwargs.get('output_hidden_states'),
	return_dict=kwargs.get('return_dict')
	)

	def _prepare_model_inputs(self, inputs=None, bos_token_id=None, model_kwargs=None ) -> Tuple[torch.Tensor, Optional[str], Dict[str, torch.Tensor]]:
	"""
	This function extracts the model-specific `inputs` for generation.
	"""
	input_name = 'inputs_embeds'
	text_embeds, vision_embeds, attention_mask = self._prepare_encoder_inputs(input_ids=model_kwargs['questions']['input_ids'], image=model_kwargs['image'])
	model_kwargs['attention_mask'] = attention_mask
	inputs_embeds = torch.concat((text_embeds, vision_embeds), dim=1)
	inputs = inputs_embeds
	# 4. if `inputs` is still None, try to create `input_ids` from BOS token
	inputs = self._maybe_initialize_input_ids_for_generation(inputs, bos_token_id, model_kwargs)
	model_kwargs['attention_mask'] = self.get_trivial_mask(inputs)
	return inputs, input_name, model_kwargs

	def _prepare_encoder_inputs(self, image, input_ids=None, bbox=None, attention_mask=None):
	batch_size = image.shape[0]
	assert input_ids is not None
	if self.text_embedder == self.encoder:
	with torch.no_grad():
	text_embeds = self.encoder(input_ids).last_hidden_state
	else:
	text_embeds = self.text_embedder(input_ids)

	text_embeds = text_embeds.detach()

	text_seq_length = text_embeds.shape[1] if self.task_name == 'pm_vqa_concat' else 0
	assert self.config.vision is not None
	# vision embedding
	vision_embeds = self.vision_model(image, context_prompts=text_embeds)
	if self.vision_model.model_name in ["swin_v2"]:
	vision_embeds = self.vision_embed_matcher(vision_embeds)
	vision_seq_length = vision_embeds.shape[1]
	# add task token (e.g <OCR> for ocr)
	vision_embeds, text_seq_length = self.concat_task_token(vision_embeds, text_seq_length=text_seq_length)
	attention_mask = torch.ones((batch_size, vision_seq_length + text_seq_length), dtype=torch.int32).to(self.device)
	text_embeds = self.shared(input_ids) # for concat, use direct the T5 nn.embeddings
	return text_embeds, vision_embeds, attention_mask


	def _to_cuda(sample, device=torch.device('cuda')):
	if isinstance(sample, torch.Tensor):
	return sample.to(device)
	elif isinstance(sample, list):
	return sample
	else:
	for k in sample.keys():
	sample[k] = _to_cuda(sample[k], device)
	return sample


	def fetch_sample(ds, ds_for_vis):
	idx = random.randint(50, 100)
	for i in range(idx):
	inputs = next(ds)
	inputs_to_vis = next(ds_for_vis)
	return inputs, inputs_to_vis


	MATCHER_MAP = {
	'default': EmbedMatcher,
	}


	# vqa
	if __name__ == '__main__':
	# load yaml
	with open('configs/test_expts/vf_base_finetune_docvqa__v2_accum4_f32_V5__mpm_altConcat__vilma_concat_V1/vqa_model_args.yaml', 'r') as f:
	model_args = EasyDict(yaml.safe_load(f))

	DEVICE = 'cpu' # 'cpu'

	## load pretrained if needed
	last_ckpt = None # get_last_checkpoint(dirname(model_args.model_config_path))
	##

	# model = get_model_class(model_args, last_ckpt=last_ckpt)

	cfg = VisFocusConfig.from_pretrained('configs/config.json')
	cfg.push_to_hub('ofirab/visfocus-base-docvqa')
	model = VisFocusModelForImageTextToText(cfg)

	VisFocusConfig.register_for_auto_class()
	VisFocusPreTrainedModel.register_for_auto_class("AutoModel")
	VisFocusModelForImageTextToText.register_for_auto_class("AutoModelForImageTextToText")

	model.push_to_hub('ofirab/visfocus-base-docvqa')
	pr = VisFocusImageProcessor(is_train=False)
	tokenizer = AutoTokenizer.from_pretrained('ofirab/visfocus-base-docvqa')
	prr = VisFocusProcessor(pr, tokenizer)
	model.to(DEVICE)