Spaces:

BenkHel
/

CumoThesis

Running on Zero

BenkHel commited on 24 days ago

Commit

3917c52

verified ·

1 Parent(s): adbc5b6

Update cumo/model/language_model/llava_llama.py

Files changed (1) hide show

cumo/model/language_model/llava_llama.py CHANGED Viewed

@@ -72,22 +72,24 @@ class LlavaLlamaForCausalLM(LlamaForCausalLM, LlavaMetaForCausalLM):
         if inputs_embeds is None:
             (
-                input_ids,
                 position_ids,
                 attention_mask,
-                past_key_values,
                 inputs_embeds,
-                labels
             ) = self.prepare_inputs_labels_for_multimodal(
-                input_ids,
                 position_ids,
                 attention_mask,
-                past_key_values,
-                labels,
                 images,
-                image_sizes
             )
         return super().forward(
             input_ids=input_ids,
             attention_mask=attention_mask,
@@ -121,7 +123,8 @@ class LlavaLlamaForCausalLM(LlamaForCausalLM, LlavaMetaForCausalLM):
                 attention_mask,
                 _,
                 inputs_embeds,
-                _
             ) = self.prepare_inputs_labels_for_multimodal(
                 inputs,
                 position_ids,
@@ -131,6 +134,7 @@ class LlavaLlamaForCausalLM(LlamaForCausalLM, LlavaMetaForCausalLM):
                 images,
                 image_sizes=image_sizes
             )
         else:
             inputs_embeds = self.get_model().embed_tokens(inputs)

         if inputs_embeds is None:
             (
+                inputs,
                 position_ids,
                 attention_mask,
+                _,
                 inputs_embeds,
+                _,
+                *_
             ) = self.prepare_inputs_labels_for_multimodal(
+                inputs,
                 position_ids,
                 attention_mask,
+                None,
+                None,
                 images,
+                image_sizes=image_sizes
             )
         return super().forward(
             input_ids=input_ids,
             attention_mask=attention_mask,
                 attention_mask,
                 _,
                 inputs_embeds,
+                _,
+                *_
             ) = self.prepare_inputs_labels_for_multimodal(
                 inputs,
                 position_ids,
                 images,
                 image_sizes=image_sizes
             )
         else:
             inputs_embeds = self.get_model().embed_tokens(inputs)