intfloat
/

mmE5-mllama-11b-instruct

Zero-Shot Image Classification

sentence-transformers

text-generation-inference

Model card Files Files and versions Community

intfloat commited on Feb 24

Commit

b620de4

·

verified ·

1 Parent(s): 519b6b5

Update README.md

Files changed (1) hide show

README.md +7 -12

README.md CHANGED Viewed

@@ -11,11 +11,14 @@ language:
 - pl
 - tr
 - fr
 license: mit
 ---
 ## mmE5-mllama-11b-instruct
-[mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data](https://arxiv.org/abs/2502.08468.pdf). Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou, arXiv 2024
 This model is trained based on [Llama-3.2-11B-Vision](https://huggingface.co/meta-llama/Llama-3.2-11B-Vision).
@@ -41,7 +44,7 @@ pip install -r requirements.txt
 Then you can enter the directory to run the following command.
 ```python
-from transformers import MllamaForConditionalGeneration, AutoProcessor, AutoConfig
 import torch
 from PIL import Image
@@ -61,17 +64,9 @@ model_name = "intfloat/mmE5-mllama-11b-instruct"
 # Load Processor and Model
 processor = AutoProcessor.from_pretrained(model_name)
-processor.tokenizer.padding_side = "right"
-config = AutoConfig.from_pretrained(model_name)
-if hasattr(config, 'use_cache'):
-    config.use_cache = False
-config.padding_side = "right"
 model = MllamaForConditionalGeneration.from_pretrained(
-    model_name, config=config,
-    torch_dtype=torch.bfloat16
 ).to("cuda")
-model.padding_side = "right"
 model.eval()
 # Image + Text -> Text
@@ -118,4 +113,4 @@ print(string, '=', compute_similarity(qry_output, tgt_output))
   journal={arXiv preprint arXiv:2502.08468},
   year={2025}
 }
-```

 - pl
 - tr
 - fr
+library_name: transformers
 license: mit
+pipeline_tag: image-feature-extraction
 ---
 ## mmE5-mllama-11b-instruct
+[mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data](https://arxiv.org/abs/2502.08468.pdf). Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou, arXiv 2025
 This model is trained based on [Llama-3.2-11B-Vision](https://huggingface.co/meta-llama/Llama-3.2-11B-Vision).
 Then you can enter the directory to run the following command.
 ```python
+from transformers import MllamaForConditionalGeneration, AutoProcessor
 import torch
 from PIL import Image
 # Load Processor and Model
 processor = AutoProcessor.from_pretrained(model_name)
 model = MllamaForConditionalGeneration.from_pretrained(
+    model_name, torch_dtype=torch.bfloat16
 ).to("cuda")
 model.eval()
 # Image + Text -> Text
   journal={arXiv preprint arXiv:2502.08468},
   year={2025}
 }
+```