🤖 VED for Brazilian Portuguese IC

laicsiifes 's Collections

updated Dec 12, 2024

A Comparative Evaluation of Transformer-Based Vision Encoder-Decoder Models for Brazilian Portuguese Image Captioning, by LAICSI (IFES).

Running

1

1

Vision Encoder-Decoder for Image Captioning

🖼

What can lightweight models do?

Note Space to demonstrate the Vision Encoder-Decoder models in action
laicsiifes/swin-distilbertimbau

Image-to-Text • 0.2B • Updated Mar 31 • 136 • 3

Note This Vision Encoder-Decoder (VED) is an union of Swin Transformer and DistilBERTimbau fine-tuned in Flickr30K Portuguese
laicsiifes/swin-gportuguese-2

Image-to-Text • 0.2B • Updated Mar 31 • 34 • 5

Note This Vision Encoder-Decoder (VED) is an union of Swin Transformer and GPorTuguese-2 fine-tuned in Flickr30K Portuguese
laicsiifes/flickr30k-pt-br

Viewer • Updated Mar 31 • 31k • 17 • 3

Note Flickr30K Portuguese Translation with Google Translator API