AnyModal

community

https://www.reddit.com/r/AnyModal/

ritabratamaiti/AnyModal

AI & ML interests

Multimodal LLMs for all! AnyModal is a modular and extensible framework for integrating diverse input modalities (e.g., images, audio) into large language models (LLMs). It enables seamless tokenization, encoding, and language generation using pre-trained models for various modalities.

ritabratamaiti

updated a model 8 months ago

AnyModal/LaTeX-OCR-Llama-3.2-1B

Updated Dec 23, 2024 • 7

ritabratamaiti

in AnyModal/Image-Captioning-Llama-3.2-1B 8 months ago

The dependencies are incorrect?

#1 opened 8 months ago by

Khyatikhandelwal20

ritabratamaiti

updated a model 9 months ago

AnyModal/Image-Captioning-Llama-3.2-1B

Image-to-Text • Updated Dec 5, 2024 • 1

ritabratamaiti

updated a dataset 9 months ago

AnyModal/flickr30k

Viewer • Updated Dec 1, 2024 • 31k • 43

ritabratamaiti

updated a model 9 months ago

AnyModal/Image-Captioning-Llama-3.2-1B

Image-to-Text • Updated Dec 5, 2024 • 1