NexaAIDev
/

omnivision-968M

Image-Text-to-Text

Inference Endpoints

Model card Files Files and versions Community

alanzhuly commited on about 14 hours ago

Commit

77230a9

•

1 Parent(s): 9e9abb0

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -26,9 +26,9 @@ Omnivision is a compact, sub-billion (968M) multimodal model for processing both
 Omnivision is intended for **Visual Question Answering** (answering questions about images) and **Image Captioning** (describing scenes in photos), making it ideal for on-device applications.
 **Example Demo:**
-Omnivision generated captions for a 1046×1568 pixel poster | **Processing time: <2s** | Device: MacBook M4 Pro | FP16 requires 988 MB RAM and 948 MB storage space.
-<img src="https://cdn-uploads.huggingface.co/production/uploads/6618e0424dbef6bd3c72f89a/PTG3_n_p7_atBHCwRLOEE.png" alt="Example" style="width:700px;"/>
 ## Benchmarks

 Omnivision is intended for **Visual Question Answering** (answering questions about images) and **Image Captioning** (describing scenes in photos), making it ideal for on-device applications.
 **Example Demo:**
+Generating captions for a 1046×1568 image on M4 Pro Macbook takes **< 2s processing time** and requires only 988 MB RAM and 948 MB Storage.
+<img src="https://cdn-uploads.huggingface.co/production/uploads/6618e0424dbef6bd3c72f89a/P8HFmA7huCdpMClWVuXZO.png" alt="Example" style="width:700px;"/>
 ## Benchmarks