NexaAIDev
/

omnivision-968M

Image-Text-to-Text

Inference Endpoints

Model card Files Files and versions Community

alanzhuly commited on 1 day ago

Commit

0067dce

•

1 Parent(s): 6e0b0dd

Update README.md

Files changed (1) hide show

README.md +5 -4

README.md CHANGED Viewed

@@ -15,16 +15,17 @@ Omni-Vision is a sub-billion (968M) multimodal model capable of processing both
 - **9x Token Reduction through Token Compression**: Significant decrease in image token count, reducing latency and computational cost, ideal for on-device applications.
 - **Minimal-Edit DPO for Enhanced Response Quality**: Improves model responses by using targeted edits, maintaining core capabilities without significant behavior shifts.
-Quick Links:
-1. Interact directly in the HuggingFace Space.
 2. [Quickstart to run locally](#how-to-run-locally)
-3. Learn more details in our blogs
 **Feedback:** Send questions or comments about the model in our [Discord](https://discord.gg/nexa-ai)
 ## Intended Use Cases
-OmniVision is intended for Visual Question Answering (answering questions about images) and Image Captioning (describing scenes in photos), optimized for edge devices. See example below:
 Omni-Vision generated captions for a 1046×1568 pixel poster | **Processing time: <2s** | Device: MacBook M4 Pro
 <img src="https://cdn-uploads.huggingface.co/production/uploads/6618e0424dbef6bd3c72f89a/PTG3_n_p7_atBHCwRLOEE.png" alt="Example" style="width:700px;"/>

 - **9x Token Reduction through Token Compression**: Significant decrease in image token count, reducing latency and computational cost, ideal for on-device applications.
 - **Minimal-Edit DPO for Enhanced Response Quality**: Improves model responses by using targeted edits, maintaining core capabilities without significant behavior shifts.
+**Quick Links:**
+1. Interact in our HuggingFace Space.
 2. [Quickstart to run locally](#how-to-run-locally)
+3. Learn more in [blogs](https://nexa.ai)
 **Feedback:** Send questions or comments about the model in our [Discord](https://discord.gg/nexa-ai)
 ## Intended Use Cases
+OmniVision is intended for Visual Question Answering (answering questions about images) and Image Captioning (describing scenes in photos), optimized for edge devices.
+**Example Demo:**
 Omni-Vision generated captions for a 1046×1568 pixel poster | **Processing time: <2s** | Device: MacBook M4 Pro
 <img src="https://cdn-uploads.huggingface.co/production/uploads/6618e0424dbef6bd3c72f89a/PTG3_n_p7_atBHCwRLOEE.png" alt="Example" style="width:700px;"/>