XGBoost_Gaze / MiniCPM-V /omnilmm.md
Demo750's picture
Upload folder using huggingface_hub
569f484 verified
|
raw
history blame
5.56 kB

OmniLMM-12B

OmniLMM-12B 发布于本项目早期。推荐您使用我们最新发布的模型,以获得更高效的推理和更强大的性能体验。

归档时间:2024-05-19

OmniLMM-12B 是当前系列中性能最佳的版本。该模型基于EVA02-5B和Zephyr-7B-β初始化构建,并使用perceiver resampler连接,采用了课程学习的方法在多模态数据上进行训练。该模型具有三个特点:

  • 🔥 性能领先。

    OmniLMM-12B 相比其他同规模模型在多个基准测试中取得领先的性能(包括 MME、MMBench、SEED-Bench 等),模型掌握了较为丰富的多模态世界知识。

  • 🏆 行为可信。

    多模态大模型的幻觉问题备受关注,模型经常生成和图像中的事实不符的文本(例如,确信地描述图片中并不存在的物体)。OmniLMM-12B是 第一个通过多模态 RLHF 对齐的综合能力优秀的开源多模态大模型(借助 RLHF-V [CVPR'24] 系列技术)。该模型在 MMHal-Bench 幻觉评测基准上达到开源模型最佳水平,并在 Object HalBench优于GPT-4V

  • 🕹 实时多模态交互。

    我们尝试结合OmniLMM-12B和GPT-3.5 (纯文本模型) ,实现实时多模态交互助手。该模型接受来自摄像头的视频流,并借助工具处理语音输入输出。虽然还很初步,我们发现该模型无需视频编辑可以复现Gemini演示视频中的一些有趣例子

评测结果

MME, MMBench, MMMU, MMBench, MMHal-Bench, Object HalBench, SeedBench, LLaVA Bench W, MathVista 上的详细评测结果。
Model Size MME MMB dev (en) MMMU val MMHal-Bench Object HalBench SeedBench-I MathVista LLaVA Bench
GPT-4V† - 1771.5 75.1 56.8 3.53 / 70.8 86.4 / 92.7 71.6 47.8 93.1
Qwen-VL-Plus† - 2183.4 66.2 45.2 - - 65.7 36.0 73.7
Yi-VL 6B 6.7B 1915.1 68.6 40.3 - - 67.5 28.8 51.9
Qwen-VL-Chat 9.6B 1860.0 60.6 35.9 2.93 / 59.4 56.2 / 80.0 64.8 33.8 67.7
CogVLM-Chat 17.4B 1736.6 63.7 32.1 2.68 / 52.1 73.6 / 87.4 68.8 34.7 73.9
LLaVA 1.5 13.6B 1808.4 68.2 36.4 2.71 / 51.0 53.7 / 77.4 68.1 26.4 64.6
OmniLMM-12B 11.6B 1935.8 71.6 40.7 3.45 / 68.8 90.3 / 95.5 71.1 34.9 72.0
†: 闭源模型

典型示例

我们结合 OmniLMM-12B 和 ChatGPT-3.5 (纯文本模型) 尝试构建 实时多模态交互助手. OmniLMM-12B 将视频帧转为对应的图像描述并输入给ChatGPT-3.5来生成对用户指令的响应。演示视频未经编辑。

Online Demo

欢迎通过以下链接使用我们的网页端推理服务: OmniLMM-12BMiniCPM-V 2.0.

安装

  1. 克隆我们的仓库并跳转到相应目录
git clone https://github.com/OpenBMB/MiniCPM-V.git
cd MiniCPM-V
  1. 创建 conda 环境
conda create -n MiniCPMV python=3.10 -y
conda activate MiniCPMV
  1. 安装依赖
pip install -r requirements.txt

推理

模型库

模型 简介 下载链接
OmniLMM-12B 性能最强的版本 🤗