MiniCPM-V/omnilmm.md · Demo750/XGBoost_Gaze at bb5ce9c0d3640b948cc924ad780c865ec50a221e

OmniLMM-12B

OmniLMM-12B 发布于本项目早期。推荐您使用我们最新发布的模型，以获得更高效的推理和更强大的性能体验。

归档时间：2024-05-19

OmniLMM-12B 是当前系列中性能最佳的版本。该模型基于EVA02-5B和Zephyr-7B-β初始化构建，并使用perceiver resampler连接，采用了课程学习的方法在多模态数据上进行训练。该模型具有三个特点：

🔥 性能领先。

OmniLMM-12B 相比其他同规模模型在多个基准测试中取得领先的性能（包括 MME、MMBench、SEED-Bench 等），模型掌握了较为丰富的多模态世界知识。
🏆 行为可信。

多模态大模型的幻觉问题备受关注，模型经常生成和图像中的事实不符的文本（例如，确信地描述图片中并不存在的物体）。OmniLMM-12B是 第一个通过多模态 RLHF 对齐的综合能力优秀的开源多模态大模型（借助 RLHF-V [CVPR'24] 系列技术）。该模型在 MMHal-Bench 幻觉评测基准上达到开源模型最佳水平，并在 Object HalBench 中优于GPT-4V。
🕹 实时多模态交互。

我们尝试结合OmniLMM-12B和GPT-3.5 (纯文本模型) ，实现实时多模态交互助手。该模型接受来自摄像头的视频流，并借助工具处理语音输入输出。虽然还很初步，我们发现该模型无需视频编辑可以复现Gemini演示视频中的一些有趣例子。

MME, MMBench, MMMU, MMBench, MMHal-Bench, Object HalBench, SeedBench, LLaVA Bench W, MathVista 上的详细评测结果。

Model	Size	MME	MMB dev (en)	MMMU val	MMHal-Bench	Object HalBench	SeedBench-I	MathVista	LLaVA Bench
GPT-4V†	-	1771.5	75.1	56.8	3.53 / 70.8	86.4 / 92.7	71.6	47.8	93.1
Qwen-VL-Plus†	-	2183.4	66.2	45.2	-	-	65.7	36.0	73.7
Yi-VL 6B	6.7B	1915.1	68.6	40.3	-	-	67.5	28.8	51.9
Qwen-VL-Chat	9.6B	1860.0	60.6	35.9	2.93 / 59.4	56.2 / 80.0	64.8	33.8	67.7
CogVLM-Chat	17.4B	1736.6	63.7	32.1	2.68 / 52.1	73.6 / 87.4	68.8	34.7	73.9
LLaVA 1.5	13.6B	1808.4	68.2	36.4	2.71 / 51.0	53.7 / 77.4	68.1	26.4	64.6
OmniLMM-12B	11.6B	1935.8	71.6	40.7	3.45 / 68.8	90.3 / 95.5	71.1	34.9	72.0

†: 闭源模型

我们结合 OmniLMM-12B 和 ChatGPT-3.5 (纯文本模型) 尝试构建 实时多模态交互助手. OmniLMM-12B 将视频帧转为对应的图像描述并输入给ChatGPT-3.5来生成对用户指令的响应。演示视频未经编辑。

欢迎通过以下链接使用我们的网页端推理服务： OmniLMM-12B ｜ MiniCPM-V 2.0.

git clone https://github.com/OpenBMB/MiniCPM-V.git
cd MiniCPM-V

conda create -n MiniCPMV python=3.10 -y
conda activate MiniCPMV

pip install -r requirements.txt

模型	简介	下载链接
OmniLMM-12B	性能最强的版本	🤗