从零搭建自己的多模态大模型
For the English version of the README, please refer to README.md.
模型架构 🤖
在 VLM 中,视觉部分采用已经实现初步语义对齐的 CLIP
或 SIGLIP
模型,并使用两层 MLP 进行特征映射。通过重写 QWenModel
的 forward
方法,将对应的 image
标记替换为视觉特征。
GitHub仓库 🏠
具体地运行代码放在Basic-Visual-Language-Model。
参考 📚
感谢以下项目的伟大工作🙌:
- https://github.com/WatchTower-Liu/VLM-learning/tree/main
- https://github.com/QwenLM/Qwen
- https://github.com/haotian-liu/LLaVA
联系 ✉
如果你有任何疑问或者想法,十分欢迎随时联系我😊:
我会在看到邮件的第一时间回复!