寒武纪-1:开创以视觉为中心的多模态大型语言模型
纽约大学的研究人员推出了寒武纪-1,这是一系列突破性的多模态大型语言模型(MLLMs),优先考虑视觉中心方法。在Shengbang Tong、Ellis Brown、Penghao Wu和一群专家的领导下,该项目解决了现有语言模型与视觉表示学习之间的差距。该发布于2024年6月24日进行,包括模型权重、开源代码、数据集以及全面的模型训练和评估指南。寒武纪-1旨在通过先进的视觉表示技术增强MLLMs在现实场景中的能力。
关键要点
- 视觉中心设计:寒武纪-1在MLLMs中优先考虑视觉组件,弥合了语言模型与视觉表示学习之间的差距。
- 全面基准测试:引入了CV-Bench,一个新的视觉中心基准,评估MLLMs的2D和3D理解能力。
- 高级连接器:空间视觉聚合器(SVA)动态地将高分辨率视觉特征与LLMs集成,增强了视觉基础同时减少了令牌数量。
- 高质量数据筛选:强调从公开可用资源中平衡和筛选高质量的视觉指令调整数据。
分析
寒武纪-1通过专注于视觉中心方法,代表了多模态LLMs设计和评估的重大转变。传统上,视觉和语言模型的整合一直受到视觉表示学习缺乏全面研究的阻碍。寒武纪-1通过评估超过20种视觉编码器,包括自监督、强监督和混合模型,解决了这一问题。
CV-Bench的引入解决了现有基准的局限性,将传统视觉任务转化为视觉问答(VQA)格式。这种方法为MLLMs提供了强大的评估协议,确保模型在现实场景中遇到的多样化感知挑战上进行测试。
此外,空间视觉聚合器(SVA)增强了视觉特征与LLMs的整合。通过保持高分辨率视觉信息并减少令牌数量,SVA确保模型保留关键视觉细节,从而提高其在需要强视觉基础的任务上的性能。
为了支持这些进步,寒武纪-1包括一个精心筛选的数据集,寒武纪-10M,平衡了数据源并调整了分布比例。这个筛选的数据集在指令调整中起着关键作用,使模型能够在各种任务上表现更好,缓解了“答案机器现象”,即模型提供过于简短的响应。
你知道吗?
- 寒武纪大爆发,启发了寒武纪-1的命名,大约发生在5.41亿年前,当时大多数主要动物门类出现。它强调了视觉在进化进程中的重要性,类似于寒武纪-1强调视觉以推进MLLMs。
- 该项目提供了开源资源,包括模型权重和详细的训练指南,在GitHub和Hugging Face等平台上,促进了协作研究环境。
- 空间视觉聚合器(SVA)不仅减少了令牌数量,还保持了空间结构,使模型更好地理解复杂的视觉场景。
寒武纪-1在多模态学习领域树立了一个里程碑,提供了一个全面、开放的方法来改进大型语言模型中的视觉表示。这一举措不仅为MLLM开发设定了新标准,还为多模态系统和视觉表示学习的未来进步铺平了道路。