革新人工智能：寒武纪-1推出以视觉为中心的多模态语言模型，实现现实世界的掌控

寒武纪-1：开创以视觉为中心的多模态大型语言模型

纽约大学的研究人员推出了寒武纪-1，这是一系列突破性的多模态大型语言模型（MLLMs），优先考虑视觉中心方法。在Shengbang Tong、Ellis Brown、Penghao Wu和一群专家的领导下，该项目解决了现有语言模型与视觉表示学习之间的差距。该发布于2024年6月24日进行，包括模型权重、开源代码、数据集以及全面的模型训练和评估指南。寒武纪-1旨在通过先进的视觉表示技术增强MLLMs在现实场景中的能力。

关键要点

视觉中心设计：寒武纪-1在MLLMs中优先考虑视觉组件，弥合了语言模型与视觉表示学习之间的差距。
全面基准测试：引入了CV-Bench，一个新的视觉中心基准，评估MLLMs的2D和3D理解能力。
高级连接器：空间视觉聚合器（SVA）动态地将高分辨率视觉特征与LLMs集成，增强了视觉基础同时减少了令牌数量。
高质量数据筛选：强调从公开可用资源中平衡和筛选高质量的视觉指令调整数据。

分析

寒武纪-1通过专注于视觉中心方法，代表了多模态LLMs设计和评估的重大转变。传统上，视觉和语言模型的整合一直受到视觉表示学习缺乏全面研究的阻碍。寒武纪-1通过评估超过20种视觉编码器，包括自监督、强监督和混合模型，解决了这一问题。

CV-Bench的引入解决了现有基准的局限性，将传统视觉任务转化为视觉问答（VQA）格式。这种方法为MLLMs提供了强大的评估协议，确保模型在现实场景中遇到的多样化感知挑战上进行测试。

此外，空间视觉聚合器（SVA）增强了视觉特征与LLMs的整合。通过保持高分辨率视觉信息并减少令牌数量，SVA确保模型保留关键视觉细节，从而提高其在需要强视觉基础的任务上的性能。

为了支持这些进步，寒武纪-1包括一个精心筛选的数据集，寒武纪-10M，平衡了数据源并调整了分布比例。这个筛选的数据集在指令调整中起着关键作用，使模型能够在各种任务上表现更好，缓解了“答案机器现象”，即模型提供过于简短的响应。

你知道吗？

寒武纪大爆发，启发了寒武纪-1的命名，大约发生在5.41亿年前，当时大多数主要动物门类出现。它强调了视觉在进化进程中的重要性，类似于寒武纪-1强调视觉以推进MLLMs。
该项目提供了开源资源，包括模型权重和详细的训练指南，在GitHub和Hugging Face等平台上，促进了协作研究环境。
空间视觉聚合器（SVA）不仅减少了令牌数量，还保持了空间结构，使模型更好地理解复杂的视觉场景。

寒武纪-1在多模态学习领域树立了一个里程碑，提供了一个全面、开放的方法来改进大型语言模型中的视觉表示。这一举措不仅为MLLM开发设定了新标准，还为多模态系统和视觉表示学习的未来进步铺平了道路。

革新人工智能：寒武纪-1推出以视觉为中心的多模态语言模型，实现现实世界的掌控

寒武纪-1：开创以视觉为中心的多模态大型语言模型

关键要点

分析

你知道吗？

您可能也喜欢

订阅我们的通讯