革新人工智能:寒武纪-1推出以视觉为中心的多模态语言模型,实现现实世界的掌控

革新人工智能:寒武纪-1推出以视觉为中心的多模态语言模型,实现现实世界的掌控

作者
Nikolai Sidorov
4 分钟阅读

寒武纪-1:开创以视觉为中心的多模态大型语言模型

纽约大学的研究人员推出了寒武纪-1,这是一系列突破性的多模态大型语言模型(MLLMs),优先考虑视觉中心方法。在Shengbang Tong、Ellis Brown、Penghao Wu和一群专家的领导下,该项目解决了现有语言模型与视觉表示学习之间的差距。该发布于2024年6月24日进行,包括模型权重、开源代码、数据集以及全面的模型训练和评估指南。寒武纪-1旨在通过先进的视觉表示技术增强MLLMs在现实场景中的能力。

关键要点

  1. 视觉中心设计:寒武纪-1在MLLMs中优先考虑视觉组件,弥合了语言模型与视觉表示学习之间的差距。
  2. 全面基准测试:引入了CV-Bench,一个新的视觉中心基准,评估MLLMs的2D和3D理解能力。
  3. 高级连接器:空间视觉聚合器(SVA)动态地将高分辨率视觉特征与LLMs集成,增强了视觉基础同时减少了令牌数量。
  4. 高质量数据筛选:强调从公开可用资源中平衡和筛选高质量的视觉指令调整数据。

分析

寒武纪-1通过专注于视觉中心方法,代表了多模态LLMs设计和评估的重大转变。传统上,视觉和语言模型的整合一直受到视觉表示学习缺乏全面研究的阻碍。寒武纪-1通过评估超过20种视觉编码器,包括自监督、强监督和混合模型,解决了这一问题。

CV-Bench的引入解决了现有基准的局限性,将传统视觉任务转化为视觉问答(VQA)格式。这种方法为MLLMs提供了强大的评估协议,确保模型在现实场景中遇到的多样化感知挑战上进行测试。

此外,空间视觉聚合器(SVA)增强了视觉特征与LLMs的整合。通过保持高分辨率视觉信息并减少令牌数量,SVA确保模型保留关键视觉细节,从而提高其在需要强视觉基础的任务上的性能。

为了支持这些进步,寒武纪-1包括一个精心筛选的数据集,寒武纪-10M,平衡了数据源并调整了分布比例。这个筛选的数据集在指令调整中起着关键作用,使模型能够在各种任务上表现更好,缓解了“答案机器现象”,即模型提供过于简短的响应。

你知道吗?

  • 寒武纪大爆发,启发了寒武纪-1的命名,大约发生在5.41亿年前,当时大多数主要动物门类出现。它强调了视觉在进化进程中的重要性,类似于寒武纪-1强调视觉以推进MLLMs。
  • 该项目提供了开源资源,包括模型权重和详细的训练指南,在GitHub和Hugging Face等平台上,促进了协作研究环境。
  • 空间视觉聚合器(SVA)不仅减少了令牌数量,还保持了空间结构,使模型更好地理解复杂的视觉场景。

寒武纪-1在多模态学习领域树立了一个里程碑,提供了一个全面、开放的方法来改进大型语言模型中的视觉表示。这一举措不仅为MLLM开发设定了新标准,还为多模态系统和视觉表示学习的未来进步铺平了道路。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯