阿里巴巴挑战谷歌和OpenAI:认识开源的Qwen2.5-Omni,它能看、能听、能说
人工智能的竞争又多了一个重要选手。当谷歌的Gemini和OpenAI以它们的多模态能力让我们惊叹时——它们能理解图像、视频、音频和文字——阿里巴巴的Qwen团队悄悄地发布了一个潜在的重磅炸弹:Qwen2.5-Omni。这不仅仅是另一个大型语言模型;它被认为是一个“全方位”的多模态人工智能,从一开始就被设计成更像我们一样感知世界。它处理文字、图像、音频 和 视频,不仅用文字回应,还用实时合成的语音回应。
也许最具颠覆性的部分是?阿里巴巴已经开源了70亿参数的版本,Qwen2.5-Omni-7B,使用Apache 2.0许可证。这一举动可能会将复杂的多模态人工智能工具直接交到全球开发者和企业手中,免费用于商业用途。这是一个大胆的举动,挑战了其主要竞争对手的封闭环境。
引擎盖下是什么?“思考者-说话者”架构
阿里巴巴不仅仅是在现有的LLM上增加了一些感觉。他们引入了一种新的**“思考者-说话者”架构**。
- 思考者: 这个部分就像大脑。它接收各种输入——文字、图像、声音——并处理它们以理解上下文,并生成高级语义表示,以及核心的文字回应。它使用专门的音频和视觉编码器来提取相关特征。
- 说话者: 就像嘴巴和声带一样,说话者 实时 接收来自思考者的语义信息和文字。然后,它将这些信息合成为离散的音频标记,生成自然的语音流,并附带书面文字。
这种端到端的设计对于实现实时、互动体验至关重要。该架构支持分块输入和即时输出,旨在实现感觉更像视频通话而不是回合制聊天的对话。
此外,Qwen2.5-Omni还采用了一种新的位置嵌入技术,称为 TMRoPE(时间对齐的多模态RoPE)。这专门解决了一个棘手的问题:准确地将视频帧与其在共享时间轴上对应的音频片段同步。正确做到这一点对于正确理解视频内容中的动作和语音至关重要。
性能声明与实际测试:令人印象深刻的感觉,值得怀疑的智能?
阿里巴巴声称Qwen2.5-Omni在OmniBench上取得了最先进的结果,OmniBench是一个为集成多模态任务设计的基准。他们还报告说,它在某些任务上优于类似规模的模型,包括像谷歌的Gemini 1.5 Pro这样的闭源竞争对手,甚至优于他们自己产品线中的专用单模态模型(比如用于视觉的Qwen2.5-VL-7B和Qwen2-Audio)。
官方演示和最初的用户测试描绘了一幅引人入胜,但也喜忧参半的画面:
- 优点 – 多模态能力:
- 视觉: 它准确地识别了模拟安全源图像中的“可疑行为”,提供了正确的分类和推理。
- 视频: 给定一个舞蹈视频,它提供了舞者的服装、动作和背景的详细描述。
- 音频: 它正确地总结了从上传的音频食谱中制作红烧肉的步骤。
- 互动: 同步的文字和自然的语音输出(很好地处理了英语/汉语混合)快速而流畅,创造了一种真正的对话感觉。演示展示了视频通话,人工智能描述周围环境,充当语音引导的食谱助手,评论歌曲草稿,分析草图,甚至从照片中逐步辅导数学问题。
- 缺点 – 推理故障和实际障碍:
- 基本逻辑失败: 尽管它具有先进的感官处理能力,但7B演示模型在简单的推理任务上却步履蹒跚。当被问到“6.9和6.11哪个更大?”时,它错误地认为6.9更小。当被问到“草莓”中有多少个“r”时,它回答了两个(有三个)。这表明至少在这个可访问的版本中,感知能力和认知推理之间可能存在差距。
- 资源密集型: 一些试图在本地运行该模型的用户报告了大量的VRAM需求,其中一个实例引用了一个21秒视频在100GB VRAM设置上出现内存不足错误。其他人注意到较大图像的错误和缓慢的生成时间(每个响应几分钟),暗示高效部署可能需要优化或特定的硬件配置。
- 语言和定制: 虽然英语和汉语语音输出很强,但用户注意到其他语言(如西班牙语和法语)的局限性。语音输出目前与文字一致;对于特定应用程序,更多的定制选项将是有益的。非专业用户的可访问性也被标记为需要改进。
开源策略:实现多模态人工智能的民主化?
阿里巴巴决定在商业许可的Apache 2.0许可下开源Qwen2.5-Omni-7B可能是此次发布最具战略意义的方面。
- 降低门槛: 它允许初创公司、研究人员甚至老牌公司在没有与封闭模型相关的过高API成本或许可费用的情况下,试验和部署先进的多模态人工智能。这可能会刺激以下领域的创新:
- 辅助工具: 可以为视障人士描述世界的人工智能。
- 教育: 可以看到学生作业并听到他们问题的互动导师。
- 创意辅助: 基于多种输入评论视觉艺术、音乐或写作的工具。
- 智能设备: 实现与可穿戴设备(如用户提到的智能眼镜概念)或家庭助手的更自然互动。
- 竞争压力: 此举直接挑战了OpenAI和谷歌的商业模式,可能会迫使它们重新考虑定价或提供更易于访问的自有尖端模型版本。用户评论称之为“真正的OpenAI”反映了开发者社区的一部分渴望拥有强大、开放的工具。
- 生态系统建设: 对于阿里巴巴来说,这可能是在其Qwen模型周围建立开发者生态系统,促进更广泛的应用,并可能推动其云平台的使用,该模型也托管在该平台上。
结论:强大的一步,但旅程仍在继续
Qwen2.5-Omni无疑是多模态人工智能领域的一项重大进步,尤其令人印象深刻的是它在新颖的架构中无缝集成了各种输入以及实时文本和语音输出。7B模型的开源是一个重大举措,可能会显着影响人工智能领域,从而增强全球开发者和企业的能力。
然而,最初的测试突出了一个关键现实:先进的感官知觉不会自动转化为完美的推理或轻松的部署。观察到的逻辑错误和报告的资源需求表明,仍然存在需要克服的障碍。
对于企业和投资者而言,Qwen2.5-Omni既代表着机遇,也代表着观察点。机遇在于利用这种强大、易于访问的工具进行创新。观察点是观察模型如何成熟,社区如何解决其局限性,以及竞争对手如何应对这一开源挑战。阿里巴巴打出了一张强有力的牌;人们热切期待人工智能这场高风险游戏中的下一步行动。
资源:
- 演示: https://huggingface.co/spaces/Qwen/Qwen2.5-Omni-7B-Demo
- Qwen聊天体验: https://chat.qwen.ai/
- GitHub: https://github.com/QwenLM/Qwen2.5-Omni
- Hugging Face模型: https://huggingface.co/Qwen/Qwen2.5-Omni-7B
- 技术报告: https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
- 博客文章: https://qwenlm.github.io/blog/qwen2.5-omni/