玩 (Wan): 阿里巴巴的 AI 视频生成开源利器
2024年初,OpenAI 的 Sora 震撼了 AI 领域,它生成的视频逼真程度堪比好莱坞大片。虽然令人惊叹,但像 Sora 这样的模型是封闭的,这让开源社区奋力追赶。现在情况改变了。
玩 (Wan) 是由阿里巴巴集团开发的突破性开源视频基础模型套件。旨在弥合商业级视频生成器和开源世界之间的差距,玩 (Wan) 不仅仅是一项技术成就,更是一种意图的声明。凭借具有竞争力的性能、广泛的应用范围和惊人的效率(即使在消费级 GPU 上也是如此),玩 (Wan) 重新定义了开放生成模型的能力。
打破瓶颈:为什么需要构建玩 (Wan)
视频生成技术发展迅速,但主要挑战仍然限制了广泛应用和创新。大多数开源模型仍然停留在基本的文本到视频等狭窄任务中,并且难以处理高保真运动、多语言支持或高效部署。与此同时,商业模型凭借巨大的私人计算能力和数据正在突飞猛进。
玩 (Wan) 的创建是为了解决这种不平衡。它旨在开源、可扩展,或许最重要的是,能够生成感觉动态、有根有据且细致入微的视频。想象一下,旋转的雪花,中文和英文清晰可辨的标牌,以及在物理空间中有意义的相机移动。所有这些都由一个可重现、模块化且专为扩展而设计的模型套件提供支持。
核心工程:玩 (Wan) 的下一代架构内部
玩 (Wan) 的核心是一个高度优化的架构,由三个主要组件组成:时空 VAE (变分自编码器),扩散 Transformer (变换器) 和多语言文本编码器。每个部分的设计不仅考虑了性能,还考虑了在实际任务中的可用性。
玩 (Wan)-VAE 负责压缩时间和空间中的视频。它是一种 3D 因果变分自编码器,可将视频数据量减少 250 倍以上,同时保持精细的运动细节。通过使用因果卷积和巧妙的特征缓存机制,它可以高效地处理长视频,这对于大多数视频模型来说是一个痛点。
扩散 Transformer (变换器) 是对它的补充,它是一个纯 Transformer (变换器) 模型,旨在处理这些压缩的潜在特征。它使用完整的时空注意力来推理视频内容的序列和布局。令人印象深刻的是,它使用了 Flow Matching(流匹配),这是一种较新的训练方法,它避免了迭代噪声预测,而采用更稳定、数学基础更扎实的 ODE 建模。
为了解释用户提示并指导生成,玩 (Wan) 使用 umT5,这是一个多语言文本编码器。它能够处理中文和英文的复杂、描述性指令,确保模型不仅仅生成视频,还能遵循指令。
数据支柱:玩 (Wan) 如何在数万亿个 tokens 上进行训练
一个模型的好坏取决于它训练的数据,玩 (Wan) 的数据管道是现代数据集工程的典范。经过整理、清理和丰富,数十亿张图像和视频被用来训练该模型。
该过程首先进行大规模过滤,删除带有水印的内容、不适合工作场所的内容、过于模糊的镜头和低分辨率的剪辑。但玩 (Wan) 更进一步。它引入了一个 运动质量分类器,以优先处理具有平滑、富有表现力的运动和平衡的运动与静态比例的视频。与此同时,视觉文本管道 处理了合成和真实世界的图像文本样本,提高了玩 (Wan) 清晰准确地呈现屏幕文本的能力。
为了让模型更深入地了解每帧中发生的事情,阿里巴巴构建了自己的密集字幕系统,该系统经过训练,甚至可以与 Google 的 Gemini 1.5 Pro 相媲美。该系统标记了 相机角度、对象数量、运动类型、场景类别 等元素,为编辑和个性化等下游任务创建了内容丰富的注释训练集。
大模型,小足迹:认识 玩 (Wan) 1.3B 和 14B
玩 (Wan) 有两个版本:1.3B 参数模型 和更强大的 14B 参数旗舰模型。两者都能够生成高达 480p 的高分辨率视频,并且都共享相同的强大架构。
真正的惊喜是什么?1.3B 模型旨在在 消费级 GPU 上运行,仅需 8.19 GB 的 VRAM。这是一个游戏规则改变者。这意味着艺术家、开发人员和小型工作室无需大量的 A100 即可访问高质量的视频生成。
相比之下,14B 模型旨在突破界限。它在数万亿个 tokens 上进行训练,擅长长视频一致性、逼真的运动以及遵循复杂的文本提示。无论是生成自然场景还是风格化动画,14B 模型都证明了开源可以在前沿领域具有竞争力。
正面交锋:玩 (Wan) 如何与竞争对手竞争
在基准评估和正面人工偏好测试中,玩 (Wan) 始终名列前茅。它不仅击败了 Mochi 和 HunyuanVideo 等开源模型,而且还与 Runway Gen-3 等商业重量级模型展开了激烈竞争。
这不仅仅关乎质量,还关乎控制。玩 (Wan) 允许 精细的相机移动、视觉文本渲染、提示遵循 和 风格多样性,而这些都是以前的模型难以处理或需要手动调整的领域。
此外,在消融研究中,玩 (Wan) 团队表明,其流匹配损失函数和密集字幕策略对于实现如此强大的对齐和连贯性至关重要。这使得 玩 (Wan) 不仅好,而且 有原则,一个模型套件,其中每个设计选择都经过验证和优化。
Vbench 上的模型性能得分。
模型名称 | 质量得分 | 语义得分 | 总分 |
---|---|---|---|
MiniMax-Video-01 (MiniMax, 2024.09) | 84.85% | 77.65% | 83.41% |
混元(开源版本)(Kong et al., 2024) | 85.09% | 75.82% | 83.24% |
Gen-3 (2024-07) (Runway, 2024.06) | 84.11% | 75.17% | 82.32% |
CogVideoX1.5-5B(5 秒 SAT 提示优化)(Yang et al., 2025b) | 82.78% | 79.76% | 82.17% |
Kling(2024-07 高性能模式)(Kuaishou, 2024.06) | 83.39% | 75.68% | 81.85% |
Sora (OpenAI, 2024) | 85.51% | 79.35% | 84.28% |
玩 (Wan) 1.3B | 84.92% | 80.10% | 83.96% |
玩 (Wan) 14B (2025-02-24) | 86.67% | 84.44% | 86.22% |
速度、规模和效率:您可以实际使用的模型
训练和推理效率是 玩 (Wan) 更胜一筹的地方。在训练期间,阿里巴巴使用复杂的 2D 上下文并行方案(Ulysses + Ring Attention),减少了 GPU 之间的通信开销。在推理期间,他们引入了 扩散缓存,利用采样步骤之间的相似性来加快速度。
结合 FP8 量化 和 激活卸载,玩 (Wan) 实现了实时或接近实时的生成速度。结果:比传统模型快 1.62 倍,并且视频质量没有明显损失。
不仅仅是文本到视频:现在的实际应用
玩 (Wan) 不仅限于一项任务,它是一个平台。它支持全方位的 多模态视频任务,包括:
- 图像到视频:将单个图像变成动态场景。
- 教学视频编辑:使用自然语言命令修改剪辑。
- 个性化生成:零样本定制头像或品牌内容。
- 相机控制:使用文本调整缩放、平移或视点。
- 实时视频生成:这要归功于智能缓存和轻量级模型。
- 音频生成:同步声音以伴随生成的视觉效果。
无论您是电影制作人、教育工作者、广告商还是游戏开发者,玩 (Wan) 都能满足您的需求。
大局:玩 (Wan) 对研究和行业的意义
从学术角度来看,玩 (Wan) 是一个宝库。凭借开放的代码、开放的权重和透明的训练方法,它为视频生成社区树立了 可重复性的新标准。研究人员可以构建其模块,运行评估,并针对新领域微调系统。
在商业方面,玩 (Wan) 为 经济高效、高质量的内容生成 打开了大门。营销视频、教育性讲解视频、社交媒体剪辑,现在可以大规模创建这些内容,而无需为黑盒 API 支付每帧费用。它为创作者、初创公司和企业提供了强大的竞争优势。
接下来是什么:玩 (Wan) 的未来之路
玩 (Wan) 已经是目前最强大的视频生成模型之一,但它的路线图才刚刚开始。该团队计划朝着 1080p 和 4K 生成 迈进,集成 3D 感知,并扩展 多语言支持 以实现更全球化的可访问性。
他们还在研究 互动式叙事,模型可以根据用户的实时反馈生成视频,以及用于医疗保健、教育和游戏等垂直领域的 即插即用适配器。
在哪里尝试
一切都已准备就绪:
无论您是研究人员、艺术家、初创公司还是只是好奇,玩 (Wan) 都是开放的,随时可以使用。
总结
玩 (Wan) 是迄今为止最强大的开源视频生成套件。 凭借尖端的架构、严格的训练和广泛的可访问性,它不仅与封闭模型竞争,而且为开放 AI 可以实现的目标设定了新的基准。