万技术报告：阿里巴巴用于人工智能视频生成的开源引擎

玩 (Wan): 阿里巴巴的 AI 视频生成开源利器

2024年初，OpenAI 的 Sora 震撼了 AI 领域，它生成的视频逼真程度堪比好莱坞大片。虽然令人惊叹，但像 Sora 这样的模型是封闭的，这让开源社区奋力追赶。现在情况改变了。

玩 (Wan) 是由阿里巴巴集团开发的突破性开源视频基础模型套件。旨在弥合商业级视频生成器和开源世界之间的差距，玩 (Wan) 不仅仅是一项技术成就，更是一种意图的声明。凭借具有竞争力的性能、广泛的应用范围和惊人的效率（即使在消费级 GPU 上也是如此），玩 (Wan) 重新定义了开放生成模型的能力。

打破瓶颈：为什么需要构建玩 (Wan)

视频生成技术发展迅速，但主要挑战仍然限制了广泛应用和创新。大多数开源模型仍然停留在基本的文本到视频等狭窄任务中，并且难以处理高保真运动、多语言支持或高效部署。与此同时，商业模型凭借巨大的私人计算能力和数据正在突飞猛进。

玩 (Wan) 的创建是为了解决这种不平衡。它旨在开源、可扩展，或许最重要的是，能够生成感觉动态、有根有据且细致入微的视频。想象一下，旋转的雪花，中文和英文清晰可辨的标牌，以及在物理空间中有意义的相机移动。所有这些都由一个可重现、模块化且专为扩展而设计的模型套件提供支持。

核心工程：玩 (Wan) 的下一代架构内部

玩 (Wan) 的核心是一个高度优化的架构，由三个主要组件组成：时空 VAE (变分自编码器)，扩散 Transformer (变换器) 和多语言文本编码器。每个部分的设计不仅考虑了性能，还考虑了在实际任务中的可用性。

玩 (Wan)-VAE 负责压缩时间和空间中的视频。它是一种 3D 因果变分自编码器，可将视频数据量减少 250 倍以上，同时保持精细的运动细节。通过使用因果卷积和巧妙的特征缓存机制，它可以高效地处理长视频，这对于大多数视频模型来说是一个痛点。

扩散 Transformer (变换器) 是对它的补充，它是一个纯 Transformer (变换器) 模型，旨在处理这些压缩的潜在特征。它使用完整的时空注意力来推理视频内容的序列和布局。令人印象深刻的是，它使用了 Flow Matching（流匹配），这是一种较新的训练方法，它避免了迭代噪声预测，而采用更稳定、数学基础更扎实的 ODE 建模。

为了解释用户提示并指导生成，玩 (Wan) 使用 umT5，这是一个多语言文本编码器。它能够处理中文和英文的复杂、描述性指令，确保模型不仅仅生成视频，还能遵循指令。

数据支柱：玩 (Wan) 如何在数万亿个 tokens 上进行训练

一个模型的好坏取决于它训练的数据，玩 (Wan) 的数据管道是现代数据集工程的典范。经过整理、清理和丰富，数十亿张图像和视频被用来训练该模型。

该过程首先进行大规模过滤，删除带有水印的内容、不适合工作场所的内容、过于模糊的镜头和低分辨率的剪辑。但玩 (Wan) 更进一步。它引入了一个 运动质量分类器，以优先处理具有平滑、富有表现力的运动和平衡的运动与静态比例的视频。与此同时，视觉文本管道 处理了合成和真实世界的图像文本样本，提高了玩 (Wan) 清晰准确地呈现屏幕文本的能力。

为了让模型更深入地了解每帧中发生的事情，阿里巴巴构建了自己的密集字幕系统，该系统经过训练，甚至可以与 Google 的 Gemini 1.5 Pro 相媲美。该系统标记了 相机角度、对象数量、运动类型、场景类别 等元素，为编辑和个性化等下游任务创建了内容丰富的注释训练集。

大模型，小足迹：认识玩 (Wan) 1.3B 和 14B

玩 (Wan) 有两个版本：1.3B 参数模型 和更强大的 14B 参数旗舰模型。两者都能够生成高达 480p 的高分辨率视频，并且都共享相同的强大架构。

真正的惊喜是什么？1.3B 模型旨在在 消费级 GPU 上运行，仅需 8.19 GB 的 VRAM。这是一个游戏规则改变者。这意味着艺术家、开发人员和小型工作室无需大量的 A100 即可访问高质量的视频生成。

相比之下，14B 模型旨在突破界限。它在数万亿个 tokens 上进行训练，擅长长视频一致性、逼真的运动以及遵循复杂的文本提示。无论是生成自然场景还是风格化动画，14B 模型都证明了开源可以在前沿领域具有竞争力。

正面交锋：玩 (Wan) 如何与竞争对手竞争

在基准评估和正面人工偏好测试中，玩 (Wan) 始终名列前茅。它不仅击败了 Mochi 和 HunyuanVideo 等开源模型，而且还与 Runway Gen-3 等商业重量级模型展开了激烈竞争。

这不仅仅关乎质量，还关乎控制。玩 (Wan) 允许 精细的相机移动、视觉文本渲染、提示遵循 和 风格多样性，而这些都是以前的模型难以处理或需要手动调整的领域。

此外，在消融研究中，玩 (Wan) 团队表明，其流匹配损失函数和密集字幕策略对于实现如此强大的对齐和连贯性至关重要。这使得玩 (Wan) 不仅好，而且 有原则，一个模型套件，其中每个设计选择都经过验证和优化。

Vbench 上的模型性能得分。

模型名称	质量得分	语义得分	总分
MiniMax-Video-01 (MiniMax, 2024.09)	84.85%	77.65%	83.41%
混元（开源版本）(Kong et al., 2024)	85.09%	75.82%	83.24%
Gen-3 (2024-07) (Runway, 2024.06)	84.11%	75.17%	82.32%
CogVideoX1.5-5B（5 秒 SAT 提示优化）(Yang et al., 2025b)	82.78%	79.76%	82.17%
Kling（2024-07 高性能模式）(Kuaishou, 2024.06)	83.39%	75.68%	81.85%
Sora (OpenAI, 2024)	85.51%	79.35%	84.28%
玩 (Wan) 1.3B	84.92%	80.10%	83.96%
玩 (Wan) 14B (2025-02-24)	86.67%	84.44%	86.22%

速度、规模和效率：您可以实际使用的模型

训练和推理效率是玩 (Wan) 更胜一筹的地方。在训练期间，阿里巴巴使用复杂的 2D 上下文并行方案（Ulysses + Ring Attention），减少了 GPU 之间的通信开销。在推理期间，他们引入了 扩散缓存，利用采样步骤之间的相似性来加快速度。

结合 FP8 量化 和 激活卸载，玩 (Wan) 实现了实时或接近实时的生成速度。结果：比传统模型快 1.62 倍，并且视频质量没有明显损失。

不仅仅是文本到视频：现在的实际应用

玩 (Wan) 不仅限于一项任务，它是一个平台。它支持全方位的 多模态视频任务，包括：

图像到视频：将单个图像变成动态场景。
教学视频编辑：使用自然语言命令修改剪辑。
个性化生成：零样本定制头像或品牌内容。
相机控制：使用文本调整缩放、平移或视点。
实时视频生成：这要归功于智能缓存和轻量级模型。
音频生成：同步声音以伴随生成的视觉效果。

无论您是电影制作人、教育工作者、广告商还是游戏开发者，玩 (Wan) 都能满足您的需求。

万技术报告：阿里巴巴用于人工智能视频生成的开源引擎

玩 (Wan): 阿里巴巴的 AI 视频生成开源利器

打破瓶颈：为什么需要构建玩 (Wan)

核心工程：玩 (Wan) 的下一代架构内部

数据支柱：玩 (Wan) 如何在数万亿个 tokens 上进行训练

大模型，小足迹：认识玩 (Wan) 1.3B 和 14B

正面交锋：玩 (Wan) 如何与竞争对手竞争

速度、规模和效率：您可以实际使用的模型

不仅仅是文本到视频：现在的实际应用

大局：玩 (Wan) 对研究和行业的意义

接下来是什么：玩 (Wan) 的未来之路

在哪里尝试

总结

您可能也喜欢

订阅我们的通讯