字节跳动发布 OmniHuman-1:用于超逼真人物动画的突破性 AI 框架
字节跳动的研究团队发布了一篇开创性的论文 “OmniHuman-1:重新思考单阶段条件人物动画模型的放大”,在 AI 和动画社区引起了轰动。这篇论文于 2 月 3 日发布,介绍了 OmniHuman 框架——一种基于多模态扩散 Transformer 的方法,有望通过在训练期间融合各种与运动相关的条件,彻底改变人物视频生成。虽然目前还没有产品或下载版本(“目前,我们不在任何地方提供服务或下载。”),但这项突破性研究因其令人惊叹的、接近照片般逼真的动画效果而受到了广泛关注。
2 月 3 日,字节跳动的研究团队发布了他们在 AI 驱动的人物动画方面的最新创新:OmniHuman-1。这个最先进的框架利用扩散 Transformer 架构,使用文本、音频、姿势和视觉参考信号的组合来生成高度逼真的人物视频。研究论文 "OmniHuman-1:重新思考单阶段条件人物动画模型的放大" 详细介绍了该团队如何通过引入一种新颖的多模态训练策略,克服视频合成中的传统挑战——例如高质量训练数据的稀缺和以前端到端模型的局限性。
该框架的关键要素包括:
- 多模态条件: OmniHuman 集成了各种驱动信号——使用预训练的 Seaweed 模型进行文本到视频的任务,wav2vec 用于音频特征提取,专门的姿势编码器用于运动引导,VAE 用于编码参考图像。
- 创新训练策略: 该框架采用三阶段训练过程,平衡数据质量和条件强度,即使在使用混合质量数据集(1.87 万小时与人物相关的数据,其中 13% 包含高质量的音频和姿势数据)时,也能确保稳定性和真实感。
- 稳健的推理技术: 在推理过程中,OmniHuman 动态调整主动条件(例如,启用音频和文本,并在必要时选择性地禁用姿势),并应用无分类器引导来优化性能和计算效率。
该研究重点介绍了突破性的演示——包括 30 秒的视频片段,其中模型生成的动画几乎与真实人物镜头无法区分。演示的特色是引人注目的例子,例如黄仁勋唱迪斯科和著名喜剧演员的配音,进一步强调了该框架对电影制作和数字内容创作等行业的潜在影响。
主要收获
- 革命性的多模态框架: OmniHuman-1 构建在扩散 Transformer 架构之上,该架构无缝集成了文本、音频、姿势和视觉参考信号,以生成栩栩如生的人物动画。
- 创新训练技术: 通过采用三阶段训练策略并利用混合数据(包括不完美但信息丰富的样本),该框架克服了数据稀缺和模型局限性的长期挑战。
- 高质量、多功能的输出: 演示表明,OmniHuman 可以生成具有令人印象深刻的时间一致性和身份保留的视频,在 CelebV-HQ 测试集上实现了 3.875 的图像质量评分——超过了当前的专用模型。
- 颠覆行业的潜力: 凭借任意长度视频生成和与非人物动画的强大兼容性等功能,OmniHuman-1 有望显着影响视频编辑、电影制作等领域。
- 尚未公开发布: 尽管结果具有开创性,但字节跳动尚未提供任何公共服务、下载或开源版本,这让行业专家热切期待未来的商业化。
深入分析
OmniHuman 框架通过其对多模态条件的精心整合和先进的扩散模型,代表了 AI 驱动的人物动画方面的一大进步。以下是对其技术创新的更深入了解:
多模态条件和架构
- 扩散 Transformer 主干: OmniHuman 构建在 DiT(扩散 Transformer)架构之上,使模型能够有效地处理和合并各种输入模态。
- 各种驱动条件:
- 音频: 利用 wav2vec 模型提取详细的声学特征。这些特征通过 MLP 与 MMDiT 模块的隐藏层对齐,然后使用交叉注意力机制与相邻的音频令牌组合。
- 姿势: 采用姿势引导器将姿势热图序列转换为丰富的姿势令牌。这些令牌与噪声潜在表示堆叠在一起时,允许模型执行精确的视觉对齐和动态建模。
- 文本和外观: 保持来自 MMDiT 文本分支的文本条件,同时使用 VAE 编码参考图像,确保通过自注意力机制有效地集成视觉外观提示。
训练策略和数据利用
- 三阶段训练过程:
- 基础阶段: 该模型首先学习使用文本和参考图像通过预训练的 Seaweed 模型生成视频和图像内容。
- 中间阶段: 纳入音频特征,需要适度高质量的数据才能实现准确的口型同步和富有表现力的运动。
- 高级阶段: 使用最高质量的数据(约占数据集的 13%)来完善精确的姿势控制,类似于演员完善细微的动作。
- 两个关键原则:
- 利用较弱的条件: 更强的条件任务可以从较弱的条件任务提供的更广泛的数据集中受益,从而确保稳健性。
- 平衡的训练比例: 以较低的比例训练更高强度的条件,以防止过度拟合,从而最大限度地利用可用数据。
推理和性能
- 自适应推理策略: OmniHuman 根据场景智能地激活或停用特定条件(例如,音频、姿势),从而确保最佳性能,同时保持时间和身份一致性。
- 评估指标: 该框架的性能已使用 FID、FVD、q-align、Sync-C、HKC 和 HKV 等指标进行了严格验证,结果表明明显优于传统的单模态模型。
潜在影响
通过解决数据过滤和架构限制的双重挑战,OmniHuman 为下一代人物动画模型铺平了道路。它在不牺牲质量的情况下处理不完善数据的能力尤其值得注意,有望改变数字媒体及其他领域的创意工作流程。虽然目前尚未开源,但商业化可能会释放娱乐、广告和虚拟内容创作领域巨大的价值。
你知道吗?
- 演员训练类比: OmniHuman 的训练过程类似于专业演员的分阶段发展——从广泛的剧本解读(文本和图像)开始,逐步进行声音调制,最终达到精确的肢体表达。
- 海量数据利用: 该模型在惊人的 1.87 万小时与人物相关的视频数据上进行了训练,展示了它从高质量和低质量来源学习的能力。
- 多模态魔力: OmniHuman 是首批能够在单个模型中混合文本、音频、姿势和视觉参考输入的框架之一,为 AI 驱动的动画树立了新标准。
- 接近照片般逼真: 演示视频显示,OmniHuman 生成的内容非常逼真,几乎无法与真正的人物镜头区分开来——这预示着未来几乎所有视频都可能是 AI 生成的。
- 行业颠覆: 该框架对任意长度视频生成(目前最长 30 秒)的支持及其在处理不同风格(从逼真的人物动画到拟人卡通)方面的灵活性可能会彻底改变电影制作和数字编辑。
- 真伪密码: 在人工智能生成的内容变得无处不在的时代,专家警告说,不当使用这些新技术来实现非法目的。
对于那些有兴趣进一步探索技术细节的人,可以在官方 OmniHuman Lab GitHub.io 页面上找到完整的论文和项目详细信息。