字节跳动研究:AI视频生成难以掌握现实世界的物理规律
发生了什么?
字节跳动研究团队由康冰怡及其同事领导的一项新研究发现,当前的AI视频生成模型,如SORA,尚无法理解和复制支配我们世界的物理定律。该研究本月发表,探讨了这些模型仅通过视觉数据学习和概括物理定律的能力,类似于人类通过日常观察直观理解物理的方式。
研究结果表明,尽管这些模型能够生成与训练数据高度匹配的视频,但它们在面对不熟悉的场景时表现不佳。尽管增加了数据量和模型复杂性,视频生成模型仍无法抽象出一般的物理规则,而是依赖于模仿最接近的训练示例。这项研究提出了关于AI生成现实物理模拟能力的重要问题,并强调了如果这些模型要被视为真正的世界模型,则需要更复杂的学习方法。
关键要点
-
泛化能力有限:视频生成模型在分布内场景(即与训练数据相似的条件)中表现出色,但在分布外(OOD)场景中表现不佳。这意味着模型在面对未见过的情境或组合时难以预测结果。
-
模仿而非抽象:模型倾向于模仿训练数据示例,而不是学习经典物理学的抽象、广义规则,如牛顿定律。研究人员观察到模型表现出“基于案例”的行为,即它们复制特定的训练实例,而不是推断更广泛的原则。
-
属性优先级:在引用训练数据时,这些模型似乎按特定顺序优先考虑不同属性:颜色 > 大小 > 速度 > 形状。这表明模型更倾向于保留某些视觉方面,而在需要细致理解的情况下可能导致预测不准确。
深入分析
研究人员试图了解视频生成模型是否可以通过学习支配经典力学的物理定律来充当“世界模型”。他们采用了一种系统的方法,使用一个二维模拟器,该模拟器具有基本几何形状,以消除不必要的复杂性并提供无限的训练数据。通过扩大模型规模和数据量,他们旨在观察这些AI系统是否能提高预测物理现象(如匀速运动、弹性碰撞和抛物线运动)的能力。
结果喜忧参半。尽管扩大规模有助于模型在熟悉条件下提高准确性,但对模型在训练数据之外的泛化能力几乎没有影响。例如,在匀速运动任务中,较大的模型在已知场景中表现出更高的准确性,但在预测未见场景时,精度显著下降。这些发现表明,无法泛化表明当前AI模型在抽象推理方面存在根本性限制。
该研究还探讨了组合泛化——场景中的每个组件在训练中都已观察到,但并非所有可能的组合。研究人员发现,增加训练组合的多样性(而不仅仅是数据量)提高了模型的性能。这表明真正的组合泛化需要更广泛地探索可能的场景,而不仅仅是扩大数据量或模型规模。
此外,该研究揭示了有关模型“思考”方式的有趣见解。在比较不同属性如何被保留或改变的实验中,颜色始终是最关键的属性,其次是大小、速度,最后是形状。这种优先级表明视频生成模型缺乏对属性物理意义的连贯理解,往往导致视觉上不正确但看似合理的结果。
研究人员得出结论,尽管视频生成模型在模拟熟悉的视觉事件方面显示出潜力,但它们仍缺乏作为能够学习和预测复杂物理交互的全功能世界模型所需的深度理解。仅扩大数据和模型规模似乎不足以克服这些挑战,这表明需要新的架构设计或混合学习方法,可能将数值或语言知识与视觉输入相结合。
你知道吗?
- 该研究还尝试使用数值和文本描述来增强模型对物理定律的理解,但发现添加这些模态并未显著提高分布外场景中的性能。这表明仅视觉信息不足以进行准确的物理建模,尤其是在复杂的物理交互中。
- 当前的视频生成模型往往优先考虑视觉相似性而非物理准确性。例如,如果在训练数据中看到蓝色球和红色方块,生成的视频中蓝色球可能会变成蓝色方块——表明模型优先保持颜色而非物体的实际物理状态或形状。
- 在分布内和分布外场景中,物理场景(如匀速运动和碰撞)的误差差异达到一个数量级,突显了这些模型在超出训练数据范围外推方面的根本性挑战。
结论
字节跳动的研究深入探讨了当前AI视频生成模型的能力和局限性。尽管这些系统在创建视觉上合理的内容方面取得了巨大进展,但它们在学习和概括基本物理定律方面仍面临重大障碍。无法超越模仿表明,我们距离开发出能够完全复制人类对物理世界理解的AI模型还有很长的路要走。为了使AI达到这一水平,需要更多研究混合方法,将视觉数据以外的其他形式的知识整合进来。