GPT-4在新任务上的挑战凸显了其对记忆而非推理的依赖
近期研究表明,像GPT-4这样的高级AI模型存在一个显著局限性。尽管这些模型在常规任务中表现出色,但在遇到稍加修改的问题时却面临巨大困难。
例如,GPT-4在使用标准十进制系统进行数字加法时表现完美,但当需要使用九进制系统进行加法时就会感到困惑。这类似于要求某人用不熟悉的棋子布局来下棋。
在一项全面研究中,研究人员对这些AI模型进行了11项具有细微变化的多样化任务测试。结果显示,模型在遵循熟悉模式的任务中表现优异,这使得研究人员推测AI可能更多依赖于记忆而非对基础逻辑的真正理解。
即使考虑到AI在训练过程中可能遇到过这些多样化任务,其表现仍然不如常规任务。尽管研究人员使用了“思维链提示”技术——引导AI一步一步思考问题——这种方法仅带来了微小的改进,并未完全解决问题。
尽管这些高级AI模型拥有惊人的能力,但它们在新颖或稍加改变的任务上却表现不佳。目标是提高它们理解和将所学知识应用于新情况的能力,而不是仅仅依赖死记硬背。
关键要点
- 记忆而非推理:GPT-4在反事实任务上的挣扎表明其依赖于记忆的解决方案而非推理。
- 非十进制系统中的性能下降:在非十进制数系统(如九进制)中的性能从超过95%降至低于20%。
- 泛化能力:反事实任务通常超过随机水平,表明有一定泛化能力但非强大的推理能力。
- 训练数据的影响:训练数据中条件的频率影响反事实性能,暗示了记忆效应。
- 思维链提示:这种技术提高了性能,但未能完全弥合标准任务与反事实任务之间的差距。
分析
发现AI模型如GPT-4在新任务上的表现不佳,突显了它们对预训练数据的依赖而非深入理解。这种脆弱性对大量投资AI的科技公司具有重大影响,可能阻碍进步并削弱投资者信心。短期内,依赖AI进行决策的行业可能面临更多错误。长期来看,迫切需要AI超越模式识别,发展为强大的推理能力。提高AI的适应性对于各领域的持续创新和可靠性至关重要。
你知道吗?
- 反事实任务:
- 定义:涉及假设或非实际场景的任务,要求AI对与其训练数据不同的情境进行推理。
- 影响:GPT-4在这些任务上的挣扎表明,它可能严重依赖于从训练数据中记忆的模式,而非深入理解基础原理。
- 九进制数系统:
- 定义:使用九作为基数的位值系统,与常见的十进制系统不同。
- 影响:GPT-4在该系统中的显著性能下降表明,它在将数学运算泛化到熟悉的十进制之外的能力有限,突显了其在数值推理能力上的潜在差距。
- 思维链提示:
- 定义:一种技术,引导AI一步一步思考问题,鼓励其阐述推理过程。
- 影响:尽管这种方法提高了GPT-4在复杂任务上的性能,但并未完全克服其在新颖或改变任务上的挑战,表明增强AI的推理能力和灵活应用知识仍然是未来发展的关键领域。