GPT-4.5 表现平平:OpenAI 最新发布的背后真相
当 AI 领域的领头羊提供的只是小幅更新,而世界却期待着革命性的突破,会发生什么?
在 AI 领域,期望与现实之间的差距从未像 OpenAI 发布 GPT-4.5 时那样大。社交媒体上连续几天充斥着对变革性飞跃的预测:一个拥有万亿参数的庞然大物,它既比它的前辈更便宜,也更强大。而 OpenAI 自身系统卡中详细描述的现实,却讲述了一个不同且更加冷静的故事。
“这是伪装成进步的停滞,”一位著名的 AI 投资人在查看了技术规格后告诉我。“市场期待的是一次质的飞跃,但得到的却是一次谨慎的向前挪动。”
真实的 GPT-4.5:改进有限,但更注重安全性
OpenAI 将 GPT-4.5 定位为“迄今为止最大且知识最渊博的模型”,强调了预训练的进一步扩展,以及一种专注于通用能力而非纯粹 STEM(科学、技术、工程和数学)领域推理的设计。该模型采用了精细的监督技术,以及标准的监督微调和人类反馈强化学习。
但仔细研究系统卡会发现,这是一种明显渐进式的方法。对用户来说最重要的基准——实际性能能力——显示出与 GPT-4o 相比的改进微乎其微。
最能说明问题的证据来自 SWE-Lancer,这是最近推出的一项针对软件工程任务的基准。在这里,GPT-4.5 仅显示出比其前身略微的优势。换句话说,对于大多数实际应用来说,这两个模型在能力上几乎没有区别。
一位业内人士打趣道:“你可能以为黄仁勋 (Jensen Huang) 在 OpenAI 展示精确切割技术呢,”他指的是英伟达 (NVIDIA) 的 CEO 以及改进的外科手术般的渐进性质。
安全第一:GPT-4.5 的真正目标
虽然能力提升似乎有限,但安全性的改进受到了极大的关注:
- 在违禁内容测试中,GPT-4.5 在标准拒绝场景中的表现与之前的模型相似,但在 WildChat(不寻常的人工智能对话)和 XSTest(误导性言论)评估中显示出轻微的改进。
- 幻觉评估表明,GPT-4.5 在 PersonQA 评估中优于 GPT-4o 和 o1,并且生成虚假信息的比率更低。
- 公平性和偏见评估显示,在烧烤评估中,GPT-4.5 的表现与 GPT-4o 相当,但在回答明确的问题时略逊于 o1。
一位审查了技术文档的资深 AI 科学家指出:“这次发布表明,OpenAI 优先考虑的是安全性的改进,而不是能力的突破。从伦理的角度来看,这是可以理解的,但会与公司自身炒作机器驱动的市场预期产生冲突。”
成本问题:贵 30 倍?
也许最令人担忧的是关于 GPT-4.5 经济效益的传言。AI 开发社区的多个消息来源表明,该模型的训练和运营成本明显高于 GPT-4o,以及其他主要竞争对手。
一位声称了解定价结构的开发者开玩笑说:“以这个价格,只有 Sam Altman 自己才用得起。”“输入成本为每 100 万个 tokens 75 美元,输出成本为每 100 万个 tokens 150 美元?????”
虽然 OpenAI 尚未证实这些数字,但问题仍然存在:这些微小的改进是否证明了成本的大幅增加是合理的?
市场影响:刺破 AI 炒作泡沫
GPT-4.5 不温不火的首次亮相可能会对 AI 行业产生深远的影响。一位著名的投资者将其描述为行业的“黄旗,而不是红旗”。
“OpenAI 谨慎的迭代可能会抑制 LLM 市场中的非理性繁荣,”他们解释说。“它迫使人们对估值和投资策略进行重要的现实检验。我们看到 AI 炒作泡沫被轻轻刺破。”
这种影响可能会波及关键的利益相关者:
对于竞争对手:Claude 3.7 Sonnet 将在更长时间内保持 LLM 王者的地位,并且在可见的未来没有明显的挑战者。
对于 OpenAI:该公司面临着短期的公关挑战,但可能会转向企业解决方案和安全叙事,以证明渐进式的收益和更高的成本是合理的。随着对估值的审查力度加大,融资可能会变得更加困难。
对于竞争对手:由于 GPT-4.5 令人失望的发布缩小了人们认为的能力差距,Anthropic 和 Google 等公司获得了喘息的机会。这可能会引发激烈的营销活动,并可能引发价格战,因为竞争对手会利用 OpenAI 认为的失误。
对于用户:早期采用者可能会质疑其价值主张,并继续使用 GPT-4o。专注于安全性的企业可能会看到一些好处,但期望获得巨大改进的消费者可能会感到失望。
对于投资者:随着投资者要求获得切实的投资回报和超越渐进式扩张的差异化价值,AI 投资的“广撒网”时代可能会降温。这可能会推动人们转向 AI 基础设施、专业应用以及专注于效率而非仅仅是庞大语言模型的公司。
对于 NVIDIA:虽然 GPU 需求依然强劲,但“无限扩张”的说法可能会面临挑战,从而可能将重点转向用于高效推理和特定任务的专用 AI 硬件。
未来:少一些扩张,多一些创新
一位 AI 开发者提出了最有见地的观点:“在可预见的未来,测试时扩展将是 LLM 的主要方向——除非出现一种新的架构来彻底改变当前的 Transformer 方法,也许是 RWKV,也许是 DLM,或者仍然处于论文阶段的某种架构。”
这种观点承认,虽然预训练对于推理模型仍然重要,并且将继续扩展,但样本效率不再是唯一的前进道路。正如这位开发者所说:“我们驾驶汽车使用的是汽油,而不是像 GPT-4.5 那样的原油。”
市场可能会越来越重视架构创新和算法效率,而不是盲目地扩张规模。随着该行业走向成熟,那些优化推理效率和具有成本效益的模型的公司可能会获得发展。
接下来是什么:必要的调整
GPT-4.5 的“令人失望”最终可能对 AI 市场有利,迫使其从盲目地相信扩张转向更加务实地关注实际价值、效率和真正的创新。
下一个突破将不仅仅是“更大”——它将更智能、更高效、更专业。对于所有最初的失望,这种现实的检验可能会引导市场和技术本身朝着更健康的方向发展。
正如一位投资者总结的那样:“真正的 AI 淘金热才刚刚开始,它将由那些构建可持续且有价值的 AI 的人赢得,而不仅仅是最大的模型。”