OpenAI的GPT-4.1发布,但Gemini 2.5 Pro的影响更大

作者
CTOL Editors - Ken
10 分钟阅读

OpenAI 的 GPT-4.1 来了,但 Gemini 2.5 Pro 的光芒更耀眼

OpenAI 新的模型系列,但争夺霸主地位的战斗依然激烈

OpenAI 今天发布了 GPT-4.1 及其 Mini 和 Nano 版本,这标志着一种策略转变——从通用的 AI 模型转向模块化、以开发者为先的基础设施。这些模型悄然发布,只能通过 API 访问,完全绕过了 ChatGPT 界面。

GPT 4.1 API (ctfassets.net)
GPT 4.1 API (ctfassets.net)

GPT-4.1 拥有 100 万 token 的上下文窗口,改进了 代码差异,并提供 结构优先的输出,承诺提供 精度而非表面功夫。它是一个专为工程师设计的工具套件——注重成本、关注延迟,并旨在直接融入企业的工作流程。

但即使这次发布令人印象深刻,它的 光芒 也被一个强大的竞争对手 削弱了谷歌的 Gemini 2.5 Pro


模型对比:GPT-4.1 vs. Gemini 2.5 Pro

尽管 OpenAI 进行了渐进式的改进,但 GPT-4.1 进入了一个已经被 Gemini 2.5 Pro 占据主导地位的领域。截至 2025 年 4 月,Gemini 2.5 Pro 被广泛认为是当前代码生成、深度推理和多模态理解方面最好的模型

性能指标:

  • SWE-Bench:GPT-4.1 取得了 54.6% 的不错成绩,高于 GPT-4o 的 33%。但 Gemini 2.5 Pro 使用 agent 工具获得了 63.8% 的分数,稳居领先地位。
  • GPQA(一个具有挑战性的推理基准)上,GPT-4.1 落后于 Gemini 的最佳水平。
  • 在代码审查任务中,Qodo 的独立评估显示,GPT-4.1 勉强击败了 Anthropic 的 Claude 3.7 Sonnet(54.9% 对 45.1%),但 仍然落后于 Gemini 在 STEM(科学、技术、工程和数学)和实际问题解决方面的整体表现

上下文窗口对等:

两种模型现在都支持 100 万 token 的上下文窗口。但在这种极端情况下的性能是 不容忽视的

  • GPT-4.1 的准确率有所下降(例如,MRCR 从 80% 降至 50%;Graphwalks 降至 19%)。
  • Gemini 在大规模情况下的性能也并非完美,但用户报告说 降级更平缓,尤其是在 数据集和文档分析任务中

价格对比:

OpenAI 曾经希望在这方面取得决定性的胜利——但 Gemini 消除了这种优势

指标GPT-4.1Gemini 2.5 Pro
输入$2.00$1.25
输出$8.00$10.00
输入$2.00$2.50
输出$8.00$15.00

实际上,这意味着 Gemini 在小规模的输入成本方面低于 OpenAI,仅在高上下文长度下略高于 OpenAI。对于许多工作流程,尤其是 推理密集型STEM 驱动的应用,Gemini 的 质量与成本之比仍然更高

一家文档 AI 公司的创始人指出:“GPT-4.1 的定价看起来具有颠覆性——但在你将其与 Gemini 进行比较之后,就不是这样了。凭借相似的 API 定价和更好的顶端推理能力,Gemini 感觉像是默认的选择。”


开发者策略:精度,而非惊艳

OpenAI 知道它并没有在基准测试中处于领先地位。GPT-4.1 并不是为了 让那些痴迷于排行榜的人惊叹 而打造的。相反,它针对 结构化生成、可靠的格式化和基于差异的编码 进行了调整——这些功能对于专业开发人员来说至关重要。

一位技术负责人总结道:“4.1 不会让你感到震撼——它可以节省你的时间。当你发布软件而不是演示时,这更有价值。”

在早期试用用户中:

  • Blue J 在复杂的税务分析任务中提高了 53%
  • Carlyle 在从长篇金融文本中提取数据方面获得了 50% 的提升。
  • Hex 报告 SQL 成功率提高了 2 倍
  • Thomson Reuters 观察到文档解析准确率提高了 17%

这些实际的提升有一个需要注意的地方:它们源于 精心挑选的企业集成,通常与 OpenAI 共同开发。更广泛的结果可能会有所不同。

不过,对于想要 干净的代码、更少的幻觉和持久的记忆 的开发人员来说,GPT-4.1 提供了一个更顺畅的体验。


Mini 和 Nano:真正体现降价优势的地方

当旗舰产品 GPT-4.1 陷入基准测试之战时,Mini 和 Nano 版本讲述了一个不同的故事

  • GPT-4.1 Mini:比 GPT-4o 便宜 83%,速度快两倍,并且 足够强大,可以满足大多数日常开发工作。
  • GPT-4.1 Nano:以 每百万输入 token 0.10 美元 的价格,它针对大规模的 自动完成、标记和分类任务 进行了优化。

这就是 OpenAI 定价真正闪光的地方。对于每小时运行 数百万个微任务 的公司来说,Mini 和 Nano 版本可以大幅降低推理成本,而无需更换供应商

一位机器学习运维主管表示:“我们将 70% 的分类堆栈迁移到了 Nano——以这个价格,没有其他产品能与之匹敌。”


长上下文:你可能永远无法充分利用的力量

百万 token 的上下文窗口在 技术上令人印象深刻,但在 操作上受到限制

是的,你可以放入整个代码库。是的,这些模型通过了“大海捞针”测试。但在大规模情况下:

  • 推理速度 显著降低(找到一行代码需要一分钟以上)。
  • 超过 40 万 token 后,准确率 急剧下降
  • MRCR 和 Graphwalks 基准测试 突出了逻辑开始失效的地方。

一位 AI 研究人员表示:“这就像拥有一个带有 USB 2.0 接口的 12TB 固态硬盘。带宽根本不够——目前还不够。”

相比之下,Gemini 在管理其长上下文行为方面似乎更稳定,尤其是在 文档理解和科学推理方面


定位变化:OpenAI 通过 4.1 获得了什么——以及面临的风险

通过 GPT-4.1,OpenAI 重申了其与 开发者生态系统的深度集成。它的优势在于:

  • 以前端为中心的编码(稳定的 React、HTML)。
  • 基于差异的修补,而不是代码重新生成。
  • 指令精度,尤其是在 Scale 的 MultiChallenge 基准测试中。

但它也面临着真正的阻力:

  • 没有直接的 ChatGPT 访问,限制了广泛的反馈循环。
  • 命名混乱,GPT-4.5 Preview 现在计划于 2025 年 7 月 14 日退役。
  • 在科学研究等关键垂直领域 领先优势不明显,Gemini 和 Claude 在这些领域表现出更好的端到端任务完成能力。

一项战略进步,而非市场颠覆

GPT-4.1 是 OpenAI 模型堆栈的 强大、以开发者为中心的演进。它在稳定性、延迟和结构化推理方面引入了有意义的提升。但它的发布发生在 不同的 AI 环境中——在这样的环境中,Gemini 2.5 Pro 的价格对等和卓越的基准测试 否定了它的决定性叙事。

对于已经嵌入 OpenAI API 生态系统的强大用户和工程团队来说,4.1 是一个受欢迎的升级。对于新的采用者来说,这种权衡就不那么明显了。

一位构建 AI 开发者工具的开发者表示:“如果你关心生态系统和格式化,那么 GPT-4.1 是一个安全的选择。但如果你关心原始的推理能力?Gemini 今天获胜。”

随着 AI 军备竞赛朝着上下文感知代理、多模态编排和长篇自主的方向发展,OpenAI 的下一个模型可能需要的不仅仅是调整。它可能需要一个理论转变。

在此之前,GPT-4.1 将在 生产管道中找到自己的位置,而不是在头条新闻中

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明