OpenAI 的 GPT-4.1 来了,但 Gemini 2.5 Pro 的光芒更耀眼
OpenAI 新的模型系列,但争夺霸主地位的战斗依然激烈
OpenAI 今天发布了 GPT-4.1 及其 Mini 和 Nano 版本,这标志着一种策略转变——从通用的 AI 模型转向模块化、以开发者为先的基础设施。这些模型悄然发布,只能通过 API 访问,完全绕过了 ChatGPT 界面。
GPT-4.1 拥有 100 万 token 的上下文窗口,改进了 代码差异,并提供 结构优先的输出,承诺提供 精度而非表面功夫。它是一个专为工程师设计的工具套件——注重成本、关注延迟,并旨在直接融入企业的工作流程。
但即使这次发布令人印象深刻,它的 光芒 也被一个强大的竞争对手 削弱了:谷歌的 Gemini 2.5 Pro。
模型对比:GPT-4.1 vs. Gemini 2.5 Pro
尽管 OpenAI 进行了渐进式的改进,但 GPT-4.1 进入了一个已经被 Gemini 2.5 Pro 占据主导地位的领域。截至 2025 年 4 月,Gemini 2.5 Pro 被广泛认为是当前代码生成、深度推理和多模态理解方面最好的模型。
性能指标:
- SWE-Bench:GPT-4.1 取得了 54.6% 的不错成绩,高于 GPT-4o 的 33%。但 Gemini 2.5 Pro 使用 agent 工具获得了 63.8% 的分数,稳居领先地位。
- 在 GPQA(一个具有挑战性的推理基准)上,GPT-4.1 落后于 Gemini 的最佳水平。
- 在代码审查任务中,Qodo 的独立评估显示,GPT-4.1 勉强击败了 Anthropic 的 Claude 3.7 Sonnet(54.9% 对 45.1%),但 仍然落后于 Gemini 在 STEM(科学、技术、工程和数学)和实际问题解决方面的整体表现。
上下文窗口对等:
两种模型现在都支持 100 万 token 的上下文窗口。但在这种极端情况下的性能是 不容忽视的:
- GPT-4.1 的准确率有所下降(例如,MRCR 从 80% 降至 50%;Graphwalks 降至 19%)。
- Gemini 在大规模情况下的性能也并非完美,但用户报告说 降级更平缓,尤其是在 数据集和文档分析任务中。
价格对比:
OpenAI 曾经希望在这方面取得决定性的胜利——但 Gemini 消除了这种优势:
指标 | GPT-4.1 | Gemini 2.5 Pro |
---|---|---|
输入 | $2.00 | $1.25 |
输出 | $8.00 | $10.00 |
输入 | $2.00 | $2.50 |
输出 | $8.00 | $15.00 |
实际上,这意味着 Gemini 在小规模的输入成本方面低于 OpenAI,仅在高上下文长度下略高于 OpenAI。对于许多工作流程,尤其是 推理密集型 或 STEM 驱动的应用,Gemini 的 质量与成本之比仍然更高。
一家文档 AI 公司的创始人指出:“GPT-4.1 的定价看起来具有颠覆性——但在你将其与 Gemini 进行比较之后,就不是这样了。凭借相似的 API 定价和更好的顶端推理能力,Gemini 感觉像是默认的选择。”
开发者策略:精度,而非惊艳
OpenAI 知道它并没有在基准测试中处于领先地位。GPT-4.1 并不是为了 让那些痴迷于排行榜的人惊叹 而打造的。相反,它针对 结构化生成、可靠的格式化和基于差异的编码 进行了调整——这些功能对于专业开发人员来说至关重要。
一位技术负责人总结道:“4.1 不会让你感到震撼——它可以节省你的时间。当你发布软件而不是演示时,这更有价值。”
在早期试用用户中:
- Blue J 在复杂的税务分析任务中提高了 53%。
- Carlyle 在从长篇金融文本中提取数据方面获得了 50% 的提升。
- Hex 报告 SQL 成功率提高了 2 倍。
- Thomson Reuters 观察到文档解析准确率提高了 17%。
这些实际的提升有一个需要注意的地方:它们源于 精心挑选的企业集成,通常与 OpenAI 共同开发。更广泛的结果可能会有所不同。
不过,对于想要 干净的代码、更少的幻觉和持久的记忆 的开发人员来说,GPT-4.1 提供了一个更顺畅的体验。
Mini 和 Nano:真正体现降价优势的地方
当旗舰产品 GPT-4.1 陷入基准测试之战时,Mini 和 Nano 版本讲述了一个不同的故事。
- GPT-4.1 Mini:比 GPT-4o 便宜 83%,速度快两倍,并且 足够强大,可以满足大多数日常开发工作。
- GPT-4.1 Nano:以 每百万输入 token 0.10 美元 的价格,它针对大规模的 自动完成、标记和分类任务 进行了优化。
这就是 OpenAI 定价真正闪光的地方。对于每小时运行 数百万个微任务 的公司来说,Mini 和 Nano 版本可以大幅降低推理成本,而无需更换供应商。
一位机器学习运维主管表示:“我们将 70% 的分类堆栈迁移到了 Nano——以这个价格,没有其他产品能与之匹敌。”
长上下文:你可能永远无法充分利用的力量
百万 token 的上下文窗口在 技术上令人印象深刻,但在 操作上受到限制。
是的,你可以放入整个代码库。是的,这些模型通过了“大海捞针”测试。但在大规模情况下:
- 推理速度 显著降低(找到一行代码需要一分钟以上)。
- 超过 40 万 token 后,准确率 急剧下降。
- MRCR 和 Graphwalks 基准测试 突出了逻辑开始失效的地方。
一位 AI 研究人员表示:“这就像拥有一个带有 USB 2.0 接口的 12TB 固态硬盘。带宽根本不够——目前还不够。”
相比之下,Gemini 在管理其长上下文行为方面似乎更稳定,尤其是在 文档理解和科学推理方面。
定位变化:OpenAI 通过 4.1 获得了什么——以及面临的风险
通过 GPT-4.1,OpenAI 重申了其与 开发者生态系统的深度集成。它的优势在于:
- 以前端为中心的编码(稳定的 React、HTML)。
- 基于差异的修补,而不是代码重新生成。
- 指令精度,尤其是在 Scale 的 MultiChallenge 基准测试中。
但它也面临着真正的阻力:
- 没有直接的 ChatGPT 访问,限制了广泛的反馈循环。
- 命名混乱,GPT-4.5 Preview 现在计划于 2025 年 7 月 14 日退役。
- 在科学研究等关键垂直领域 领先优势不明显,Gemini 和 Claude 在这些领域表现出更好的端到端任务完成能力。
一项战略进步,而非市场颠覆
GPT-4.1 是 OpenAI 模型堆栈的 强大、以开发者为中心的演进。它在稳定性、延迟和结构化推理方面引入了有意义的提升。但它的发布发生在 不同的 AI 环境中——在这样的环境中,Gemini 2.5 Pro 的价格对等和卓越的基准测试 否定了它的决定性叙事。
对于已经嵌入 OpenAI API 生态系统的强大用户和工程团队来说,4.1 是一个受欢迎的升级。对于新的采用者来说,这种权衡就不那么明显了。
一位构建 AI 开发者工具的开发者表示:“如果你关心生态系统和格式化,那么 GPT-4.1 是一个安全的选择。但如果你关心原始的推理能力?Gemini 今天获胜。”
随着 AI 军备竞赛朝着上下文感知代理、多模态编排和长篇自主的方向发展,OpenAI 的下一个模型可能需要的不仅仅是调整。它可能需要一个理论转变。
在此之前,GPT-4.1 将在 生产管道中找到自己的位置,而不是在头条新闻中。