OpenAI的GPT-4.1发布，但Gemini 2.5 Pro的影响更大

OpenAI 的 GPT-4.1 来了，但 Gemini 2.5 Pro 的光芒更耀眼

OpenAI 新的模型系列，但争夺霸主地位的战斗依然激烈

OpenAI 今天发布了 GPT-4.1 及其 Mini 和 Nano 版本，这标志着一种策略转变——从通用的 AI 模型转向模块化、以开发者为先的基础设施。这些模型悄然发布，只能通过 API 访问，完全绕过了 ChatGPT 界面。

GPT-4.1 拥有 100 万 token 的上下文窗口，改进了 代码差异，并提供 结构优先的输出，承诺提供 精度而非表面功夫。它是一个专为工程师设计的工具套件——注重成本、关注延迟，并旨在直接融入企业的工作流程。

但即使这次发布令人印象深刻，它的光芒也被一个强大的竞争对手 削弱了：谷歌的 Gemini 2.5 Pro。

模型对比：GPT-4.1 vs. Gemini 2.5 Pro

尽管 OpenAI 进行了渐进式的改进，但 GPT-4.1 进入了一个已经被 Gemini 2.5 Pro 占据主导地位的领域。截至 2025 年 4 月，Gemini 2.5 Pro 被广泛认为是当前代码生成、深度推理和多模态理解方面最好的模型。

性能指标：

SWE-Bench：GPT-4.1 取得了 54.6% 的不错成绩，高于 GPT-4o 的 33%。但 Gemini 2.5 Pro 使用 agent 工具获得了 63.8% 的分数，稳居领先地位。
在 GPQA（一个具有挑战性的推理基准）上，GPT-4.1 落后于 Gemini 的最佳水平。
在代码审查任务中，Qodo 的独立评估显示，GPT-4.1 勉强击败了 Anthropic 的 Claude 3.7 Sonnet（54.9% 对 45.1%），但 仍然落后于 Gemini 在 STEM（科学、技术、工程和数学）和实际问题解决方面的整体表现。

上下文窗口对等：

两种模型现在都支持 100 万 token 的上下文窗口。但在这种极端情况下的性能是 不容忽视的：

GPT-4.1 的准确率有所下降（例如，MRCR 从 80% 降至 50%；Graphwalks 降至 19%）。
Gemini 在大规模情况下的性能也并非完美，但用户报告说 降级更平缓，尤其是在 数据集和文档分析任务中。

价格对比：

OpenAI 曾经希望在这方面取得决定性的胜利——但 Gemini 消除了这种优势：

指标	GPT-4.1	Gemini 2.5 Pro
输入	$2.00	$1.25
输出	$8.00	$10.00
输入	$2.00	$2.50
输出	$8.00	$15.00

实际上，这意味着 Gemini 在小规模的输入成本方面低于 OpenAI，仅在高上下文长度下略高于 OpenAI。对于许多工作流程，尤其是 推理密集型 或 STEM 驱动的应用，Gemini 的 质量与成本之比仍然更高。

一家文档 AI 公司的创始人指出：“GPT-4.1 的定价看起来具有颠覆性——但在你将其与 Gemini 进行比较之后，就不是这样了。凭借相似的 API 定价和更好的顶端推理能力，Gemini 感觉像是默认的选择。”

开发者策略：精度，而非惊艳

OpenAI 知道它并没有在基准测试中处于领先地位。GPT-4.1 并不是为了 让那些痴迷于排行榜的人惊叹 而打造的。相反，它针对 结构化生成、可靠的格式化和基于差异的编码 进行了调整——这些功能对于专业开发人员来说至关重要。

一位技术负责人总结道：“4.1 不会让你感到震撼——它可以节省你的时间。当你发布软件而不是演示时，这更有价值。”

在早期试用用户中：

Blue J 在复杂的税务分析任务中提高了 53%。
Carlyle 在从长篇金融文本中提取数据方面获得了 50% 的提升。
Hex 报告 SQL 成功率提高了 2 倍。
Thomson Reuters 观察到文档解析准确率提高了 17%。

这些实际的提升有一个需要注意的地方：它们源于 精心挑选的企业集成，通常与 OpenAI 共同开发。更广泛的结果可能会有所不同。

不过，对于想要 干净的代码、更少的幻觉和持久的记忆 的开发人员来说，GPT-4.1 提供了一个更顺畅的体验。

Mini 和 Nano：真正体现降价优势的地方

当旗舰产品 GPT-4.1 陷入基准测试之战时，Mini 和 Nano 版本讲述了一个不同的故事。

GPT-4.1 Mini：比 GPT-4o 便宜 83%，速度快两倍，并且 足够强大，可以满足大多数日常开发工作。
GPT-4.1 Nano：以 每百万输入 token 0.10 美元 的价格，它针对大规模的 自动完成、标记和分类任务 进行了优化。

这就是 OpenAI 定价真正闪光的地方。对于每小时运行 数百万个微任务 的公司来说，Mini 和 Nano 版本可以大幅降低推理成本，而无需更换供应商。

一位机器学习运维主管表示：“我们将 70% 的分类堆栈迁移到了 Nano——以这个价格，没有其他产品能与之匹敌。”

长上下文：你可能永远无法充分利用的力量

百万 token 的上下文窗口在 技术上令人印象深刻，但在 操作上受到限制。

是的，你可以放入整个代码库。是的，这些模型通过了“大海捞针”测试。但在大规模情况下：

推理速度 显著降低（找到一行代码需要一分钟以上）。
超过 40 万 token 后，准确率 急剧下降。
MRCR 和 Graphwalks 基准测试 突出了逻辑开始失效的地方。

一位 AI 研究人员表示：“这就像拥有一个带有 USB 2.0 接口的 12TB 固态硬盘。带宽根本不够——目前还不够。”

相比之下，Gemini 在管理其长上下文行为方面似乎更稳定，尤其是在 文档理解和科学推理方面。

定位变化：OpenAI 通过 4.1 获得了什么——以及面临的风险

通过 GPT-4.1，OpenAI 重申了其与 开发者生态系统的深度集成。它的优势在于：

以前端为中心的编码（稳定的 React、HTML）。
基于差异的修补，而不是代码重新生成。
指令精度，尤其是在 Scale 的 MultiChallenge 基准测试中。

但它也面临着真正的阻力：

没有直接的 ChatGPT 访问，限制了广泛的反馈循环。
命名混乱，GPT-4.5 Preview 现在计划于 2025 年 7 月 14 日退役。
在科学研究等关键垂直领域 领先优势不明显，Gemini 和 Claude 在这些领域表现出更好的端到端任务完成能力。

一项战略进步，而非市场颠覆

GPT-4.1 是 OpenAI 模型堆栈的 强大、以开发者为中心的演进。它在稳定性、延迟和结构化推理方面引入了有意义的提升。但它的发布发生在 不同的 AI 环境中——在这样的环境中，Gemini 2.5 Pro 的价格对等和卓越的基准测试 否定了它的决定性叙事。

对于已经嵌入 OpenAI API 生态系统的强大用户和工程团队来说，4.1 是一个受欢迎的升级。对于新的采用者来说，这种权衡就不那么明显了。

一位构建 AI 开发者工具的开发者表示：“如果你关心生态系统和格式化，那么 GPT-4.1 是一个安全的选择。但如果你关心原始的推理能力？Gemini 今天获胜。”

随着 AI 军备竞赛朝着上下文感知代理、多模态编排和长篇自主的方向发展，OpenAI 的下一个模型可能需要的不仅仅是调整。它可能需要一个理论转变。

在此之前，GPT-4.1 将在 生产管道中找到自己的位置，而不是在头条新闻中。