OpenAI发布o3和o4-mini,具有完整的工具集成以及在视觉和分析推理方面的突破

作者
CTOL Editors - Ken
10 分钟阅读

OpenAI 大胆跃入 Agentic AI 领域:揭秘 ChatGPT 背后的新大脑 o3 和 o4-Mini

今天,OpenAI 发布了两个新模型——o3 和 o4-mini——标志着其 o 系列迄今为止最大规模的扩展。这些模型旨在像自主代理一样思考、行动和解决问题,有望模糊数字助手和强大协作者之间的界限。

但在闪亮的基准数字和演示视频背后,隐藏着关于人工智能范式转变、推动工具增强智能以及权力、精度和成本之间紧张关系的更深层次的故事。

GPT O3 (ytimg.com)
GPT O3 (ytimg.com)

从聊天机器人到同事:Agentic 推理的崛起

OpenAI 将其描述为基础性的飞跃,o3 和 o4-mini 现在可以独立决定如何以及何时使用工具——从运行代码和生成图表到提取实时网络数据和分析图像。这种能力不是肤浅的升级。这是一个哲学上的转变。

这些模型不再仅仅回答问题,而是像人类分析师一样处理任务:将问题分解为几个部分,选择正确的工具,并以自主的方式综合各种格式的信息。

在一个演示中,o3 解决了一个复杂的能源使用查询。该模型使用网络查找消耗数据,执行 Python 代码进行分析,生成图表,并将结果与经济影响相关联——所有这些都在一分钟内完成。这不是脚本编排;而是战略决策。

一位独立的人工智能研究人员指出:“这里的意义不在于它使用了工具,而在于它知道如何使用它们进行思考。 这是一种不同类型的智能。”


可视化思考:眼睛与算法的交汇

另一个飞跃:这些模型不只是处理图像——它们可以根据图像进行推理

当面对一张颠倒的、难以辨认的笔迹照片时,o3 没有寻求帮助。它放大了图像,旋转了图像,并正确地转录了文本。它不仅理解了它所看到的内容,而且理解了它需要对它做什么

这种被称为*“用图像思考”*的进步,标志着多种模式的融合,远远超出了计算机视觉的范围。它暗示了人工智能系统能够将图像视为可操作的认知对象——这项技能长期以来被认为是人类独有的。

早期的测试人员指出,这种能力在科学和工程领域最为有用。在一个案例中,一个原型能够解析一张杂乱的实验室笔记本照片,并从手写笔记中推导出正确的化学方程式,甚至可以识别图表上的注释。


打破记录——和期望

表面之下隐藏着一个强大的性能引擎。

o3 模型现在在数学、编程、软件工程和多模式推理方面领先于行业基准。据 OpenAI 称,它比其前身减少了 20% 的严重错误,尤其是在商业战略、科学假设生成和创意构思等领域。

与此同时,o4-mini 的表现超出了预期。尽管它是一个为速度和成本而优化的精简模型,但在与 Python 配对时,它在 AIME 2025 基准测试中实现了 99.5% 的准确率。对于每天运行数千个查询的开发人员来说,其性价比不容忽视。

一位量化对冲基金工程师表示:“你看到的是行业级任务的饱和级结果,而模型只有原来的一半大小。这不仅仅是效率,而是颠覆。”


成本、速度和即将到来的军备竞赛

这一代产品的区别不仅仅在于能力——还在于访问。

通过将 o4-mini 集成到 ChatGPT 的免费层,并将两个模型都通过 API 和桌面工具提供,OpenAI 正在播下平台转变的种子。Codex CLI 是一个轻量级的、基于终端的代理,使用 o3 的推理,它是开源的,并且已经在 GitHub 上线。开发人员可以插入屏幕截图、草图或本地代码库,模型直接在 shell 中做出响应。

这使得 OpenAI 在业内人士所说的“代理界面战争”中处于领先地位:从基于聊天的助手转变为在工作流程中作为自主协作者运行的工具——无论是调试代码、解释 MRI 扫描还是优化广告预算。

这一举动也具有战略意义。随着 GPT-5 即将问世,该公司正在将其 o 系列与即将推出的模型对齐,承诺在深度推理和自然对话之间实现更紧密的集成。


玻璃上的裂缝:幻觉和记忆的局限性

然而,即使性能飙升,局限性仍然存在。像 o4-mini 这样的小型模型在事实回忆任务中的表现较弱,尤其是在历史或传记知识等领域。在 PersonQA 评估中,o4-mini 落后于早期模型,这可能是由于参数计数减少和训练压缩所致。

另一个挑战是过度自信。o3 模型虽然更智能,但在信息模糊时,往往会生成更多的断言——无论是正确的还是错误的。这不仅仅是一个错误;这是一个设计困境。随着模型获得推理能力,它们也更有可能做出复杂的推断,从而增加了产生微妙幻觉的风险。

一位系统集成商解释说:“这是一把双刃剑。它推理得越好,就变得越自信。但如果你的输入不稳定,你的输出也可能不稳定。这在受监管的行业中是一个大问题。”


采用、生态系统以及下一步发展

发布节奏非常快。o3、o4-mini 和 o4-mini-high 已经可以通过 Plus、Pro 和 Team 计划供付费 ChatGPT 用户访问。免费层用户可以在“Think”类别下试用 o4-mini,而 Enterprise 和 EDU 的推出预计很快就会进行。

具有完全工具访问权限的增强型 o3-pro 模型预计将在几周内发布。开发人员可以通过 Chat Completions 和新的 Responses API 进行访问,但高级功能可能需要验证。

OpenAI 还在提供激励措施:100 万美元的 API 积分赠款专门用于使用 Codex CLI 和代理功能构建的开发人员。

信息很明确:这不仅仅是一个产品更新。这是一个围绕多模式、多工具和多步骤智能的平台重新调整。


其意义:从工具到队友

对于专业用户——从交易员和分析师到工程师和顾问——其影响是深远的。

旧模型充当复杂的计算器或滔滔不绝的百科全书,而 o 系列现在接近初级分析师的行为。它提出问题,形成假设,选择工具并解释结果。这使得它不再是一种被动的资源,而更像是一个积极的问题解决者。

但专业人士应该保持怀疑。新模型在边缘仍然很脆弱,容易出现数据幻觉和偶尔的工具误用。信心校准仍然是一个前沿挑战。

尽管如此,更广泛的轨迹是不可否认的:OpenAI 正在押注于代理——不仅仅是更智能的模型,而是可以计划、适应和行动的模型。

随着 GPT-5 即将问世,o3 和 o4-mini 可能会被记住,不是作为终点,而是作为一个开始。


型号对比一览

型号用途基准测试工具访问效率
o3深度推理,创意合成Codeforces, MMMU, SWE完全中等
o4-mini快速、经济高效的日常助手AIME, SWE-bench完全
o3-pro全栈推理 + 工具使用待定完全待定

结语

在人工智能领域充斥着微小的升级和炒作周期的情况下,OpenAI 的 o3 和 o4-mini 感觉有所不同。它们不仅仅是回答。他们行动。他们不仅仅是看见。他们思考

有史以来第一次,人工智能不仅仅是工具箱中的一个工具。它是同事递给你扳手。

这改变了一切。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明