Gemini 2.0 系列发布:更低成本、200 万超长上下文和 Google 搜索集成,扩展 AI 能力
谷歌 AI 今天正式发布了 Gemini 2.0 系列,带来了一系列强大的 AI 模型,旨在提升开发能力、性能基准和成本效益。这些最新模型通过 Google AI Studio 和 Vertex AI 上的 Gemini API 提供,旨在彻底改变大规模 AI 应用。本次发布包括:
- Gemini 2.0 Flash – 现已全面上市,具有更高的速率限制、更好的性能和更简化的定价。
- Gemini 2.0 Flash-Lite – 一种成本优化的变体,可公开预览,非常适合文本密集型工作负载。
- Gemini 2.0 Pro – Google 最先进模型的实验性更新,擅长编码和复杂的提示。
此外,Gemini 2.0 Flash Thinking Experimental(一种针对响应前推理进行优化的 Flash 变体)扩大了 Gemini 的能力范围,使 AI 比以往任何时候都更加通用。
高级模型特性和功能
Gemini 2.0 Flash 及其变体引入了一系列广泛的功能,可满足多模态 AI 应用的需求:
功能 | Gemini 2.0 Flash | Gemini 2.0 Flash-Lite | Gemini 2.0 Pro |
---|---|---|---|
发布状态 | 已上市 | 公开预览 | 实验性 |
多模态输入 | ✅ | ✅ | ✅ |
文本输出 | ✅ | ✅ | ✅ |
图像输出 | 即将推出 | ❌ | 即将推出 |
音频输出 | 即将推出 | ❌ | 即将推出 |
多模态实时 API | 实验性 | ❌ | 即将推出 |
上下文窗口 | 100 万 tokens | 100 万 tokens | 200 万 tokens |
函数调用 | ✅ | ✅ | ✅ |
代码执行 | ✅ | ❌ | ✅ |
这些功能显著扩展了 Gemini 2.0 的可用性,使其成为市场上最灵活的 AI 模型之一。
性能基准:Gemini 2.0 vs. 竞争对手
Gemini 2.0 系列展示了相对于其前身和竞争对手的 显著改进,在多个 AI 性能基准上实现了更高的准确性和效率:
能力 | 基准 | Gemini 2.0 Pro | GPT-4o | Claude 3.5 | DeepSeek R1 | OpenAI o1 |
---|---|---|---|---|---|---|
通用知识 | MMLU-Pro | 79.1% | 72.6% | 78.0% | 84.0% | - |
代码生成 | LiveCodeBench | 36.0% | 34.2% | 33.8% | 65.9% | 63.4% |
数学推理 | MATH-500 | 91.8% | 74.6% | 78.3% | 97.3% | 96.4% |
事实准确性 | SimpleQA | 44.3% | 38.2% | 28.4% | 30.1% | 47.0% |
主要结论:
- 编码与数学:DeepSeek R1 在数学和编码性能方面领先,但 Gemini 2.0 Pro 是最平衡的多模态 AI 模型之一。
- 通用知识与推理:Gemini 在事实回复方面优于 GPT-4o,但在专门的推理任务中落后。
- 长上下文支持:凭借高达 200 万个 tokens,Gemini 超过了大多数竞争对手,使其成为企业用例的理想选择。
定价比较:Gemini 2.0 vs. 竞争对手
Google AI 对 Gemini 2.0 进行了积极的定价,以削弱竞争对手,为大规模 AI 应用提供显著更低的成本。
模型 | 输入成本(每 100 万 tokens) | 输出成本(每 100 万 tokens) | 上下文窗口 |
---|---|---|---|
Gemini 2.0 Flash | $0.10 | $0.40 | 100 万 tokens |
Gemini 2.0 Flash-Lite | $0.075 | $0.30 | 100 万 tokens |
OpenAI GPT-4o | $2.50 | $10.00 | 12.8 万 tokens |
OpenAI o1 | $15.00 | $60.00 | 12.8 万 tokens |
DeepSeek V3 | $0.14 | $1.10 | 6.4 万 tokens |
DeepSeek R1 | $0.55 | $2.19 | 6.4 万 tokens |
主要定价优势:
- Gemini 2.0 Flash 是 GPT-4o 和 DeepSeek V3 的非推理层中最便宜的模型。。
- Gemini 2.0 Pro 中的 200 万 token 窗口击败了所有竞争对手,从而实现了卓越的文档处理。虽然 Gemini 2.0 Pro 的定价信息不可用,但我们相信它的价格将极具竞争力。
- 没有复杂的基于输入的定价层级,不像 OpenAI 的模型。
Google 搜索集成:优势与局限
Gemini 2.0 最有希望的新增功能之一是其集成的 Google 搜索功能,该功能增强了实时信息检索和事实准确性。但是,我们的早期观察表明存在一些关键挑战:
- 不一致性:与 Google.com 上的直接搜索相比,通过 AI Studio 和 Gemini 2.0 Pro 提供的搜索结果有时显得不一致。
- 时效性:Gemini 2.0 集成搜索返回的某些结果似乎与 Google 上的实时搜索相比已过时。
Gemini 2.0 闪耀的用例
场景 1:高容量文本工作流程
- 胜出者:Gemini Flash-Lite
- 理想选择:SEO 内容生成、日志分析、翻译。
场景 2:多模态企业应用
- 胜出者:Gemini 2.0 Pro
- 用例:医学影像分析、视频元数据标记。
场景 3:预算多模态原型设计或成本敏感型初创公司
- 胜出者:Gemini 2.0 Flash ($0.10/$0.40)
最终评判:Gemini 2.0 是 AI 的未来吗?
Gemini 2.0 打破了定价规范,引入了 200 万 token 的上下文窗口,并增强了多模态功能,使其成为 GPT-4o、Claude 3.5 和 DeepSeek 的强大替代品。但是,它仍然在编码和数学特定应用中落后,在这些应用中,OpenAI 和 DeepSeek 保持着强大的领先地位。
谁应该使用 Gemini 2.0?
最适合 寻求经济实惠、多模态和长上下文 AI 解决方案的初创公司、企业和开发人员。 不适合 需要顶级编码/数学 AI 的用户——对于这些情况,DeepSeek R1 或 OpenAI o1 仍然更胜一筹。
凭借积极的定价和持续的升级,Google AI 的 Gemini 2.0 有望颠覆 LLM 领域,使先进的 AI 比以往任何时候都更加易于访问和强大。
我们故意排除了新发布的 GPT-o3 Mini,因为客观可验证的数据有限。