Lecun的LiveBench基准测试揭示GPT-4o和阿里巴巴的Qwen为顶尖表现者

Lecun的LiveBench基准测试揭示GPT-4o和阿里巴巴的Qwen为顶尖表现者

作者
Jane Park
4 分钟阅读

Lecun团队发布LiveBench基准测试,GPT-4o与阿里巴巴Qwen表现卓越

人工智能领域的先驱Yann Lecun及其团队推出了LiveBench,这是一个针对大型语言模型(LLMs)的新型基准测试平台。LiveBench旨在解决测试集污染问题,即测试数据被包含在模型的训练集中,从而影响评估的公正性和准确性。该创新基准包含从数学竞赛、arXiv论文、新闻文章及数据集中提取的频繁更新的问题,覆盖了数学、编程、推理、语言、指令遵循和数据分析等多项挑战性任务。

LiveBench评估了从0.5亿到110亿参数不等的众多闭源和开源模型。最新排行榜显示,GPT-4o位居总榜首位,而阿里巴巴的Qwen则成为最佳开源LLM。这一开创性举措旨在确保随着LLMs的发展,其能力得到严格和公正的评估。

LiveBench最新排行榜

主要发现

  1. LiveBench介绍:Yann Lecun团队设计的新LLM基准,旨在避免测试集污染及人为或LLM评判带来的偏见。
  2. 广泛多样的任务:基准测试涵盖了数学、编程、推理、语言、指令遵循和数据分析等多种任务。
  3. 频繁更新:问题定期从最新来源更新,确保基准测试保持时效性和挑战性。
  4. 顶尖表现者:GPT-4o在整体性能上领先,阿里巴巴的Qwen则脱颖而出,成为最佳开源LLM。

分析

LiveBench的推出标志着大型语言模型评估的重大进步,传统基准常受测试集污染影响,导致新模型在测试数据上表现过高。LiveBench通过使用来自当代信息的频繁更新问题,如最近的数学竞赛、arXiv论文和新闻文章,确保评估既具挑战性又相关。

此外,LiveBench的自动评分系统依赖于客观的基准值,减少了人类或LLM评判可能产生的偏见,这对于评分复杂问题尤为重要,因为主观判断可能差异很大。

该基准包含广泛的任务,使其成为评估LLM能力的全面工具。这些任务不仅范围广泛,而且设计为现有基准(如Big-Bench Hard、AMPS、bAbI和IFEval)中任务的更难、无污染版本。

LiveBench的初步结果显示,GPT-4o以53.79%的全球平均分位居榜首,展示了其在推理、编程、数学和数据分析等多个类别的强大性能。值得注意的是,GPT-4o在指令遵循方面取得了特别高的分数(72.17%)。另一方面,阿里巴巴的Qwen作为最佳开源模型,显示出开源解决方案在LLM竞争环境中的强大能力。

你知道吗?

  • 测试集污染:当用于测试模型性能的数据无意中被包含在其训练数据中时,会导致过于乐观的性能评估。LiveBench通过使用频繁更新的当代问题来解决这一问题。
  • 基准评分:LiveBench根据客观的基准值自动评分,减少了人类或LLM评判可能产生的偏见。
  • 每月更新:为保持基准的相关性和挑战性,LiveBench每月更新其问题集,确保能够有效评估新兴LLM的能力。
  • 多样化的任务范围:基准包括来自数学、编程、推理、语言、指令遵循和数据分析等多个领域的任务,提供对LLM能力的全面评估。

LiveBench在LLM基准测试方面迈出了重要一步,随着人工智能领域的不断进步,它承诺提供更准确、公正和具有挑战性的评估。

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯