Lecun团队发布LiveBench基准测试,GPT-4o与阿里巴巴Qwen表现卓越
人工智能领域的先驱Yann Lecun及其团队推出了LiveBench,这是一个针对大型语言模型(LLMs)的新型基准测试平台。LiveBench旨在解决测试集污染问题,即测试数据被包含在模型的训练集中,从而影响评估的公正性和准确性。该创新基准包含从数学竞赛、arXiv论文、新闻文章及数据集中提取的频繁更新的问题,覆盖了数学、编程、推理、语言、指令遵循和数据分析等多项挑战性任务。
LiveBench评估了从0.5亿到110亿参数不等的众多闭源和开源模型。最新排行榜显示,GPT-4o位居总榜首位,而阿里巴巴的Qwen则成为最佳开源LLM。这一开创性举措旨在确保随着LLMs的发展,其能力得到严格和公正的评估。
主要发现
- LiveBench介绍:Yann Lecun团队设计的新LLM基准,旨在避免测试集污染及人为或LLM评判带来的偏见。
- 广泛多样的任务:基准测试涵盖了数学、编程、推理、语言、指令遵循和数据分析等多种任务。
- 频繁更新:问题定期从最新来源更新,确保基准测试保持时效性和挑战性。
- 顶尖表现者:GPT-4o在整体性能上领先,阿里巴巴的Qwen则脱颖而出,成为最佳开源LLM。
分析
LiveBench的推出标志着大型语言模型评估的重大进步,传统基准常受测试集污染影响,导致新模型在测试数据上表现过高。LiveBench通过使用来自当代信息的频繁更新问题,如最近的数学竞赛、arXiv论文和新闻文章,确保评估既具挑战性又相关。
此外,LiveBench的自动评分系统依赖于客观的基准值,减少了人类或LLM评判可能产生的偏见,这对于评分复杂问题尤为重要,因为主观判断可能差异很大。
该基准包含广泛的任务,使其成为评估LLM能力的全面工具。这些任务不仅范围广泛,而且设计为现有基准(如Big-Bench Hard、AMPS、bAbI和IFEval)中任务的更难、无污染版本。
LiveBench的初步结果显示,GPT-4o以53.79%的全球平均分位居榜首,展示了其在推理、编程、数学和数据分析等多个类别的强大性能。值得注意的是,GPT-4o在指令遵循方面取得了特别高的分数(72.17%)。另一方面,阿里巴巴的Qwen作为最佳开源模型,显示出开源解决方案在LLM竞争环境中的强大能力。
你知道吗?
- 测试集污染:当用于测试模型性能的数据无意中被包含在其训练数据中时,会导致过于乐观的性能评估。LiveBench通过使用频繁更新的当代问题来解决这一问题。
- 基准评分:LiveBench根据客观的基准值自动评分,减少了人类或LLM评判可能产生的偏见。
- 每月更新:为保持基准的相关性和挑战性,LiveBench每月更新其问题集,确保能够有效评估新兴LLM的能力。
- 多样化的任务范围:基准包括来自数学、编程、推理、语言、指令遵循和数据分析等多个领域的任务,提供对LLM能力的全面评估。
LiveBench在LLM基准测试方面迈出了重要一步,随着人工智能领域的不断进步,它承诺提供更准确、公正和具有挑战性的评估。