
AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集
AutoCodeBench是什么
AutoCodeBench 是腾讯混元推出的专门测评大模型代码能力基准测试集,包含 3920 个问题,均匀分布在 20 种编程语言中。数据集具有高难度、实用性和多样性,能衡量大模型在多语言编程任务中的性能。基准测试集通过自动化工作流生成数据,保证高质量和覆盖度,且提供了简易版本(AutoCodeBench-Lite)和用在评估基础模型的版本(AutoCodeBench-Complete)。
AutoCodeBench的主要功能
多语言代码能力评估:提供3920个问题,覆盖20种编程语言,全面衡量大模型的多语言代码生成能力。
高难度基准测试:支持设计高难度问题,有效识别大模型在复杂编程任务中的不足。
性能差异放大:基于筛选问题构建AutoCodeBench-Lite,放大不同模型间的性能差异,便于对比分析。
基础模型评估:用3-shot提示构建AutoCodeBench-Complete,专门评估基础模型的代码生成性能。
自动化代码数据生成:基于LLM生成测试输入并借助沙盒获取输出,合成高质量多语言代码生成数据。
多语言代码执行验证:提供MultiLanguageSandbox服务,支持30多种编程语言的编译和执行,验证生成代码的正确性。
AutoCodeBench的技术原理
自动化数据生成:AutoCodeGen 通过大语言模型(LLM)生成测试输入,将测试输入传递给沙盒环境。沙盒环境执行代码并返回测试输出,构造高质量的测试函数。基于逆序构造编程问题,确保生成的问题具有高难度和多样性。用多种策略过滤生成的数据,进一步保证数据的高质量、高难度和实用性。
多语言支持:AutoCodeBench 中的 3920 个问题均匀分布在 20 种编程语言中,确保每种语言都有足够的问题用在评估,避免语言分布不均的问题。MultiLanguageSandbox 支持超过 30 种编程语言的编译和执行,能验证生成代码在不同语言环境下的正确性和性能,确保模型在多种语言上的表现能得到准确评估。
高难度与实用性:基于逆序构造问题和策略过滤,生成的问题具有较高的难度,能有效评估模型在复杂编程任务中的表现。生成的问题难度高,具有实际应用价值,能反映真实编程场景中的复杂问题,帮助模型在实际应用中更好地发挥作用。
AutoCodeBench的项目地址
项目官网:https://autocodebench.github.io/
GitHub仓库:https://github.com/Tencent-Hunyuan/AutoCodeBenchmark
HuggingFace模型库:https://huggingface.co/datasets/tencent/AutoCodeBenchmark
arXiv技术论文:https://arxiv.org/pdf/2508.09101
AutoCodeBench的应用场景
模型性能评估:用在全面衡量大模型在多语言编程任务中的代码生成能力,帮助识别模型的强项和弱点。
数据集构建与优化:生成高质量、高难度的代码生成数据集,支持自定义数据集构建,提升模型训练效果。
多语言能力验证:验证大模型在不同编程语言(包括低资源语言)中的表现,推动多语言编程能力的研究。
模型训练与验证:作为训练数据补充,提升模型复杂编程任务表现,并定期验证训练效果。
学术与工业应用:为学术研究提供标准化基准,支持工业场景中代码生成工具的开发与优化。
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

随时掌握互联网精彩
- 1 学习新语|教师节快乐 7904836
- 2 以色列袭击卡塔尔后 卡塔尔首相发声 7809262
- 3 囤LABUBU的黄牛哭了:根本没人接盘 7712032
- 4 向所有老师说一声节日快乐 7616327
- 5 美议员公布UFO画面:导弹击中仍飞行 7521391
- 6 张惠妹决定无限期停工 7424030
- 7 当网警遇上教师节 他们是别样的教师 7334241
- 8 新增橙色配色 iPhone 17 Pro丑吗 7237883
- 9 以色列为何突然袭击卡塔尔 7141878
- 10 一场雷雨后400名患者涌进急诊 7039283