AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集

智能 PRO 稿源：AI工具集 2025-08-22 12:23

AutoCodeBench是什么

AutoCodeBench 是腾讯混元推出的专门测评大模型代码能力基准测试集，包含 3920 个问题，均匀分布在 20 种编程语言中。数据集具有高难度、实用性和多样性，能衡量大模型在多语言编程任务中的性能。基准测试集通过自动化工作流生成数据，保证高质量和覆盖度，且提供了简易版本（AutoCodeBench-Lite）和用在评估基础模型的版本（AutoCodeBench-Complete）。

AutoCodeBench的主要功能

多语言代码能力评估：提供3920个问题，覆盖20种编程语言，全面衡量大模型的多语言代码生成能力。
高难度基准测试：支持设计高难度问题，有效识别大模型在复杂编程任务中的不足。
性能差异放大：基于筛选问题构建AutoCodeBench-Lite，放大不同模型间的性能差异，便于对比分析。
基础模型评估：用3-shot提示构建AutoCodeBench-Complete，专门评估基础模型的代码生成性能。
自动化代码数据生成：基于LLM生成测试输入并借助沙盒获取输出，合成高质量多语言代码生成数据。
多语言代码执行验证：提供MultiLanguageSandbox服务，支持30多种编程语言的编译和执行，验证生成代码的正确性。

AutoCodeBench的技术原理

自动化数据生成：AutoCodeGen 通过大语言模型（LLM）生成测试输入，将测试输入传递给沙盒环境。沙盒环境执行代码并返回测试输出，构造高质量的测试函数。基于逆序构造编程问题，确保生成的问题具有高难度和多样性。用多种策略过滤生成的数据，进一步保证数据的高质量、高难度和实用性。
多语言支持：AutoCodeBench 中的 3920 个问题均匀分布在 20 种编程语言中，确保每种语言都有足够的问题用在评估，避免语言分布不均的问题。MultiLanguageSandbox 支持超过 30 种编程语言的编译和执行，能验证生成代码在不同语言环境下的正确性和性能，确保模型在多种语言上的表现能得到准确评估。
高难度与实用性：基于逆序构造问题和策略过滤，生成的问题具有较高的难度，能有效评估模型在复杂编程任务中的表现。生成的问题难度高，具有实际应用价值，能反映真实编程场景中的复杂问题，帮助模型在实际应用中更好地发挥作用。