• 网页
找到约 2 条相关结果

AutoCodeBench 是腾讯混元推出的专门测评大模型代码能力基准测试集,包含 3920 个问题,均匀分布在 20 种编程语言中。数据集具有高难度、实用性和多样性,能衡量大模型在多语言编程任务中的性能。基准测试集通过自动化工作流生成数据,保证高质量和覆盖度,且提供了简易版本(AutoCodeBench-Lite)和用在评估基础模型的版本(AutoCodeBench-Complete)。...详情>>