PawBench 是通义实验室推出的通用智能体评测基准,面向个人助理与 Agent 场景,将底座模型与运行框架(Harness)纳入同一评测体系。PawBench v1.0 构建了 150 道真实任务、4050 个测试单元的评测集,通过 9 个模型 × 3 个 Harness 的交叉评测,能评估模型+Harness的最佳组合,帮 Harness 开发者精准定位问题并验证优化。...详情>>
PawBench是什么PawBench 是通义实验室推出的通用智能体评测基准,面向个人助理与 Agent 场
PawBench是什么PawBench 是通义实验室推出的通用智能体评测基准,面向个人助理与 Agent 场景,将底座模型与运行框架(Harness)纳入同一评测体系。PawBench v1.0 构建