📄 中文摘要
一项研究评估了仓库级上下文文件是否真正帮助编码代理解决任务。研究结果出乎意料:无论是 LLM 生成的还是开发者撰写的上下文文件,成功率均有所下降,同时成本增加。该论文测试了 AGENTS.md 文件在两个基准测试中的表现,包括 SWE-bench Lite 和一个名为 AGENTbench 的自定义数据集,涵盖了 12 个仓库中的 138 个真实任务。在使用 GPT-4o 的 SWE-bench Lite 中,无上下文基线的任务解决率为 33.5%,而添加 LLM 生成的上下文后,该比例降至 32%。