不要放弃 AGENTS.md — 修复其中的问题

出处: Don't Ditch AGENTS.md — Fix What's In It

发布: 2026年2月24日

📄 中文摘要

一项研究评估了仓库级上下文文件是否真正帮助编码代理解决任务。研究结果出乎意料:无论是 LLM 生成的还是开发者撰写的上下文文件,成功率均有所下降,同时成本增加。该论文测试了 AGENTS.md 文件在两个基准测试中的表现,包括 SWE-bench Lite 和一个名为 AGENTbench 的自定义数据集,涵盖了 12 个仓库中的 138 个真实任务。在使用 GPT-4o 的 SWE-bench Lite 中,无上下文基线的任务解决率为 33.5%,而添加 LLM 生成的上下文后,该比例降至 32%。

📄 English Summary

Don't Ditch AGENTS.md — Fix What's In It

A recent study evaluated whether repository-level context files are genuinely helpful for coding agents in solving tasks. The findings are counterintuitive: both LLM-generated and developer-authored context files tend to decrease success rates while increasing costs. The paper tested AGENTS.md files across two benchmarks: SWE-bench Lite and a custom dataset called AGENTbench, covering 138 real tasks across 12 repositories. On SWE-bench Lite with GPT-4o, the no-context baseline resolved 33.5% of tasks, while adding LLM-generated context dropped that to 32%.

Powered by Cloudflare Workers + Payload CMS + Claude 3.5

数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等