📄 中文摘要
在最新的 SWE-bench 验证测试中,验证了一种新的 AI 调试范式:基于运行时事实的系统调试。通过在 Live-SWE-agent 架构中引入动态追踪机制,为模型提供运行时上下文,使用 Google Gemini 3 Pro 模型实现了理论上的 83.4% 修复率,标志着迄今为止在 SWE-bench 验证评估中已知的最高性能。与同一模型在原始 Live-SWE-agent 上的 77.4% 基线性能相比,成功修复了以前无法解决的复杂错误,充分利用了运行时事实作为决策依据。
出处: Achieving an 83.4% Fix Rate on SWE-bench Verified with Runtime Facts
发布: 2026年2月26日
Powered by Cloudflare Workers + Payload CMS + Claude 3.5
数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等