📄 中文摘要
大型语言模型(LLMs)在需要战略决策的互动环境中越来越多地被部署,但对这些能力的系统评估仍然面临挑战。现有的 LLM 基准主要通过孤立任务评估静态推理,未能捕捉动态战略能力。近期的基于游戏的评估采用 LLM 对 LLM 的比赛,产生依赖于瞬时模型池的相对排名,导致计算成本呈二次增长,并缺乏稳定的性能锚点以进行长期跟踪。核心挑战在于建立一个可扩展的评估框架,该框架能够根据一致且可解释的标准测量 LLM 的战略推理,而不是依赖于波动的同行模型。
出处: BotzoneBench: Scalable LLM Evaluation via Graded AI Anchors
发布: 2026年2月17日
Powered by Cloudflare Workers + Payload CMS + Claude 3.5
数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等