斯基GPT
主页|标签|归档|关于|RSS

🏷️ 标签: #constraint inference

共找到 1 篇相关文章

$ 订阅我们——📱Telegram 频道◆📡RSS 订阅
首页→标签→#constraint inference
2026/3/26

基于偏好约束推断的安全强化学习

安全强化学习是一种用于安全关键决策的标准范式。然而,现实世界中的安全约束往往复杂、主观,甚至难以明确指定。现有的约束推断方法依赖于严格的假设或大量的专家示范,这在许多实际应用中并不现实。如何以低成本和高可靠性学习这些约束是本研究关注的主要挑战。通过从人类偏好中推断约束提供了一种数据高效的替代方案,但发现流行的Bradley-Terry模型未能捕捉安全成本的非对称性和重尾特性,导致风险低估。文献中对...

#安全强化学习#约束推断#人类偏好#风险估计

🔗 相关标签

浏览所有标签 →

Powered by Cloudflare Workers + Payload CMS + Claude 3.5

数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等