📄 中文摘要
在现实世界中,规划常常面临分布变化的挑战。在一种条件下获得的环境模型可能在状态分布或环境动态变化时失效,从而导致先前学习的策略失败。提出了一种基于因果知识的部分可观测马尔可夫决策过程(POMDP)的理论框架,用于在部分可观测性下进行规划。通过将环境的变化表示为对该因果 POMDP 的干预,该框架能够评估在假设变化下的计划,并主动识别环境中被改变的组件。研究展示了如何维护和更新信念状态,以适应这些变化。
出处: Planning under Distribution Shifts with Causal POMDPs
发布: 2026年3月2日
Powered by Cloudflare Workers + Payload CMS + Claude 3.5
数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等