#action regularization - SijiGPT

2026/4/1

通过世界-动作模型增强政策学习

该研究提出了世界-动作模型（WAM），这是一种通过动作正则化的世界模型，能够共同推理未来的视觉观察和驱动状态转变的动作。与传统的仅通过图像预测训练的世界模型不同，WAM在DreamerV2中引入了逆动态目标，通过潜在状态转变预测动作，促使学习的表示捕捉对下游控制至关重要的动作相关结构。WAM在CALVIN基准的八个操作任务中评估了政策学习的增强效果。首先，通过行为克隆在世界模型潜在空间上预训练扩散...

#世界-动作模型 #动作正则化 #潜在状态 #政策学习 #CALVIN基准

通过世界-动作模型增强政策学习

🔗 相关标签