📄 中文摘要
自主 AI 代理在衍生品市场的应用加大了静态模型校准与实际对冲结果之间的差距。提出了两种强化学习框架:一种是新颖的期权定价复制学习(RLOP)方法,另一种是黑-舒尔斯(QLBS)中的自适应 Q 学习扩展。这些方法优先考虑短缺概率,并将学习目标与对下行风险敏感的对冲相结合。通过对 SPY 和 XOP 期权的实证分析,评估模型在实现路径 delta 对冲结果分布、短缺概率以及尾部风险度量(如预期短缺)方面的表现。结果表明,RLOP 在大多数情况下减少了短缺频率,并在压力测试中显示出明显的尾部风险改善。