斯基GPT
主页|标签|归档|关于|RSS

🏷️ 标签: #Scientific Reasoning

共找到 1 篇相关文章

$ 订阅我们——📱Telegram 频道◆📡RSS 订阅
首页→标签→#Scientific Reasoning
2026/3/13

DeReason:一种基于难度感知的课程改进了解耦的SFT-再强化学习训练以增强通用推理能力

强化学习与可验证奖励(RLVR)已成为激发大型语言模型推理能力的强大范式,尤其在数学和编程领域。尽管近期努力将这一范式扩展到更广泛的科学(STEM)领域,但在这些背景下,监督微调(SFT)与RL之间复杂的相互作用仍未得到充分探讨。控制实验揭示了一个关键挑战:在通用STEM领域,直接对基础模型应用RL的样本效率极低,且在中等质量响应上始终被SFT所超越。然而,依次进行SFT和RL的训练可以进一步提升...

#强化学习#可验证奖励#监督微调#科学推理#样本效率

🔗 相关标签

浏览所有标签 →

Powered by Cloudflare Workers + Payload CMS + Claude 3.5

数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等