异质偏好对齐的个性化组相对策略优化

出处: Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

发布: 2026年3月12日

📄 中文摘要

大型语言模型（LLMs）虽然具备复杂的通用能力，但在对齐多样化个体偏好方面常常表现不佳。标准的后训练方法，如基于人类反馈的强化学习（RLHF），通常优化单一的全局目标。组相对策略优化（GRPO）作为一种广泛采用的在线强化学习框架，其基于组的归一化隐含假设所有样本是可交换的，这在个性化设置中继承了这一局限性。这一假设混淆了不同用户的奖励分布，系统性地将学习偏向于主流偏好，同时抑制了少数信号。为了解决这一问题，提出了个性化组相对策略优化（P-GRPO），该方法旨在更好地处理异质用户偏好，提升模型的个性化能力。

🏷️ 相关标签

#个性化 #组相对策略优化 #异质偏好 #强化学习 #用户偏好

📄 English Summary

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Large Language Models (LLMs) exhibit sophisticated general-purpose capabilities but often struggle to align with diverse individual preferences due to standard post-training methods like Reinforcement Learning with Human Feedback (RLHF), which optimize for a single global objective. Group Relative Policy Optimization (GRPO), a widely used on-policy reinforcement learning framework, implicitly assumes that all samples are exchangeable, inheriting this limitation in personalized contexts. This assumption conflates distinct user reward distributions, systematically biasing learning towards dominant preferences while suppressing minority signals. To address this issue, Personalized Group Relative Policy Optimization (P-GRPO) is introduced, aiming to better handle heterogeneous user preferences and enhance the model's personalization capabilities.

数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等

📄 中文摘要

🏷️ 相关标签

📄 English Summary

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

🏷️ Related Tags

📚 相关文章

AI 编程创造了新一类创作者。我就是其中之一。

人工智能成为我学习的助手

Claude CLI "泄露": 没有人赢，AI 仍然幻觉，企业仍在犯同样的错误