斯基GPT
主页|标签|归档|关于|RSS

🏷️ 标签: #geometric understanding

共找到 1 篇相关文章

$ 订阅我们——📱Telegram 频道◆📡RSS 订阅
首页→标签→#geometric understanding
2026/3/20

摩擦的旋转位置嵌入与长输入:几何视角

旋转位置嵌入(RoPE)是一种在语言模型中广泛采用的位置编码技术,尽管其有效性显著,但在输入长度超过训练长度时会导致性能下降。已有分析指出,长输入会导致通道旋转“超出分布”,但额外的旋转如何与病态行为相关或导致病态行为尚不明确。通过实证和理论分析,提供了对RoPE下注意力行为的统一几何理解。研究发现,注意力机制导致分离的键和值潜在点云的紧密聚类,从而创建了“沉没令牌”:这些占位符使得注意力头在不需...

#旋转位置嵌入#长输入#注意力机制#几何理解#模型性能

🔗 相关标签

浏览所有标签 →

Powered by Cloudflare Workers + Payload CMS + Claude 3.5

数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等