斯基GPT
主页|标签|归档|关于|RSS

🏷️ 标签: #harmful queries

共找到 1 篇相关文章

$ 订阅我们——📱Telegram 频道◆📡RSS 订阅
首页→标签→#harmful queries
2026/3/24

通过嵌入空间分离增强大型语言模型的安全性

大型语言模型(LLMs)在能力上取得了显著进展,但确保其对有害提示的安全性仍然是一个关键挑战。研究表明,LLMs中有害查询和安全查询的潜在表示(嵌入)通常具有线性可分性,这一特性被用于通过扰动有害查询的嵌入向安全子空间构建攻击。基于这一观察,提出了一种名为嵌入空间分离(ES2)的表示级微调方法,通过显式扩大有害和安全表示在嵌入空间中的距离来提高LLM的安全性。为了防止模型一般能力的下降,引入了一种...

#大型语言模型#安全性#嵌入空间分离#表示级微调#有害查询

🔗 相关标签

浏览所有标签 →

Powered by Cloudflare Workers + Payload CMS + Claude 3.5

数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等