📄 中文摘要
一项与牛津大学相关的研究发现,大型语言模型在医疗摘要中产生临床不安全内容或幻觉的概率约为32%。这一缺陷并非微不足道,表明当前系统作为自主临床参与者的安全性不足。对于医疗领导者而言,核心问题在于:大型语言模型的失败频率、失败方式,以及治理和技术控制是否能够有效降低风险。研究指出,三分之一的临床问题输出排除了无监督的床边使用,但在严格控制的辅助工作流程中可能是可以接受的。
出处: Oxford’s 32% Error Rate: How Safe Are Medical LLMs, Really?
发布: 2026年2月11日
Powered by Cloudflare Workers + Payload CMS + Claude 3.5
数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等