斯基GPT
主页|标签|归档|关于|RSS

🏷️ 标签: #medical benchmarking

共找到 1 篇相关文章

$ 订阅我们——📱Telegram 频道◆📡RSS 订阅
首页→标签→#medical benchmarking
2026/3/26

利用计算机自适应测试进行大语言模型在医学基准评估中的成本效益评估

随着大型语言模型(LLMs)在医疗领域的迅速普及,迫切需要可扩展且具有心理测量学基础的评估方法。传统的静态基准测试在重复实施时成本高昂,易受数据污染影响,且缺乏细致性能跟踪所需的校准测量特性。研究提出并验证了一种基于项目反应理论(IRT)的计算机自适应测试(CAT)框架,以高效评估LLMs的标准化医学知识。研究设计分为两个阶段:首先进行蒙特卡罗模拟以确定最佳CAT配置,其次使用经过人工校准的医学题...

#计算机自适应测试#大型语言模型#医学基准评估#心理测量学#项目反应理论

🔗 相关标签

浏览所有标签 →

Powered by Cloudflare Workers + Payload CMS + Claude 3.5

数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等