斯基GPT
主页|标签|归档|关于|RSS

🏷️ 标签: #Reasoning Benchmark

共找到 1 篇相关文章

$ 订阅我们——📱Telegram 频道◆📡RSS 订阅
首页→标签→#Reasoning Benchmark
2026/3/24

儿童智力测试对多模态大型语言模型的挑战?KidGym:一个基于2D网格的推理基准

多模态大型语言模型(MLLMs)结合了语言模型的语言优势和处理多模态数据的能力,使其能够解决更广泛的视觉任务。由于MLLMs旨在实现比仅语言模型更一般化的人类能力,研究灵感来源于韦氏智力量表,这是一种通过可解释和可测试的能力来评估儿童智力的成熟工具。KidGym是一个全面的2D网格基准,旨在评估MLLMs的五项基本能力:执行、感知推理、学习、记忆和规划。该基准包含12个独特任务,每个任务针对至少一...

#多模态大型语言模型#儿童智力测试#推理基准#能力评估#KidGym

🔗 相关标签

浏览所有标签 →

Powered by Cloudflare Workers + Payload CMS + Claude 3.5

数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等