📄 中文摘要
提出了DeepVision-103K,这是一个针对可验证奖励的强化学习(RLVR)训练的综合数据集,涵盖了多样化的K12数学主题、广泛的知识点和丰富的视觉元素。现有数据集主要来源于小规模的手动构建或先前资源的重组,限制了数据的多样性和覆盖范围,进而影响模型性能的提升。使用DeepVision训练的模型在多模态数学基准测试中表现出色,并能有效地推广到一般的多模态推理任务。
Powered by Cloudflare Workers + Payload CMS + Claude 3.5
数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等