📄 中文摘要
提出了一种高效的令牌适配框架ETA-VLA,旨在优化视觉-语言-动作(VLA)模型在自动驾驶系统中的应用。该框架处理过去的多视角图像帧,并引入了一种新颖的内部LLM稀疏聚合器(ILSA),该聚合器灵感来源于人类驾驶员的注意力分配。ILSA能够动态识别和剪枝冗余信息,从而显著降低计算负担,尤其是在自注意力机制的二次复杂性方面。ETA-VLA的设计旨在提升时间推理的准确性,同时保持计算效率,为复杂场景的解析和控制命令的执行提供了更为高效的解决方案。
Powered by Cloudflare Workers + Payload CMS + Claude 3.5
数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等