📄 中文摘要
视觉语言模型(VLM)容易出现错误,识别这些错误发生的地方对于确保人工智能系统的可靠性和安全性至关重要。研究提出了一种自动生成问题的方法,旨在故意诱导VLM产生错误响应,从而揭示其脆弱性。该方法的核心在于模糊测试和强化微调:通过视觉和语言模糊化,将单一输入查询转化为大量多样化的变体。基于模糊测试的结果,问题生成器通过对抗性强化微调进行进一步指导,以生成越来越具挑战性的查询,从而触发模型失败。通过这种方法,可以持续识别和分析VLM的潜在缺陷。
出处: FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures
发布: 2026年3月10日
Powered by Cloudflare Workers + Payload CMS + Claude 3.5
数据源: OpenAI, Google AI, DeepMind, AWS ML Blog, HuggingFace 等