上海交大、上海 AI 实验室、港中文等带来最新成果 MIA-DPO,这是面向大型视觉语言模型的多图像增强的偏好对齐方法。它将单图像数据扩展至多图像数据,设计了序列、网格拼贴和图中图三种数据格式,降低数据收集和标注成本且具高度可扩展性。理解多图像上下文是视觉语言大模型发展趋势之一,但多图像易产生幻觉问题且可能削弱单图像任务表现,多图像偏好对齐仍是难题,MIA-DPO 无需人工标注或昂贵 API 解决了该问题。通过分析视觉大语言模型在多图像处理中的注意力分布差异,提出基于注意力的选择方法,自动过滤错误答案,构建自动化、低成本的多图像场景 DPO 数据生成方法,并引入后选择步骤过滤噪声样本。
MIA-DPO 构建了三种格式的多图像 DPO 数据,在多个多图和单图 benchmarks 上测试显示,能显著提升模型多图感知与推理能力,同时保持模型原有的单图理解能力,为多图像场景中对齐模型与人类偏好提供全新解决方案,推动了 LVLMs 在复杂多图像任务中的应用,为未来研究奠定基础。