悉尼大学与多所顶尖高校联手,让AI的眼睛学会“按需聚焦“

张开发
2026/6/23 19:34:30 15 分钟阅读
悉尼大学与多所顶尖高校联手,让AI的眼睛学会“按需聚焦“
这项由悉尼大学、中山大学与香港城市大学联合完成的研究以预印本形式发布于2026年4月论文编号为arXiv:2604.06912题为《Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models》感兴趣的读者可以通过该编号在arXiv平台查阅完整论文。**一、当AI试图看清一切反而什么都看不清**假设你正在找一份藏在杂乱书桌上的小纸条。你有两种策略一种是拍下整张桌子的超高清照片让每一粒灰尘都无所遁形另一种是先大致扫一眼确定纸条大概在哪个角落再凑近仔细看。显然第二种方式更聪明因为你不需要为了找一张纸条而把整张桌子的每一寸都放大到极致。当前最先进的多模态大型语言模型也就是那种既能看图又能回答问题的AI比如能读取发票、分析图表、回答图里的人在干什么的系统面临的困境恰好就是第一种策略的翻版。为了看清图片里的细节这些模型被迫把整张图拆解成海量的视觉碎片专业上叫视觉令牌然后让内部的计算引擎逐一审查每一个碎片与每一个碎片之间的关联。这个过程的计算量与碎片数量的平方成正比——碎片翻倍计算量翻四倍碎片增加四倍计算量就爆炸性地膨胀十六倍。悉尼大学的研究团队用实验数据说明了这种代价有多沉重。以Qwen2.5-VL-7B这个顶尖模型为例当视觉碎片从512个增加到2048个时系统处理速度几乎减慢一半从每秒处理4.6个样本骤降到2.2个。与此同时许多简单问题——比如图里的草地是什么颜色——根本不需要那么精细的分辨率就能准确回答。换句话说现有系统在绝大多数时候都在做杀鸡用牛刀的事白白浪费了大量计算资源。研究团队将这个问题概括为两类冗余一类是查询级冗余即不分场合地对所有问题都调用高分辨率哪怕问题根本不需要另一类是空间冗余即对整张图片均匀加高分辨率哪怕大部分背景区域与问题毫无关系。Q-Zoom框架正是为了同时解决这两类冗余而生的。**二、前辈们的尝试要么太慢要么太耗力**在Q-Zoom之前研究者们并非没有尝试解决这个问题但两条主要路径各有致命缺陷。第一条路径是无需训练的启发式方法其代表是ViCrop这类工具。这类方法的思路是让AI模型在回答问题之前先做一次内部预检把问题中的关键词和整张图对比找出哪些区域最相关然后裁出那个区域再精细处理。这听起来很聪明但执行起来有个隐患——为了找出那个相关区域模型需要先做一次完整的预回答相当于把大半的计算工作做了两遍。实测显示这类方法反而会把处理速度拖慢到原来的42%甚至更低比直接暴力拉高分辨率还要慢。第二条路径是基于强化学习的带图思考范式代表作包括DeepEyes和Thyme。这类模型被训练成一个会自言自语的侦探先用文字推理过程一步步分析我需要看哪里写出一长串分析过程专业术语叫思维链再决定裁取哪个区域。这种方式在准确性上确实有提升但带来了新的麻烦所有的思考都需要逐字逐句地生成本质上是把计算负担从图像处理转移到了文字生成上。Thyme这类系统的实测推理速度仅有基准模型的21%也就是说它比直接用原始模型慢了将近五倍。更糟的是训练这类模型需要海量的标注数据和极其昂贵的强化学习流程动辄要占用数十甚至数百块顶级GPU运行数周。研究团队通过横向对比清晰地看到了一个规律无论是预扫描两遍还是边想边看现有方法本质上都是在某个环节做了重复或多余的计算而没有真正做到只在需要的地方、只在需要的时候调用精细感知能力。Q-Zoom的设计目标就是填上这个空白。**三、Q-Zoom的核心架构一个轻量级的智能调度员**Q-Zoom的整体逻辑类似于一个经验丰富的图书管理员。当你走进图书馆提出一个问题时这位管理员会先快速判断这个问题通过浏览书脊上的标题就能回答还是需要翻开某本书的某一章对于前者她直接给你答案对于后者她精准地走到正确的书架拉出正确的那本书翻到正确的那一页。整个过程在图书馆的内部完成不需要把所有书都搬出来铺满地板再慢慢找。在技术实现上Q-Zoom由两个轻量级的子网络构成它们被嫁接在已经训练好的、保持冻结状态的基础模型上不改动原有模型的任何参数。第一个子网络叫做动态门控网络Dynamic Gating Network。在模型开始处理一张图片和一个问题的时候这个门控网络会接收图片和问题在模型内部的中间层表示然后输出一个介于0和1之间的概率分数表示这个问题需要精细视觉处理的可能性有多大。如果分数低于预设门槛系统直接用粗略的低分辨率特征生成答案如果分数超过门槛则触发第二个子网络介入。第二个子网络叫做自蒸馏区域提案网络Self-Distilled Region Proposal NetworkSD-RPN。它的职责是在模型的内部特征空间里预测一张热力图标记出图片中哪些区域与问题最相关。这张热力图经过平滑和二值化处理后被转换为一个最小外接矩形也就是感兴趣区域Region of InterestRoI的坐标。系统随即从原始高清图片中裁出这个区域重新编码为精细特征再把这些精细特征与之前的粗略特征合并交给语言模型生成最终答案。整个过程发生在模型处理输入的预填充阶段也就是模型在开始逐字输出答案之前的并行计算阶段。这意味着Q-Zoom不需要任何额外的推理步骤不产生任何思考文字也不需要运行两次完整的视觉编码流程。**四、门控网络是如何学会判断难度的**门控网络的训练面临一个微妙的难题如何给每个问题打上需要高分辨率或不需要高分辨率的标签而且这个标签必须准确可靠不能受到模型自身偶尔犯错的干扰直接的做法是用低分辨率跑一遍答对了就标不需要答错了就标需要。但这种做法有明显缺陷——如果模型答错可能是因为分辨率不够也可能是因为模型本身在胡说。这两种情况下都贴同一个标签会引入大量噪声。研究团队设计了一套一致性感知样本生成机制来解决这个问题。具体做法是对同一张图片和同一个问题用一系列从低到高的分辨率比如64个令牌、128个、256个、512个依次让模型回答得到一组答案序列。然后检查这组序列是否符合一个简单的规律低分辨率下答错高分辨率下答对而且这种转变是单调递增的。只有满足这种单调阶梯型规律的样本才被保留为训练数据。那些在低分辨率下偶然答对、高分辨率下反而出错的样本则被视为噪声丢弃。这种筛选机制确保了只有视觉分辨率本身是决定因素的样本才参与训练而不是让模型去学习随机的猜测模式。实验结果显示用这种方式生成的训练数据让门控网络的优化曲线更加平稳最终收敛到更低的损失值在推理时的路由决策也更加可靠。在实际推理时门控网络处理的是问题最后一个词对应的内部表示向量。由于语言模型内部的注意力机制是单向的最后一个词自然地聚合了所有前文信息——包括整张图片的粗略特征和问题的完整语义——因此它天然是一个综合判断的理想载体。门控网络把这个向量映射到一个0到1的概率分数这个打分过程的计算量极其微小几乎不增加任何推理延迟。**五、SD-RPN是如何学会精准圈出目标的**SD-RPN的核心能力是预测一张热力图准确标记出图片中与问题相关的像素区域。这种能力通常需要大量的人工标注数据来训练——比如这张图里的答案位置在左上角那个方块里——但人工标注不仅昂贵还难以大规模扩展。Q-Zoom的解决方案是完全自监督的也就是说它让模型用自己的内部直觉来生成训练信号无需任何人工标注。这里利用了一个关于语言模型内部运作的重要发现当模型在生成回答的时候它内部的注意力机制会自然地把注意力集中到与答案相关的视觉区域上。换句话说模型心里知道答案在哪里即使它没有被明确要求指出来。通过提取这些注意力权重可以得到一张粗糙的热力图大致标记出哪些图像区域对回答这个问题是重要的。然而原始的注意力图并不干净主要有两个噪声来源。第一种噪声来自汇聚令牌——这是视觉特征中的某些特殊位置它们会无差别地吸引大量注意力与问题内容毫无关系就像一个爱出风头的人在每次会议上都抢着发言无论议题是什么。研究者发现这类令牌在特征空间里有一个稳定的特征它们的特征向量长度L2范数异常大。通过设置一个长度阈值可以识别并过滤掉这些噪声制造者。第二种噪声来自前景与背景边界的模糊性。在过滤了汇聚令牌之后剩余的注意力分数分布仍然不整洁高分区域往往确实对应目标低分区域往往确实是背景但中间有大量的灰色地带——分数不高不低难以判断是目标还是背景。如果强行把这些模糊区域也纳入训练会让网络学到错误的分类边界。研究团队设计了一套三态标签策略来处理这个问题。他们只把注意力分数最高的那一小部分令牌比如前20%标为正样本前景只把这些高分令牌构成的最小包围框之外、且注意力分数最低的令牌比如最低5%标为负样本背景而把所有落在这两个极端之间的令牌标为忽略——在训练时这些位置不计算损失不强迫网络对它们做出判断。这种策略相当于只用最可信的证据来教网络而不强迫它在模糊证据上表态。用这套自生成标签训练出的SD-RPN其定位精度与用6.8万条人工标注真实边界框训练的版本不相上下这一对比实验有力地证明了自蒸馏路线的可行性。**六、让AI同时看全局又看局部位置编码的精巧设计**把裁剪出的局部高清区域和原始的全局低清图片同时送给语言模型会带来一个新麻烦语言模型需要知道这个局部区域在哪里否则它会把全局图和局部图当成两个完全独立的场景来理解就像把一张城市全景图和一张街道特写图当成两个完全不同的地方一样。为了解决这个空间感混乱的问题研究团队设计了一套连续时空位置编码方案其核心思想是借助两个维度的坐标信息来帮助模型建立这块局部区域是全局图的某个子区域的认知。在时间维度上全局图的视觉令牌被赋予时间戳t而局部RoI的令牌被赋予时间戳t加上一个偏移量δ。这个偏移量被设置为全局图像特征的最短边尺寸。这样一来模型在内部把RoI理解为叠加在全局图上方的一个更精细的时间层就像电影中的画中画效果次要画面叠在主画面之上两者共享同一个空间背景但处于不同的时间帧。在空间维度上RoI的每一个令牌都被赋予从全局图坐标系中直接插值出来的空间位置编码。由于RoI区域被重新编码后包含的令牌数量多于它在全局图中对应区域的令牌数量研究者对全局图的稀疏坐标网格做了插值生成一个密集坐标网格确保每个RoI令牌都精确对应全局坐标系中的一个具体位置。仅有位置编码还不够。预训练好的语言模型从未见过全局粗略 局部精细双流输入这种形式突然涌入大量高分辨率局部细节可能会让模型分心反而忽视了全局背景给出错误的空间推理答案。为了修正这个问题研究团队构建了一个专项微调数据集让基础模型和加了RoI输入但未微调的版本分别回答同一批问题用一个AI评判官同系列更大的模型来比较两组答案找出那些基础模型答对而RoI版本答错的样本大约筛选出7000条这类退步案例。然后只用这批精选数据对语言模型的权重进行微调专门教它如何在双流输入下平衡局部细节和全局背景。视觉编码器和特征映射层在这个阶段保持冻结只有语言模型本身的参数被更新从而避免灾难性遗忘。**七、在多少层切入才最合适深度与宽度的平衡实验**SD-RPN和门控网络都需要从基础模型的某一层接入利用那一层的内部特征来做定位预测。接入的层数越深特征越抽象越有语义信息但同时留给SD-RPN自身的处理空间也越少。接入太浅则特征太原始定位能力不足。研究团队在Qwen2.5-VL-7B这个28层的模型上做了系统扫描固定SD-RPN自身为3层分别在第3、9、15、18、21层接入测量性能。结果呈现出清晰的单峰曲线在第3层接入各项指标的综合平均为72.8分随着接入层数加深性能持续攀升到第18层达到78.9分的峰值进一步到第21层则下降到77.4分。这个结果与其他研究组通过探针实验把视觉-语言注意力矩阵提取出来测量其定位精度的方法发现的规律高度吻合Qwen2.5-VL-7B的第18层恰好是视觉定位能力最强的层。在SD-RPN自身深度R的选择上研究团队在固定接入层B18的前提下测试了R1到4。单层SD-RPN的平均得分为76.2两层升至78.4三层达到78.9四层则小幅回落至77.5。选择3层是在能力和开销之间的最优点。由此确定的配置是B18、R3这一参数在所有实验中保持统一。**八、实验数据说明了什么速度与精度的双赢**Q-Zoom在两大类基准测试上接受了全面检验。第一类是文档理解与文字识别包括DocVQA、InfoVQA、ChartQA、OCRBench和TextVQA第二类是高分辨率视觉理解包括V*、MME-RealWorld和HR-Bench。在以Qwen2.5-VL-7B为基础的实验中Q-Zoom的综合得分在文档类测试上达到85.6分相比基础模型的81.8分提升了3.8个百分点同时推理速度是基础模型的0.81倍基础模型受制于更多视觉令牌实际吞吐更低。与训练无关的基线ViCrop相比Q-Zoom快了将近两倍与依赖强化学习的AdaptVision相比Q-Zoom的推理速度高达其十倍以上因为AdaptVision的吞吐仅为基础模型的6%。更具说服力的是帕累托前沿实验通过调整Q-Zoom允许使用的最大视觉令牌数绘制出精度与吞吐量的权衡曲线。在文档类测试上基础模型在使用4096个令牌时达到85.9分的峰值。Q-Zoom仅用最多1024个令牌就超越了这个峰值达到86.1分同时推理速度是4096令牌基础模型的2.52倍视觉令牌用量减少53%。在高分辨率测试上这种优势更加悬殊Q-Zoom用最多576个令牌就达到66.7分不仅超过基础模型4096令牌时的64.2分还实现了4.39倍的加速和73.2%的令牌节省。Q-Zoom对不同基础模型的适配性也经过了验证。在更小的Qwen2.5-VL-3B上文档类平均得分从76.9提升到82.0高分辨率平均得分从60.0提升到66.8。在较新的Qwen3-VL-4B上两项提升分别为3.2和6.8个百分点。在经典的LLaVA-1.5-7B和13B上文档类平均得分分别提升7.2和8.1个百分点尽管由于LLaVA原始分辨率较低门控网络几乎对所有问题都触发了RoI分支速度提升效果相对有限。最值得关注的一组实验是把Q-Zoom叠加到已经用强化学习增强过的模型上。ZwZ-Qwen2.5-VL-7B是一个经过专门强化训练、本已具备较强精细感知能力的模型其高分辨率综合得分为69.3分。在此基础上叠加Q-Zoom后得分进一步提升到75.9分增幅6.6个百分点。ZwZ-Qwen3-VL-4B则从72.5分提升到77.7分。这说明Q-Zoom提供的感知增益并不依赖于模型是否已经很强它能从正交角度补充那些强化训练无法触达的视觉细节处理能力。**九、用一个具体场景感受Q-Zoom的工作方式**以论文中展示的TextVQA案例为例。图片是一张赛场边的广告牌照片问题是轮胎上方写的是哪个城市。广告文字在原图中非常微小大约只占整张图片面积的百分之一。基础的Qwen2.5-VL-7B在全局低分辨率下处理这张图片那块细小的文字被大幅压缩模型感觉那里写了什么城市但字迹已经模糊到难以分辨于是猜了一个Pittsburgh答案错误。Q-Zoom的处理过程是这样的先用512个令牌的粗略分辨率完成初步处理门控网络给出高概率的需要精细处理判断。SD-RPN随即在内部特征空间生成一张热力图热力图上有一个清晰的高亮区域正好对应广告牌所在位置。系统从原始高清图片中裁出这个区域重新编码后拼接到原有的特征序列中语言模型结合全局背景和局部精细特征准确读出Philadelphia。另一个V*基准的案例是寻找一张杂乱场景图片中某把扫帚的颜色。基础模型猜了GrayQ-Zoom通过热力图精准锁定扫帚位置裁出局部高清图后正确回答Black。这两个案例直观地说明了Q-Zoom解决分辨率诱导幻觉的核心价值。---说到底Q-Zoom做的事情和一个经验丰富的人类专家处理信息的方式完全一致先整体扫视判断哪里需要深入然后只对那个地方集中注意力。这个思路听起来简单但在AI系统中真正实现它需要三个精巧的设计缺一不可——能判断问题难度的门控、能精准定位目标的区域提案网络、以及能让局部细节和全局背景和谐共存的位置编码与微调机制。从实际应用角度看这项研究的意义在于它大幅降低了高质量视觉AI的计算门槛。同样的GPU硬件在Q-Zoom的加持下处理文档理解任务的速度可以提升2.5倍以上处理高分辨率图片的速度可以提升4倍以上而精度不仅没有下降反而还有提升。对于需要大规模部署视觉AI的企业来说这意味着实实在在的服务器成本节约和用户体验改善。这项研究也让人思考一个更宏观的问题AI系统是否总需要看到所有细节才能做出正确判断答案显然是否定的而且人类大脑处理视觉信息的方式早就告诉了我们这一点——眼睛的高分辨率感光区只有视野中心那一小块其余大部分都是低分辨率的外周视觉大脑会主动把注意力引导到需要精细处理的地方。AI系统模仿这种选择性注意力机制或许是通往更高效、更像人类感知方式的重要路径之一。对这个方向感兴趣的读者可以通过arXiv编号2604.06912查阅完整论文或者访问研究团队的项目主页获取更多技术细节和演示。---**QA**Q1Q-Zoom和普通的高分辨率AI视觉模型相比到底快在哪里A普通高分辨率模型会对整张图片的每个区域都进行精细处理计算量随分辨率提升呈平方级增长。Q-Zoom引入了两个机制来避免这种浪费门控网络会先判断问题是否真的需要高分辨率如果不需要就跳过精细处理如果需要SD-RPN只裁取图片中与问题相关的局部区域进行精细编码而不是处理整张图。在文档理解任务中实测推理速度可提升约2.5倍在高分辨率场景下可提升约4.4倍。Q2SD-RPN的训练不需要人工标注那它的定位准确性有保障吗A研究团队用实验直接比较了两种训练方式一种是用自动生成的伪标签18.5万条另一种是用6.8万条真实人工标注的边界框。两种方式训练出的模型在综合基准测试上的平均得分几乎相同分别为78.9和78.0差距在统计噪声范围内。这个对比实验确认了自蒸馏生成的训练数据质量足够支撑实用级别的定位能力不依赖昂贵的人工标注。Q3Q-Zoom能用在手机或边缘设备上吗AQ-Zoom本身是一个插件式模块叠加在已有的视觉语言模型上不改变基础模型结构。论文中验证的模型规模包括30亿参数的Qwen2.5-VL-3B这个量级已经接近部分高端手机可运行的范围。更重要的是Q-Zoom通过减少50%到73%的视觉令牌使用量大幅降低了内存占用和计算需求客观上为在资源受限设备上运行高质量视觉模型提供了可能性但论文中并未专门针对手机硬件进行测试。

更多文章