最新 AI 论文盘点(2026-04-11):5 篇新作看个性化对齐、Agent 在线训练、病理路由与视频运动控制

张开发
2026/6/8 12:13:08 15 分钟阅读
最新 AI 论文盘点(2026-04-11):5 篇新作看个性化对齐、Agent 在线训练、病理路由与视频运动控制
最新 AI 论文盘点2026-04-115 篇新作看个性化对齐、Agent 在线训练、病理路由与视频运动控制昨天这批论文如果放在一起看有一个很明显的共同点大家越来越少在比“谁的 headline 更大”而是在比谁更能把系统里的真实瓶颈拆清楚。比如reward model 到底懂不懂用户个人偏好Agent 在线训练真正浪费的是模型能力还是环境样本视频生成里的“控制”为什么常常看起来能动、但就是不听指挥病理 WSI 里的 MoE 为什么总容易退化成少数专家在干活低资源翻译里把规则写进 prompt模型就真的能稳定执行吗这类问题有一个共同特征它们都不是“规模再大一点”就一定能自动解决的。昨天我挑 5 篇来盘分别来自 LLM 对齐、Agent、视频生成、计算病理和机器翻译方向。它们未必每一篇都会成为最热话题但都很适合判断未来系统真正卡住的位置到底在哪。1Personalized RewardBenchreward model 离“理解个体偏好”还差多远arXiv2604.07343标题Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization方向LLM 对齐 / reward model / 个性化偏好评测这篇论文瞄准的是一个过去很容易被“平均分”掩盖的问题一个 reward model 在通用偏好评测上表现不错是否就代表它真的理解不同用户之间的偏好差异作者给出的答案并不乐观。他们提出了 Personalized RewardBench核心不在于再做一个普通偏好基准而是刻意把问题改成两个回答都不差区别主要来自是否符合某个具体用户的个人 rubric模型需要区分“普遍可接受”与“这个人真正更喜欢哪个”实验结果显示当前最强 reward model 在这项任务上的准确率峰值也只有 75.94%。这说明通用对齐和个体对齐不是一回事。如果你在做个性化助手、AI 陪伴、企业风格化 agent、reward reranking 系统这篇论文很值得看。2Android Coach在线 Agent 训练的关键不一定是更多 rollout而是把昂贵状态榨干arXiv2604.07277标题Improve Online Agentic Training Efficiency with Single State Multiple Actions方向Agent / 在线强化学习 / Android 智能体这篇论文抓的问题很现实。现在很多 Android Agent、GUI Agent 的训练都卡在一个地方环境交互太贵。模拟器慢、在线 rollouts 成本高、采样效率差导致训练非常烧资源。作者指出很多现有方法默认采用的是 Single State / Single Action也就是每拿到一个在线状态只采一个动作样本来更新策略。问题是这会严重浪费昂贵状态。所以他们提出 Android Coach把思路改成 Single State Multiple Actions。核心包括对同一个在线状态采多个动作候选用 critic 估计 action value引入 process reward model 提升 critic 可靠性用 group-wise advantage estimator 改进训练信号结果上它在 AndroidLab 和 AndroidWorld 上相比 UI-TARS-1.5-7B 拿到了 7.5% / 8.3% 的成功率提升并在同等成功率下实现 1.4x 的训练效率提升。这篇论文真正值得记住的不只是 Android Agent而是在提醒我们很多 agent 训练瓶颈不一定是模型不会而是昂贵交互样本被浪费了。3MoRight视频生成里最难的不是“让它动”而是把运动变量拆对arXiv2604.07348标题MoRight: Motion Control Done Right方向视频生成 / 可控生成 / 运动控制很多视频生成方法号称能做 motion control但实际体验往往是物体在动镜头也在动场景关系也在变最后用户根本说不清到底哪一部分是自己控制出来的MoRight 这篇论文抓住的正是这个问题。作者认为现有方法里有两个核心混淆相机运动和物体运动纠缠在一起运动只被看成像素位移没有显式建模动作后果之间的因果关系他们的做法是把 motion 更细地拆开在 canonical static-view 下指定 object motion通过 temporal cross-view attention 转到目标视角把 motion 分成 active用户驱动和 passive后果响应两类这篇工作的意义不是“又一个控制视频的框架”而是它在提醒大家视频里的控制不是一个单变量问题。4ROAM病理 WSI 的 MoE 路由不能只靠 softmax 自己学arXiv2604.07298标题Region-Graph Optimal Transport Routing for Mixture-of-Experts Whole-Slide Image Classification方向计算病理 / WSI / MoE / MIL这篇论文对 AI 医疗、多模态病理这条线很值得关注。它讨论的是病理全视野图像WSI分类中的一个长期问题。当前很多方法还是 MIL 框架一张超大病理切片拆成很多 patch模型聚合 patch 级特征做 slide-level 分类问题在于如果所有 instance 都走同一条共享路径模型很难对病理异质性进行真正有区分度的建模。MoE 看起来是自然方向但又容易遇到另一个老毛病softmax routing 经常失衡最后只有少数 expert 在承担大部分工作。ROAM 的核心思路是先把 dense patch 压缩成 spatial region tokens用 entropic optimal transport 做 region-to-expert assignment加容量约束避免专家利用失衡引入 graph-regularised Sinkhorn让空间相邻区域的路由更一致实验里ROAM 在多个 benchmark 上表现有竞争力并在 NSCLC 外部泛化上拿到 AUC 0.845 ± 0.019。这篇论文比“换个更大 backbone”更值得长期关注因为它在认真回答病理场景下MoE 到底应该怎么路由才不塌。5In-Context Translation把语法说明塞进 prompt不等于模型就能稳翻arXiv2604.07320标题Evaluating In-Context Translation with Synchronous Context-Free Grammar Transduction方向机器翻译 / in-context learning / 低资源语言这篇论文的切口很妙。很多人对低资源翻译有一种直觉如果训练数据不够那能不能把词典、语法规则、教材式说明直接塞进 prompt让模型“现场学会翻译”听起来很合理。但问题是模型真的会把这些形式规则稳定地转成翻译行为吗作者设计了一个比较干净的形式化测试用 synchronous context-free grammar 构造语言对把语法规则和输入句子一起给模型观察模型是否能按规则完成转导他们系统分析了 grammar size、sentence length、morphology 差异、written script 差异。结论很清楚grammar 变大性能下降明显句子变长性能下降明显形态差异、书写系统差异都会显著拖累表现常见错误包括错译、幻觉新词、保留未翻译源词这篇论文的重要性在于它帮很多“规则写进 prompt 就行”的乐观想法降了温。六、把这 5 篇放在一起昨天最值得记住什么如果要用一句话概括昨天这批论文我会说AI 研究正在从“泛能力堆高”走向“系统失真点拆解”。这 5 篇分别在拆不同层面的错位Personalized RewardBench通用偏好 vs 个体偏好Android Coach环境成本 vs 训练利用率MoRight控制需求 vs 控制接口设计ROAM病理异质性 vs 路由退化In-Context Translation规则可描述 vs 规则可执行七、如果你现在在做系统昨天最值得优先跟进哪几篇做 LLM 对齐 / 长期助手Personalized RewardBench做 Agent / GUI Agent / Browser AgentAndroid Coach做视频生成 / 世界模型 / 可控多模态MoRight做 AI 医疗 / 数字病理 / 多模态病理ROAM做低资源翻译 / 规则增强生成In-Context Translation八、最后总结昨天这批论文给我的整体感觉不是“又一个大一统新范式来了”而是研究在越来越认真地处理那些过去常被一句话带过的系统问题。因为当研究开始认真面对偏好不是平均值交互样本不是无限的控制变量不是一句 prompt 就能讲清楚的路由机制不是 softmax 一跑就自然合理规则描述不等于规则执行那么很多看起来更“土”的问题反而会逐渐变成真正决定系统上限的问题。

更多文章