记忆摘要要有中间监督:从 MMPO 看长程 Agent 的记忆策略优化
arXiv:2605.30159 提出用 Belief Entropy 给长程 Agent 的递归记忆摘要做中间奖励:问题不只是摘要能否变短,而是每一步摘要后,Agent 对任务状态、缺口信息和后续动作的信念是否更清楚。
Category
arXiv:2605.30159 提出用 Belief Entropy 给长程 Agent 的递归记忆摘要做中间奖励:问题不只是摘要能否变短,而是每一步摘要后,Agent 对任务状态、缺口信息和后续动作的信念是否更清楚。
从 arXiv:2606.02461 AgentCL 看,Agent 长期记忆评测不应只停留在长对话召回、环境问答或抗干扰测试,还要测前序任务经验能否在后续任务中被稳定复用,以及何时会造成负迁移。
arXiv:2605.24657 把软件开发对话里的级联压缩和 LoRA 式权重合并放到同一评测里:压缩循环会快速丢失程序性纠错和项目事实,而权重合并保留更多知识。但这不意味着所有记忆都应该写进模型,真正的问题是如何在上下文、外部记忆和可回滚适配器之间划边界。