研究分析

2026/06/07 研究分析

记忆摘要要有中间监督：从 MMPO 看长程 Agent 的记忆策略优化

arXiv:2605.30159 提出用 Belief Entropy 给长程 Agent 的递归记忆摘要做中间奖励：问题不只是摘要能否变短，而是每一步摘要后，Agent 对任务状态、缺口信息和后续动作的信念是否更清楚。

2026/06/06 研究分析

从 arXiv:2606.02461 AgentCL 看，Agent 长期记忆评测不应只停留在长对话召回、环境问答或抗干扰测试，还要测前序任务经验能否在后续任务中被稳定复用，以及何时会造成负迁移。

2026/06/01 研究分析

arXiv:2605.24657 把软件开发对话里的级联压缩和 LoRA 式权重合并放到同一评测里：压缩循环会快速丢失程序性纠错和项目事实，而权重合并保留更多知识。但这不意味着所有记忆都应该写进模型，真正的问题是如何在上下文、外部记忆和可回滚适配器之间划边界。