标签：reinforcement learning - Memory Systems Notes

2026/06/07 研究分析

记忆摘要要有中间监督：从 MMPO 看长程 Agent 的记忆策略优化

arXiv:2605.30159 提出用 Belief Entropy 给长程 Agent 的递归记忆摘要做中间奖励：问题不只是摘要能否变短，而是每一步摘要后，Agent 对任务状态、缺口信息和后续动作的信念是否更清楚。