记忆摘要要有中间监督:从 MMPO 看长程 Agent 的记忆策略优化
arXiv:2605.30159 提出用 Belief Entropy 给长程 Agent 的递归记忆摘要做中间奖励:问题不只是摘要能否变短,而是每一步摘要后,Agent 对任务状态、缺口信息和后续动作的信念是否更清楚。
Tag
arXiv:2605.30159 提出用 Belief Entropy 给长程 Agent 的递归记忆摘要做中间奖励:问题不只是摘要能否变短,而是每一步摘要后,Agent 对任务状态、缺口信息和后续动作的信念是否更清楚。