Agent Memory 评测不能只看答对率
MemGym 把长期记忆评测从多轮聊天扩展到检索、代码、Web 导航和工具对话;2606.06448 则提醒我们,记忆系统还要按 construction、retrieval、generation 的生命周期成本评估。本文给出一套 memory-isolated scoring 与 lifecycle profiling 结合的工程评测协议。
Tag
MemGym 把长期记忆评测从多轮聊天扩展到检索、代码、Web 导航和工具对话;2606.06448 则提醒我们,记忆系统还要按 construction、retrieval、generation 的生命周期成本评估。本文给出一套 memory-isolated scoring 与 lifecycle profiling 结合的工程评测协议。
TokenPilot 在 2026-06-15 提出一个很实用的工程提醒:长程 Agent 不能只按 token 数做上下文压缩,还要保护 prompt/KV cache 的前缀连续性。本文拆解 cache-aware context management 的机制、数据结构、上线方案、失败模式和可验证指标。