标签：benchmark - Memory Systems Notes

2026/05/12 研究综述

LongMemEval 军备赛之后：AI 记忆评测需要从分数转向证据链

PlugMem、gbrain-evals、MemPalace 和 Mem0 等近期材料显示，agent memory 的公开评测正在进入高分密集区；真正重要的问题不再只是 R@5 或 accuracy，而是数据划分、调参污染、成本账本、可复现脚本和生产迁移边界。