LongMemEval 军备赛之后:AI 记忆评测需要从分数转向证据链
PlugMem、gbrain-evals、MemPalace 和 Mem0 等近期材料显示,agent memory 的公开评测正在进入高分密集区;真正重要的问题不再只是 R@5 或 accuracy,而是数据划分、调参污染、成本账本、可复现脚本和生产迁移边界。
Tag
PlugMem、gbrain-evals、MemPalace 和 Mem0 等近期材料显示,agent memory 的公开评测正在进入高分密集区;真正重要的问题不再只是 R@5 或 accuracy,而是数据划分、调参污染、成本账本、可复现脚本和生产迁移边界。