MPBench 的价值不是攻击库,而是 Agent 记忆写入面的安全地图
arXiv:2606.04329 把 Agent 记忆投毒从零散案例整理成写入通道、结构性漏洞和 ASR/RSR 评测问题。工程上真正该落地的是记忆写入面的资产清单、来源权威、写后审计和跨会话回归测试。
Tag
arXiv:2606.04329 把 Agent 记忆投毒从零散案例整理成写入通道、结构性漏洞和 ASR/RSR 评测问题。工程上真正该落地的是记忆写入面的资产清单、来源权威、写后审计和跨会话回归测试。
从 arXiv:2605.24462 的 Certified Traces、AgentSecBench、Agent-BOM 和当前 Agent SDK/Bedrock 工程接口看,安全 Agent 的关键不是让模型解释得更像人,而是让每次工具调用、白盒扫描、修复和部署动作在执行前携带可检查的权限、来源、证据和回放条件。
从 MemPoison 和 MemMorph 看,Agent 记忆攻击正在从“把恶意内容写进长期记忆”推进到“让恶意内容通过抽取、重写、检索和工具推理链条”。生产系统需要把记忆写入、来源权威、检索召回和工具授权放进同一套评测。
5 月上旬的 Trojan Hippo、MAGE 和 Opal 等研究说明,长期记忆不只是个性化能力,也是跨会话攻击面、隐私泄露面和防护状态本身;生产系统必须把记忆写入、来源、工具权限和遗忘纳入同一个安全模型。