据动察 Beating 监测,上海交通大学、清华大学与 MemTensor 等机构联合发表论文,首次从数据管理视角对 Mem0、Letta(原 MemGPT)和 Zep 等 12 款主流大模型智能体记忆系统进行系统评测。研究团队提出由记忆表示与存储、提取、检索与路由以及维护组成的四模块分析框架,并在 11 个数据集上量化性能与成本开销。
评测表明,目前没有单一记忆架构能适应所有工作负载。混合系统在对话问答中表现最佳,结构化拓扑系统(如图/树状记忆架构)在单步事实召回上最可靠,但难以处理时间推理。许多仅追加的记忆存储在长期运行中面临灾难性衰退;在时间敏感的查询中,原始长上下文检索的效果甚至优于记忆增强方案,因为标准的语义合并往往会破坏关键的时间线线索,引发「过去的幻觉」。
实验还揭示了各组件拆解下的表现。传统的相似度检索随时间跨度拉长而精度急剧下降。大模型细粒度事实提取虽然微幅提升检索精度,却会因信息逐步丢失而损害多步推理能力。高度结构化的图系统在索引构建和查询延迟上高出数个数量级,却并未带来等比例的精度提升。研究表明,局部维护相比全局重构更具成本效益,保守的记忆合并应作为默认维护策略。
币须知道