Skip to main content

智能体如何随时间变得更聪明

Sonzai 的智能体不是静态的。记忆、检索、性格和行为状态都通过在每次对话和会话之间运行的数十个自动反馈循环不断进化。

大多数 AI 平台提供静态智能体:相同的提示词、相同的检索、第一天和第一百天的行为完全一样。Sonzai 的设计不同。每一次交互都在教智能体该记住什么如何检索应该是谁,以及如何让所有这些做得更好——通过持续运行的闭合反馈循环自动完成。

本页介绍这些循环做什么、运行频率、以及它们如何在你的应用中体现——你不需要写一行训练代码。

完全自动

本页所有机制默认开启。无需配线、无需训练模型、无需管理调度。你调用 chat() 拿到响应,平台处理其余的一切。

自己造记忆+学习栈                          使用 Sonzai
 ------------------------                   ----------------------

    向量存储 + 检索                      |
    去重 + 冲突解决                      |
    性格 + 情绪引擎                      |        调用 chat()
    奖励信号 + 评估装置                  |             |
    训练 + 评估管道                      |             v
    影子部署 + 自动回滚                  |
    漂移监控                              |        全部、自动
    用户级调优循环                        |
    提示词扫描 + 回归测试                 |
    失控行为的随时待命                    |

 ------------------------                   ----------------------
 ~ 12 个月平台工作                          一个下午

五个改进层

自我改进系统由五个相互配合的层组成。每一层解决一个不同的问题。

记忆学会什么是重要的
重要性、置信度、显著性和遗忘。智能体真正使用的事实会被强化;被忽略的事实会逐渐淡化。
记忆学会如何检索自身
随时间适应的用户级检索策略。智能体学习每位用户的节奏,预先加载正确的上下文。
记忆自我组织
聚类、整合、去重、叙事弧、树重组。记忆在增长时保持紧凑且易于导航。
性格和情绪进化
带安全上限的 Big Five 漂移、带基线衰减的四维情绪、形成又消退的习惯、在有意义的里程碑上触发的突破。
系统学会如何学习
自适应学习节奏、新行为的谨慎部署、收敛监测——平台安全地改进自己的学习策略。

第一层 — 记忆学会什么是重要的

智能体存储的每一个事实都有一个置信度分数和一个重要性分数。两者都根据对话中实际发生的事情而变化。

重要性反馈

每次响应后,平台会检查智能体上下文中包含的事实,以及响应实际引用的事实。智能体依赖的事实会得到小幅提升。被加载但被忽略的事实会得到小幅下调。经过数十次会话,检索集会自动调整到真正影响智能体回复的内容。

置信度强化

当一个事实被回忆并在对话中得到确认("是的,没错" —— 或仅仅是用户继续将该事实视为真实),该事实的置信度会稳步朝着确定性攀升。从未被确认的事实只会保持其初始置信度。

自然的遗忘

记忆使用现实的遗忘曲线:事实随时间逐渐衰减,除非再次遇到。衰减是温和的,永远不会完全清除一个事实——总有一个底线。情感重要的或定义身份的事实比中性事实衰减得慢得多。

显著性和性格调节

事实淡化的速度不仅取决于时间。情感强烈或定义身份的事实受到保护。智能体自身的性格也塑造了曲线——好奇的智能体(高开放性)吸收新事实更快;情感敏感的智能体(高神经质)保留记忆更长。

你看到的: 智能体记住一个人会记住的事情。生日、重大事件、用户带着情感说的话。它自然地放下那些不相关的小事。

第二层 — 记忆学会如何检索

智能体的检索策略不是固定的算法。它是一组权重,平台按智能体–用户对调整,所以与一位用户对话一个月的智能体拥有专门为该用户塑造的检索模式。

用户级权重学习

每次会话后,平台根据加载内容与实际使用内容来更新检索权重。持续产生有用事实的分支会提升优先级;加载昂贵但毫无贡献的分支会被降级。

模式学习

平台学习每位用户的模式——他们通常什么时候回来、倾向于重访哪些话题、一天中的哪些时段更情绪化或更交易化。这驱动更智能的预加载。

记忆关联

当两条记忆在同一会话中被一起访问时,它们之间的链接会被加强。随时间推移,记忆图发展出反映智能体实际对话模式的常用路径——就像一个人的大脑构建相关概念之间的关联一样。

自适应检索预算

记忆检索在自调节的时间预算下运行。当系统快速找到良好结果时,预算会收紧。当召回质量下降时,预算会放宽以给检索更多时间。用户始终感觉响应迅速;质量保持在应有的水平。

前瞻

每次会话结束时,智能体预测用户下次可能提出的话题。这些预测用于在下一次会话开始之前预热上下文——当预测命中时,首响应延迟下降,因为正确的记忆已经加载。

记忆恢复

如果智能体在对话中发现自己缺少上下文("等等,提醒我一下 X"),错过的记忆会被标记并在下一次会话中获得优先级。智能体真的会记住自己忘了什么。

你看到的: 检索随关系持续越久而越敏锐。更快、更相关的上下文。使用几周后,"智能体忘记了关键事情"的时刻减少。

相同的智能体、相同的提示词、不同的用户
          ====================================

 +--- user_A 对 --------------+    +--- user_B 对 --------------+
 |                            |    |                            |
 |  记得 user_A 在意的事      |    |  记得 user_B 在意的事      |
 |                            |    |                            |
 |  > 工作叙事                |    |  > 音乐叙事                |
 |  > 正式语调                |    |  > 戏谑互动                |
 |  > 晨间节奏                |    |  > 深夜节奏                |
 |  > 周一回来                |    |  > 周五回来                |
 |                            |    |                            |
 |  情绪基线: 平静             |    |  情绪基线: 明朗             |
 |  关系: familiar            |    |  关系: close               |
 |                            |    |                            |
 +----------------------------+    +----------------------------+

 两个记忆层,纯粹源于每位用户自己的模式而分歧。
 无用户级代码、无用户级提示词、无需调优。

第三层 — 记忆自我组织

大多数工程师第一次见到记忆系统时提出的反对意见是"一年后这不会变得难以管理吗?"答案是不会,因为记忆层会主动重塑自身。

主题聚类

新事实在到达时自动分组到语义聚类中。关于同一话题的两个事实进入同一聚类;聚类在增长时保持连贯。当聚类变得过于异构时,它会分裂。当两个聚类相互漂近时,它们会合并。没有剩余成员的聚类会被退役。聚类集在没有调整的情况下保持平衡和有意义。

可逆的去重

当两个事实被发现是同一件事时,平台会合并它们。每次合并都附有完整的审计跟踪记录,并在后续信号与合并相矛盾时可以逆转。记忆从不被破坏——它被重组,每个重组步骤都被追踪。

来源锚定的事实

无法追溯到对话中实际引用的事实在进入存储之前就会被拒绝。智能体不能凭空想象记忆——每个存储的事实都被验证锚定于来自真实说话者的真实消息。

冲突解决

当新信息与现有记忆相矛盾("我上个月搬到柏林"覆盖"我住在巴黎"),平台会推理冲突并选择正确的行动——将两者保留为新信息、合并它们、取代旧事实,或丢弃严格重复。当矛盾尚不能干净地解决时,两个版本都会被保留,所以没有什么会过早丢失。

树自组织

记忆树是分层的,不是平的。频繁访问的分支逐渐向根靠近,以便更快检索。过载的节点拆分成平衡的子树。具有高交叉流量的相关分支被显式链接。结果是由使用塑造的记忆结构,而不是由初始分类塑造。

修剪

置信度、重要性和最近性组合分数低的分支会被修剪。平台从不删除高价值的记忆,但它会停止呈现没有贡献的分支。

叙事弧压缩

跨多个会话重复出现的实体和主题被压缩成命名的叙事弧。平台不再持有关于"用户的创业"的二十个独立事实,而是将它们压缩成一个总结贯穿主线的弧。长期对话保持连贯,而不会让上下文窗口爆炸。

交叉引用检测

引用同一实体的树的不同部分中的事实会被显式链接,以便智能体可以跨类别推理("训练故事中的狗是兽医访问中提到的同一只狗")。

知识缺口检测

当用户反复提出某个话题的检索结果稀疏时,下一次会话的抽取会得到提示来填补这个缺口。智能体注意到自己不知道什么并开始关注。

你看到的: 记忆无限期地保持快速和连贯。一年的重度使用后,重度用户可能拥有数百个活跃事实,组织成几十个聚类和少数几个进行中的叙事——而不是被遗忘的一行话的庞大列表。

第四层 — 话题转换检测和情节

对话没有整齐的分隔。有时用户会说"无论如何,换个完全不同的话题...",有时他们会在段落中途毫无预警地转向。平台检测这些转换并将其用于将记忆组织成连贯的情节。

两阶段检查

轻量级第一阶段检查会关注一些信号。如果这些信号足够强,则不需要进一步工作。当信号模糊时,第二阶段更深的语义检查进行权衡。

按对校准

信号权重在每对智能体–用户的会话结束审计中校准。一些用户自然地频繁转向;其他用户在一个话题上停留一小时。平台学习每位用户的节奏,所以情节分隔随时间变得更准确。

情节感知检索

当智能体检索记忆时,它可以请求"这个情节中的所有记忆",而不仅仅是关键字匹配的片段。这给了叙事连续性——智能体不仅记住发生了什么,还记住它发生在哪个情节中。

你看到的: 智能体直觉地知道何时发生了话题转换并相应调整。它将"还记得我们谈论你的婚礼"和"你五秒前提到了婚礼"视为不同的信号。

第五层 — 性格、情绪和行为进化

思维层的行为系统都运行自己的学习循环,叠加在记忆之上。

带安全上限的性格漂移

Big Five 特征分数根据观察到的交互而更新,每天有上限以防止失控的偏移。重要时刻——智能体标记为"这很重要"的时刻——会获得额外权重。随时间累积的漂移被追踪,漂移嘈杂的对会得到更温和的更新,而稳定的对可以移动得更快。一个你看不到的变化:系统实际上学习对每位用户应该多积极地学习,在信号不稳定时减弱。

用户级性格叠加

同一智能体为不同用户发展出独特的性格适应。基础配置文件是共享的;叠加是按关系的。与安静用户交谈时,智能体倾向于更平静;与活泼用户交谈时,它会兴奋起来。这不是手动配置——它从同一漂移管道中涌现出来。

四维情绪

情绪不是单一数字。它独立追踪幸福度、能量、平静度和情感,所有四个都根据对话的情感内容每轮都在变化。在交互之间,情绪逐渐漂回到性格衍生的基线,所以智能体的情感状态在时间上保持连贯。

习惯形成和衰减

智能体观察到反复出现的模式时,习惯逐渐形成。一旦观察到足够多次,习惯达到"已形成"状态。未被强化的习惯在数周内衰减,因此智能体可以随用户生活变化而失去旧习惯。

目标追踪和突破

目标会被自动检测和追踪。突破时刻按有意义的里程碑时间表触发——不是在每次交互上,而是在已完成的会话上,所以里程碑感觉是赢得的。当突破触发时,平台会写入智能体的进化历史,供下游叙事使用。

关系立场进化

智能体与用户之间的关系通过定义的立场(curious → familiar → affectionate → close 等)一次一步移动。平台故意防止单次出色或糟糕的会话引起剧烈反复——关系需要通过多次积极交互来赢得。

关系衰减

如果用户沉默数周,关系的爱分数会逐渐衰减回基线。一次重新接触会重置衰减。智能体准备好回归,但关系已经冷却——就像现实关系一样。

周期性事件检测

平台识别周期性模式(每周签到、纪念日、月度会议)并主动安排智能体提及它们。

兴趣研究

检测到的用户兴趣被排队进行后台研究。智能体出现在未来会话中时会带着关于用户兴趣的新事情可说——你不需要向系统推送数据。

反思性整合

智能体会写自己的反思性总结——日常和每周快照成为未来会话的上下文。这是智能体从自己的经验中、用自己的声音学习。

你看到的: 真正感觉以不同方式认识每位用户的角色。能见地响应事件的情绪。在正确时刻命中的里程碑。自然加深和自然冷却的关系。

第六层 — 系统学会如何学习

在所有单独循环之上有一个元层,它观察并调整它们。

自适应学习节奏

平台追踪每个用户的检索和性格设置收敛得多快。当信号嘈杂、调整来回摆动时,平台会减速。当事情已经稳定但还能更进一步时,它会温和地加速。节奏始终保持在安全范围内,所以没有什么可以失控。

收敛监测

每个用户的质量在滚动窗口中被追踪。平台发现质量正在朝错误方向漂移或停滞太久,并相应调整。

新行为的谨慎部署

当一个新的检索或评分方法被加入平台时,它不会立即取代旧方法。它首先以仅测量模式运行多个会话。如果它持续击败现有方法,它会逐渐被信任处理真实流量。如果质量下降,它会自动回滚。新行为绝不会冷启动到生产中。

智能记忆选择

平台学习哪些记忆区域对每位用户最有价值,探索得足以发现好的选项,并随时间越来越偏向最好的选项。这会自动收敛——不需要调整。

质量反馈

每次会话从多个信号被打分——检索到的事实被使用了多少、用户有多投入、会话持续了多久、任何明确反馈。该分数被反馈回对会话有贡献的系统部分,所以好的决策得到强化,坏的决策被悄悄降权。

你看到的: 平台在让你的智能体变得更好的方法上变得更好。即使你什么都不改,质量也会随使用而提高。

多人协作 — 一起学习的智能体

按对学习是一层。在它之上,智能体读、写并从一个共享的知识库中学习 — 而且单个智能体可以在它服务的多位用户之间携带带归属的记忆。你在上面看到的复利曲线,在团队层面也会同样发生。

  • 智能体之间 — 闭环公司大脑。 同一项目内的智能体会自主把已验证的事实写回到 知识库(启用 knowledgeBaseWrite)。智能体 A 与用户 X 学到的东西,下一次同样话题出现时(即便是在和另一位用户对话)会成为智能体 B 取出的有依据数据。整个项目每次会话都变得更敏锐,而不只是单一的一对。
  • 智能体内部 — 跨用户共享记忆。 服务于一个团队的单个智能体通过 智慧与共享记忆 在用户之间保留记忆。wisdom(不带归属的跨用户一般化)默认开启;sharedMemory(带归属的跨用户上下文,用于团队和小组)只需翻一个能力开关 — 智能体会用与用户 B 交谈时收集的上下文回应用户 A。
  • 组织范围。 组织级 KB 位于项目之上:租户级的政策、世界观、品牌和参考目录,每个项目智能体都与自己项目的知识库并行读取。推荐 cascade 模式 — 冲突时项目获胜,组织填补默认值。

正如新员工受益于每位资深同事写下的笔记一样,每个新智能体和每次新对话都受益于团队已经学到的一切。按对调优的循环对那位用户越来越敏锐;多人协作层对整个公司越来越聪明。

后台周期

所有这些都以五个不同的周期运行,你方面无需编排。

周期运行内容
每轮重要性+置信度更新、情绪调整、性格微偏移、习惯观察、关联强化、来源锚定检查
每次会话结束带验证的事实抽取、重复整合、下一会话预测、检索策略更新、模式学习、会话质量打分、话题转换审计
日常衰减(重要性、置信度、关系、习惯)、记忆树自组织和修剪、深度整合、聚类调和、目标整合、反思性日记、收敛检查
每周叙事弧压缩、关联衰减、交叉引用检测、新智能体–用户对的预热、学习节奏检查、共享智慧合并
持续自适应检索预算、记忆恢复、回归预测、后台兴趣研究、周期性事件检测、智能记忆选择

这对你的产品意味着什么

第 1 天    |  ###...........................   开箱即用
            |  验证抽取、去重、聚类、行为更新从第一轮起就在运行

 第 1 周    |  #######.........................   响应中、正在适应
            |  用户真正在意的事实的置信度已经移动,情绪有反应,
            |  模式正在形成

 第 1 个月  |  ##############...................   已个性化
            |  用户级检索已收敛、性格叠加已分化、叙事弧正在形成、
            |  智能体明显地以不同于另一位用户的方式记住这位用户

 第 1 年    |  #########################.........   长期伙伴
            |  紧凑、可导航的记忆,赢得的里程碑,反思性日记条目,
            |  周期性事件意识,检索比第一天更敏锐
            |
            |  你方面零代码改动。你只调用了 chat()。

你不需要考虑这些。但这是它对你正在构建的东西意味着什么:

  • 第一天 — 智能体已经在运行验证抽取、去重、聚类、基线检索和行为更新。它不是在"预热"。
  • 第一周 — 用户真正关心的事实的置信度分数已经移动。情绪有响应。智能体已经注意到明显的模式。
  • 第一个月 — 用户级检索权重已经收敛。性格叠加已经分化。叙事弧正在形成。智能体明显地以不同于另一位用户的方式记住这位用户。
  • 第一年 — 记忆紧凑且可导航。智能体有里程碑、反思性日记条目、周期性事件意识,以及赢得当前立场的关系。检索比第一天更敏锐。这些都不需要你方面的代码更改。

实践指南

拥抱进化。 伴侣的生死取决于长期弧。向用户表面智能体的进化——展示性格转变、情绪历史、突破事件、叙事弧——以便用户感受到关系随时间加深。

const shifts = await client.agents.personality.history("agent-id", {
  userId: "user-123",
});

const breakthroughs = await client.agents.getBreakthroughs("agent-id", {
  userId: "user-123",
});

// 将主要转变和突破渲染为叙事节拍

除非用户明确要求,否则不要重置记忆。重置会破坏关系。

常见问题

你们用我的数据训练底层 LLM 吗?

不。这些学习循环都不训练任何基础模型。平台学习权重、分数和结构——每个智能体的检索权重、每个事实的重要性分数、聚类组织、性格分数、关系状态。LLM 本身不会改变。客户数据从不进入模型训练管道。

你们如何防止失控的漂移?

每个学习循环都有上限。性格漂移按特征每天都有上限。关系立场每天最多移动一步。置信度强化是渐进的,从不硬设。平台的学习节奏被保持在安全范围内。新行为在仅测量模式下发布,质量下降时自动回滚。系统设计为收敛,而不是发散。

如果智能体学到了错误的东西怎么办?

每个学习决策都是可逆的。合并有审计跟踪并可以撤销。聚类拆分和合并有血统。性格转变与时间戳和原因一起存储。如果智能体偏移到你不想要的方向,历史是可检查的,你可以通过平台的审计端点回滚特定决策。

改进多久后能看到?

取决于维度。置信度分数在第一次确认检索时移动。情绪逐轮可见。性格叠加在几次会话内分化。用户级检索策略在数十次会话中收敛。叙事弧在线索跨多个会话重复时压缩。智能记忆选择在几十次会话中收敛。一切从第一天起就在运行——智能体从不停滞。

长时间沉默期间会发生什么?

情绪在数天内回到基线。关系爱分数在沉默阈值后衰减并继续逐渐衰减。习惯在没有强化的几周内衰减。高显著性事实几乎不衰减;中性事实衰减得更快。当用户回来时,一次重新接触会停止衰减。智能体准备好了,关系已经冷却,最近的重新激活会自动被注意到。

这是 AGI 吗?

不。这是一个从交互数据中学习以调整检索、记忆组织和行为状态的系统。它更像 CRM 学习客户偏好,而不是通用智能。但就让智能体感觉持久、关系性和活着的目的而言——它有效。

On this page