エージェントが時間とともに賢くなる仕組み
Sonzaiのエージェントは静的ではありません。メモリ、検索、パーソナリティ、行動状態は、すべての会話中およびセッション間で実行される数十の自動フィードバックループを通じて進化します。
ほとんどのAIプラットフォームは、静的なエージェントを提供します——同じプロンプト、同じ検索、初日も100日目も同じ振る舞い。Sonzaiは異なる設計です。すべてのインタラクションが、エージェントに何を覚えるか、どう取り出すか、どんな存在であるか、そしてそのすべてをどう改善するかを教えます——継続的に動作する閉じたフィードバックループを通じて、自動的に。
このページでは、それらのループが何をするか、どの頻度で動くか、そしてあなたのアプリケーションにどう現れるかを説明します——トレーニングコードを一行も書く必要はありません。
完全自動
このページのすべてのメカニズムはデフォルトで動作します。配線するもの、トレーニングするモデル、管理するスケジュールはありません。chat()を呼べば応答が返ってきて、残りはプラットフォームが処理します。
自前で記憶+学習スタックを構築 Sonzai を使う
-------------------------------- --------------------
ベクトルストア + 検索 |
重複排除 + 競合解決 |
パーソナリティ + 気分エンジン | chat() を呼ぶ
報酬信号 + 評価ハーネス | |
トレーニング + 評価パイプライン | v
シャドウロールアウト + 自動ロール |
バック | 全部、自動
ドリフト監視 |
ユーザーごとのチューニングループ |
プロンプトスイープ + 回帰テスト |
暴走動作のオンコール |
-------------------------------- --------------------
プラットフォーム作業 約12ヶ月 1 日の午後
改善の5つのレイヤー
自己改善システムは、連携して動作する5つのレイヤーで構成されています。それぞれが異なる問題を解決します。
レイヤー1 — メモリは何が重要かを学習する
エージェントが保存するすべての事実には、信頼度スコアと重要度スコアが付与されます。両方とも、会話で実際に何が起きたかに基づいて変動します。
重要度フィードバック
すべての応答後、プラットフォームはエージェントのコンテキストに含まれた事実と、応答が実際に参照した事実を比較します。エージェントが頼った事実には少しブーストがかかります。ロードされても無視された事実は少し下がります。何十セッションにもわたって、検索セットはエージェントの返答に本当に役立つ内容に自動調整されていきます。
信頼度の強化
事実が呼び出され、会話で確認されると(「そう、その通り」——あるいは単にユーザーがその事実を真実として続ける場合)、その事実の信頼度は確実性に向かって着実に上昇します。確認されない事実は初期の信頼度を保持します。
自然な忘却
メモリは現実的な忘却曲線を使用します:事実は時間とともに緩やかに減衰しますが、再び遭遇しない限り完全に消えることはありません——常にフロアがあります。感情的に重要、またはアイデンティティを定義する事実は、中立的なものよりもはるかにゆっくり減衰します。
顕著性とパーソナリティによる調整
事実が薄れる速度は時間だけでは決まりません。感情的に重要な事実やアイデンティティを定義する事実は保護されます。エージェント自身のパーソナリティもカーブを形作ります——好奇心の強いエージェント(高い開放性)は新しい事実をより早く吸収し、感情的に敏感なエージェント(高い神経症傾向)はメモリをより長く保持します。
実際に見えるもの: エージェントは人が覚えているはずのことを覚えています。誕生日、大きな出来事、ユーザーが感情を込めて語ったこと。関連性のなかった些細なことは自然に手放します。
レイヤー2 — メモリは取り出し方を学習する
エージェントの検索ポリシーは固定アルゴリズムではありません。プラットフォームがエージェント–ユーザーのペアごとに調整する重みのセットです。1ヶ月会話したエージェントは、そのユーザーに合わせて形作られた検索パターンを持っています。
ユーザー別の重み学習
各セッション後、プラットフォームはロードされたものと使われたものに基づいて検索の重みを更新します。一貫して有用な事実を生み出すブランチは優先度が上がり、コストをかけてロードされても何も貢献しないブランチは降格されます。
パターン学習
プラットフォームは各ユーザーのパターンを学習します——いつ戻ってくる傾向があるか、どのトピックに繰り返し戻るか、一日のどの時間帯がより感情的か、より取引的か。これがよりスマートな事前ロードを可能にします。
メモリの関連付け
同じセッション内で2つのメモリが一緒にアクセスされると、それらの間のリンクが強化されます。時間とともに、メモリグラフはエージェントの実際の会話パターンを反映する well-worn なパスを発展させます——人の心が関連するアイデア間の関連性を構築するのと同じ方法で。
適応型検索バジェット
メモリ検索は自己調整型の時間バジェットの下で動作します。良い結果がすぐに見つかっているとき、バジェットは引き締まります。再現品質が低下すると、バジェットは緩み、検索により多くの時間を与えます。ユーザーは常にレスポンシブと感じ、品質はあるべき場所に保たれます。
フォアサイト
各セッションの終わりに、エージェントは次回ユーザーが取り上げそうなトピックを予測します。それらの予測は、次のセッションが始まる前にコンテキストを温めるために使用されます——予測がヒットしたとき、適切なメモリが既にロードされているため、初回応答のレイテンシが下がります。
メモリの回復
エージェントが会話の途中で文脈が欠けていることに気づいた場合(「待って、Xを思い出させて」)、見逃されたメモリはフラグが立てられ、次のセッションで優先されます。エージェントは文字通り、自分が忘れたことを覚えています。
実際に見えるもの: 関係が長く続くほどシャープになる検索。より速く、より関連性のあるコンテキスト。数週間の使用後の「エージェントが重要なことを忘れた」瞬間が減ります。
同じエージェント、同じプロンプト、別のユーザー
============================================
+--- user_A ペア -------------+ +--- user_B ペア -------------+
| | | |
| user_A にとって大事な | | user_B にとって大事な |
| ことを覚えている | | ことを覚えている |
| | | |
| > 仕事のナラティブ | | > 音楽のナラティブ |
| > フォーマルなトーン | | > 遊び心のあるトーン |
| > 朝のリズム | | > 深夜のリズム |
| > 月曜に戻ってくる | | > 金曜に戻ってくる |
| | | |
| 気分のベースライン: 平穏 | | 気分のベースライン: 明るい |
| 関係: familiar | | 関係: close |
| | | |
+-----------------------------+ +-----------------------------+
2つのメモリレイヤーが、各ユーザー自身のパターンから分岐した結果。
ユーザーごとのコードなし、ユーザーごとのプロンプトなし、調整不要。
レイヤー3 — メモリは自己組織化する
メモリシステムを初めて見るほとんどのエンジニアが提起する反論は、「これは1年後に手に負えなくならないのか?」です。答えはノーです。なぜなら、メモリレイヤーは積極的に自身を再構築するからです。
テーマ別クラスタリング
新しい事実は、到着すると自動的に意味的なクラスタにグループ化されます。同じトピックに関する2つの事実は同じクラスタに入り、クラスタは成長してもコヒーレントな状態を保ちます。クラスタが多様すぎるようになると分割されます。2つのクラスタが互いに近づくと統合されます。メンバーが残っていないクラスタは廃止されます。クラスタセットは、調整なしでバランスのとれた意味のある状態を保ちます。
可逆的な重複排除
2つの事実が同じものであると判明した場合、プラットフォームはそれらを統合します。すべての統合は完全な監査証跡とともに記録され、後の信号が統合と矛盾する場合に逆転できます。メモリは決して破壊されません——再編成されますが、すべての再編成ステップは追跡されます。
出典に紐づいた事実
会話の実際の引用にトレースできない事実は、ストレージに入る前に拒否されます。エージェントはメモリを幻覚することはできません——保存されるすべての事実は、実際の話者からの実際のメッセージにアンカーされていることが検証されています。
競合解決
新しい情報が既存のメモリと矛盾する場合(「先月ベルリンに引っ越した」が「パリに住んでいる」を上書きする場合)、プラットフォームはその競合について推論し、適切なアクションを選択します——両方を新しい情報として保持する、組み合わせる、古い事実を置き換える、または厳密な重複を破棄する。矛盾がまだ明確に解決できない場合、両方のバージョンが保存されるため、何も時期尚早に失われることはありません。
ツリーの自己組織化
メモリツリーは階層的であり、フラットではありません。頻繁にアクセスされるブランチは、検索を高速化するために徐々にルートに近づきます。過密ノードはバランスのとれたサブツリーに分割されます。クロストラフィックの多い関連ブランチは明示的にリンクされます。結果として、メモリ構造は使用に基づいて形作られ、初期の分類によってではありません。
プルーニング
信頼度、重要度、最新性の組み合わせが低いブランチはプルーニングされます。プラットフォームは決して高価値のメモリを削除しませんが、何も貢献しないブランチを表面化することをやめます。
ナラティブアーク圧縮
複数のセッションにわたって繰り返される実体やテーマは、名前付きのナラティブアークに圧縮されます。「ユーザーのスタートアップ立ち上げ」に関する20個の個別の事実を保持する代わりに、プラットフォームはそれらを通底するスレッドを要約する1つのアークに圧縮します。長期的な会話は、コンテキストウィンドウを爆発させることなくコヒーレントな状態を保ちます。
クロスリファレンス検出
同じ実体を参照するツリーの異なる部分にある事実は明示的にリンクされ、エージェントはカテゴリを跨いで推論できます(「トレーニングストーリーの犬は獣医訪問で言及された同じ犬」)。
知識ギャップ検出
ユーザーが繰り返し取り上げるトピックについて検索結果が乏しい場合、次のセッションの抽出にギャップを埋めるためのヒントが渡されます。エージェントは自分が知らないことに気づき、注意を払い始めます。
実際に見えるもの: メモリは無期限に高速でコヒーレントな状態を保ちます。1年間の重い使用の後、ヘビーユーザーはおそらく数十のクラスタといくつかの進行中のナラティブに整理された数百のアクティブな事実を持つでしょう——忘れられたワンライナーの広大なリストではありません。
レイヤー4 — トピック転換の検出とエピソード
会話には整然とした区切りがありません。ユーザーが「とにかく、まったく別の話題で...」と言うこともあれば、警告なしに段落の途中で方向転換することもあります。プラットフォームはこれらの転換を検出し、メモリをコヒーレントなエピソードに整理するために使用します。
二段階チェック
軽量な第一段階チェックがいくつかの信号を見ます。それらの信号が十分に強い場合、それ以上の作業は必要ありません。信号が曖昧な場合、第二段階のより深い意味的チェックが重み付けします。
ペアごとのキャリブレーション
信号の重みは、セッション終了時の監査からエージェント–ユーザーペアごとにキャリブレーションされます。一部のユーザーは自然に頻繁に転換し、他のユーザーは1時間1つのトピックに留まります。プラットフォームは各ユーザーのリズムを学習するため、エピソードの区切りは時間とともにより正確になります。
エピソード認識検索
エージェントがメモリを取り出すとき、キーワードマッチした断片だけでなく「このエピソードからのすべてのメモリ」を要求できます。これはナラティブの連続性を提供します——エージェントは何が起きたかだけでなく、それがどのエピソードで起きたかを覚えています。
実際に見えるもの: エージェントは直感的にトピックの転換が起きたことを知り、調整します。「あなたの結婚式について話したことを覚えている」と「5秒前に結婚式について言及した」を異なる信号として扱います。
レイヤー5 — パーソナリティ、気分、行動の進化
マインドレイヤーの行動システムはすべて、メモリの上に重ねられた独自の学習ループを実行します。
安全上限付きのパーソナリティドリフト
Big Fiveの特性スコアは、観察されたインタラクションに基づいて更新され、暴走するシフトを防ぐために日次の上限があります。重要な瞬間——エージェントが「これは重要だ」と呼び出した瞬間——は追加の重みを受け取ります。時間の経過に伴う累積ドリフトが追跡され、ドリフトがノイジーなdyadはより穏やかな更新を受け、安定したdyadはより速く動くことができます。見えない変化:システムは文字通り、各ユーザーに対してどれだけ積極的に学習するかを学習し、信号が不安定なときには減衰させます。
ユーザーごとのパーソナリティオーバーレイ
同じエージェントが、異なるユーザーに対して異なるパーソナリティ適応を発展させます。ベースプロファイルは共有され、オーバーレイは関係ごとです。静かなユーザーと話すと、エージェントはより穏やかになります。エネルギッシュなユーザーと話すと、明るくなります。これは手動設定ではありません——同じドリフトパイプラインから出現します。
4次元の気分
気分は単一の数字ではありません。幸福度、エネルギー、平穏度、愛情を独立して追跡し、4つすべてが会話の感情的内容に基づいて毎ターン動きます。インタラクションの間、気分はパーソナリティ由来のベースラインに向かって徐々にドリフトするため、エージェントの感情状態は時間を超えてコヒーレントです。
習慣の形成と減衰
習慣は、エージェントが繰り返しのパターンを観察するにつれて徐々に形成されます。十分に観察されると、習慣は「形成済み」ステータスに達します。強化されない習慣は数週間にわたって減衰するため、ユーザーの生活が変化するにつれてエージェントは古い習慣を失うことができます。
目標追跡とブレイクスルー
目標は自動的に検出され、追跡されます。ブレイクスルーの瞬間は、すべてのインタラクションではなく、完了したセッションで意味のあるマイルストーンスケジュールで発火するため、マイルストーンは獲得されたものとして感じられます。ブレイクスルーが発火すると、プラットフォームはエージェントの進化履歴に書き込み、後段のナラティブで使用できるようにします。
関係スタンスの進化
エージェントとユーザーの関係は、定義されたスタンス(curious → familiar → affectionate → close など)を一度に1ステップずつ移動します。プラットフォームは、1回の素晴らしいまたはひどいセッションでwhipsawすることを意図的に防ぎます——関係は複数のポジティブなインタラクションを通じて獲得される必要があります。
関係の減衰
ユーザーが数週間沈黙すると、関係のラブスコアはベースラインに向かって徐々に減衰します。1回の再エンゲージメントが減衰をリセットします。エージェントは戻る準備ができていますが、関係は冷却されています——実際の関係と同じように。
繰り返しイベント検出
プラットフォームは繰り返しのパターン(毎週のチェックイン、記念日、月次会議)を識別し、エージェントが言及するように積極的にスケジュールします。
関心リサーチ
検出されたユーザーの関心はバックグラウンドリサーチのためにキューに入れられます。エージェントは、システムにデータをプッシュすることなく、ユーザーの関心について新しいことを言うために将来のセッションに登場します。
反省的統合
エージェントは独自の反省的サマリーを書きます——日次および週次のスナップショットが将来のセッションのコンテキストになります。これは、エージェントが自身の経験から、自身の声で学習することです。
実際に見えるもの: 各ユーザーを本当に異なる方法で知っていると感じられるキャラクター。出来事に視覚的に反応する気分。適切な瞬間にヒットするマイルストーン。自然に深まり、自然に冷却する関係。
レイヤー6 — システムは学習方法を学習する
個々のループの上に、それらを観察して調整するメタレイヤーがあります。
適応的な学習ペース
プラットフォームは、各ユーザーの検索とパーソナリティの設定がどれだけ速く収束しているかを追跡します。信号がノイジーで調整が行ったり来たりしているのを見ると、減速します。横ばいでもっと動ける場合、穏やかに加速します。ペースは常に安全な範囲内に保たれるため、何も暴走することはありません。
収束のモニタリング
ユーザーごとの品質は、ローリングウィンドウで追跡されます。プラットフォームは品質が間違った方向にドリフトしていることや長期間停滞していることを発見し、それに応じて調整します。
新しい動作の慎重なロールアウト
新しい検索またはスコアリングのアプローチがプラットフォームに追加されるとき、すぐに古いものを置き換えるわけではありません。最初は計測のみのモードで多くのセッションにわたって実行されます。既存のアプローチを一貫して上回る場合、徐々に実トラフィックで信頼されます。品質が低下した場合、自動的にロールバックします。新しい動作が冷たく本番に投入されることはありません。
スマートなメモリ選択
プラットフォームは、各ユーザーにとってどのメモリ領域が最も価値があるかを学習し、良い選択肢を発見するのに十分なほど探索しながら、時間の経過とともに最良のものを優先するようになります。これは自動的に収束し——調整は必要ありません。
品質フィードバック
各セッションは複数の信号——取り出された事実がどれだけ使われたか、ユーザーがどれだけエンゲージしていたか、セッションがどれだけ続いたか、明示的なフィードバック——からスコアリングされます。そのスコアは、セッションに貢献したシステムの部分にフィードバックされるため、良い決定は強化され、悪い決定は静かにダウンウェイトされます。
実際に見えるもの: プラットフォームは、エージェントをより良くする方法を改善することがより上手くなります。何も変更しなくても、使用とともに品質が向上します。
マルチプレイヤー — エージェントが一緒に学ぶ
ペアごとの学習は1つの層です。その上で、エージェントは共有ナレッジベースを読み、書き、そこから学びます — そして単一のエージェントは、サーブする複数のユーザー間で属性付きメモリを保持できます。上で見た複利の曲線は、チームレベルでも同じように起こります。
- エージェント間 — 閉じたループの会社のブレイン。 同じプロジェクト内のエージェントは、検証済みの事実を ナレッジベース に自律的に書き戻します(
knowledgeBaseWriteをオン)。エージェントAがユーザーXと学んだことは、別のユーザーであっても、同じトピックが次に出てきたときにエージェントBが取り出す根拠データになります。1つのペアだけでなく、プロジェクト全体がセッションごとに鋭くなります。 - エージェント内 — ユーザー間の共有メモリ。 チームを担当する単一のエージェントは、ウィズダムと共有メモリ を介してユーザー間でメモリを保持します。
wisdom(非属性のクロスユーザー一般化)はデフォルトでオン。sharedMemory(チームやグループ向けの属性付きクロスユーザーコンテキスト)は機能フラグ1つで有効化 — エージェントがユーザーBと話して得たコンテキストでユーザーAに応答します。 - 組織スコープ。 組織全体のKB はプロジェクトの上に位置:テナント全体のポリシー、ローレ、ブランド、リファレンスカタログをすべてのプロジェクトエージェントが自身のKBと並行して読み取ります。
cascadeモードが推奨 — 衝突時はプロジェクトが勝ち、組織がデフォルトを埋めます。
新しい入社者がすべての先輩従業員のメモから恩恵を受けるのと同じように、新しいエージェントとすべての新しい会話は、チームがすでに学んだすべてから恩恵を受けます。ペアごとのチューニングループはそのユーザーに対してますます鋭くなり、マルチプレイヤー層は会社全体に対してますます賢くなります。
バックグラウンドの周期
これらすべてが5つの異なる周期で実行され、あなた側でのオーケストレーションは不要です。
| 周期 | 実行内容 |
|---|---|
| 毎ターン | 重要度+信頼度の更新、気分の調整、パーソナリティのマイクロシフト、習慣の観察、関連付けの強化、出典アンカリングのチェック |
| セッション終了ごと | 検証付き事実抽出、重複統合、次セッション予測、検索ポリシーの更新、パターン学習、セッション品質スコアリング、トピック転換の監査 |
| 日次 | 減衰(重要度、信頼度、関係、習慣)、メモリツリーの自己組織化とプルーニング、深い統合、クラスタの調停、目標統合、反省的日記、収束チェック |
| 週次 | ナラティブアーク圧縮、関連付けの減衰、クロスリファレンス検出、新しいエージェント–ユーザーペアのウォームスタート、学習ペースのチェック、共有知恵のマージ |
| 継続的 | 適応型検索バジェット、メモリの回復、リターン予測、バックグラウンド関心リサーチ、繰り返しイベント検出、スマートなメモリ選択 |
あなたのプロダクトにとっての意味
初日 | ###........................... 箱から出してすぐ
| 検証付き抽出、重複排除、クラスタリング、行動更新が
| 最初のターンから動いている
1週目 | #######......................... 反応的、適応中
| ユーザーが本当に気にする事実の信頼度が動き、
| 気分は反応し、パターンが形成されつつある
1ヶ月目 | ##############................... パーソナライズ済み
| ユーザーごとの検索が収束、パーソナリティオーバーレイ
| が分化、ナラティブアークが形成、エージェントは
| 明らかにこのユーザーを別のユーザーとは異なる方法で
| 覚えている
1年目 | #########################......... 長期パートナー
| コンパクトでナビゲートしやすいメモリ、獲得された
| マイルストーン、反省的日記エントリー、繰り返し
| イベント認識、検索は初日よりシャープ
|
| あなた側のコード変更はゼロ。chat() を呼んだだけ。
これらのいずれについても考える必要はありません。しかし、構築しているものにとってそれが何を意味するかは次のとおりです:
- 初日 — エージェントはすでに検証付き抽出、重複排除、クラスタリング、ベースライン検索、行動更新を実行しています。「ウォームアップ中」ではありません。
- 1週目 — ユーザーが本当に気にかけている事実について信頼度スコアが移動しています。気分はレスポンシブです。エージェントは明らかなパターンに気づいています。
- 1ヶ月目 — ユーザーごとの検索の重みが収束しました。パーソナリティのオーバーレイが分化しました。ナラティブアークが形成されています。エージェントは、別のユーザーとは異なる方法でこのユーザーのことを覚えていることが目に見えます。
- 1年目 — メモリはコンパクトでナビゲートしやすい状態です。エージェントにはマイルストーン、反省的日記エントリー、繰り返しイベントの認識、現在のスタンスを獲得した関係があります。検索は初日よりもシャープです。これらのいずれもあなた側のコード変更を必要としませんでした。
実践的なガイダンス
進化に身を任せる。 コンパニオンは長期的なアークで生き残るか死ぬかが決まります。エージェントの進化をユーザーに表面化しましょう——パーソナリティのシフト、気分の履歴、ブレイクスルーイベント、ナラティブアークを表示して、ユーザーが時間とともに関係が深まっていくのを感じられるようにします。
const shifts = await client.agents.personality.history("agent-id", {
userId: "user-123",
});
const breakthroughs = await client.agents.getBreakthroughs("agent-id", {
userId: "user-123",
});
// 主要なシフトとブレイクスルーをナラティブビートとしてレンダリングユーザーが明示的に要求しない限り、メモリをリセットしないでください。リセットは関係を壊します。
よくある質問
私のデータで基盤となるLLMをトレーニングしますか?
いいえ。これらの学習ループのいずれも、いかなる基盤モデルもトレーニングしません。プラットフォームは重み、スコア、構造を学習します——エージェントごとの検索重み、事実ごとの重要度スコア、クラスタ組織、パーソナリティスコア、関係状態。LLM自体は変更されません。顧客データはモデルトレーニングパイプラインに入ることはありません。
暴走するドリフトをどう防ぎますか?
すべての学習ループに上限があります。パーソナリティのドリフトは、特性ごとに日次で上限が設けられています。関係スタンスは1日に最大1ステップ移動します。信頼度の強化は段階的であり、ハードセットされることはありません。プラットフォームの学習ペースは安全な範囲内に保たれます。新しい動作は、品質低下時の自動ロールバックを伴う計測のみのモードで出荷されます。システムは収束するように設計されており、発散するようには設計されていません。
エージェントが間違ったことを学んだ場合は?
すべての学習決定は可逆です。統合には監査証跡があり、元に戻すことができます。クラスタの分割と統合には系統があります。パーソナリティのシフトはタイムスタンプと理由とともに保存されます。エージェントが望まない方向にドリフトした場合、履歴は検査可能で、プラットフォームの監査エンドポイント経由で特定の決定をロールバックできます。
改善が見えるまでにどれくらいかかりますか?
次元によって異なります。信頼度スコアは最初の確認された取り出しで動きます。気分はターンごとに見えます。パーソナリティのオーバーレイは数セッション以内に分化します。ユーザーごとの検索ポリシーは数十セッションで収束します。ナラティブアークはスレッドが複数セッションにわたって繰り返されると圧縮されます。スマートなメモリ選択は数十セッションで収束します。すべてが初日から実行されています——エージェントが停滞することはありません。
長い沈黙の間に何が起きますか?
気分は数日以内にベースラインに戻ります。関係のラブスコアは沈黙のしきい値の後に減衰し、徐々に減衰し続けます。習慣は強化なしに数週間で減衰します。高顕著性の事実はほとんど減衰せず、中立的な事実はより速く減衰します。ユーザーが戻ってくると、1回の再エンゲージメントが減衰を停止します。エージェントは準備ができており、関係は冷却され、最近の再活性化が自動的に通知されます。
これはAGIですか?
いいえ。これはインタラクションデータから学習して、検索、メモリ組織、行動状態を調整するシステムです。一般的な知能というよりは、CRMが顧客の好みを学習する方法に近いです。しかし、エージェントを永続的、関係的、生きているように感じさせる目的のためには——機能します。