В справочном центре Replika написано, что приложение «хранит всё с самого начала». Разборы говорят другое: модель видит примерно последние 25 сообщений, а всё, что старше, лежит в твоём аккаунте, куда ИИ во время генерации заглянуть не может (thredly.io). История сохранена. Но не запомнена. В этом разрыве и заключается вся проблема.
Если ты когда-нибудь называл персонажу своё имя, рассказывал предысторию, договаривался с ним о чём-то в первый же день, а потом видел, как полсотни сообщений спустя он смотрит на тебя пустым взглядом, — ты это чувствовал. Лог переписки прямо перед тобой на экране. Просто модель в него не смотрит.
Почему ИИ-персонажи забывают
У языковой модели нет непрерывной памяти о вашем разговоре в том смысле, в каком она есть у тебя. На каждом шаге модель читает блок текста фиксированного размера — контекстное окно, — генерирует ответ и забывает сам факт чтения. Всё, что не помещается в это окно на текущем шаге, для неё всё равно что не существует.
Когда переписка перерастает объём окна, самый старый текст вытесняется, чтобы освободить место для нового. Окно пошире даёт больше места, но обходится дороже, добавляет задержку и проседает в середине: модели стабильно теряют информацию, погребённую между началом и концом длинного промпта, — эффект «lost in the middle» (Atlan, bitfern). Так что забывание — это не баг, который чинится патчем. Это поведение архитектуры по умолчанию. Всё, что описано ниже, — попытки его обойти.
Способы, которыми ИИ может «помнить» (и как ломается каждый из них)
Любая система памяти — это стратегия того, как вернуть нужный старый текст обратно в это фиксированное окно в нужный момент. И у каждой свой размен: точность припоминания против стоимости, задержки и собственного способа ломаться.
Скользящее суммирование. LLM сжимает старые реплики в накопительное резюме, которое тянется вместе с промптом. Это дёшево и компактно — и по самой своей природе теряет данные: каждый проход выбрасывает детали, чтобы остаться коротким. Редкий факт из первого дня переживает первое сжатие, тускнеет на втором и исчезает к третьему. Ты этого не замечаешь, пока персонаж не начнёт противоречить тому, что вы вместе установили неделю назад (mem0, Recursively Summarizing, arXiv).
Lorebook / World Info. Ты пишешь записи вручную, и каждая подставляется только тогда, когда в тексте появляется её ключевое слово-триггер (документация SillyTavern). Когда запись срабатывает, она точна. Загвоздка в том, что ИИ намеренно слеп к собственному lorebook, пока ключевое слово его не разбудит: перефразируешь триггер, опечатаешься в нём или упомянешь предмет окольно — и запись молча не загрузится. Знание есть, но остаётся невидимым.
Векторный поиск / RAG. Каждое сообщение превращается в вектор-эмбеддинг и сохраняется. На каждом шаге система достаёт фрагменты, наиболее похожие на то, что ты только что сказал, и вставляет их в промпт (freeCodeCamp). Это масштабируется на огромные истории — в этом его настоящая сила. Но он же вытаскивает не тот фрагмент, когда «наиболее похожее» — это не «наиболее уместное», а уверенно извлечённое ложное воспоминание хуже, чем вообще никакого: оно подсовывает модели ложную посылку, на которой та строит дальше.
Многослойная / структурированная память. Вместо того чтобы вываливать сырой текст, LLM извлекает значимые факты и выполняет операции добавления, обновления и удаления — или оценивает воспоминания по свежести, важности и уместности, как это было сделано в работе Generative Agents (обзор на arXiv, Generative Agents). Это ближе к тому, каким припоминание и должно быть. Но появляется лишний шаг, который тоже может сломаться: бенчмарк HaluMem показывает, что системы памяти выдумывают и теряют информацию на этапах извлечения, обновления и поиска (HaluMem, arXiv). Память галлюцинирует. Она не просто забывает.
Графы знаний. Сущности становятся узлами, а отношения — рёбрами, причём временные рёбра отслеживают, когда что-то произошло, а не когда об этом стало известно (статья про Zep / Graphiti). Это самый структурированный вариант — и самый трудозатратный, когда нужно построить такой граф и держать его в чистоте по мере того, как история ветвится.
Из всего этого следуют две вещи. Во-первых, размен реален и неизбежен: точность припоминания против стоимости, против задержки, против риска выдуманных воспоминаний. Во-вторых, окно контекста побольше — это не система памяти. С определённого момента старая информация активно мешает припомнить более новую («проактивная интерференция»), а при высокой интерференции поиск не деградирует плавно, а схлопывается в выдумывание (исследование проактивной интерференции, arXiv). Больше токенов — это стог сена побольше, а не та самая иголка.
Как с этим справляются платформы
Коротко о том, кто что делает и где у каждого трещина. Ячейки намеренно держим сжатыми.
| Платформа | Как помнит | Где ломается |
|---|---|---|
| Character.AI | Закреплённые сообщения плюс ограниченное окно, за которым всё забывается | Забывание и «гниение контекста» возглавляют список жалоб пользователей (404 Media) |
| AI Dungeon | Редактируемое Story Summary плюс RAG-слой Memory Bank и ключевые Story Cards (Latitude, справка) | Число слотов памяти зависит от тарифа, наименее используемые вытесняются; ИИ не видит Story Card, пока её не загрузит точное ключевое слово (справка) |
| SillyTavern | Ты вручную собираешь World Info, Author's Note, Summarize и Vector Storage (World Info, Summarize) | Всё полностью вручную; записи по ключам пропускают формулировки без ключевого слова; документация по Summarize предупреждает, что вывод «дрейфует и галлюцинирует» |
| Kindroid | Предыстория всегда в контексте плюс извлекаемая долговременная память и журнал по ключевым фразам (документация) | Документация признаёт, что долговременная память «потенциально ненадёжна»; самый глубокий уровень платный; ключевые фразы журнала должны совпадать дословно |
| Nomi | Mind Map, который выстраивается по мере роста истории (Nomi) | Карта материализуется только примерно после 500 сообщений, надёжное припоминание привязано к 1000+; Identity Core нельзя ни посмотреть, ни отредактировать |
| Replika | Аккаунт заявляет, что хранит всё с самого начала (thredly) | Модель видит лишь ~25 последних сообщений; остальное сохранено, но невидимо при генерации |
| Saga | Держится на протяжении длинной истории; лор задаёшь ты | В превью, библиотека пока небольшая |
Несколько из них заслуживают отдельной строки. SpicyChat прячет lorebook за платными тарифами и ограничивает контекст на бесплатном уровне 4096 токенами, так что память там коротка ещё до того, как сработает хоть какая-то техника (документация SpicyChat). Lorebook от NovelAI активирует записи по ключевым словам-триггерам (документация NovelAI) — тот же точный, но хрупкий паттерн, что и у всех остальных.
Так что же на самом деле значит «память, которая работает»?
Обрати внимание, чего в таблице нет: платформы, которая «никогда не забывает». Любой, кто такое обещает, продаёт тебе маркетинговую версию того же «хранит всё», что и Replika. Полезный вопрос уже. Помнит ли персонаж то, что важно, по мере того как история становится длинной, — ровно в той точке, где закреплённая и постоянная память у других на глазах ломается?
Именно эту планку Saga и создана взять. Важно ощущение: персонажи помнят, что произошло на протяжении длинной истории, ссылаются на это и меняются из-за этого, а ты задаёшь лор, который закрепляет мир, чтобы ИИ работал по твоему канону, а не угадывал его. Короткие, непринуждённые сцены вписываются ничуть не хуже.
Есть проверка, которую ты можешь провести сам. Установи факт, отыграй 200 сообщений после этого, затем сошлись на него окольно и посмотри, держит ли его персонаж всё ещё. Это тот самый момент, когда суммирование роняет деталь, а lorebook по ключевым словам молчит, — и это тот случай, ради которого Saga и создана. Вокруг памяти и остальное на месте: Saga маршрутизирует запросы между моделями через OpenRouter, так что ты не привязан к одному провайдеру, если его качество просядет. Создатели задают границы контента, и есть одна жёсткая линия, которая не сдвигается: ничего, что касается несовершеннолетних. Разговоры шифруются при передаче и хранятся в защищённом виде, никогда не продаются и никогда не используются для обучения моделей. Сервис работает на кредитах, на старте дают бесплатные кредиты, а возможность подключить собственный ключ запланирована; Saga пока в превью, доступ по списку ожидания.
Если ты хочешь окинуть взглядом всю картину целиком, наш гид по альтернативам Character.AI разбирает платформы выше по цене, контентной политике и тому, кому каждая из них подходит.
Частые вопросы
Почему Character.AI всё забывает? Его модель на каждом шаге читает контекстное окно фиксированного размера, и как только переписка перерастает это окно, самый старый текст обрезается. Длинные чаты просто превышают то, что модель способна удержать за раз, а забывание и «гниение контекста» — одни из самых частых жалоб (404 Media). История всё ещё сохранена в твоём аккаунте; просто модель не может увидеть её целиком за раз.
В какой ролевой игре с ИИ самая лучшая память? Зависит от того, чем ты занимаешься. Для одного компаньона, к которому возвращаешься каждый день, многослойная система Kindroid сильна, хотя её документация и признаёт, что долговременное припоминание «потенциально ненадёжно» (Kindroid). Для длинной истории, где нить должна держаться на протяжении целой арки, — это тот случай, ради которого создана Saga. К любому заявлению «помнит всё» относись с подозрением и проверяй его сам.
Может ли ИИ-чат-бот помнить всё? Буквально — нет, и не стоит доверять тому, кто утверждает обратное. Помимо контекстного окна, сами системы памяти выдумывают и теряют информацию на этапах извлечения, обновления и поиска (HaluMem). Хорошая система надёжно припоминает то, что важно; она не хранит бесконечный идеальный лог, который модель может читать по своему желанию.
Что такое lorebook? Lorebook (его ещё называют World Info) — это набор записей, которые ты пишешь о своём мире, и каждая привязана к ключевому слову-триггеру, подставляющему запись только тогда, когда это слово появляется в чате (SillyTavern). Он точен, когда срабатывает, и нем, когда нет: перефразируешь или опечатаешься в триггере — и запись не загрузится. В Saga ты задаёшь лор, который закрепляет мир, так что канон — это то, что ты определяешь, а не то, о чём ты надеешься, что модель догадается сама.
Даёт ли большее окно контекста лучшую память? Нет. Окно побольше помогает до определённого предела, а дальше упирается в «lost in the middle», когда модели роняют информацию, погребённую в теле длинного промпта, и в проактивную интерференцию, когда старый текст блокирует припоминание нового, пока поиск не схлопнется в выдумывание (Atlan, arXiv). Больше токенов — это стог сена побольше. А память — это про то, чтобы найти нужную иголку.
Saga прямо сейчас в превью, так что ты можешь зайти пораньше и помочь сформировать то, как память будет ощущаться на практике.
Записаться в список ожидания Saga →
Есть вопросы или хочешь обменяться идеями для отыгрыша? Заходи к нам в Discord. Детали по платформам выше отражают публично доступную информацию по состоянию на середину 2026 года; системы меняются быстро, так что сверяйся со ссылками на источники, чтобы получить актуальное.























