El centro de ayuda de Replika dice que "conserva todo desde el principio". Los análisis técnicos cuentan otra historia: el modelo solo ve más o menos los últimos 25 mensajes, así que todo lo más viejo queda guardado en tu cuenta, donde la IA no puede leerlo en el momento de generar la respuesta (thredly.io). El historial está almacenado. No está recordado. Ese hueco es todo el problema.
Si alguna vez le contaste a un personaje tu nombre, tu trasfondo, eso que decidieron juntos el primer día, y lo viste quedarse en blanco cincuenta mensajes después, ya sabes de lo que hablo. El registro del chat está ahí, en tu pantalla. Lo que pasa es que el modelo no lo está mirando.
Por qué los personajes de IA se olvidan
Un modelo de lenguaje no tiene una memoria continua de tu conversación como la tienes tú. En cada turno lee un bloque de texto de tamaño fijo llamado ventana de contexto, genera una respuesta y se olvida del acto de leer. Todo lo que no entra en esa ventana en este turno es como si no existiera.
A medida que un chat crece más allá de lo que la ventana aguanta, el texto más viejo se empuja hacia afuera para dejar espacio al más nuevo. Ventanas más grandes te dan más margen, pero cuestan más, suman latencia y se degradan en el medio: los modelos pierden el hilo de forma sistemática cuando la información queda enterrada entre el principio y el final de un prompt largo, el efecto "lost in the middle" (Atlan, bitfern). Así que olvidar no es un bug que un parche vaya a arreglar. Es el comportamiento por defecto de la arquitectura. Todo lo que viene a continuación es un intento de sortearlo.
Las formas en que una IA puede "recordar" (y cómo falla cada una)
Cada sistema de memoria es una estrategia para devolver el texto viejo correcto a esa ventana fija en el momento justo. Cada uno sacrifica capacidad de memoria frente a coste, latencia y un modo de fallo propio.
Resumen progresivo. Un LLM comprime los turnos viejos en un resumen continuo que viaja dentro del prompt. Es barato y compacto, y pierde información por diseño: cada pasada descarta detalle para mantenerse corto. Un dato suelto del primer día sobrevive a la primera compresión, se diluye tras la segunda y desaparece con la tercera. No te das cuenta hasta que el personaje contradice algo que ambos establecieron hace una semana (mem0, Recursively Summarizing, arXiv).
Lorebooks / World Info. Escribes las entradas a mano, y cada una se inyecta solo cuando su palabra clave disparadora aparece en el texto (documentación de SillyTavern). Cuando se activa, es precisa. El problema es que la IA está deliberadamente ciega a su propio lorebook hasta que una palabra clave la despierta: parafrasea el disparador, escríbelo mal o menciónalo de pasada, y la entrada simplemente nunca se carga, sin avisar. El conocimiento existe y permanece invisible.
Recuperación vectorial / RAG. Cada mensaje se convierte en un vector (embedding) y se almacena. En cada turno, el sistema recupera los fragmentos más parecidos a lo que acabas de decir y los pega en el prompt (freeCodeCamp). Esto escala a historiales enormes, que es su verdadera fortaleza. También saca a la luz el fragmento equivocado cuando "lo más parecido" no es "lo más relevante", y un recuerdo erróneo recuperado como si fuera bueno es peor que ninguno: le entrega al modelo una premisa falsa sobre la cual construir.
Memoria multicapa / estructurada. En lugar de volcar texto en bruto, un LLM extrae los datos relevantes y emite operaciones de añadir, actualizar y borrar, o puntúa los recuerdos por cuán recientes, importantes y relevantes son, como hacía el trabajo de los Generative Agents (reseña en arXiv, Generative Agents). Esto se acerca más a cómo debería sentirse recordar. También añade un paso que puede fallar: el benchmark HaluMem muestra que los sistemas de memoria fabrican y pierden información en las etapas de extracción, actualización y recuperación (HaluMem, arXiv). La memoria alucina. No solo se olvida.
Grafos de conocimiento. Las entidades se vuelven nodos y las relaciones se vuelven aristas, con aristas temporales que registran cuándo pasó algo frente a cuándo se aprendió (artículo de Zep / Graphiti). Es la opción más estructurada y la que más trabajo da para construir y mantener limpia a medida que una historia se ramifica.
De aquí salen dos cosas. Primero, la disyuntiva es real e inevitable: capacidad de recuerdo frente a coste frente a latencia frente al riesgo de recuerdos fabricados. Segundo, una ventana de contexto más grande no es un sistema de memoria. A partir de cierto punto, la información vieja bloquea activamente el recuerdo de la información más nueva (la "interferencia proactiva"), y con interferencia alta, la recuperación se desploma hacia la fabricación en lugar de degradarse con elegancia (estudio sobre interferencia proactiva, arXiv). Más tokens es más pajar, no una mejor aguja.
Cómo lo manejan las plataformas
La versión corta de quién hace qué y dónde se resquebraja cada una. Las celdas se mantienen escuetas a propósito.
| Plataforma | Cómo recuerda | Dónde se rompe |
|---|---|---|
| Character.AI | Mensajes fijados más una ventana de olvido entre sesiones | El olvido y la degradación del contexto encabezan las quejas de los usuarios (404 Media) |
| AI Dungeon | Story Summary editable más una capa RAG de Memory Bank y Story Cards por palabra clave (Latitude, ayuda) | Las ranuras de memoria están limitadas por nivel con desalojo de las menos usadas; la IA está ciega a una Story Card hasta que se carga con la palabra clave exacta (ayuda) |
| SillyTavern | Apilas World Info, Author's Note, Summarize y Vector Storage a mano (World Info, Summarize) | Todo manual; las entradas por palabra clave fallan ante frases fuera de clave; la documentación de Summarize advierte que la salida "deriva y alucina" |
| Kindroid | Trasfondo siempre en contexto más memoria a largo plazo recuperable y un diario por frase clave (documentación) | La documentación admite que la memoria a largo plazo es "potencialmente poco fiable"; el nivel más profundo es de pago; las frases clave del diario deben coincidir al pie de la letra |
| Nomi | Un Mind Map que se va formando a lo largo de un historial extenso (Nomi) | El mapa solo se materializa después de unos 500 mensajes, con recuerdo fiable atado a más de 1.000; el Identity Core no se puede ver ni editar |
| Replika | La cuenta afirma conservar todo desde el principio (thredly) | El modelo solo ve unos 25 mensajes recientes; el resto queda almacenado pero invisible al generar la respuesta |
| Saga | Se sostiene a lo largo de una historia larga; tú defines la mitología | En preview, la biblioteca todavía es pequeña |
Algunas de estas merecen una frase. SpicyChat reserva los lorebooks para los niveles de pago y limita el contexto del nivel gratuito a 4.096 tokens, así que ahí la memoria es corta antes de que se aplique cualquier técnica (documentación de SpicyChat). El lorebook de NovelAI activa las entradas con disparadores de palabra clave (documentación de NovelAI), el mismo patrón preciso pero frágil que el de todos los demás.
Entonces, ¿qué significa de verdad "una memoria que funciona"?
Fíjate en lo que la tabla no contiene: una plataforma que "nunca se olvida". Cualquiera que prometa eso te está vendiendo la versión de marketing del "conserva todo" de Replika. La pregunta útil es más acotada. ¿El personaje sigue recordando lo que importa a medida que la historia se alarga, justo en el punto donde la memoria fijada y persistente de las otras se desmorona ante tus ojos?
Esa es la vara que Saga está hecha para superar. Lo que importa es la experiencia: los personajes recuerdan lo que pasó a lo largo de una historia larga, lo retoman y cambian a raíz de ello, y tú defines la mitología que ancla un mundo para que la IA trabaje a partir de tu canon en lugar de adivinarlo. Las escenas más cortas y casuales también tienen su lugar.
Hay una prueba que puedes hacer tú mismo. Establece un dato, sigue jugando 200 mensajes más, luego menciónalo de pasada y mira si el personaje todavía lo conserva. Ese es el momento en que el resumen pierde el detalle y un lorebook por palabra clave se queda mudo, y ese es el caso para el que está hecho Saga. Más allá de la memoria, el resto mantiene su forma: Saga enruta entre modelos a través de OpenRouter, así que no quedas atado a un solo proveedor si su calidad decae. Los creadores definen los límites de contenido, con una sola línea infranqueable: nada que involucre a menores. Las conversaciones se cifran en tránsito y se almacenan de forma segura, nunca se venden y nunca se usan para entrenar modelos. Funciona con créditos, con créditos gratis para empezar y una opción de traer tu propia clave en camino, y está en preview con lista de espera.
Si quieres ver el panorama completo, nuestra guía de alternativas a Character.AI repasa las plataformas de arriba según precio, política de contenido y para quién es cada una.
Preguntas frecuentes
¿Por qué Character.AI se olvida de todo? Su modelo lee una ventana de contexto de tamaño fijo en cada turno, y una vez que un chat supera esa ventana, el texto más viejo se recorta. Los chats largos simplemente exceden lo que el modelo puede sostener de una vez, y el olvido y la degradación del contexto están entre las quejas más comunes (404 Media). El historial sigue almacenado en tu cuenta; lo que pasa es que el modelo no puede verlo todo a la vez.
¿Qué roleplay con IA tiene la mejor memoria? Depende de lo que estés haciendo. Para un único compañero al que vuelves a diario, el sistema multicapa de Kindroid es sólido, aunque su documentación reconoce que el recuerdo a largo plazo es "potencialmente poco fiable" (Kindroid). Para una historia larga, donde el hilo tiene que sostenerse a lo largo de todo un arco, ese es el caso para el que está hecho Saga. Desconfía de cualquier afirmación de "lo recuerda todo" y pruébala tú mismo.
¿Puede un chatbot de IA recordarlo todo? No de forma literal, y deberías desconfiar de quien diga que sí. Más allá de la ventana de contexto, los propios sistemas de memoria fabrican y pierden información en las etapas de extracción, actualización y recuperación (HaluMem). Un buen sistema recuerda de forma fiable lo que importa; no guarda una transcripción infinita y perfecta que el modelo pueda leer a voluntad.
¿Qué es un lorebook? Un lorebook (también llamado World Info) es un conjunto de entradas que escribes sobre tu mundo, cada una atada a una palabra clave disparadora que inyecta la entrada solo cuando esa palabra aparece en el chat (SillyTavern). Es preciso cuando se activa y mudo cuando no: parafrasea o escribe mal el disparador y la entrada nunca se carga. En Saga tú defines la mitología que ancla un mundo, así que el canon es algo que tú estableces en lugar de esperar que el modelo lo deduzca.
¿Una ventana de contexto más grande significa mejor memoria? No. Una ventana más grande ayuda hasta cierto punto, y luego choca con el "lost in the middle", donde los modelos descartan la información enterrada en el cuerpo de un prompt largo, y con la interferencia proactiva, donde el texto viejo bloquea el recuerdo del texto más nuevo hasta que la recuperación se desploma hacia la fabricación (Atlan, arXiv). Más tokens es un pajar más grande. La memoria consiste en encontrar la aguja correcta.
Saga está en preview ahora mismo, así que puedes entrar temprano y ayudar a moldear cómo se siente la memoria en la práctica.
Únete a la lista de espera de Saga →
¿Tienes preguntas o quieres intercambiar ideas de roleplay? Pásate por Discord. Los detalles de plataforma de arriba reflejan información reportada públicamente hasta mediados de 2026; los sistemas cambian rápido, así que revisa los enlaces de las fuentes para ver lo más reciente.























