Le centre d'aide de Replika affirme qu'il « retient tout depuis le début ». Les analyses techniques racontent une autre histoire : le modèle ne voit en gros que les 25 derniers messages, donc tout ce qui est plus ancien reste sur ton compte, là où l'IA ne peut pas le lire au moment de générer sa réponse (thredly.io). L'historique est stocké. Il n'est pas mémorisé. C'est tout le problème.
Si tu as déjà donné ton prénom à un personnage, raconté ton passé, décidé un truc ensemble le premier jour, puis vu l'IA avoir un trou complet cinquante messages plus tard, tu connais cette sensation. Le journal de conversation est là, sous tes yeux. Le modèle, lui, ne le regarde tout simplement pas.
Pourquoi les personnages IA oublient
Un modèle de langage n'a pas de mémoire continue de ta conversation comme toi tu en as une. À chaque tour, il lit un bloc de texte de taille fixe appelé la fenêtre de contexte, génère une réponse, puis oublie l'acte même de lire. Tout ce qui ne rentre pas dans cette fenêtre à ce tour-ci pourrait tout aussi bien ne pas exister.
À mesure qu'une conversation dépasse ce que la fenêtre peut contenir, le texte le plus ancien est éjecté pour faire de la place au plus récent. Des fenêtres plus grandes t'offrent plus de marge, mais elles coûtent plus cher, ajoutent de la latence et se dégradent au milieu : les modèles perdent systématiquement le fil des informations enfouies entre le début et la fin d'un long prompt, c'est l'effet « lost in the middle » (Atlan, bitfern). Oublier n'est donc pas un bug qu'un correctif fera disparaître. C'est le comportement par défaut de l'architecture. Tout ce qui suit n'est qu'une tentative de le contourner.
Les façons dont une IA peut « se souvenir » (et comment chacune échoue)
Chaque système de mémoire est une stratégie pour réinjecter le bon vieux texte dans cette fenêtre fixe au bon moment. Chacun fait un compromis entre rappel, coût, latence, et porte son propre mode d'échec.
Le résumé glissant. Un LLM compresse les anciens tours dans un résumé continu qui voyage avec le prompt. C'est économique et compact, et c'est une compression à perte par nature : chaque passage sacrifie du détail pour rester court. Un fait rare du premier jour survit à la première compression, se fait grignoter à la deuxième, et disparaît à la troisième. Tu ne t'en rends pas compte avant que le personnage contredise un truc que vous aviez tous les deux établi une semaine plus tôt (mem0, Recursively Summarizing, arXiv).
Les lorebooks / World Info. Tu rédiges les entrées à la main, et chacune n'est injectée que lorsque son mot-clé déclencheur apparaît dans le texte (documentation SillyTavern). Quand elle se déclenche, c'est précis. Le hic, c'est que l'IA est délibérément aveugle à son propre lorebook tant qu'un mot-clé ne l'a pas réveillé : reformule le déclencheur, fais une faute de frappe, ou évoque la chose de biais, et l'entrée ne se charge jamais, en silence. La connaissance existe et reste invisible.
La récupération vectorielle / RAG. Chaque message est encodé sous forme de vecteur et stocké. À chaque tour, le système récupère les extraits les plus similaires à ce que tu viens de dire et les colle dans le prompt (freeCodeCamp). Ça passe à l'échelle sur des historiques énormes, et c'est sa vraie force. Mais ça fait aussi remonter le mauvais extrait quand « le plus similaire » n'est pas « le plus pertinent », et un faux souvenir récupéré avec aplomb est pire que pas de souvenir du tout : il sert au modèle une fausse prémisse sur laquelle bâtir.
La mémoire multicouche / structurée. Plutôt que de déverser du texte brut, un LLM extrait les faits saillants et émet des opérations d'ajout, de mise à jour et de suppression, ou note les souvenirs selon leur fraîcheur, leur importance et leur pertinence, à la manière des travaux sur les Generative Agents (étude de synthèse arXiv, Generative Agents). On se rapproche de ce à quoi devrait ressembler le fait de se souvenir. Mais ça ajoute une étape qui peut échouer : le benchmark HaluMem montre que les systèmes de mémoire fabriquent et perdent de l'information aux stades de l'extraction, de la mise à jour et de la récupération (HaluMem, arXiv). La mémoire hallucine. Elle ne fait pas qu'oublier.
Les graphes de connaissances. Les entités deviennent des nœuds et les relations des arêtes, avec des arêtes temporelles qui distinguent le moment où quelque chose s'est produit de celui où on l'a appris (article Zep / Graphiti). C'est l'option la plus structurée, et la plus laborieuse à construire et à garder propre à mesure qu'une histoire se ramifie.
Deux choses en découlent. D'abord, le compromis est réel et incontournable : rappel contre coût contre latence contre risque de souvenirs fabriqués. Ensuite, une fenêtre de contexte plus grande n'est pas un système de mémoire. Passé un certain point, l'information ancienne bloque activement le rappel de l'information plus récente (« interférence proactive »), et à forte interférence, la récupération s'effondre en fabrication plutôt que de se dégrader en douceur (étude sur l'interférence proactive, arXiv). Plus de tokens, c'est une botte de foin plus grande, pas une meilleure aiguille.
Comment les plateformes s'y prennent
Version courte de qui fait quoi, et de l'endroit où chacune craque. Les cellules vont volontairement à l'essentiel.
| Plateforme | Comment elle se souvient | Où ça casse |
|---|---|---|
| Character.AI | Messages épinglés plus une fenêtre d'oubli entre les sessions | L'oubli et la dégradation du contexte arrivent en tête des plaintes des utilisateurs (404 Media) |
| AI Dungeon | Story Summary éditable plus une couche RAG Memory Bank et des Story Cards à mots-clés (Latitude, aide) | Les emplacements mémoire sont plafonnés par forfait avec éviction du moins utilisé ; l'IA est aveugle à une Story Card tant qu'un mot-clé exact ne la charge pas (aide) |
| SillyTavern | Tu empiles World Info, Author's Note, Summarize et Vector Storage à la main (World Info, Summarize) | Entièrement manuel ; les entrées à mots-clés ratent les formulations hors mot-clé ; la doc Summarize prévient que la sortie « dérive et hallucine » |
| Kindroid | Backstory toujours en contexte plus une mémoire long terme récupérable et un journal à phrases-clés (doc) | La doc reconnaît que la mémoire long terme est « potentiellement peu fiable » ; le palier le plus profond est payant ; les phrases-clés du journal doivent correspondre mot pour mot |
| Nomi | Une Mind Map qui se construit au fil d'un long historique (Nomi) | La carte ne se matérialise qu'après ~500 messages, le rappel fiable étant calé sur 1 000+ ; l'Identity Core n'est ni consultable ni modifiable |
| Replika | Le compte prétend tout retenir depuis le début (thredly) | Le modèle ne voit que les ~25 messages récents ; le reste est stocké mais invisible au moment de l'inférence |
| Saga | Tient tout au long d'une histoire ; c'est toi qui poses le lore | En preview, la bibliothèque est encore petite |
Quelques-unes méritent une phrase. SpicyChat verrouille les lorebooks derrière des forfaits payants et plafonne le contexte de l'offre gratuite à 4 096 tokens, donc la mémoire y est courte avant même qu'une technique entre en jeu (documentation SpicyChat). Le lorebook de NovelAI active les entrées sur des déclencheurs à mots-clés (documentation NovelAI), le même schéma précis mais fragile que chez tous les autres.
Alors, qu'est-ce que « une mémoire qui marche » veut vraiment dire ?
Remarque ce que le tableau ne contient pas : une plateforme qui « n'oublie jamais ». Quiconque te promet ça te vend la version marketing du « retient tout » de Replika. La vraie question est plus étroite. Est-ce que le personnage se souvient encore de ce qui compte à mesure que l'histoire s'allonge, exactement là où, ailleurs, la mémoire épinglée et persistante craque visiblement ?
C'est la barre que Saga est conçu pour franchir. Ce qui compte, c'est l'expérience : les personnages se souviennent de ce qui s'est passé tout au long d'une histoire, y reviennent, et évoluent en conséquence, et c'est toi qui poses le lore qui ancre un monde pour que l'IA travaille à partir de ton canon au lieu de deviner. Les scènes plus courtes et décontractées s'y prêtent tout aussi bien.
Il y a un test que tu peux faire toi-même. Établis un fait, joue 200 messages au-delà, puis évoque-le de biais et regarde si le personnage l'a toujours en tête. C'est le moment où le résumé lâche le détail et où un lorebook à mots-clés reste muet, et c'est précisément le cas pour lequel Saga est conçu. Autour de la mémoire, le reste garde sa forme : Saga bascule entre les modèles via OpenRouter, donc tu n'es pas enfermé chez un seul fournisseur si sa qualité flanche. Les créateurs fixent les limites de contenu, avec une seule ligne rouge qui ne bouge pas : rien qui implique des mineurs. Les conversations sont chiffrées en transit et stockées de façon sécurisée, jamais vendues et jamais utilisées pour entraîner des modèles. Ça marche avec des crédits, des crédits gratuits pour démarrer, et une option pour utiliser ta propre clé est prévue ; le tout est en preview, sur liste d'attente.
Si tu cartographies le terrain plus large, notre guide des alternatives à Character.AI passe les plateformes ci-dessus en revue sur le prix, la politique de contenu et le public visé.
Foire aux questions
Pourquoi Character.AI oublie-t-il tout ? Son modèle lit à chaque tour une fenêtre de contexte de taille fixe, et dès qu'une conversation dépasse cette fenêtre, le texte le plus ancien est rogné. Les longues conversations dépassent tout simplement ce que le modèle peut tenir d'un coup, et l'oubli ainsi que la dégradation du contexte figurent parmi les plaintes les plus fréquentes (404 Media). L'historique est toujours stocké sur ton compte ; c'est juste que le modèle ne peut pas tout voir en même temps.
Quelle IA de roleplay a la meilleure mémoire ? Ça dépend de ce que tu fais. Pour un compagnon unique que tu retrouves chaque jour, le système multicouche de Kindroid est solide, même si sa doc concède que le rappel long terme est « potentiellement peu fiable » (Kindroid). Pour une longue histoire où le fil doit tenir sur tout un arc, c'est le cas pour lequel Saga est conçu. Méfie-toi de toute affirmation du genre « se souvient de tout » et teste-la toi-même.
Un chatbot IA peut-il tout retenir ? Pas au sens littéral, et tu devrais te méfier de quiconque prétend le contraire. Au-delà de la fenêtre de contexte, les systèmes de mémoire eux-mêmes fabriquent et perdent de l'information aux stades de l'extraction, de la mise à jour et de la récupération (HaluMem). Un bon système se souvient de façon fiable de ce qui compte ; il ne stocke pas une transcription infinie et parfaite que le modèle pourrait lire à volonté.
Qu'est-ce qu'un lorebook ? Un lorebook (aussi appelé World Info) est un ensemble d'entrées que tu rédiges sur ton univers, chacune liée à un mot-clé déclencheur qui n'injecte l'entrée que lorsque ce mot apparaît dans la conversation (SillyTavern). C'est précis quand ça se déclenche, et muet quand ça ne se déclenche pas : reformule ou écorche le déclencheur, et l'entrée ne se charge jamais. Dans Saga, c'est toi qui poses le lore qui ancre un monde, donc le canon, c'est quelque chose que tu définis plutôt que d'espérer que le modèle le devine.
Une fenêtre de contexte plus grande veut-elle dire une meilleure mémoire ? Non. Une fenêtre plus grande aide jusqu'à un certain point, puis se heurte au « lost in the middle », où les modèles laissent tomber l'information enfouie dans le corps d'un long prompt, et à l'interférence proactive, où l'ancien texte bloque le rappel du texte plus récent jusqu'à ce que la récupération s'effondre en fabrication (Atlan, arXiv). Plus de tokens, c'est une botte de foin plus grande. La mémoire, c'est trouver la bonne aiguille.
Saga est en preview en ce moment même, donc tu peux embarquer dès le début et aider à façonner ce que la mémoire donne concrètement.
Rejoindre la liste d'attente Saga →
Des questions, ou envie d'échanger des idées de roleplay ? Viens traîner sur Discord. Les détails sur les plateformes ci-dessus reflètent les informations publiquement rapportées à la mi-2026 ; les systèmes évoluent vite, alors consulte les liens sources pour les dernières nouveautés.























