Im Hilfecenter von Replika heißt es, die KI „behält alles seit dem Anfang". Technische Analysen erzählen eine andere Geschichte: Das Modell sieht nur ungefähr die letzten 25 Nachrichten, alles Ältere liegt in deinem Account, wo die KI es zum Zeitpunkt der Antwort nicht lesen kann (thredly.io). Der Verlauf ist gespeichert. Erinnert wird er nicht. Diese Lücke ist das ganze Problem.
Wenn du einem Charakter je deinen Namen, deine Vorgeschichte oder das, was ihr am ersten Tag gemeinsam beschlossen habt, erzählt hast und fünfzig Nachrichten später mit angesehen hast, wie er nur Bahnhof versteht, dann kennst du das Gefühl. Der Chatverlauf steht direkt vor dir auf dem Bildschirm. Das Modell schaut nur einfach nicht hin.
Warum KI-Charaktere vergessen
Ein Sprachmodell hat kein laufendes Gedächtnis über euer Gespräch, so wie du es hast. Bei jeder Antwort liest es einen Textblock fester Größe, das sogenannte Kontextfenster, erzeugt eine Antwort und vergisst den Vorgang des Lesens gleich wieder. Was gerade nicht in dieses Fenster passt, existiert für das Modell quasi nicht.
Wenn ein Chat über das hinauswächst, was das Fenster fasst, wird der älteste Text hinausgeschoben, um Platz für den neuesten zu schaffen. Größere Fenster verschaffen dir mehr Raum, aber sie kosten mehr, erhöhen die Latenz und verlieren in der Mitte an Qualität: Modelle verlieren zuverlässig den Faden bei Informationen, die zwischen Anfang und Ende eines langen Prompts vergraben sind – der „lost in the middle"-Effekt (Atlan, bitfern). Vergessen ist also kein Bug, den ein Patch behebt. Es ist das Standardverhalten der Architektur. Alles Folgende ist ein Versuch, es zu umgehen.
Wie eine KI sich „erinnern" kann (und woran jede Methode scheitert)
Jedes Gedächtnissystem ist eine Strategie, um den richtigen alten Text im richtigen Moment zurück in dieses feste Fenster zu bekommen. Jedes wägt Erinnerungsleistung gegen Kosten, Latenz und eine eigene Fehlerart ab.
Fortlaufende Zusammenfassung. Ein LLM komprimiert ältere Nachrichten zu einer laufenden Zusammenfassung, die im Prompt mitfährt. Das ist günstig und kompakt – und prinzipbedingt verlustbehaftet: Jeder Durchlauf wirft Details weg, um kurz zu bleiben. Ein seltenes Faktum vom ersten Tag überlebt die erste Komprimierung, wird von der zweiten ausgedünnt und ist nach der dritten verschwunden. Du merkst es erst, wenn der Charakter etwas sagt, das dem widerspricht, was ihr beide vor einer Woche festgelegt habt (mem0, Recursively Summarizing, arXiv).
Lorebooks / World Info. Du schreibst die Einträge von Hand, und jeder wird nur dann eingespeist, wenn sein Auslöse-Stichwort im Text auftaucht (SillyTavern-Doku). Wenn er feuert, ist er präzise. Der Haken: Die KI ist für ihr eigenes Lorebook bewusst blind, bis ein Stichwort sie aufweckt – umschreibst du den Auslöser, vertippst dich oder sprichst die Sache nur indirekt an, lädt der Eintrag still und leise nie. Das Wissen ist da und bleibt unsichtbar.
Vektor- / RAG-Abruf. Jede Nachricht wird als Vektor eingebettet und gespeichert. Bei jeder Antwort ruft das System die Schnipsel ab, die dem, was du gerade gesagt hast, am ähnlichsten sind, und fügt sie ein (freeCodeCamp). Das skaliert auf riesige Verläufe, das ist seine eigentliche Stärke. Es bringt aber auch den falschen Schnipsel ans Licht, wenn „am ähnlichsten" nicht „am relevantesten" heißt, und eine selbstbewusst abgerufene falsche Erinnerung ist schlimmer als gar keine: Sie liefert dem Modell eine falsche Prämisse, auf der es aufbaut.
Mehrschichtiges / strukturiertes Gedächtnis. Statt Rohtext abzuladen, extrahiert ein LLM die wesentlichen Fakten und führt Hinzufügen-, Aktualisieren- und Löschen-Operationen aus, oder es bewertet Erinnerungen nach Aktualität, Wichtigkeit und Relevanz, so wie es die Arbeit zu den Generative Agents gemacht hat (arXiv-Survey, Generative Agents). Das kommt dem näher, wie sich Erinnern anfühlen sollte. Es fügt aber auch einen Schritt hinzu, der scheitern kann: Der HaluMem-Benchmark zeigt, dass Gedächtnissysteme bei der Extraktion, der Aktualisierung und dem Abruf Informationen erfinden und verlieren (HaluMem, arXiv). Gedächtnis halluziniert. Es vergisst nicht nur.
Wissensgraphen. Entitäten werden zu Knoten und Beziehungen zu Kanten, mit zeitlichen Kanten, die festhalten, wann etwas passiert ist und wann es gelernt wurde (Zep / Graphiti-Paper). Das ist die strukturierteste Option und die mit dem meisten Aufwand beim Aufbau und beim Sauberhalten, während eine Geschichte sich verzweigt.
Daraus folgen zwei Dinge. Erstens ist der Zielkonflikt real und unvermeidbar: Erinnerungsleistung gegen Kosten gegen Latenz gegen das Risiko erfundener Erinnerungen. Zweitens ist ein größeres Kontextfenster kein Gedächtnissystem. Ab einem gewissen Punkt blockieren alte Informationen aktiv den Abruf neuerer Informationen („proaktive Interferenz"), und bei hoher Interferenz kippt der Abruf in Erfindung um, statt sanft schlechter zu werden (Studie zu proaktiver Interferenz, arXiv). Mehr Tokens bedeuten mehr Heuhaufen, nicht eine bessere Nadel.
Wie die Plattformen damit umgehen
Die Kurzfassung, wer was macht und wo es bei jeder bricht. Die Zellen sind bewusst knapp gehalten.
| Plattform | Wie sie sich erinnert | Wo es bricht |
|---|---|---|
| Character.AI | Angeheftete Nachrichten plus ein Vergessensfenster zwischen den Sitzungen | Vergessen und Kontextzerfall rangieren ganz oben bei den Nutzerbeschwerden (404 Media) |
| AI Dungeon | Editierbares Story Summary plus eine Memory-Bank-RAG-Schicht und stichwortbasierte Story Cards (Latitude, Hilfe) | Die Memory-Slots sind tarifgedeckelt mit Verdrängung der am seltensten genutzten; die KI ist blind für eine Story Card, bis ein exaktes Stichwort sie lädt (Hilfe) |
| SillyTavern | Du stapelst World Info, Author's Note, Summarize und Vector Storage von Hand (World Info, Summarize) | Komplett manuell; stichwortgebundene Einträge verfehlen Formulierungen, die das Stichwort nicht enthalten; die Summarize-Doku warnt, die Ausgabe „driftet und halluziniert" |
| Kindroid | Stets im Kontext liegende Vorgeschichte plus abrufbares Langzeitgedächtnis und ein Stichwort-Tagebuch (Doku) | Die Doku räumt ein, das Langzeitgedächtnis sei „potenziell unzuverlässig"; die tiefste Stufe ist kostenpflichtig; die Tagebuch-Stichwörter müssen wortwörtlich passen |
| Nomi | Eine Mind Map, die sich über einen langen Verlauf hinweg aufbaut (Nomi) | Die Map entsteht erst nach ~500 Nachrichten, zuverlässiger Abruf ist an 1.000+ geknüpft; der Identity Core ist nicht einsehbar oder bearbeitbar |
| Replika | Der Account behauptet, alles von Anfang an zu behalten (thredly) | Das Modell sieht nur ~25 aktuelle Nachrichten; der Rest ist gespeichert, aber zum Zeitpunkt der Antwort unsichtbar |
| Saga | Hält über eine lange Geschichte hinweg; du legst die Lore fest | In der Preview ist die Bibliothek noch klein |
Ein paar davon verdienen einen Satz. SpicyChat sperrt Lorebooks hinter kostenpflichtige Stufen und deckelt den Kontext der Gratis-Stufe auf 4.096 Tokens, das Gedächtnis ist dort also schon kurz, bevor irgendeine Technik greift (SpicyChat-Doku). NovelAIs Lorebook aktiviert Einträge über Stichwort-Auslöser (NovelAI-Doku) – dasselbe präzise, aber brüchige Muster wie bei allen anderen.
Was bedeutet „Gedächtnis, das funktioniert" also wirklich?
Achte darauf, was in der Tabelle nicht steht: eine Plattform, die „nie vergisst". Wer dir das verspricht, verkauft dir die Marketing-Version von Replikas „behält alles". Die nützliche Frage ist enger gefasst. Erinnert sich der Charakter noch an das, was zählt, wenn die Geschichte lang wird – genau an der Stelle, an der angeheftetes und dauerhaftes Gedächtnis anderswo sichtbar bricht?
Genau diese Latte soll Saga überspringen. Worauf es ankommt, ist das Erlebnis: Charaktere erinnern sich daran, was über eine lange Geschichte hinweg passiert ist, greifen es wieder auf und verändern sich dadurch, und du legst die Lore fest, die eine Welt verankert, damit die KI von deinem Kanon ausgeht, statt ihn zu erraten. Kürzere, lockere Szenen passen genauso gut.
Es gibt einen Test, den du selbst durchführen kannst. Lege ein Faktum fest, spiele 200 Nachrichten darüber hinaus, sprich es dann indirekt an und schau, ob der Charakter es noch hat. Das ist der Moment, in dem die Zusammenfassung Details fallen lässt und ein Stichwort-Lorebook stumm bleibt – und genau dafür ist Saga gebaut. Rund um das Gedächtnis behält der Rest seine Form: Saga routet über OpenRouter zwischen Modellen, du bist also nicht an einen einzigen Anbieter gebunden, wenn seine Qualität nachlässt. Die Macher legen die inhaltlichen Grenzen fest, mit einer harten Linie, die sich nicht verschiebt: nichts, woran Minderjährige beteiligt sind. Gespräche werden bei der Übertragung verschlüsselt und sicher gespeichert, niemals verkauft und niemals zum Trainieren von Modellen verwendet. Es läuft über Credits, mit Gratis-Credits zum Start und einer geplanten Bring-your-own-Key-Option, und es ist in der Preview auf einer Warteliste.
Wenn du dir das weitere Feld erschließen willst: Unser Leitfaden zu Character.AI-Alternativen vergleicht die oben genannten Plattformen nach Preis, Inhaltsrichtlinie und Zielgruppe.
Häufig gestellte Fragen
Warum vergisst Character.AI alles? Sein Modell liest bei jeder Antwort ein festes Kontextfenster, und sobald ein Chat über dieses Fenster hinauswächst, wird der älteste Text abgeschnitten. Lange Chats übersteigen schlicht das, was das Modell auf einmal fassen kann, und Vergessen und Kontextzerfall gehören zu den häufigsten Beschwerden (404 Media). Der Verlauf ist weiterhin in deinem Account gespeichert; das Modell kann ihn nur nicht ganz auf einmal sehen.
Welches KI-Roleplay hat das beste Gedächtnis? Das kommt darauf an, was du machst. Für einen einzelnen Begleiter, zu dem du täglich zurückkehrst, ist Kindroids mehrschichtiges System stark, auch wenn seine Doku einräumt, der Langzeit-Abruf sei „potenziell unzuverlässig" (Kindroid). Für eine lange Geschichte, in der der Faden über einen ganzen Erzählbogen halten muss, ist genau das der Fall, für den Saga gebaut ist. Behandle jede „erinnert sich an alles"-Behauptung mit Misstrauen und teste sie selbst.
Kann sich ein KI-Chatbot an alles erinnern? Nicht im wörtlichen Sinn, und du solltest jedem misstrauen, der das behauptet. Über das Kontextfenster hinaus erfinden und verlieren die Gedächtnissysteme selbst Informationen bei der Extraktion, der Aktualisierung und dem Abruf (HaluMem). Ein gutes System ruft zuverlässig ab, was zählt; es speichert kein unendliches, perfektes Transkript, das das Modell nach Belieben lesen kann.
Was ist ein Lorebook? Ein Lorebook (auch World Info genannt) ist eine Sammlung von Einträgen, die du über deine Welt schreibst, jeder an ein Auslöse-Stichwort gebunden, das den Eintrag nur dann einspeist, wenn dieses Wort im Chat auftaucht (SillyTavern). Es ist präzise, wenn es feuert, und stumm, wenn nicht: Schreibst du den Auslöser um oder vertippst dich, lädt der Eintrag nie. In Saga legst du die Lore fest, die eine Welt verankert, sodass der Kanon etwas ist, das du definierst, statt zu hoffen, dass das Modell ihn errät.
Bedeutet ein größeres Kontextfenster ein besseres Gedächtnis? Nein. Ein größeres Fenster hilft bis zu einem gewissen Punkt, dann läuft es in „lost in the middle", wo Modelle Informationen verlieren, die im Rumpf eines langen Prompts vergraben sind, und in proaktive Interferenz, wo alter Text den Abruf neueren Texts blockiert, bis der Abruf in Erfindung umkippt (Atlan, arXiv). Mehr Tokens sind ein größerer Heuhaufen. Beim Gedächtnis geht es darum, die richtige Nadel zu finden.
Saga ist gerade in der Preview, du kannst also früh dabei sein und mitgestalten, wie sich das Gedächtnis in der Praxis anfühlt.
Auf die Saga-Warteliste setzen →
Fragen, oder Lust, Roleplay-Ideen auszutauschen? Komm auf Discord vorbei. Die Plattformdetails oben spiegeln öffentlich berichtete Informationen mit Stand Mitte 2026 wider; Systeme ändern sich schnell, prüfe also die Quelllinks für den aktuellen Stand.























