Centrum pomocy Repliki twierdzi, że aplikacja „zachowuje wszystko od samego początku”. Analizy techniczne mówią co innego: model widzi mniej więcej tylko ostatnie 25 wiadomości, więc wszystko starsze leży sobie na twoim koncie, gdzie AI i tak nie może tego przeczytać w momencie generowania odpowiedzi (thredly.io). Historia jest zapisana. Nie jest pamiętana. I to właśnie ta przepaść jest całym problemem.
Jeśli kiedykolwiek powiedziałeś postaci, jak masz na imię, opowiedziałeś jej swoją historię, ustaliłeś z nią coś pierwszego dnia — a pięćdziesiąt wiadomości później patrzyłeś, jak kompletnie nie ma pojęcia, o co chodzi — to znasz to uczucie. Zapis czatu masz przed oczami. Model po prostu na niego nie patrzy.
Dlaczego postacie AI zapominają
Model językowy nie ma bieżącej pamięci waszej rozmowy w takim sensie, w jakim masz ją ty. Przy każdej turze czyta blok tekstu o stałym rozmiarze, zwany oknem kontekstowym, generuje odpowiedź i zapomina, że w ogóle coś czytał. Cokolwiek nie zmieści się w tym oknie w danej turze, równie dobrze mogłoby nie istnieć.
Kiedy czat rośnie ponad to, co mieści się w oknie, najstarszy tekst zostaje wypchnięty, żeby zrobić miejsce na najnowszy. Większe okna dają więcej przestrzeni, ale kosztują więcej, zwiększają opóźnienia i pogarszają się w środku: modele regularnie tracą wątek informacji zakopanych między początkiem a końcem długiego promptu — to efekt „lost in the middle” (Atlan, bitfern). Zapominanie nie jest więc błędem, który da się załatać. To domyślne zachowanie tej architektury. Wszystko poniżej to próba obejścia tego problemu.
Sposoby, w jakie AI może „pamiętać” (i jak każdy z nich zawodzi)
Każdy system pamięci to strategia na to, żeby z powrotem wepchnąć właściwy stary tekst do tego stałego okna we właściwym momencie. Każdy coś poświęca: skuteczność przypominania kontra koszt, opóźnienia i własny, charakterystyczny sposób zawodzenia.
Bieżące streszczanie. LLM kompresuje stare tury do streszczenia, które aktualizuje się na bieżąco i jedzie razem z promptem. Jest tanie i zwięzłe — i z założenia stratne: każdy przebieg wyrzuca szczegóły, żeby się zmieścić. Rzadki fakt z pierwszego dnia przeżywa pierwszą kompresję, druga go nadgryza, a po trzeciej już go nie ma. Nie zauważasz tego, dopóki postać nie zaprzeczy czemuś, co oboje ustaliliście tydzień temu (mem0, Recursively Summarizing, arXiv).
Lorebooki / World Info. Wpisy piszesz ręcznie, a każdy z nich zostaje wstrzyknięty dopiero wtedy, gdy w tekście pojawi się jego słowo-klucz (dokumentacja SillyTavern). Kiedy się odpali, jest precyzyjny. Haczyk polega na tym, że AI jest celowo ślepe na własny lorebook, dopóki słowo-klucz go nie obudzi: sparafrazuj wyzwalacz, zrób literówkę albo odnieś się do czegoś nie wprost, a wpis po cichu w ogóle się nie załaduje. Wiedza istnieje i pozostaje niewidoczna.
Wyszukiwanie wektorowe / RAG. Każda wiadomość zostaje osadzona jako wektor i zapisana. Przy każdej turze system pobiera fragmenty najbardziej podobne do tego, co właśnie napisałeś, i wkleja je (freeCodeCamp). To skaluje się na ogromne historie i w tym tkwi jego prawdziwa siła. Wyciąga też niewłaściwy fragment, gdy „najbardziej podobne” nie znaczy „najbardziej istotne”, a błędne wspomnienie pobrane z pełnym przekonaniem jest gorsze niż jego brak: wręcza modelowi fałszywą przesłankę, na której ten zaczyna budować.
Pamięć wielowarstwowa / strukturalna. Zamiast zrzucać surowy tekst, LLM wyciąga istotne fakty i wykonuje operacje dodania, aktualizacji i usunięcia, albo ocenia wspomnienia pod kątem świeżości, wagi i istotności — tak jak robiła to praca Generative Agents (przegląd na arXiv, Generative Agents). To bliżej tego, jak pamiętanie powinno wyglądać w odczuciu. Dokłada jednak krok, który może zawieść: benchmark HaluMem pokazuje, że systemy pamięci zmyślają i tracą informacje na etapach wyciągania, aktualizacji i pobierania (HaluMem, arXiv). Pamięć halucynuje. Nie tylko zapomina.
Grafy wiedzy. Encje stają się węzłami, a relacje — krawędziami, z krawędziami czasowymi, które śledzą, kiedy coś się wydarzyło, a kiedy zostało poznane (praca o Zep / Graphiti). To opcja najbardziej strukturalna i najbardziej pracochłonna — zarówno w budowie, jak i w utrzymaniu porządku, gdy historia się rozgałęzia.
Wynikają z tego dwie rzeczy. Po pierwsze, kompromis jest realny i nieunikniony: skuteczność przypominania kontra koszt kontra opóźnienia kontra ryzyko zmyślonych wspomnień. Po drugie, większe okno kontekstowe to nie system pamięci. Powyżej pewnego punktu stara informacja aktywnie blokuje przypomnienie sobie nowszej („interferencja proaktywna”), a przy wysokiej interferencji pobieranie nie degraduje się łagodnie, tylko zapada się w zmyślanie (badanie o interferencji proaktywnej, arXiv). Więcej tokenów to większy stóg siana, a nie lepsza igła.
Jak radzą sobie z tym poszczególne platformy
Krótka wersja tego, kto co robi i gdzie się sypie. Komórki są celowo zwięzłe.
| Platforma | Jak pamięta | Gdzie się sypie |
|---|---|---|
| Character.AI | Przypięte wiadomości plus okno zapominania między sesjami | Zapominanie i „context rot” to numer jeden wśród skarg użytkowników (404 Media) |
| AI Dungeon | Edytowalne Story Summary plus warstwa RAG Memory Bank i słownikowe Story Cards (Latitude, pomoc) | Sloty pamięci są limitowane planem z usuwaniem najrzadziej używanych; AI jest ślepe na Story Card, dopóki nie załaduje go dokładne słowo-klucz (pomoc) |
| SillyTavern | Ręcznie zestawiasz World Info, Author's Note, Summarize i Vector Storage (World Info, Summarize) | W całości ręczne; wpisy ze słowem-kluczem nie łapią sformułowań poza nim; dokumentacja Summarize ostrzega, że wynik „dryfuje i halucynuje” |
| Kindroid | Stale obecna w kontekście historia postaci plus pobieralna pamięć długoterminowa i dziennik na frazy kluczowe (dokumentacja) | Dokumentacja przyznaje, że pamięć długoterminowa jest „potencjalnie zawodna”; najgłębszy poziom jest płatny; frazy kluczowe w dzienniku muszą się zgadzać co do słowa |
| Nomi | Mind Map, która narasta przez długą historię (Nomi) | Mapa materializuje się dopiero po ~500 wiadomościach, wiarygodne przypominanie dobite do 1000+; Identity Core jest niewidoczny i nieedytowalny |
| Replika | Konto twierdzi, że zachowuje wszystko od początku (thredly) | Model widzi tylko ~25 ostatnich wiadomości; reszta jest zapisana, ale niewidoczna przy generowaniu |
| Saga | Trzyma się przez całą długą historię; lore ustawiasz ty | W wersji preview biblioteka wciąż mała |
Kilka z nich zasługuje na zdanie. SpicyChat chowa lorebooki za płatnymi planami i ogranicza kontekst na darmowym planie do 4096 tokenów, więc pamięć jest tam krótka, zanim w ogóle wejdzie w grę jakakolwiek technika (dokumentacja SpicyChat). Lorebook w NovelAI aktywuje wpisy na słowach-kluczach (dokumentacja NovelAI) — ten sam precyzyjny, ale kruchy wzorzec co u wszystkich innych.
Co właściwie znaczy „pamięć, która działa”?
Zwróć uwagę na to, czego w tabeli nie ma: platformy, która „nigdy nie zapomina”. Każdy, kto ci to obiecuje, sprzedaje marketingową wersję „zachowuje wszystko” od Repliki. Właściwe pytanie jest węższe. Czy postać wciąż pamięta to, co istotne, gdy historia robi się długa — dokładnie w tym miejscu, w którym przypięta i trwała pamięć gdzie indziej w widoczny sposób się sypie?
To jest poprzeczka, którą Saga ma przeskoczyć. Liczy się doświadczenie: postacie pamiętają, co wydarzyło się przez całą długą historię, wracają do tego i zmieniają się z tego powodu, a ty ustawiasz lore, które zakotwicza świat, żeby AI pracowało na twoim kanonie zamiast go zgadywać. Krótsze, luźne sceny pasują tu tak samo dobrze.
Jest test, który możesz przeprowadzić sam. Ustal jakiś fakt, zagraj 200 wiadomości od niego, a potem odnieś się do niego nie wprost i zobacz, czy postać wciąż go ma. To moment, w którym streszczanie gubi szczegół, a lorebook na słowo-klucz milczy — i to jest właśnie przypadek, pod który Saga jest zbudowana. Wokół pamięci reszta trzyma formę: Saga rozdziela ruch między modelami przez OpenRouter, więc nie jesteś przywiązany do jednego dostawcy, jeśli jego jakość podupadnie. Twórcy ustawiają granice treści, z jedną twardą linią, która się nie przesuwa: nic, co dotyczy nieletnich. Rozmowy są szyfrowane podczas przesyłania i przechowywane bezpiecznie, nigdy nie sprzedawane i nigdy nie używane do trenowania modeli. Działa na kredytach — z darmowymi kredytami na start i planowaną opcją podłączenia własnego klucza — i jest w wersji preview na liście oczekujących.
Jeśli rozrysowujesz sobie szersze pole, nasz przewodnik po alternatywach dla Character.AI omawia powyższe platformy pod kątem ceny, polityki treści i tego, dla kogo każda z nich jest.
Najczęściej zadawane pytania
Dlaczego Character.AI wszystko zapomina? Jego model przy każdej turze czyta okno kontekstowe o stałym rozmiarze, a gdy czat przerasta to okno, najstarszy tekst zostaje przycięty. Długie czaty po prostu przekraczają to, co model jest w stanie utrzymać naraz, a zapominanie i „context rot” należą do najczęstszych skarg (404 Media). Historia wciąż jest zapisana na twoim koncie; model po prostu nie może zobaczyć jej całej naraz.
Który roleplay z AI ma najlepszą pamięć? Zależy, co robisz. Do jednego towarzysza, do którego wracasz codziennie, wielowarstwowy system Kindroid jest mocny, choć jego dokumentacja przyznaje, że przypominanie długoterminowe jest „potencjalnie zawodne” (Kindroid). Do długiej historii, w której wątek musi się trzymać przez cały łuk, to jest przypadek, pod który Saga jest zbudowana. Każdą obietnicę „pamięta wszystko” traktuj podejrzliwie i przetestuj ją samodzielnie.
Czy chatbot AI może pamiętać wszystko? Dosłownie nie — i lepiej nie ufaj nikomu, kto twierdzi, że może. Poza oknem kontekstowym same systemy pamięci zmyślają i tracą informacje na etapach wyciągania, aktualizacji i pobierania (HaluMem). Dobry system wiarygodnie przypomina sobie to, co istotne; nie przechowuje nieskończonego, idealnego zapisu, który model może czytać do woli.
Czym jest lorebook? Lorebook (nazywany też World Info) to zestaw wpisów, które piszesz o swoim świecie, każdy powiązany ze słowem-kluczem wstrzykującym wpis dopiero wtedy, gdy to słowo pojawi się na czacie (SillyTavern). Jest precyzyjny, gdy się odpali, i niemy, gdy nie: sparafrazuj albo przekręć wyzwalacz, a wpis nigdy się nie załaduje. W Sadze ustawiasz lore, które zakotwicza świat, więc kanon jest czymś, co definiujesz, a nie czymś, czego model ma się domyślać.
Czy większe okno kontekstowe oznacza lepszą pamięć? Nie. Większe okno pomaga do pewnego momentu, a potem natrafia na „lost in the middle”, gdzie modele gubią informacje zakopane w środku długiego promptu, oraz na interferencję proaktywną, gdzie stary tekst blokuje przypomnienie sobie nowszego, aż pobieranie zapada się w zmyślanie (Atlan, arXiv). Więcej tokenów to większy stóg siana. W pamięci chodzi o znalezienie właściwej igły.
Saga jest teraz w wersji preview, więc możesz wejść wcześnie i pomóc ukształtować to, jak ta pamięć ma działać w praktyce.
Dołącz do listy oczekujących Saga →
Masz pytania albo chcesz wymienić się pomysłami na roleplay? Wpadnij na Discorda. Szczegóły platform powyżej odzwierciedlają publicznie dostępne informacje na połowę 2026 roku; systemy zmieniają się szybko, więc najświeższe dane sprawdzaj w linkach do źródeł.























