Rekurzív nyelvi modellek — a gondolkodás rétegekről

TL;DR

TL;DR: A nagy nyelvi modellek kontextusablaka véges, és a bővítés önmagában nem old meg semmit, mert a figyelem felhígul. A Rekurzív Nyelvi Modellek (RLM) nem a kontextust növelik, hanem a modellt tanítják meg önmagát hívni: darabolja a feladatot, részválaszokból épít egészet. Ez nem prompt-trükk, hanem munkaszervezés, amely meglepően emberi stratégiákat hoz elő gépekből.

A könyvtáros, aki harminc oldalt lát

A nagy nyelvi modellek kontextusablaka véges, és a bővítés önmagában nem old meg semmit, mert a figyelem felhígul. A Rekurzív Nyelvi Modellek (RLM) — Zhang és Khattab 2025-ös munkája — nem a kontextust növelik, hanem a modellt tanítják meg önmagát hívni: darabolja a feladatot, részválaszokból épít egészet, és eközben meglepően emberi stratégiákat vesz fel.

Van egy kép, ami nem hagy nyugodni. Egy könyvtáros ül egy végtelen könyvtárban — Borges Bábel Könyvtára ez, ahol minden könyv létezik, amely valaha megíratott vagy meg fog íratni. A könyvtáros bármit elolvashat, de van egy különös korlátozása: egyszerre csak harminc oldalt lát. Ha többet próbál átfogni, a korábbi sorok elhalványulnak, összekeverednek, végül ürességgel telnek meg.

Budapesten, a Szabó Ervin harmadik emeletén egyszer pontosan ezt éltem át, csak emberi változatban. Három hónapnyi kutatási jegyzettel ültem egy asztalnál, és azon kaptam magam, hogy a negyedik köteg megnyitásakor az elsőből már semmire sem emlékeztem. Nem azért, mert rossz a memóriám. Azért, mert az emberi figyelem — és a gépi figyelem — nem úgy működik, hogy mindent egyszerre tart. Úgy működik, hogy válogat. És ha a válogatás költsége meghalad egy küszöböt, inkább újrakezd.

Ez a könyvtáros a nagy nyelvi modell (LLM). A harminc oldal a kontextusablak. Az ürülési jelenséget a kutatók context rot-nak hívják — és ez nem bug, hanem mélyebb tény a rendszer természetéről.

Miért „butul el” a nyelvi modell hosszú munkamenetben?

A context rot különös jelenség. Teszteken sokszor nem látszik. A „tű a szénakazalban” típusú feladatokon a modern modellek kiválóan teljesítenek — mégis minden kutató ismeri azt a pillanatot, amikor egy hosszabb munkamenetben a rendszer egyszerűen elbutulni látszik. A válaszok általánosabbak lesznek, a részletek eltűnnek, a kontextus elején említett információk már nem módosítják érdemben a kimenetet.

Ez nem memóriaprobléma a szó hagyományos értelmében. A tokenek ott vannak, technikai értelemben „láthatók”. A kérdés inkább az, mit jelent egy rendszer számára látni valamit, ha a látottak száma meghalad egy küszöböt. A transformer figyelmi mechanizmusa nem úgy szelektál, mint egy szigorú könyvtáros, aki a fontos sorokat könyvjelzőzi. Inkább úgy, mint egy túl udvarias konferencia-moderátor, aki mindenkinek ad egy kicsi mikrofont — aztán mindenki halk lesz egyszerre.

A figyelem felhígul, mint tinta a vízben.

Borges másik történetében Funes mindent megjegyzett, tökéletesen — de gondolkodni nem tudott, mert az absztrakció elfelejtést igényel. A context rot ennek az ellentéte: nem a felejtés a baj, hanem a válogatás hiánya. Mindkét irány működésképtelenséghez vezet.

Az önhívás ötlete — amikor a tükör tükörből végtelen

Zhang és Khattab 2025-ös munkája erre a problémára ad egy meglepően elegáns választ. A megoldásuk neve: Rekurzív Nyelvi Modellek, röviden RLM. A módszer lehetővé teszi, hogy a nyelvi modell önmagát — vagy más modelleket — hívjon, ismételten, annyiszor, ahányszor szükséges, amíg a válasz összeáll.

A könyvtáros nem a szemét edzette jobbá. Megtanulta, hogyan küldjön maga helyett más könyvtárosokat a polcokhoz, és hogyan rakja össze a jelentést az általuk hozott jegyzetekből.

A felhasználó feltesz egy kérdést és mellékeli a kontextust — legyen az száz dokumentum, ezer oldalnyi jegyzet, egy egész kutatási projekt. A gyökér modell (a depth 0 szinten lévő példány) nem próbálja meg az egészet egyszerre látni. Ehelyett a kontextus egy változóban él, a modell kódot írhat, futtathat, belenézhet a szövegbe, kereshet benne, darabolhatja — és ami a kulcs: indíthat rekurzív alhívásokat kisebb részletekre. A részmodellek kapnak egy szövegdarabot és egy részfeladatot, visszaadnak egy részválaszt, a gyökér modell ezekből összerak, ellenőriz, és ha kell, újabb köröket indít.

A felhasználó felől ez mégis egyetlen modellhívás illúzióját adja. A különbség a motorháztető alatt történik.

Négy stratégia, amelyet senki nem tanított

Az RLM viselkedésének egyik izgalmas vonása, hogy a gyökér modell olyan stratégiákat vesz fel, amelyek meglepően emberiek. Nem azért, mert „ember”, hanem mert a feladat szerkezete kikényszeríti.

Bekukkolás. A modell megnéz egy kis mintát, hogy megértse a kontextus szerkezetét. Van-e fejléc, ismétlődik-e minta, táblázatszerű-e a sor, narratív-e a szöveg.

Mintakereső szűkítés. Kulcsszavak, reguláris minták, egyszerű heurisztikák. Ez a lépés fontos, mert olcsó. A modell nem szemantikusan „ért” még — csak szűkíti a teret, hogy a drága gondolkodás ne a teljes anyagra menjen rá.

Oszd meg és uralkodj. A kontextus feldarabolása, részfeladatok kiosztása alhívásoknak, végül összesítés. Ez a logika kísértetiesen hasonlít a klasszikus map-reduce gondolkodásra — csak itt a map szemantikus címkézés vagy mini-összegzés, a reduce pedig a válasz összeállítása.

Programatikus feldolgozás. Ha a feladat determinisztikusan megoldható — diff-ek alkalmazása, számlálások, szabályos átalakítások —, akkor a modell néha egyszerűen kódot ír, és elvégezteti a munkát. Ilyenkor nem a „gondolkodás” erősödik, hanem a munkaszervezés válik professzionálisabbá.

Ez a négy stratégia egyben rámutat arra is, miért nem puszta prompt-trükkről beszélünk. A promptolás átalakul folyamattervezéssé. A kérdés nem az, milyen szép utasítást írsz, hanem az, milyen munkateret és műveleti szabályokat adsz a modellnek.

Miben különbözik az RLM a RAG-tól és az agentektől?

A RAG (Retrieval-Augmented Generation, visszakeresés-alapú generálás) a nagy dokumentumhalmazok katalógusrendszere. Előbb rendet teszel, indexelsz, majd kérdéskor visszakeresel, és csak a releváns darabokat adod a modellnek. Az RLM ehhez képest futás közben, ideiglenesen, helyzetfüggően épít magának „munkakatalógust” — kis listákat, találatokat, részeredményeket. A RAG a polcrendszer, az RLM a lapozási stratégia.

Az agent-alapú rendszerek feladatot bontanak, eszközöket használnak, cselekednek. Az RLM más fókuszú: nem a világ felé nyit, hanem a bemeneti anyag felé mélyít. Az agentek problémaközpontú bontást használnak, az RLM kontextusközpontút. A két világ nem ellenfele egymásnak — egy jó rendszerben az agent a felkutatást és a menetrendet adja, az RLM pedig a komponens, amely a felkutatott anyagot értelmezi.

A Chain-of-Thought (láncolt gondolkodás) a modellt lépésről lépésre gondolkodásra ösztönzi, egyetlen híváson belül. Az RLM több hívást enged, és a lépések nem csak gondolatiak, hanem műveletiek is. A CoT a gondolatot skálázza, az RLM a munkaszervezést skálázza. Kutatásban ez gyakran nagyobb különbség, mint elsőre látszik.

Key Takeaways

A kontextusablak bővítése szükséges, de nem elégséges. A figyelem felhígulása valódi korlát — az RLM nem bővít, hanem szervez.
A rekurzió nem új. A matematikában, a nyelvészetben, a számítástechnikában mindig is ott volt. Az újdonság az, hogy nyelvi modellekre alkalmazva emergens, senki által nem tanított stratégiák jelennek meg.
RAG, agent, RLM — nem vagy-vagy kérdés. A három megközelítés más réteget fed le, és a legjobb rendszerekben együtt fognak működni.
A végtelen nem úgy létezik, hogy mindent egyszerre tartunk szem előtt. Úgy létezik, hogy van egy következő lépés, és a következő lépés elérhető. Ez a gondolkodás mindig is a jó kutatás ismertetőjegye volt.

Gyakran Ismételt Kérdések

Mi az a context rot, és miért jelent valódi problémát?

A context rot az a jelenség, amikor egy nyelvi modell hosszabb munkamenetben “elbutulni” látszik: a válaszok általánosabbá válnak, a részletek eltűnnek, a kontextus elején említett információk már nem módosítják érdemben a kimenetet. Ez nem memóriahiba a szó hagyományos értelmében, hanem a figyelem felhígulása. Minél nagyobb a kontextusablak, annál kisebb figyelmi súlyt kap minden egyes token, és ez a válaszok minőségének romlásához vezet.

Miben különbözik az RLM a RAG-tól és az agent-alapú rendszerektől?

A RAG előre indexeli a dokumentumokat és a kérdéskor visszakeresett darabokat adja a modellnek. Az RLM futás közben, dinamikusan épít magának munkakatalógust. Az agent-alapú rendszerek a világ felé nyitnak, eszközöket használnak és cselekednek. Az RLM a bemeneti anyag felé mélyít, nem a külvilág felé. A legjobb rendszerekben mindhárom együtt működik: az agent kutat, a RAG indexel, az RLM a megtalált anyagot értelmezi.

A rekurzív megközelítés hogyan hozhat elő emberi gondolkodási mintákat egy gépből?

A feladat szerkezete kikényszeríti. Amikor a modell túl nagy anyaggal találkozik, önmagától vesz fel stratégiákat: bekukkolás (kis minta a struktúra megértéséhez), mintakereső szűkítés, oszd-meg-és-uralkodj darabolás, és programatikus feldolgozás. Ezeket senki nem tanította rá explicit módon. Az RLM-ben a promptolás átalakulása folyamattervezéssé hozza elő ezeket az emergens viselkedéseket.

Kapcsolódó gondolatok

Varga Zoltán - LinkedIn Neural • Knowledge Systems Architect | Enterprise RAG architect PKM • AI Ecosystems | Neural Awareness • Consciousness & Leadership A végtelen kontextus nem méret kérdése — hanem navigációé.