A gondolat architektúrája — promptolás mint gondolkodási tükör

TL;DR — A gondolkodás szerkezete a kérdés szerkezetében lakik

A promptolás nem technikai készség, hanem gondolkodási tükör: amit a géptől kérsz, arról árul el a legtöbbet, hogyan szervezed a saját gondolataidat.
A koherencia fontosabb, mint a pontosság: egy összefüggő, de téves gondolatmenet javíthatja a modell teljesítményét — mert a forma előhívja a meglévő tudást.
A bizonyosság veszélyzóna: a nagy nyelvi modellek az esetek 32%-ában magabiztosan tévednek — és az emberek is pontosan ezt csinálják.
Az összetettség nem akadály, hanem kapaszkodó: a nehezebb példák jobb eredményre vezetnek, mert lassítanak — és a lassítás figyelmet kér.
A hűség kérdése az emberi gondolkodás legsötétebb tükre: a magyarázat, amit a döntésről adunk, ritkán a döntés története — többnyire utólagos mese.

A kérdés, amit felteszel, nem a válaszért fontos — hanem azért, mert megmutatja, honnan nézel.

I. A kérdés, ami mögött ott van a kérdező

Van egy pillanat a beszélgetésben, amikor az ember rájön, hogy rosszul kérdezett. Nem azért, mert a válasz hibás volt, hanem azért, mert a kérdés nem oda vitt, ahová menni akart. A szavak megfelelőek voltak, a nyelvtan helyes, a szándék világos. Mégis valami kimaradt. Mintha egy idegen városban kérdeznénk utat, és a járókelő pontosan azt mondaná, amit kérdeztünk — de közben éreznénk, hogy ő is tudja és mi is tudjuk: nem ez volt az igazi kérdés.

A rossz kérdés nem rossz válaszhoz vezet. Rossz irányba visz.

A promptolás (prompting — a nagy nyelvi modellekkel való kommunikáció művészete és tudománya) pontosan erről szól. Nem a helyes mondatszerkezetről, nem a kulcsszavak megválasztásáról — hanem arról a résről, amely a kérdés és a mögöttes szándék között tátong. És arról, hogyan lehet ezt a rést szűkíteni.

A Stanford és a Meta kutatói nemrég publikáltak egy tanulmányt az önreflektív promptolásról (self-reflective prompting) — arról a módszerről, amely a gondolkodásról való gondolkodást építi be a géppel való párbeszédbe. A Nanjing Egyetem csapata átfogó elemzést készített a lépésenkénti gondolkodás különböző stratégiáiról. A Princeton és a Google DeepMind közös kutatása a gondolatok fáját (Tree of Thoughts) vizsgálta, ahol az egyenes vonal helyett elágazó utak jelennek meg. Ha valaki csak a címeket olvassa, könnyen azt gondolhatja, hogy ezek technikai írások technikai embereknek. Pedig a mélyükön valami egészen másról szólnak. Arról, hogyan gondolkodunk. Hogyan értünk meg valamit. És mi a különbség aközött, hogy tudjuk a választ, és aközött, hogy megértettük a problémát.

A kérdés szerkezete a gondolkodás szerkezete. Aki egyugrásnyit kérdez, egyugrásnyit lát.

II. A következtetés és a megértés közötti szakadék

A Chain-of-Thought prompting (lépésenkénti gondolkodás technikája, Wei et al., 2022) forradalmasította a nagy nyelvi modellek használatát. Az ötlet egyszerű: ahelyett, hogy egyetlen ugrással várnánk a választ, arra kérjük a modellt, hogy mutassa meg a köztes lépéseket. Mintha egy matematika tanár lenne, aki nem csak a végeredményt írja fel a táblára, hanem az egész levezetést.

Ez működik. Meglepően jól működik. Összetett matematikai feladatoknál, logikai rejtvényeknél, szimbolikus következtetéseknél a teljesítmény drámaian javul. De van egy határ, ahol a módszer megtorpan.

Aki jobban kérdez, nem okosabb válaszokat kap. Mélyebb problémákat talál.

Daniel Kahneman két gondolkodási módot különböztet meg a Thinking, Fast and Slow (Gondolkodás, gyorsan és lassan) című munkájában. Az első — a System 1 (1. rendszer) — gyors, ösztönös, erőfeszítés nélküli. A második — a System 2 (2. rendszer) — lassú, tudatos, erőfeszítést igényel. Amikor valaki megkérdezi, mennyi kettő meg kettő, az első rendszer válaszol. Amikor megkérdezi, mennyi tizenhárom szorozva huszonhéttel, a második kell. A nagy nyelvi modellek alapállapotukban az első rendszerhez hasonlítanak: azonnal válaszolnak, nem gondolkodnak. A lépésenkénti promptolás kényszeríti őket arra, hogy ne benyomásra hagyatkozzanak, hanem gondolják végig.

Minden kérdés mögött ott van egy másik kérdés, amelyet a kérdező még nem tett fel magának.

Wang és Zhao tanulmánya pontosan ezt a határt vizsgálja. A következtetés — írják — lépéseket köt össze logikailag. A megértés viszont jelentésbeli mélységet ragad meg. A kettő nem ugyanaz. Lehet valaki kiváló a lépésről lépésre haladásban, miközben a lényeg elkerüli. Ismerős ez a mintázat. Találkoztam vele tárgyalóteremben, amikor valaki precízen végigvezette az érvelését, de a másik fél arcán láttam, hogy nem erről van szó. Találkoztam vele saját magamban is, amikor egy probléma összes oldalát végigzongoráztam, és a végén rájöttem, hogy az egészet újra kell gondolnom, mert rossz helyen kerestem.

Az önreflektív promptolás erre a szakadékra kínál hidat. Öt lépésben vezeti végig a modellt, és ezek a lépések ismerősek lehetnek bárkinek, aki valaha is dolgozott csapatban: értelmezés, előzetes ítélet, kritikai felülvizsgálat, döntés és indoklás, végül önértékelés. Nem a „hogyan” kérdését feszegeti, hanem a „miért”-et is. Nem elég kiszámolni a választ. Meg kell érteni, miért az a válasz.

III. Az első benyomás csapdája

Az első válasz gyakran pontos. Csak nem merjük elfogadni.

A kutatások szerint a Chain-of-Thought hibáinak harmincegy százalékát az teszi ki, hogy a modell az első, helyes megérzését felülírja egy bonyolultabb — de téves — gondolatmenettel. Első pillantásra ellentmondásosnak tűnik. Hogyan ronthat a gondolkodás? Hogyan vezethet rosszabb eredményre az, ha valaki alaposabban végiggondol valamit?

Gondolkodni és beszélni a gondolkodásról: nem ugyanaz.

De aki dolgozott már önmagával vagy másokkal, az ismeri ezt a mintázatot. Az első megérzés gyakran pontos, csak nem merjük elfogadni. Túl egyszerűnek tűnik, túl gyorsnak, túl kevéssé megalapozottnak. Elkezdünk okoskodni, és az okoskodás elvisz valahova, ahol már nem halljuk az eredeti hangot.

A másik oldal a „túlgondolás”. A hibák hatvannyolc százaléka ide tartozik. Egyszerű feladatoknál a modell túlkomplikálja a problémát, bevon lényegtelen szempontokat, és eltávolodik a helyes megoldástól. Mintha valaki egy egyszerű kérdésre válaszolva elkezdené elemezni a kérdés mögötti feltételezéseket, a kulturális hátteret, a lehetséges más értelmezéseket — miközben a kérdező csak azt akarta tudni, hogy hány óra van.

A több gondolkodás nem mindig jobb gondolkodás. Néha éppen a leállás segít.

A két hibatípus együtt valamit megmutat arról, hogyan működik a megértés. Nem egyenes vonalú folyamat. Nem mindig igaz, hogy a több gondolkodás jobb eredményhez vezet. Van, amikor éppen a leállás, a visszatérés az egyszerűhöz segít. És van, amikor az első válasz mögé kell nézni, mert a gyors reakció éppen a felszínen maradt. Az igazi kérdés nem az, hogy gondolkozzunk-e többet vagy kevesebbet. Az igazi kérdés az, hogy mikor melyik. És ezt a döntést nem algoritmus hozza — hanem figyelem.

IV. A koherencia rejtélye — amikor a forma fontosabb, mint az igazság

A Nanjing Egyetem kutatócsapata egy meglepő felfedezésre bukkant, amikor a lépésenkénti gondolkodás anatómiáját vizsgálták. A gondolati lánc — az indoklás, amivel a modell végigvezeti a megoldást — két összetevőből áll: „áthidaló objektumok” (bridging objects) és „nyelvi sablonok” (linguistic templates).

Az áthidaló objektumok a logikai folyamat kritikus elemei. Azok a pontok, amelyeken a gondolkodásnak át kell haladnia. A nyelvi sablonok pedig a kötőszövet, ami összekapcsolja ezeket a pontokat, összefüggést és háttértudást ad.

A meglepő rész: egy teljesen téves gondolatmenet is javíthat a teljesítményen. Feltéve, hogy összefüggő.

Az összefüggés fontosabb, mint a pontosság. A szerkezet megelőzi a tartalmat.

Érdemes elidőzni ennél. Nem a tartalom számít elsősorban, hanem a belső összhang. Ha a lépések logikusan következnek egymásból, ha az érvelés következetes önmagával, akkor a modell jobban teljesít, még akkor is, ha az egyes állítások hamisak. Mintha a gondolkodás formája fontosabb lenne, mint a tartalma. Mintha az összefüggés maga teremtené meg a megértés esélyét.

Ez arra utal, hogy a lépésenkénti gondolkodás nem „megtanítja” a modellt következtetni. Inkább előhívja, amit már tud. Az összefüggő szerkezet a kulcs, ami kinyitja a már meglévő tudást. Nem új információt ad, hanem hozzáférést.

A forma hitelesíti a tartalmat. Ezért veszélyes a jól hangzó hazugság.

Ha ezt az emberi világra fordítjuk: nem elég elmondani valakinek, mi a helyes válasz. Nem elég felsorolni a tényeket. A megértéshez szükség van egy keretrendszerre, amibe a tények beilleszkednek. És ez a keretrendszer nem a tényekből épül, hanem a tények közötti kapcsolatokból. Aki rendszergondolkodásban edződött — akár szoftvertervezésben, akár szervezetfejlesztésben —, az tudja: a kapcsolat mindig fontosabb, mint az elem. Az elem cserélhető. A kapcsolat az, ami architektúrát csinál a halomból.

V. Miért működik a „gondolkozzunk lépésről lépésre” utasítás?

Van egy egyszerű utasítás, amely meglepő hatásfokkal működik: „Gondolkozzunk lépésről lépésre.” (Let’s think step by step.) Ennyi. Nincs példa, nincs részletes útmutatás, csak ez az öt szó. És a modell teljesítménye jelentősen javul.

Kojima et al. (2022) ezt zero-shot Chain-of-Thought promptingnak nevezte el — és az eredményei meglepték a kutatóközösséget. Nem kell bonyolult promptokat szerkeszteni, nem kell példákat mutatni. Elég egyetlen mondatot odaírni, és a modell maga generálja a köztes lépéseket.

De ennek az egyszerű utasításnak is vannak gyenge pontjai. A Singapore Management University kutatói száz hibás választ elemeztek, és három mintázatot találtak. A leggyakoribb a félreértés: a modell nem érti, miről szól a feladat — ez a hibák huszonhét százaléka. A második a hiányzó lépés: a modell átugorja a gondolatmenet egy részét, különösen ha sok lépésről van szó — ez tizenkét százalék. A harmadik a számolási hiba: egyszerű aritmetikai tévedés — ez hét százalék.

A hiányzó lépések problémája a legsúlyosabb, mert a modell nem tudja, mit nem tud. Erre a válasz a tervezés és végrehajtás szétválasztása: „Először értsük meg a problémát, és készítsünk tervet. Aztán hajtsuk végre a tervet lépésről lépésre.” A terv mint térkép: megmutatja, hová kell eljutni, mielőtt elindulnánk. Ez a „tervezz és oldj meg” (plan-and-solve) megközelítés következetesen jobb eredményeket hoz, mint a puszta „gondolkozzunk lépésről lépésre”.

Miért működik bármelyik is? A kutatók nem tudják pontosan megmagyarázni. Van néhány feltételezés. Az egyik szerint az utasítás aktiválja azokat a mintázatokat, amelyeket a modell a tanítás során látott hasonló helyzetekben. A másik szerint lelassítja a következtetési folyamatot, és ezzel csökkenti a „gyors és rossz” válaszok esélyét. A harmadik szerint egyszerűen több szövegegységet (tokent) generál, és a több token több esélyt ad a javításra.

De egyikük sem teljesen kielégítő.

Talán azért, mert a kérdés maga rosszul van feltéve. Nem az a lényeg, mi történik a modellben, hanem az, mi történik a kommunikációban. Az utasítás megváltoztatja a játékszabályokat. Nem egyetlen válaszra számítunk, hanem folyamatra. Nem eredményt várunk, hanem utat. És ez az elvárás-váltás megváltoztatja, mit kapunk.

Mintha azt mondanánk valakinek: „Ne válaszolj azonnal, gondolkozz hangosan.” A legtöbb ember másként viselkedik, ha tudja, hogy a gondolkodási folyamatát is figyelik, nem csak a végeredményt. Óvatosabb lesz, de nem az óvatosság bénító értelmében. Inkább figyelmesebb. Jobban odafigyel arra, hogy amit mond, az valóban következik-e az előzőekből.

Az utasítás nem csak tartalom. Az utasítás maga is forma. És a forma dolgozik.

VI. A gondolatok fája — elágazás a zsákutca ellen

A lépésenkénti gondolkodásnak van egy rejtett korlátja: egyetlen úton halad előre. Ha az út zsákutcába vezet, nincs visszaút.

Yao et al. (2023) a Princeton és a Google DeepMind kutatói erre a problémára kínálnak megoldást. A „gondolatok fája” (Tree of Thoughts, ToT) megközelítésben a modell nem egyetlen gondolati láncot generál, hanem többet párhuzamosan. Minden elágazásnál értékeli, melyik ág tűnik ígéretesebbnek. Ha az egyik ág zsákutcába fut, visszalép, és másik irányba indul.

Ez a sakkozó gondolkodása: nem csak a következő lépést látja, hanem több lépéssel előre néz, és mérlegeli a lehetőségeket. Az eredmények meglepőek. Egy matematikai játékban — ahol négy számból kell huszonnégyet előállítani — a hagyományos lépésenkénti gondolkodás négy százalékos sikerarányt hozott. A gondolatok fája hetvennégy százalékot. Húszszoros javulás. Nem fokozatos, hanem ugrásszerű.

De van ára. A fa bejárása időbe és számítási kapacitásba kerül. Minden elágazás, minden visszalépés, minden értékelés erőforrást igényel. A gyorsaság és a pontosság között nincs ingyen ebéd — ezt a közgazdász-matematikusok TANSTAAFL-nak (There Ain’t No Such Thing As A Free Lunch — nincs ingyen ebéd) hívják, és a gondolkodás fizikájára is érvényes.

Az emberi gondolkodásban is így van. A gyors, ösztönös válasz sokszor elég. De vannak helyzetek, ahol érdemes megállni, végigfutni a lehetőségeket, visszalépni, és újragondolni. A kérdés: mikor melyik mód a megfelelő? Ezt sem a gép, sem az ember nem mindig tudja előre. A tapasztalat — és talán a bölcsesség — éppen ennek a döntésnek a minőségében rejlik.

VII. Az összetettség nem ellenség

A kutatások egyik visszatérő tanulsága: a nehezebb példák jobbak. Ha azt akarjuk, hogy a modell jól teljesítsen egy feladaton, akkor a promptban szereplő bemutató példáknak (few-shot examples — néhány példával történő tanítás) inkább összetetteknek kell lenniük, mint egyszerűeknek.

Ez ellentmond annak, amit az ember ösztönösen gondolna. Nem lenne logikusabb könnyű példákkal kezdeni, és fokozatosan nehezíteni? Nem lenne célszerűbb olyan problémákat mutatni, amelyek közel állnak a megoldandó feladathoz nehézségi szintben?

A válasz: nem feltétlenül.

Az összetett példa hosszabb gondolati láncot generál. A hosszabb lánc több „helyet” ad a modellnek, ahol dolgozhat. Több közbülső lépés, több ellenőrzési pont, több lehetőség a javításra. Az egyszerű példa után a modell hajlamos „rövidre zárni” — gyorsan ugrani a végeredményre. Az összetett példa megtanítja, hogy ez nem elfogadható.

Az összetettség lassít. A lassítás figyelmet kér. A figyelem mélységet teremt.

Van ebben valami, ami túlmutat a mesterséges intelligencián. Amikor valakit betanítunk egy munkára, gyakran az egyszerű feladatokkal kezdünk, hogy ne ijesszük el. De lehet, hogy ezzel éppen a felszínességet tanítjuk meg. Lehet, hogy az elején mutatott könnyű példák azt az üzenetet közvetítik: „itt nem kell mélyen gondolkodni.” És ez az üzenet megmarad akkor is, amikor már nehezebb feladatok jönnek.

A Google kutatói meglepő dolgot fedeztek fel: nem mindegy, ki írja a példákat. Ugyanazt a matematikai feladatot három különböző ember oldotta meg lépésről lépésre, és a modell teljesítménye különbözött attól függően, kinek a megoldását látta. Nem azért, mert az egyik hibás lett volna — mindhárom helyes volt. De a stílus, a lépések sorrendje, a közbenső magyarázatok részletessége eltért. A modell érzékeny arra, hogyan mutatjuk be a gondolkodást, nem csak arra, mit mutatunk be.

Ez is ismerős a tanítási, vezetési, mentori munkából. Amikor példát adok egy csoportnak, ugyanezekkel a kérdésekkel szembesülök. Legyen elég nehéz, hogy kihívás legyen, de ne annyira, hogy elbátortalanítson. Legyen odaillő, de ne annyira, hogy „csak rólunk szóljon” — mert akkor elvész a távolság, ami az önvizsgálathoz kell. A jó példaválasztás a tanítás művészetének része. A géppel való párbeszédben ez nem változott. Csak láthatóvá vált.

Aki tanít, mindig választ: mit mutat meg, és mit hallgat el. A választás maga a tanítás.

VIII. Mit árul el rólunk a bizonyosság?

Az önreflektív promptolás utolsó lépése az önértékelés. A modell megmondja, mennyire biztos a válaszában — számmal, százalékkal, szóval.

A bizonyosság nem a tudás jele. Gyakran éppen a tudatlanságé.

A kutatók összehasonlították a kijelentett bizonyosságot és a tényleges pontosságot. Az eredmények árnyaltak — és nyugtalanítóak.

Ötvenöt százalékban a modell helyesen volt magabiztos: magas bizonyosságot jelzett, és a válasz tényleg helyes volt. Hat százalékban helyesen volt bizonytalan: alacsony bizonyosságot mondott, és valóban tévedett. De harminckét százalékban hibásan volt magabiztos: magas számot mondott, miközben rosszul válaszolt.

Ez a harminckét százalék a veszélyzóna.

Aki valaha is dolgozott tanácsadóként, ismeri ezt a mintázatot. Az ügyfél teljes meggyőződéssel mondja, mi a probléma. Precíz, határozott, világos. És éppen ez a probléma. A belső bizonyosság és a valós pontosság nem mozognak együtt. A magabiztosság és a pontosság között nincs olyan összefüggés, amilyet szeretnénk.

Az önreflektív megközelítés erre is választ próbál adni. A bizonyosság-értékelés lépése nem oldja meg a problémát, de legalább láthatóvá teszi. Ha a modell számot mond, ha nyíltan értékeli saját megbízhatóságát, akkor van min dolgozni. Van mit hangolni. Van hol elkezdeni a párbeszédet arról, mi áll a bizonyosság mögött.

Az emberi munkában is így van. Nem az a cél, hogy mindenki mindig pontosan tudja, mennyire biztos valamiben. A cél az, hogy legyen egy gyakorlat, egy kérdés, ami rendszeresen visszahozza: „Mennyire vagyok biztos?” és „Mi alapján?”

IX. A hűség problémája — amikor a magyarázat nem az igazságot mondja

Az áttekintő tanulmányok egyik legfontosabb fejezete a „hűségről” (faithfulness) szól. A hűség itt azt jelenti, hogy a modell által generált indoklás valóban tükrözi-e a döntési folyamatot. Hogy a gondolati lánc, amit látunk, tényleg az, ahogy a modell „gondolkodott” — nem pedig utólagos magyarázkodás.

Ez korántsem magától értetődő.

A legtöbb jelenlegi módszer úgy működik, hogy a modell egyszerre generálja a gondolatmenetet és a végső választ. Semmi nem garantálja, hogy a kettő valóban összefügg. Lehet, hogy a modell már „tudja” a választ, és a gondolati lánc csak utólag fabrikált magyarázat. Elhihető, összefüggő, meggyőző — de nem igaz abban az értelemben, hogy nem ez vezetett a válaszhoz.

A hűség nem adottság, hanem gyakorlat. Folyamatos, fáradságos, és soha nem lezárt.

Ha ez ismerősen hangzik, az nem véletlen. Az emberi elme pontosan így működik. A döntés megtörténik — gyakran a tudat szintje alatt — és utána jön a magyarázat. A történet, amivel magunkat és másokat meggyőzzük, hogy észszerű folyamat zajlott, miközben valójában valami más történt. Ezt számos pszichológiai kutatás dokumentálta: a kettéosztott agyú betegek vizsgálatától (Michael Gazzaniga klasszikus kísérletei) a választási vakságig (choice blindness — Lars Hall és Petter Johansson munkája). Az ember utólag racionalizál, nem valós időben gondolkodik.

A mesterséges intelligencia nem oldotta meg ezt a problémát. Inkább tükröt tartott elénk.

A magyarázat, amit a döntésünkről adunk, ritkán a döntés története. Többnyire utólagos mese.

Ez nem pusztán technikai kérdés. Ez etikai kérdés is. Ha egy rendszer indoklást ad, de az indoklás díszlet, akkor a rendszer hazudik. Nem szándékosan, nem rosszindulatúan, de hazudik. És aki elfogadja a díszletet valódinak, az rossz alapon bízik. Ez érvényes a gépi indoklásra — és ugyanolyan érvényes arra a történetre, amit reggel a tükörben mondunk magunknak arról, miért döntöttünk úgy, ahogy döntöttünk.

X. A hallucinációk árnyéka — amikor a forma tökéletes, de a tartalom üres

Van egy jelenség, amelyre a kutatók a „hallucináció” (hallucination) szót használják. A modell magabiztosan állít valamit, ami nem igaz. Nem hazudik a szó emberi értelmében, mert nincs szándéka. Egyszerűen folyékonyan, nyelvtanilag helyesen, meggyőző hangon mond valótlant.

Ez különösen veszélyes, mert a forma tökéletes — csak a tartalom hibás. Mintha egy jól öltözött, magabiztos előadó beszélne, aki minden mondatát hitelesen ejti ki, de az adatai tévesek. A hallgatóság hajlamos hinni neki, mert a megjelenés és a hangzás mindent rendben lévőt sugall.

A Harbin Egyetem átfogó tanulmánya a hallucinációk két típusát különbözteti meg. Az egyik a belső ellentmondás: a modell önmagával inkonzisztens választ ad. A másik a tényszerűtlenség: a modell olyat állít, ami egyszerűen nem igaz a világban. A kettő átfedhet, de a gyökerük különböző.

Nem az számít, mit mondunk. Az számít, hogyan áll össze, amit mondunk.

A lépésenkénti gondolkodás nem oldja meg a hallucinációk problémáját. Sőt, néha súlyosbítja. A modell lépésről lépésre, logikusan felépített gondolatmenetben jut el egy hamis állításhoz, és éppen a gondolatmenet logikája teszi meggyőzővé a hazugságot. A forma hitelesíti a tartalmat — és ez pontosan az, ami miatt a koherencia-csapda olyan veszélyes. Visszautalva arra, amit a IV. részben tárgyaltunk: az összefüggés javítja a teljesítményt. De az összefüggés ugyanúgy javítja a hamis teljesítményt is. A szerkezet fegyver, ami mindkét irányba lő.

Ez figyelmeztetés. Nem elég, hogy a válasz jól hangzik. Nem elég, hogy a gondolatmenet követhető. A végső mérce mindig az, hogy amit mondunk, az igaz-e. És ezt a mércét a modell nem tudja magára alkalmazni. Nekünk kell alkalmazni.

XI. Hol van a küszöb, ahol a gondolkodás „kibontakozik”?

Van egy határ, ami alatt a lépésenkénti gondolkodás nem működik. Nagyjából tízmilliárd paraméter (10B parameters). Ez alatt a modellek nem javulnak a gondolati lánc promptoktól. Gyakran rosszabbak lesznek. Összevissza beszélnek: folyékony, nyelvtanilag helyes, logikusan hangzó, de teljesen értelmetlen szöveget generálnak.

Amit a gépnél kibontakozásnak látunk, az az embernél régóta itt van. Csak nem láttuk ilyen tisztán.

A kutatók ezt „kibontakozó képességnek” (emergent ability) nevezik. Nem fokozatosan jelenik meg, ahogy a modell nő. Hirtelen jön, egy bizonyos küszöb felett. Mint az öntudat a gyerekkorban, vagy a járás képessége: nem tanulás — inkább kibontakozás. Egy pillanatban nincs ott, a következőben ott van.

Wei et al. (2022) ezt a jelenséget szisztematikusan dokumentálta. A GPT-3 (175 milliárd paraméter) és a PaLM (540 milliárd paraméter) drámaian javultak a Chain-of-Thought promptoktól. A kisebb modellek viszont nem — vagy éppen romlottak. A határ nem éles, de létezik. Valahol a tízmilliárd paraméter környékén valami történik, amit a kutatók még nem értnek teljesen.

De a küszöb alatti modelleket is lehet tanítani. Ha nem promptolással, akkor finomhangolással (fine-tuning). Ha nem finomhangolással, akkor a nagyobb modellek tudásának átadásával — ezt hívják desztillációnak (distillation). A kisebbek tanulnak a nagyobbaktól, és ami a nagyoknál magától bontakozott ki, az a kicsiknek megtanítható.

Van ebben valami megnyugtató és valami nyugtalanító is. Megnyugtató, mert a képesség terjeszthető, átadható, széles körben hozzáférhetővé tehető. Nyugtalanító, mert a tízmilliárd paraméteres határ önkényesnek tűnik. Miért pont ott? Mi történik azon a ponton? Senki nem tudja. És ami nem érthető, az nem kontrollálható.

XII. A rétegek és a mélység

Ha visszalépünk, és egyben nézzük a tanulmányokat, egy mintázat rajzolódik ki. A promptolás — a modellel való kommunikáció javításának minden sikeres módszere — ugyanazt csinálja: rétegeket ad hozzá.

A lépésenkénti gondolkodás réteget ad a „mi a válasz” fölé: „hogyan jutok el a válaszhoz”. Az önreflektív megközelítés réteget ad efölé: „miért gondolom, hogy ez a helyes út”. A bizonyosság-értékelés réteget ad mindezek fölé: „mennyire bízom abban, amit gondolok”. A hűség kérdése pedig még egy réteget: „valóban így gondolkodom, vagy csak így beszélek arról, hogyan gondolkodom”.

Ez nem bonyolítás. Ez mélység.

A különbség ugyanaz, mint a térképnézet és a terepbejárás között. A térkép egyetlen réteg: azt mutatja, mi hol van. A terepbejárás során megismerjük a talajt, a növényzetet, a vízrajzot, a szagokat, a hangokat, a fényt. Több réteget látunk egyszerre, és a rétegek közötti kapcsolatokat is.

A promptolás története tulajdonképpen a gondolkodás régészetének története. Rétegenként ásunk lefelé — és minden réteg alatt újabb réteg. A kérdés nem az, hány réteg van. A kérdés az, hogy elég mélyre ásunk-e ahhoz, hogy megértsük, mit keresünk.

XIII. Az összesítés mint közös bölcsesség

Van egy módszer, amely a modell többszöri futtatásából von le következtetést: az összesítés (ensemble/self-consistency). Ugyanazt a kérdést többször tesszük fel, különböző beállításokkal vagy különböző példákkal, és a válaszokból valamilyen közös eredményt képezünk. Szavaztatunk. Egyetértést keresünk. Vagy éppen a szélsőségeket vizsgáljuk.

A jó összefoglalás nem rövidítés. A jó összefoglalás tudja, mi a mag és mi a héj, mi a figura és mi a háttér.

Ez az ötlet nem új. A számok tudományában, a gépi tanulásban, a döntéselméletben régóta ismert: a sok gyenge vélemény összeadása gyakran erősebb, mint egy erős vélemény egyedül. A tömeg bölcsessége (wisdom of crowds — James Surowiecki fogalma) működik, bizonyos feltételek mellett.

A Google kutatói matematikai feladatoknál közel tizennyolc százalékos javulást mértek a hagyományos lépésenkénti gondolkodáshoz képest. Nem azért, mert a modell okosabb lett, hanem azért, mert ha egy összetett kérdésre többféle út vezethet a válaszhoz, és ezek az utak ugyanoda érkeznek, akkor az a válasz valószínűleg helyes. Ha más-más helyre érkeznek, akkor van okunk a bizalmatlanságra.

De itt is van csapda. Ha a probléma eleve egyszerű, és a modell elsőre jól válaszol, az összesítés csak zavart visz be. Ha a probléma nagyon nehéz, és a modell rendszerszerűen rosszul válaszol, az összesítés nem segít — csak megerősíti a hibát. Az összesítés ott működik, ahol van bizonytalanság, de a bizonytalanság nem teljes. Ahol a hibák véletlenszerűek, nem rendszerszerűek. Ahol a különböző utak különböző hibákat okoznak, és a hibák kioltják egymást.

Az emberi döntéshozatalban is ugyanez a logika. A csoport bölcsessége nem mindig működik. De amikor működik, erősebb, mint bármilyen egyéni döntés. A kérdés: hogyan ismerhetjük fel, melyik helyzetben vagyunk?

XIV. A részproblémákra bontás művészete

Van, amikor a feladat túl nagy. Amikor a modell — akármelyik modell, akármilyen prompttal — nem tudja egyben megoldani. Ilyenkor segít a szétbontás (decomposition): a nagy problémát kisebbekre bontani, a kisebbeket egyesével megoldani, aztán összerakni.

A bontás nem trükk. A bontás a megértés aktusa.

Van egy pedagógiai elv, amely a kisgyereknevelésből származik: a legkisebb segítségtől a legnagyobbig — ezt scaffoldingnak (állványozás) nevezik. Először hagyjuk, hogy a gyerek maga próbálkozzon. Ha elakad, adjunk egy kis segítséget. Ha még mindig elakad, adjunk többet. A promptolásban ez fordítva működik: először a legegyszerűbb részproblémát oldjuk meg, aztán a következőt, és így tovább. Minden megoldott rész segít a következőben. A válasz az előző válaszra épül.

Így a modell képes lehet olyan feladatokat megoldani, amelyek nehezebbek, mint bármi, amit a példákban látott. Ez nem kis dolog. A legtöbb gépi tanulási rendszer csak olyat tud, amilyet már látott. Itt valami más történik: az egyszerű lépések elsajátítása lehetővé teszi az összetettek megoldását. A Google kutatói ezt a SCAN nevű teszten próbálták ki, ahol a hagyományos módszerek tizenhat százalékos pontosságot értek el — a fokozatos építkezés pedig kilencvenkilencet.

A kulcs: a bontás nem magától megy. Nem magától értetődő, hol van a határ a részproblémák között. Nem nyilvánvaló, milyen sorrendben érdemes haladni. És nem egyszerű, hogyan áll össze a végén az egész. A jó szétbontás maga is alkotás. Meg kell érteni a probléma szerkezetét ahhoz, hogy jó darabokra bontsuk. Ha rosszul bontjuk, a részek megoldása nem vezet az egész megoldásához.

A programozásban ezt régóta tudjuk. A jó szoftvertervezés nagy része arról szól, hogyan bontjuk egységekre a rendszert. Hol húzzuk meg a határokat. Mi tartozik össze, és mi nem. A rossz bontás rosszabb, mint ha nem bontanánk. A jó bontás lehetővé teszi, ami egyébként lehetetlen lenne.

XV. Mit jelent mindez annak, aki kérdez?

A promptolás művészete végső soron a kérdezés művészete. És a kérdezés művészete végső soron az önismeret gyakorlása.

Amikor kérdezek, megmutatom, hogyan gondolkodom. Megmutatom, mit tartok fontosnak, mit veszek magától értetődőnek, hol vannak a vakfoltjaim. A kérdéseim szerkezete a gondolkodásom szerkezete. Ha egyugrásnyit kérdezek, egyugrásnyit gondolkodom. Ha lépésekre bontom a kérdést, lépésekre bontom a problémát.

A jó prompt nem trükk. Nem kulcsszó, nem képlet, nem titkos recept. A jó prompt annak a tükröződése, hogyan szeretnék gondolkodni. És ha a prompt javul, velem együtt javul, nem helyettem.

Három tanulság kristályosodik ki az egész kutatási mezőből:

Az első: a gondolkodás nem egyugrás. Nem felvillanás, nem megvilágosodás — hanem lépések sorozata, amelyet tudatosan, szándékosan, következetesen kell megjárni. A megértés szerkezet-érzékeny. A tények nem maguktól állnak össze. Össze kell őket rakni. És az összerakás minősége számít.

Nem az a baj, ha tévedünk. Az a baj, ha nem tudjuk, mikor tévedünk.

A második: az összetettség nem ellenség. A lassítás nem veszteség. Amikor a könnyű válasz csábít, érdemes megállni, és megnézni, nem hagytunk-e ki valamit. A gyorsaság sokszor a felszínen tartás álneve. Kahneman System 1-e gyors és hatékony — de a System 2 nélkül a gyorsaság ára a pontosság.

A harmadik: a bizonyosság gyanús. Nem azért, mert mindig tévedünk, hanem azért, mert ritkán tudjuk, mikor nem tévedünk. A magabiztosság és a pontosság közötti összefüggés gyengébb, mint szeretnénk. A „tudom” szó gyakran elfedi a „feltételezem” igazságát.

És végül: a hűség nem adottság, hanem gyakorlat. Az, hogy amit mondunk, az tényleg azt tükrözi, amit gondolunk. Hogy a történet, amivel elmagyarázzuk a döntéseinket, tényleg a döntés története — nem utólagos magyarázkodás. Ez nem természetes állapot. Ez munka. Folyamatos, fáradságos, és soha nem lezárt.

XVI. A gép és a tükör

A nagy nyelvi modellek különös tükröt tartanak elénk. Amikor javítani akarunk a teljesítményükön, akaratlanul is a saját gondolkodásunkról tanulunk. Amikor megpróbáljuk megérteni, miért válaszolnak jobban bizonyos kérdésekre — tulajdonképpen arról tanulunk, hogyan értünk meg bármit.

A gép tükör. De a tükörbe az néz, aki eléje áll.

A gondolkodásról való gondolkodás — a metakogníció — nem a mesterséges intelligencia találmánya. Évezredek óta itt van. Szókratésztól a zen buddhizmusig, Descartes-tól a kognitív pszichológiáig. A különbség: most működésre váltható. Lépésekre bontható, tesztelhető, mérhető. Kiderül, mi működik és mi nem. Kiderül, hol vannak a hibamintázatok, és hogyan csökkenthetők.

Ez nem jelenti, hogy a gép gondolkodik. Nem jelenti, hogy a gép ért. Azt jelenti, hogy a gép válaszai mentén láthatóbbá válik, mit is jelent gondolkodni és érteni. Mintha egy idegen nyelven kellene elmagyarázni valamit, és közben rájönnénk, milyen sok mindent vettünk magától értetődőnek az anyanyelvünkön. A promptolás pontosan ez: a gondolkodás idegen nyelvre fordítása — ahol az „idegen nyelv” az a kegyetlenül egyértelmű forma, amely nem tűri a lazaságot, a hallgatólagos feltételezéseket, a kényelmesen homályos megfogalmazást.

A promptolás nem azért fontos, mert jobbak lesznek a géptől kapott válaszok. Azért fontos, mert a jobb promptok felé vezető út jobbá teszi a kérdezőt is. És a jobb kérdező nem csak a géptől kap jobb válaszokat. Mindenkitől.

Van egy árnyoldala is ennek a tudásnak. Amit a jobb kérdésekhez használhatunk, azt a rosszabbakhoz is lehet. A promptolás nem semleges eszköz. Kutatók kimutatták, hogy jól megválasztott promptokkal a modellek biztonsági korlátai megkerülhetők — ezt jailbreaking-nek (biztonsági korlátok áttörése) hívják. Aki érti, hogyan működik a rendszer, az képes lehet arra bírni, amit a készítői nem szántak.

A kérdés tehát nem csak az, hogyan kérdezzünk jobban. Hanem az is, milyen célra használjuk, amit tudunk. A gép tükör, de a tükörbe az néz, aki eléje áll. És amit meglát, az rajta múlik.

Kulcsgondolatok

A kérdés szerkezete a gondolkodás szerkezete: a prompt nem a gépnek szól — hanem a gondolkodásod lenyomata. Ha javítod a promptot, a gondolkodásodat javítod.
A koherencia megelőzi az igazságot: az összefüggő szerkezet előhívja a meglévő tudást — de ugyanúgy hitelesítheti a hamis tudást is. A forma kétélű fegyver.
A bizonyosság és a pontosság nem járnak együtt: az esetek harminckét százalékában a modell magabiztosan téved. Az ember is. A „tudom” szó a legveszélyesebb szó a szótárban.
A gondolkodás nem egy réteg, hanem sok: lépés → indoklás → önreflexió → bizonyosság-értékelés → hűség-vizsgálat. Minden réteg mélységet ad, nem bonyolultságot.
A hűség probléma minden gondolkodó rendszerre érvényes: amit a döntésről mondunk, az ritkán a döntés története. Ez igaz a gépre, és igaz ránk is.
A bontás nem trükk, hanem megértés: ha tudom, hogyan bontsam szét a problémát, akkor valamilyen szinten már értem, amit csinálok.
A promptolás a metakogníció gyakorlóterme: gondolkodni a gondolkodásról — most először operacionalizálható, mérhető, és javítható.

GYIK

Mi az a Chain-of-Thought prompting, és miért fontos? A Chain-of-Thought (gondolati lánc) prompting azt jelenti, hogy a nyelvi modellt arra kérjük, mutassa meg a gondolkodás köztes lépéseit — ne csak a végeredményt. Wei et al. 2022-es kutatása óta tudjuk, hogy ez drámaian javítja a teljesítményt összetett feladatoknál. De a fontossága túlmutat a gépen: a technika arra tanít, hogy a gondolkodás minősége a köztes lépések minőségétől függ — nem a végeredmény gyorsaságától.

Miért mondják, hogy a promptolás az önismeret gyakorlása? Mert a kérdéseid szerkezete a gondolkodásod szerkezetét tükrözi. Ha egyugrásnyit kérdezel, egyugrásnyit gondolkodsz. Ha nem bontasz lépésekre, nem bontasz problémára. A prompt javítása nem technikai optimalizálás — hanem annak felismerése, hogy hol vannak a gondolkodási vakfoltjaid. Amit a géptől kérsz, az arról szól, hogyan szervezed a saját elmédet.

Mi a különbség a Chain-of-Thought és a Tree of Thoughts között? A Chain-of-Thought egyetlen úton halad előre — mint aki egy ösvényen sétál, és reméli, hogy a jó irányba megy. A Tree of Thoughts (gondolatok fája, Yao et al., 2023) egyszerre több úton indul el, értékeli az elágazásokat, és visszalép, ha zsákutcába jut — mint a sakkozó, aki több lépéssel előre gondolkodik. Az eredmény drámaian jobb lehet (4% vs. 74% egy benchmark tesztben), de az ára magasabb számítási költség és lassabb válasz.

Kapcsolódó gondolatok

A metakognitív forradalom — Ha a promptolás a gondolkodás tükre, a metakogníció a tükör mögötti fal. Az egyetlen terület, ahol az ember még verhetetlen.
A döntési cunami — A Kahneman-féle System 1/System 2 kettősség neurobiológiai alapjai — és miért megy offline a prefrontális kéreg pont akkor, amikor a legnagyobb szükség lenne rá.
Mesterséges mentorok — Ha a prompt a gondolkodás röntgenképe, a chatbot-mentor a gondolkodás edzőterme. Nem válaszol — kérdez. És ezzel olykor többet provokál, mint bármelyik tanácsadó.

Key Takeaways

A promptolás nem pusztán technikai trükk, hanem a saját gondolkodásunk szerkezetének tükre. Ahogy a CORPUS is hangsúlyozza, a prompt engineering részben művészet, és a feladat kontextusától, a modell árnyalataitól függ. A kérdés, amit felteszünk, többet árul el a saját mentális architektúránkról, mint a válasz a gépről.
A koherencia és a gondolatmenet áttekinthetősége gyakran fontosabb, mint a kezdeti pontosság. A Chain-of-Thought prompting hatékonysága azt mutatja, hogy egy összefüggő, de esetleg hibás út is jobb eredményre vezethet, mert aktiválja a modell mélyebb tudását – hasonlóan ahhoz, ahogyan egy jól felépített példa (Provide Examples principle) segíthet a megértésben.
A túlzott bizonyosság és az első benyomás felülbírálása veszélyes csapda, mind a modellek, mind az emberek számára. A kutatások szerint a modellek gyakran elhagyják a helyes intuíciójukat egy bonyolultabb, de téves érvelés javára, ami Kahneman System 1 és System 2 gondolkodásának feszültségére világít rá.
Az önreflektív promptolás (self-reflective prompting) lépései – értelmezés, kritikai felülvizsgálat, önértékelés – lényegében a tudatos, lassú gondolkodás (System 2) formalizálását jelentik. Ez nem csak a “hogyan”, hanem a “miért” kérdésére is fókuszál, ami a valódi megértés kulcsa.
A hatékony promptolás lényege a kontextus és a szándék pontos átadása, nem a tökéletes mondatszerkezet. Ahogy a CORPUS-ban is olvasható, nincs egyetemes formula; a siker a feladat kontextusának, a célnak és a modell sajátosságainak figyelembevételén múlik, ami közvetlen párhuzamba hozható az emberi kommunikáció kihívásaival.

Varga Zoltán - LinkedIn
Neural • Knowledge Systems Architect | Enterprise RAG architect
PKM • AI Ecosystems | Neural Awareness • Consciousness & Leadership
Where the prompt meets the mirror — that’s where thinking begins.