Agent adatok és az új adatverseny: nem a modell a szűk keresztmetszet

TL;DR

Az agent rendszereknél a stratégiai verseny a modellválasztásról a viselkedési tanítóadatok minőségére és gyűjtésére helyeződik át. A frontier modellek reasoning képességei közelednek, így a döntő tényező a trace-ek minősége és a valószerű training környezet. Egy jól finomhangolt 27B-es modell például 60%-kal verheti a Claude Sonnet 4-et, ha jobb evaluation és training adaton tanul.

Az agentekről szóló vitában rengeteg szó esik a modellekről.

Melyik gondolkodik jobban? Melyik reasoning-képessége erősebb? Melyik API-t érdemes hívni egy komplex munkafolyamathoz?

Ezek jogos kérdések. De miközben ezekre fókuszálunk, a háttérben egy másik verseny gyorsul fel — egy, ami stratégiailag valószínűleg fontosabb.

Ki tud jobb agent training adatot gyűjteni.

Ez az átváltás nem véletlenszerű. Logikus következménye annak, ahogy az AI-piac érik. És aki most felismeri, annak komoly stratégiai előnye keletkezik azokkal szemben, akik továbbra is csak a modellválasztásra koncentrálnak.

Mi változott az agent rendszereknél?

A modell már nem a szűk keresztmetszet

Két-három évvel ezelőtt az agent rendszerek teljesítményét erőteljesen meghatározta, hogy melyik alapmodellre épültek. A GPT-4 alapú agent szignifikánsan jobb eredményeket produkált, mint egy gyengébb modellre épített — szinte minden dimenzión.

Ez ma egyre kevésbé igaz.

Az ok: a frontier modellek képességei drámaian javultak és közeledtek egymáshoz. A reasoning képesség — az a fajta lépésenkénti gondolkodás, ami az agenteket hatékonnyá teszi — ma már nem privilege, hanem standard a vezető modellcsaládokban. Claude, GPT-4o, Gemini, sőt bizonyos feladatokon finomhangolt nyílt modellek — mind megfelelő reasoning alapot biztosítanak egy agent rendszernek.

Ha a modell már nem a szűk keresztmetszet, akkor mi az?

Amit a kutatás egyre határozottabban mutat

Az agent teljesítményt egyre inkább az határozza meg, hogy:

Milyen viselkedési mintákat látott az agent tanítás során? — vagyis milyen trace-ek, döntési szekvenciák képezik az edzőanyagot
Milyen környezetben tanult? — mennyire valószerűek a feladatok, mekkora a distribution gap a tanítási és a production környezet között
Milyen hibamintákat kapott vissza? — mi lett jelölve helyesnek, mi helytelennek, milyen granularitással
Mennyire valószerű feladatokon gyakorolt? — a tesztfeladatok mennyire tükrözik a valódi használati eseteket

Ezek a dimenziók együtt határozzák meg, hogy egy agent rendszer mennyire megbízható, mennyire hatékony, mennyire „tudja, mit csinál” a production-ban.

Egy erős alapmodell gyenge training adattal közepes agent rendszert ad. Egy megfelelő alapmodell kiváló, gondosan tervezett agent training adattal pedig felülírhatja az előbbit.

Miért fontos ez most?

Az agent korszak kapujában

Az AI-ipar 2024-2025-ben lépett be az agent korszak első érdemi szakaszába. Az egyszerű chatbot-paradigmától — kérdés-válasz, egy menet — az agent paradigma felé: tervez, lépéseket hajt végre, visszacsatol, adaptálódik, eszközöket hív.

Ez a váltás megnövelte a viselkedési adat stratégiai értékét. Egy chatbot esetén a tanítóadat főként szöveg-szöveg megfeleltetés. Egy agent esetén sokkal komplikáltabb: szekvenciális döntések, környezeti állapotok, eszközhasználat, hibadetektálás és -javítás, több lépéses tervek végrehajtása.

Ez a gazdagabb struktúra azt jelenti, hogy a trace minősége — az agent döntési folyamatának dokumentáltsága — közvetlen kapcsolatban van a rendszer tanulási hatékonyságával.

A nyílt kezdeményezések felismerése

Egyre több nyílt projekt ismeri fel ezt a dinamikát. Az OpenThoughts és hasonló nyílt agent dataset kezdeményezések nem csak modellsúlyokat publikálnak — hanem:

Agent trace-eket: részletesen dokumentált, lépésenkénti döntési szekvenciákat
Környezeti feladatokat: a tanítófeladatok leírását, az értékelési kritériumokat
Benchmarkokat: az agent teljesítmény mérésének módszertanát
Tanítási recipe-ket: hogyan kombinálható mindez egy hatékonyan tanuló rendszerré

Ez az, ahol a nyílt ökoszisztéma stratégiai értéke látszik: nem csak az alapmodell demokratizálódik, hanem az agent training infrastruktúra is.

Hol félreértett a közbeszéd?

Az agent teljesítmény mint modellteljesítmény — a kategóriahiba

Az agent rendszerek teljesítményét sokan egyszerűen a modell inherens képességeinek tekintik. Ha az agent rosszul teljesít, az azért van, mert a modell gyenge. Ha jobb modellt választunk, az agent javul.

Ez részben igaz — de alapvetően félrevezető.

Az igazság: az agent teljesítmény egy rendszerszintű jelenség. Függ:

az alapmodelltől (valóban),
a prompt tervezéstől,
az eszközdefiníciókból,
a memóriakezeléstől,
a hibakezelési logikától,
a visszajelzési hurkokból,
és a viselkedési tanítóadatoktól.

Ebből a listából a modell egy elem — és nem mindig a meghatározó.

A Parsed + Together AI esettanulmány, amit egy korábbi cikkünkben elemeztünk, pontosan ezt demonstrálta: egy gondosan finomhangolt 27B-es open modell 60%-kal verte a frontier Claude Sonnet 4-et — egy jól meghatározott, domain-specifikus feladaton. A döntő tényező nem a modellméret volt, hanem az evaluation + training adat minősége.

Az agent rendszereknél ugyanez a logika erőteljesebben érvényesül, mert az interakciók komplexebbek és a hibák kaszkádosak.

A trace minőség és a tanítóadat minőség összekeverése

Sokszor a „jó tanítóadat” fogalmat egyszerűen a mennyiségre szűkítik: több trace = jobb agent.

Ez ugyanaz a tévhit, amit a szintetikus adat esetén is láttunk: az OpenThinker 114 ezer gondos adata felülmúlta a DeepSeek 800 ezres nyers adatát. Az agent tanítóadatnál ez még inkább igaz.

A trace minőség dimenzióit külön kell értékelni:

Lépések explicitásága: dokumentálja-e a trace a döntési indokokat, nem csak az outputokat?
Hibamódok reprezentációja: tartalmaz-e a dataset sikertelen szekvenciákat és azok korrekcióit?
Environment realismus: mennyire tükrözik a tanítófeladatok a production környezet ténylegességét?
Reward granularitás: az egész szekvencia kap egy értékelési jelet, vagy lépésenkénti visszajelzés van?

Ez a négy dimenzió jobban meghatározza a tanítóadat értékét, mint a puszta volumen.

Milyen mélyebb mintázat rajzolódik ki?

A klasszikus technológiai érettségi ciklus

A viselkedési adat fontosságának növekedése nem egyedi AI-jelenség — ez a klasszikus technológiai érettségi ciklus része.

Minden technológiai platformnál megfigyelhető egy hasonló minta:

Compute fázis: a nyers számítási kapacitás a szűk keresztmetszet — aki több van, az nyer
Tooling fázis: a fejlesztői eszközök minősége differenciál — ki tud gyorsabban, hatékonyabban fejleszteni?
Workflow fázis: a folyamatok integrációja válik meghatározóvá — hogyan épül be a technológia a valódi működésbe?
Operational data fázis: a valódi, üzemi adatok, a hibaminták, a sikerminták lesznek az elsődleges eszközök

Az AI-stack pontosan ebbe a mintába illeszkedik:

A compute fázis lezajlott — a frontier modellekhez hozzáférni ma relatíve egyszerű
A tooling fázis zajlik — LangChain, CrewAI, Autogen, LlamaIndex — agent development tooling burjánzik
A workflow fázis megkezdődött — ki integrál mélyebben, ki épít megbízhatóbb production pipeline-t?
Az operational data fázis — a viselkedési adatok stratégiai felhalmozása — most kezd igazán fontossá válni

Az a szervezet, amelyik felismeri, hogy most az operational data fázis közeledik, idő előtt kezd felhalmozni egy olyan eszközt, ami a következő három-öt évben kulcsdifferenciálóvá válik.

Az agent trace mint szervezeti tudásbázis

Az agent trace egy sajátos dokumentum: nem csak az output van benne, hanem a döntési folyamat. Hogyan tervezte meg az agent a feladatot? Milyen eszközöket hívott meg? Hol hibázott? Hogyan korrigált?

Ez rendkívül értékes tudásbázis — és a legtöbb szervezet nem tárolja, nem strukturálja, nem hasznosítja.

Gondoljuk végig: ha egy ügyfélszolgálati agent napi ezrekkel interaktál, és minden interakciónál elmentjük a teljes döntési szekvenciát, hónapon belül rendelkezünk egy olyan viselkedési adatbázissal, ami:

Megmutatja a legtipikusabb hibamódokat
Azonosítja, hol szorul az agent segítségre vagy emberi beavatkozásra
Tartalmazza a sikeres megoldási mintákat
Dokumentálja a kivételkezelési logikát

Ez a belső trace-adatbázis, ha jól van kurálva és felhasználva, pontosan az a fajta adat, amivel egy következő iteráció drasztikusan jobb agent rendszert tud képezni.

A reward shaping mint architektúrális döntés

Az agent tanításban a reward signal — mi számít jó teljesítménynek — nem triviális kérdés.

Egy gyenge reward signal: az agent elvégzi a feladatot / nem végzi el. Bináris, lépésenkénti visszajelzés nélkül.

Egy erős reward signal: az agent döntési szekvenciájának minden lépésére van értékelés. A részlépések sikerességét külön mérjük. A kiválasztott eszköz megfelelősége értékelt. A kommunikáció minősége, a hatékonyság, a biztonsági megfontolások — mindez visszajelzést kap.

Ez a különbség nem technikai részletkérdés — ez az egyik legfontosabb architekturális döntés egy agent rendszer fejlesztésénél. A jó reward shaping olyan, mint egy jó oktatási program: nemcsak azt mondja meg, hogy a végeredmény helyes volt-e, hanem a tanulási folyamatot is irányítja.

Mi ennek a stratégiai következménye?

Hogyan épít szervezet agent data moat-ot?

1. Trace naplózás bevezetése. Az első lépés egyszerű, de sok szervezetnél hiányzik: minden agent interakciónál teljes trace naplózás. Nemcsak az output — a teljes döntési szekvencia, az eszközhívások, az intermediate states.

2. Hibataxonómia az agent viselkedésre. Az összegyűjtött trace-ekből hibataxonómia felépítése. Milyen típusú hibák fordulnak elő? Mik a leggyakoribb, legsúlyosabb hibamódok? Ez az a struktúra, ami a következő tanítóadat-generálást irányítani fogja.

3. Tanítóadat kiválogatása. A trace-adatbázisból a legértékesebb tanítópéldák azonosítása: sikeres megoldások, jól kezelt kivételek, és — különösen értékes — a helyesen korrigált hibák.

4. Environment design. A belső agent benchmark felépítése: milyen feladatokon mérik az agent teljesítményét? Ezeknek realisztikusan tükrözniük kell a production feladatokat, nem szintetikus, elidegenített benchmarkokat.

5. Feedback loop a production-ból. A production hibák és emberi beavatkozások rendszeres visszacsatolása a tanítóadatba. Ahol emberi operátor javítja az agent döntését — az arany értékű tanítóadat.

Az evaluation realismus kulcskérdése

A legtöbb agent benchmark nem-production jellegű. Felhasználóbarát, izolált, jól definiált feladatok — amelyek messze vannak attól, amit az agent ténylegesen csinál éles körülmények között.

Ez az evaluation realismus problémája: ha az értékelési rendszer nem tükrözi a valódi production körülményeket, az agent tanulása divergálhat a tényleges igényektől.

A saját, belső, production-köeli agent benchmark felépítése ezért nem luxus — hanem az egész agent fejlesztési ciklus alapja. Ez nélkül nem lehet megmondani, hogy egy új tanítási iteráció ténylegesen javított-e az agent production teljesítményén.

Hol épül ebből versenyelőny?

Trace minőség felhalmozása. A jól dokumentált, gondosan kurált trace-adatbázis az idő múlásával értékesebbé válik — mert mindig az aktuális production feladatokat tükrözi, és nehezebben másolható, mint az alapmodell.

Environment design kompetencia. Annak megértése, hogy milyen feladatkörnyezetben kell az agentnek tanulnia — ez domain-tudást igényel, amit a versenytárs nem vehet át egyszerűen.

Operatív adat monopólium. A saját üzemi adatokból épülő trace-adatbázis egyedi. Senki más nem rendelkezik a szervezet saját production-adataival.

Reward shaping finomítása. Az iterációk során a reward signal egyre pontosabb lesz — ez kumulatív tanulási előnnyé válik.

Mit érdemes most figyelni?

Az agent adatok nyílt ökoszisztémájának fejlődése

A nyílt agent dataset kezdeményezések — OpenThoughts, AgentBench, WebArena, ToolBench — egyre gazdagabb tanítóadat-forrásokat tesznek hozzáférhetővé. Ezek az általános agent képességek alapját demokratizálják.

A verseny azonban ott kezdődik, ahol a nyílt adatok véget érnek: a domain-specifikus, production-köeli agent trace-ek területén.

A RLHF-ről az RLAIF felé

A Reinforcement Learning from Human Feedback (RLHF) a current standard az agent finomhangolásban. Az emberi értékelők adnak visszajelzést az agent viselkedésére.

A következő fejlődési irány: RLAIF — Reinforcement Learning from AI Feedback. Egy erős értékelő modell automatikusan értékeli az agent döntési szekvenciáit. Ez lehetővé teszi a visszajelzési ciklus radikális felgyorsítását — és ezzel az agent tanulási iteráció sebességének növelését.

Ahol a visszajelzési ciklus automatizálható, ott a tanulási sebesség ugrásszerűen nő.

Process reward models az agent fejlesztésben

A Process Reward Models (PRM) — ahol nem az output értékelése történik, hanem az egyes lépéseké — különösen ígéretesek az agent tanításban. Ez az a technológia, ami lehetővé teszi a granulált visszajelzést a döntési szekvencia minden pontján.

A PRM-alapú agent tanítás a következő évek egyik meghatározó fejlesztési iránya lesz.

Zárás

Az AI-verseny következő fejezete nem a modellek körül dől el.

A modellek szükségesek — de egyre inkább feltételek, nem differenciálók. Az a szervezet, amelyik az agent rendszerek stratégiai értékét kizárólag a modellválasztásban látja, alapvető taktikai hibát követ el.

A tartós agent előny forrása a viselkedési adatokban van: a trace-ek minőségében, az environment design megbízhatóságában, a reward shaping precizitásában, és a production visszacsatolás rendszerességében.

Ez ugyanaz a logika, amit a klasszikus szoftveriparban láttunk: a nyers compute után jön a tooling, a tooling után a workflow, a workflow után az operatív adat válik a legvédetebb stratégiai eszközzé.

Az agent korszakban az utcai tapasztalat — nem a könyvi tudás — dönt.

Kapcsolódó cikkek a blogon

Key Takeaways

A modell már nem az egyetlen szűk keresztmetszet — A vezető alapmodellek reasoning képességei közel azonos szinten állnak, így az agent teljesítményt egyre inkább a tanítóadatok minősége határozza meg.
Az agent teljesítmény rendszerszintű jelenség — A modell mellett a prompt tervezés, az eszközök, a memóriakezelés és főként a viselkedési tanítóadatok együttesen határozzák meg a rendszer hatékonyságát.
A trace minősége kritikusabb a mennyiségénél — Egy agent dataset értékét a lépések explicit dokumentálása, a hibamódok reprezentációja, a környezet realitása és a granularitásos visszajelzés határozza meg, nem a nyers trace-ek száma.
Az AI-stack az operational data fázisba lép — A technológiai érettségi ciklus szerint a compute és tooling fázis után most a valós, üzemi viselkedési adatok felhalmozása válik stratégiai előnnyé.
A nyílt kezdeményezések infrastruktúrát építenek — Az OpenThoughts-hez hasonló projektek nem csak modelleket, hanem agent trace-eket, benchmarkokat és tanítási recepteket is nyilvánossá tesznek, demokratizálva az agent training tudását.