A nyílt reasoning stack felemelkedése: mit tanít nekünk az OpenThinker-32B esete?

TL;DR

Az OpenThinker-32B esete nem arról szól, hogy egy nyílt modell utolérte a zárt frontier modelleket. A valódi tanulság az, hogy a reasoning fejlesztés teljes tudása és infrastruktúrája nyílttá vált. A projekt 114 ezer gondosan kurált és verifikált tanítóadattal érte el azt a teljesítményt, amihez a DeepSeek becslések szerint 800 ezret használt, demonstrálva az adatminőség kritikus szerepét. Ez egy reprodukálható receptet ad a közösség kezébe.

A nyílt AI-modellek kapcsán sokan még mindig ugyanazt a kérdést teszik fel:

Utolérik-e valaha a zárt modelleket?

Szerintem egyre gyakrabban rossz kérdést teszünk fel.

A jobb kérdés ez: milyen gyorsan tud a nyílt ökoszisztéma tanulni, másolni, javítani és újraépíteni?

Az OpenThinker-32B körüli történet ezért érdekes — és messze túlmutat az egyetlen benchmarkeredményen.

Mi történt valójában?

Az OpenThinker-32B és az OpenThoughts projekt

Az OpenThoughts csapat 2025 elején tette közzé az OpenThinker-32B-t: egy nyílt forráskódú reasoning modellt, amelyet a Qwen2.5-32B-Instruct alapján finomhangoltak az általuk épített OpenThoughts-114k adathalmazon.

Az eredmény figyelemreméltó. Az OpenThinker-32B a MATH500 benchmarkon 90.6%-os pontosságot ért el — szemben a DeepSeek-R1-Distill-Qwen-32B 89.4%-ával. A GPQA-Diamond általános problémamegoldó benchmarkon: 61.6 vs. DeepSeek 57.6.

De ezek a számok csak a felszín.

A mélyebb szám: 114 ezer vs. 800 ezer

Az igazán figyelemre méltó adat nem a benchmark.

Hanem ez: az OpenThinker-32B 114 ezer tanítóadattal érte el a DeepSeek-közeli teljesítményt. A DeepSeek a saját rendszere építéséhez becslések szerint 800 ezer mintát használt.

Ez közel hétszeres adathatékonysági különbség.

Hogyan lehetséges ez? A módszer: gondosan kurálja az adatot, és minden mintán verifikációt futtat. Az OpenThoughts pipeline összegyűjt 173 ezer kérdésre reasoning trace-eket és megoldáskísérleteket (a DeepSeek-R1 desztillálásával), majd az összes olyan mintát kiszűri, ahol a reasoning trace nem állja meg a verifikációt. Az eredmény: 114 ezer magas minőségű, ellenőrzött tanítópélda.

Kevesebb adat, jobb eredmény — mert az adatminőség fontosabb, mint az adatmennyiség.

Mit lát a felszín, és mi zajlik alatta?

A felszínen: egy nyílt modell felzárkózott a zárt frontier szinthez egy reasoning benchmarkon.

Alatta valami fontosabb zajlik: a modell körüli teljes tudás is nyílttá vált.

A zárt modellek előnye sokáig nem csak a minőségben volt. Hanem abban, hogy a teljes pipeline láthatatlan maradt a külvilág számára. Nem tudtad, milyen adatokat használnak. Nem tudtad, hogyan verifikálják a tanítóadatokat. Nem tudtad, milyen döntéshozatali logika vezeti a finomhangolást.

Az OpenThoughts ezzel szemben közzéteszi:

a datasetet (OpenThoughts-114k),
a data curation pipeline kódját,
a verifikációs módszertant,
a teljes tanítási receptet,
és a benchmarkerekre vonatkozó dokumentációt.

Ez nem csak egy modell. Ez egy tanulási infrastruktúra — amit bárki tovább tud építeni.

Miért fontos ez most?

Mi változott az AI-fejlesztésben?

A reasoning modellek fejlesztése — a CoT (chain-of-thought), az önellenőrzés, a többlépéses problémamegoldás — sokáig kizárólag a nagy labokhoz kötődött. OpenAI o1, DeepSeek-R1, Gemini Thinking Mode. Ezek mögött hatalmas infrastruktúra, emberi visszajelzési rendszerek és privát adatok húzódnak.

Az OpenThinker-32B megmutatja, hogy ez a területegyenlőtlenség gyorsan zárul.

Miért most? Három tényező hat egyszerre:

1. A desztilláció nyílt lett. A DeepSeek-R1 reasoning trace-jeit — a modell gondolkodási folyamatait — fel lehet használni tanítóadatként. Ez a desztilláció: egy nagyobb, erősebb modell “tanítja” a kisebbet. Korábban ez kizárólag a nagy laboknak volt lehetséges, saját modelljeiken. Ma részben nyílt modelleken is elvégezhető.

2. A verifikáció automatizálható. Matematikai feladatoknál, kód-feladatoknál az eredmény ellenőrizhető programmal. Ha a modell megoldása helyes, a reasoning trace értékes tanítóadat. Ha helytelen, kiszűrik. Ez az emberi annotáció egy részét kiváltja — és ez drasztikusan csökkenti a tanítóadat-előállítás költségét.

3. Az iterációs ciklus felgyorsult. Az OpenThoughts egy kisebb csapat munkája volt, rövid futamidővel. Ami korábban hónapos nagyvállalati projekt lett volna, most hetekbe telik.

Mi változott stratégiailag?

A zárt modelleknek korábban volt egy “safety through obscurity” jellegű előnyük: ha senki nem látja a pipeline-t, senki nem tud gyorsan másolni.

Ez az előny erodálódik.

Nem tűnik el teljesen. A frontier modellek — GPT-5, Claude 4 Opus, Gemini 2.0 Ultra — még mindig messze a legjobb általános reasoning szinten. De az a pillanat, amikor az általános reasoning “elég jó” szinten nyíltan elérhető, eljött. És ez megváltoztatja a versenydynamikát.

Hol félreértett a közbeszéd?

Mit jelent valójában a „nyílt modell elérte a zárt szintet”?

A narratíva, ami ebből a bejelentésből általában születik: “XY open source modell legyőzte a ChatGPT-t” vagy “az open source utolérte a zárt modelleket”.

Ez félrevezető — több szempontból is.

Először is: a frontier modellek folyamatosan fejlődnek. Amikor az OpenThinker megközelíti a DeepSeek-R1-32B szintjét, a DeepSeek és az OpenAI már a következő generáción dolgoznak. A gap bezárása egy mozgó célra lövés.

Másodszor: a benchmarkok szűk mérőszámok. MATH500 és GPQA-Diamond matematikai és általános tudományos problémamegoldást mér. Ez fontos dimenzió — de nem a teljes kép.

Harmadszor és legfontosabban: a valódi story nem az, hogy ki nyeri a benchmarkot. A valódi story az, hogy a recipe nyílttá vált.

Mit jelent a nyílt recipe stratégiailag?

Amikor egy recipe — az adat, a pipeline, a verifikáció, a kód — nyílttá válik, valami strukturálisan megváltozik.

Minden fejlesztő, aki azt látja, hogy 114 ezer jól kurált tanítóadattal közel frontier reasoning szint érhető el, megkap egy cselekvési keretet. Nem kell 800 ezret gyűjteni. Kell 114 ezret — de a minőség számít. Ez az implicit tudás, ami a recipe nyíltságával terjed.

Ez az oka annak, hogy a nyílt ökoszisztéma tanulási sebessége exponenciálisan nő: nem lineárisan fejlődik, hanem hálózatosan. Minden publikált recipe potenciálisan száz új kísérletet indít el globálisan.

Milyen mélyebb mintázat rajzolódik ki?

A reprodukálhatóság mint versenyképességi tényező

A zárt AI-rendszerek világa sok szempontból emlékeztet az ipari titoktartás klasszikus logikájára. A gyártási eljárás titkos. A formuláció titkos. Az előny a láthatatlanságban van.

A nyílt AI-ökoszisztéma egy teljesen más logikát követ: a reprodukálhatóság mint versenyképességi tényező.

Ha bárki meg tudja ismételni, meg is tudja javítani. Ha bárki meg tudja javítani, a kollektív iteráció felülmúlja az egyéni fejlesztési ciklust.

Ez nem utópia — ez a tudományos módszer és a nyílt forráskód logikája, alkalmazva az AI-fejlesztésre.

A Linux nem verte le a Windows-t minden piacon. De a szerver-, felhő- és beágyazott rendszerek piacán ma már nem versenyképes alternatíva egy zárt operációs rendszer. Valami hasonló folyamat zajlik az AI reasoning területén — lassabban, más erőviszonyokkal, de felismerhető szerkezettel.

A nyílt tanuló infrastruktúra

Az OpenThinker esetéből levezethető egy tágabb gondolat: az AI-ökoszisztéma értéke egyre kevésbé a modellben, és egyre inkább a modell körüli tanulási infrastruktúrában van.

A tanulási infrastruktúra elemei:

Dataset: milyen minőségű, hogyan kurált, verifikálható-e?
Recipe: hogyan épül fel a tanítási pipeline, milyen hyperparaméterekkel, milyen döntési logikával?
Evaluation harness: milyen benchmarkon, milyen feltételekkel méred a teljesítményt?
Iteráció: milyen gyorsan tudsz javítani, ha a rendszer gyenge egy dimenzión?

Egy zárt rendszer mindezeket rejti. Egy nyílt rendszer mindezeket megosztja — és cserébe megkapja a globális ökoszisztéma iterációs kapacitását.

Ez nem feltétlenül jobb stratégia minden esetben. De egyre több esetben az, ahol:

a feladat jól definiált (pl. matematika, kód),
a verifikáció automatizálható,
és a fejlesztők globális közössége érdekelté tehető a fejlesztésben.

Miért nem elszigetelt eseményről van szó?

Az OpenThinker-32B egy mintázat részeként értelmezhető.

A DeepSeek-R1 megjelenésekor sokan szenzációként kezelték: egy kínai labor tört be a frontier reasoning szintbe, töredéknyi befektetéssel. Az OpenThinker ezt a logikát viszi egy szinttel lejjebb: nemcsak a modell, hanem a recipe is nyílttá vált.

A következő lépés — ami már szintén zajlik — az, hogy specializált vertikális reasoning modellek épülnek erre az alapra. Matematikai reasoning, kód-reasoning, jogi érvelés, orvosi diagnosztika. Mindenhol, ahol az érvelési lánc verifikálható és az adat kurálható, ez a módszer alkalmazható.

Mi ennek a stratégiai következménye?

Mit kell ebből megértenie egy döntéshozónak?

Az AI-stratégiában egyre fontosabb különbségtétel: melyik AI-képességet érdemes frontier modellre bízni, és melyiket érdemes nyílt alapon, saját iterációval fejleszteni?

A Frontier modell előnye: általános intelligencia, kényelmes API, folyamatos fejlesztés. Az előfizetési díj magában foglalja a fejlesztési ciklust.

A nyílt tanuló infrastruktúra előnye: kontroll az adat és a recipe felett, testreszabhatóság, kisebb inferencia-költség, adatbiztonsági garancia, és — ami talán a legfontosabb — a belső tudás akkumulálódása.

Amikor egy szervezet saját tanítóadatot kurál, saját evaluation harness-t épít, és saját iterációs ciklust futtat, akkor nem csak egy modellt hangol be. Hanem szervezeti kompetenciát épít, ami nehezebben másolható, mint maga a modell.

Hol épül ebből versenyelőny?

Három területen érdemes figyelni:

Tanítóadat-kurálás. Aki megérti, hogy 114 ezer jó adat többet ér, mint 800 ezer rossz, az képes lesz olcsóbban és gyorsabban iterálni. Ez nem ML-engineering kérdés — ez adatstratégia.

Verifikáció mint infrastruktúra. Minden olyan feladaton, ahol az output automatikusan verifikálható (kód, matematika, struktúrált adatkinyerés, jogi normák), érdemes verifikációs pipeline-t építeni. Ez az adat-flywheel alapja: a jó outputok automatikusan tanítóadattá válnak.

Reasoning mint kompetencia. A reasoning modellek — amelyek explicit gondolkodási lépéseket generálnak — nem csak jobb eredményeket adnak bizonyos feladatokon. Hanem értelmezhetőbb outputokat is. Egy vállalati kontextusban ez az auditálhatóság és a megfelelőség szempontjából is releváns.

Mit érdemes most figyelni?

Mi jöhet a következő 6–12 hónapban?

A reasoning stack demokratizálódása. Az OpenThinker-féle projektek alapján hamarosan elérhetővé válik egy olyan nyílt reasoning stack, amivel közép-méretű szervezetek is képesek lesznek saját reasoning modelleket építeni szűk vertikális feladatokra — orvosi diagnózis, jogi elemzés, ipari hibadetektálás.

A desztilláció normalizálódása. A teacher-student modell — ahol egy nagy, erős modell tanítja a kisebbet — egyre bevettebb módszerré válik. Ez radikálisan csökkenti a magas minőségű tanítóadat-előállítás költségét, és megnyitja az utat a specializált kis reasoning modellek előtt.

Az adatminőség mint stratégiai fókusz. Ahogy nyilvánvalóvá válik, hogy 114 ezer jó adat felülmúlhat 800 ezer gyenge adatot, az adatminőség-kutatás és -kurálás felértékelődik. Az AI-stratégia egyre inkább adatstratégiává válik.

Milyen másodrendű hatások várhatók?

A zárt modellek árnyomásba kerülnek az egyes szegmenseken. Ha az OpenThinker szintű reasoning nyíltan, ingyen elérhető, az alulról szorítja a frontier modellek árpontjait a matematikai, kód- és tudományos reasoning feladatokon.

Az iterációs sebesség válik az elsőszámú versenytényezővé. Nem az, ki van legjobb szinten ma. Hanem az, ki tud gyorsabban tanulni, javítani és reagálni. Ebben a nyílt ökoszisztéma — a sok parallel fejlesztő és kutató révén — strukturális előnnyel rendelkezik.

Az AI-fejlesztés kutatásból iparággá válik. A recipe-alapú, adatintenzív, iteratív AI-fejlesztés egyre inkább hasonlít egy mérnöki iparághoz, mint egy akadémiai kutatási területhez. Ez megváltoztatja a szükséges kompetenciák profilját is.

Zárás

Az OpenThinker-32B esetéből a legtöbben a benchmark-eredményt viszik el üzenetként: “újabb nyílt modell érte utol a frontier szintet.”

De az igazi tanulság mélyebb.

A nyíltság nem csak ideológia. A nyíltság iterációs sebesség.

Amikor a recipe nyílttá válik — az adat, a pipeline, a verifikáció, a kód —, a fejlesztési ökoszisztéma hálózatosan kezd növekedni. Nem lineárisan. Minden publikált iteráció potenciálisan százat indít el máshol. Ez a nyílt tanuló infrastruktúra logikája.

A következő évek egyik kulcscsatája nem az lesz, hogy ki építi a legnagyobb modellt. Hanem az, hogy ki építi a legjobb nyílt tanulási rendszert — azt, amiből mások is tanulhatnak, és ami ezért gyorsabban javul, mint amit egyetlen csapat önmagában képes elérni.

Ez a zárt és a nyílt AI versenyének mélyebb dimenziója. És ez egyre inkább a stratégia szintjén dől el — nem csak a laborban.

Kapcsolódó cikkek a blogon

Key Takeaways

A nyílt reasoning stack fejlődése a valós történet — Az OpenThinker-32B sikerének alapja nem a modell, hanem a teljesen nyilvános adatkészlet, curation pipeline és tanítási recept, ami egy tanulási infrastruktúrát jelent.
Az adatminőség döntőbb, mint az adatmennyiség — A projekt 114 ezer, szigorúan verifikált mintával közelítette meg a DeepSeek 800 ezer mintán elért reasoning teljesítményét, ami közel hétszeres hatékonyságot mutat.
A desztilláció és automatizált verifikáció demokratizálja a fejlesztést — Nagy modellek reasoning trace-jeinek desztillációja és a programozott ellenőrzés lehetővé teszi a hatékony tanítóadat-generálást kisebb csapatok számára is, csökkentve az emberi annotáció függőségét.
A stratégiai előny a titkolózásból a reprodukálhatóságba tolódik — A zárt modellek “safety through obscurity” előnye erodál, mivel a nyílt receptek lehetővé teszik a globális, hálózatos tanulást és gyors iterációt a közösség által.
A benchmark-eredmények félrevezetők lehetnek — A MATH500-on elért 90.6% nem azt jelenti, hogy a nyílt modell “utolérte” a zártakat, hanem hogy egy kritikus tudásréteg (a high-quality reasoning adatok előállítása) elérhetővé vált a nyílt ökoszisztéma számára.