Kis modellek, nagy hatás — a 7B elég?

TL;DR

A 7B paraméterű nyílt modellek (Mistral 7B, Qwen2.5-7B, Llama 3.1-8B) sok jól definiált feladaton megközelítik a 70B+ modellek teljesítményét. Az “egy modell minden feladatra” gondolkodás elavult — és drága. A kérdés nem az, hogy melyik modell a legjobb, hanem hogy melyik feladathoz melyik elég. A specializált kis modell veri az általános nagy modellt, ha a kontextus szűk és a feladat ismétlődő.

Egy régi tévedés, amit sokan cipelnek magukkal

Volt egy időszak, amikor az AI-t egy mérleghez hasonlítottuk: minél nagyobb a modell, annál jobb az eredmény. Ez a logika kényelmes volt, mert egyszerű. Nem kellett gondolkozni — csak a lehető legnagyobb modellt használni, és minden rendben lesz.

Ez a megközelítés 2024-ben már gyenge volt. 2026-ban egyenesen pazarló.

A valóság az, hogy a modellméret és a teljesítmény közötti kapcsolat erősen feladat-függő. Egy 7B-s modell, amely jól van instruálva és szűk kontextusba helyezve, következetesen veri a 70B-s általános modellt. Nem mindig, nem mindenhol — de elég sokszor ahhoz, hogy ez stratégiai döntéssé váljon, nem csak kísérletezgető optimalizálgássá.

Miről szól valójában a “kis modell” vita?

A paraméterszám egy proxy. Azt méri, hogy a modell mennyi súlyt hordoz magában, vagyis mekkora a “belső tudástára.” De ez a tudástár csak akkor számít, ha a feladathoz szükség van rá.

Vegyük a három legelterjedtebb kis modellt:

Mistral 7B — az európai Mistral AI első nagy dobása, erős reasoning, tiszta instruktakövetés, kis footprint
Qwen2.5-7B — Alibaba modellje, kiemelkedően jó kód- és struktúrált adat-feladatokon, multilinguális
Llama 3.1-8B — Meta modellje, széles ökoszisztéma, fine-tuning barátos

Mind a három modell benchmark eredményei 2024-2025-ben mutatják: ha a feladat jól definiált — osztályozás, összefoglalás, kinyerés, struktúrált generálás —, az 7-8B-s modellek teljesítménye messze belefér a “production ready” kategóriába.

A 70B-s modell akkor kerül előnybe, ha:

Komplex többlépéses következtetés kell (mélyen összefonódó logika)
Ritka, long-tail tudásterületek érintik (nagyon szakspecifikus tartalom)
A prompt maga komplex, szerteágazó, kontextusa gazdag

A specializáció felülírja a méretet

Azt tapasztaltam az elmúlt évben, hogy a “melyik modell a legjobb?” kérdés valójában rossz kérdés. A helyes kérdés: “melyik feladat, milyen szűkösségű kontextusban, milyen ismétlési frekvenciával fut?”

Egy ügyfélszolgálati kategorizáló pipeline esetén a Qwen2.5-7B fine-tuned verziója verte a Claude 3 Sonnet-et — nem azért, mert jobb modell általánosan, hanem mert a szűk, jól definiált feladatra a finomhangolt kis modell kevesebb hallucinációt produkált és konzisztensebben tartotta a kategória-határokat.

Ez a mintázat ismétlődik:

Dokumentum összefoglaló pipeline: 7B elég, ha a chunk méret kezelt
Kód review egész fájlra: 70B vagy 32B indokolt
Struktúrált JSON kinyerés egy fix sémára: 7B tökéletesen elegendő
Nyílt végű kutatási elemzés: nagyobb modell adjunk

A lényeg: ha a feladatot le tudjuk szűkíteni, a kis modell lesz a helyes választás — és ez olcsóbb, gyorsabb és deployálhatóbb.

A “jól definiált feladat” nem magától adódik

Az egyik leggyakoribb hiba, amit látok: valaki kipróbálja a kis modellt egy általános prompttal, gyengébb eredményt kap, mint a GPT-4-től, és levonja a következtetést: “a kis modellek nem jók.”

Ez egy hibás kísérlet.

A kis modell akkor teljesít jól, ha:

A promptja precíz és feladat-specifikus
A kontextusa szűk és fókuszált (nem általános utasítás-halmaz)
A kimeneti formátum definiált (strukturált vagy legalábbis korlátozott)
Opcionálisan: fine-tuning-gal a domain-specifikus adatokra tanítva

Ez nem a modell hibája — ez a tervezési hiányosság. Egy általánosan fogalmazott prompt egy általánosan gyenge választ fog kihozni egy kis modellből. Ugyanez a feladat, jól definiált instrukcióval, egészen más eredményt ad.

Mikor válassz kis modellt, mikor nagyot?

Nem univerzális szabályt adok, hanem egy gondolkodási keretet:

Kis modell (7-8B) jó választás, ha:

Az output sémája előre definiált (JSON, kategória, bináris döntés)
A feladat ismétlődő és ipari mennyiségű (cost és latency számít)
On-premise vagy edge deployment kell (hardware korlát)
Fine-tuning opció: domain-specifikus adatod van

Nagy modell (70B+) indokolt, ha:

Nyílt végű, komplex reasoning kell (több lépéses következtetés)
A tartalom ismeretlen, vegyes, széles kontextusú
Az eredmény minősége kritikus és nincs idő fine-tuningra
Egyszeri vagy alacsony frekvenciájú futtatás (a cost másodlagos)

A legjobb architecturák ma nem egy modellt használnak minden feladatra. Hanem model routing-ot: az egyszerűbb feladatok kis modellre mennek, a komplexek nagyra. Ez a megközelítés 60-80%-kal csökkenti a futtatási költséget — a minőség érzékelhető romlása nélkül.

Az “egy modell minden feladatra” gondolkodás vége

Az, hogy egy vállalat minden AI-feladatot GPT-4-re vagy Claude Opus-ra küld, 2024-ben még érthető volt. Akkor még a kis modellek nem értek el production-ready szintet sok területen. Ma már igen.

A kérdés ezért nem technológiai többé — hanem szervezeti. Melyik csapat hajlandó befektetni abba, hogy megértse a feladatait és a megfelelő modellt rendelje hozzájuk? Melyik csapat marad az egységes, drága, kényelmes megoldásnál?

A kis modellek nem kompromisszumok. Sok alkalmazási esetben ők az okos választás — pontosan azért, mert fókuszáltak, gyorsak és deployálhatók. A méret illúziója lassan szertefoszlik. Ami marad: a jól definiált feladat és a megfelelő eszköz hozzá.

Kapcsolódó gondolatok

Varga Zoltán - LinkedIn Neural • Knowledge Systems Architect | Enterprise RAG architect PKM • AI Ecosystems | Neural Awareness • Consciousness & Leadership A méret illúziója: a fókusz győz a tömeg felett.