Ugrás a tartalomra

Utoljára frissítve:

Nyílt AI Modellek: Llama, Mistral, DeepSeek és a Vállalati Stratégia (2026)

2025–2026-ra a nyílt forrású AI modellek valódi alternatívává váltak a zárt API-kkal szemben. A DeepSeek R1 ársokkja, a Llama 3 megjelenése és a Mistral fejlődése megmutatta: nem kell OpenAI-hoz fordulni ahhoz, hogy frontier teljesítményt kapj — saját infrastruktúrán, saját adatvédelmi feltételekkel.

TL;DR

A nyílt modellek (Llama 3, Mistral, DeepSeek, Qwen) letölthetők, lokálisan futtathatók és finomhangolhatók. Fő előny: adatbiztonság, nulla API-függőség, testreszabhatóság. Fő hátrány: infrastruktúra-üzemeltetési igény. A DeepSeek R1 2025 januári megjelenése bizonyította: a frontier AI nem csak a zárt modellek kiváltsága.

20×
Olcsóbban üzemeltethető a DeepSeek R1 a GPT-4-hez képest API-hívás alapon
405B
A Meta Llama 3.1 legnagyobb verziójának paraméterszáma — nyíltan elérhető
4 GB
Minimum VRAM egy 7B kvantált modell futtatásához fogyasztói GPU-n
100%
Nyílt forrású RAG stack összerakható — LLM + embedding + vektortár + reranker

Miért lettek a nyílt AI modellek komolyan vehetők?

2023 előtt a nyílt modellek teljesítménye messze elmaradt a zárt frontier modellektől. A GPT-4 megjelenése után sokan azt gondolták, a zárt modellek legyőzhetetlen előnnyel rendelkeznek — a számítási és adatkapacitás akkora, hogy kis laborok nem érhetik utol. Ez a kép 2024–2025-re gyökeresen megváltozott.

A három fordulópont

1. Meta Llama 2 és 3 (2023–2024): A Meta a Llama 2-vel nyilvánosan elérhetővé tette a 7B, 13B és 70B modelljeit kereskedelmi licenccel. A Llama 3.1 (2024 júliusában) már 8B, 70B és 405B verziókban jelent meg — az utóbbi az első nyílt modell, amely frontier szinten versenyez. A Meta döntése stratégiai: az ökoszisztéma fejlesztésével szembeszegül az OpenAI domináns API-piaci pozíciójával.

2. Mistral (2023–2024): A párizsi Mistral AI egy 7B-os modellel robbant be, amely méretéhez képest páratlan teljesítményt nyújtott. A Mistral 7B architektúrális innovációi (sliding window attention, grouped query attention) megmutatták, hogy az architekturális hatékonyság fontosabb, mint a puszta paraméterszám. A Mixtral 8x7B (Mixture of Experts) ezután 2× nagyobb modell teljesítményét hozta 7B inference-költséggel.

3. DeepSeek R1 — az árpiaclás (2025. január): A kínai DeepSeek R1 megjelenése valódi sokkot okozott. A modell matematikai reasoning, kódgenerálás és logikai feladatokon GPT-4-szintű benchmarkon teljesített — és a hosting-kölség töredéke volt. Az R1 megmutatta, hogy a distillation és az innovatív tanítási stratégia pótolhatja a brute-force számítási kapacitást. A DeepSeek-sokkról és a piacszerkezetről bővebben írtam.

Belépési küszöb

A belépési küszöb 2025-re drasztikusan lezuhant: egy 7B-os modell 4 GB VRAM-on fut, az Ollama telepítése 5 perc, és a teljesítmény elegendő a legtöbb üzleti felhasználási esethez. Ami 2022-ben kutatólabori privilégium volt, ma elérhető egy közép-kategóriás laptopon.

Nyílt vs zárt modellek: mikor melyiket válasszuk?

A döntés nem fekete-fehér. A nyílt és zárt modellek más-más feltételek mellett nyernek — az alábbi mátrix a legfontosabb szempontokat foglalja össze.

Szempont Nyílt modell Zárt API Nyertes
Adatbiztonság
Adatok hova kerülnek?
Lokálisan vagy saját szerveren fut — az adat nem hagyja el az infrastruktúrát Adatok a fejlesztő szerverére mennek; adatkezelési szerződés szükséges Nyílt
Cost skálán
Sok API-hívás esetén
Infrastruktúra fix-cost; API-hívásonkénti díj nulla — 50+ felhasználó felett sokkal olcsóbb Per-token alapú díjazás — kis volumen esetén olcsóbb, nagy volumen esetén drága Nyílt (nagy vol.)
Testreszabhatóság
Fine-tuning, LoRA
Teljes szabadság: LoRA fine-tuning, teljes fine-tuning, saját adathalmaz Korlátozott: OpenAI fine-tuning API elérhető, de a modell belső architektúrájához nincs hozzáférés Nyílt
Csúcsteljesítmény
Frontier feladatok
Versenyképes (Llama 3.1 405B, DeepSeek V3) de nem minden benchmarkon vezet GPT-4o, Claude 3.5 Opus: kreatív, orvosi, jogi feladatoknál még erősebbek Zárt (kis előny)
Üzemeltetési teher
IT kapacitás
Infrastruktúra telepítése, frissítések, monitoring — IT szakértelmet igényel Nulla infrastruktúra-teher; API kulcs és kész Zárt (könnyebb)
GDPR / compliance
Adatrezidencia
Teljes kontroll — az adatok az EU-n belül tarthatók, saját szerveren Adatrezidencia-beállítás szükséges; EU-s adatközpont opcionálisan elérhető (Azure, AWS) Nyílt
Vendor lock-in
Függőség mértéke
Nincs vendor lock-in; a modell megmarad, ha a fejlesztő megszűnik Teljes API-függőség — áremelés, hozzáférés visszavonás, API deprecation kockázat Nyílt
Magyar nyelv
Teljesítmény HU-ra
Általánosan gyengébb magyar teljesítmény; kivétel: Qwen 2.5, DeepSeek multilingual verziók GPT-4o, Claude Sonnet: erős magyar teljesítmény fine-tuning nélkül Zárt (magyar)
Döntési szabály

Ha az adatbiztonság, a GDPR-compliance vagy a testreszabhatóság prioritás — nyílt modell. Ha a legélesebb frontier teljesítmény kell és nincs IT kapacitás az infrastruktúrára — zárt API. Ha a cost a meghatározó 50+ felhasználó felett — nyílt modell megéri a beruházást. Az AI eszköz kiválasztási útmutatóban részletesebb döntési fa található.

A főbb nyílt modellek 2026-ban

A nyílt modell ökoszisztéma 2024–2026-ra érett piacra — ma már nem egy-két kísérleti modell van, hanem több stabil, production-ready alternatíva. Az alábbi táblázat a legfontosabb modelleket hasonlítja össze.

Modell Paraméter Min. VRAM (Q5) Erősség Gyengeség Ideális felhasználás
Llama 3.3 70B
Meta, 2024
70B ~42 GB Általános reasoning, kód, instrukció-követés Nagy VRAM-igény, lassan fut CPU-n Vállalati szerver, elemzési feladatok
Mistral 7B / Mixtral 8x7B
Mistral AI, 2023–2024
7B / ~47B (MoE) ~5 GB / ~28 GB Hatékonyság, gyorsaság, kis VRAM Gyengébb hosszú-kontextus feladatokon Gyors inferencia, chatbot, API szerver
DeepSeek R1 / V3
DeepSeek, 2025
7B–671B (MoE) ~5 GB (7B) / szerver (671B) Math, kód, reasoning; töredék áron Kínai fejlesztés — geopolitikai szempont; gyengébb kreatív feladatokon Kódgenerálás, logika, STEM feladatok
Qwen 2.5 (7B–72B)
Alibaba, 2024
7B–72B ~5 GB (7B) / ~45 GB (72B) Kiemelkedő multilingual, coding, math Kevésbé ismert az európai ökoszisztémában Ázsiai nyelvek, multilingual RAG, kód
Phi-3 / Phi-4
Microsoft, 2024
3.8B–14B ~3 GB (3.8B) / ~10 GB (14B) Kis méret, erős reasoning; edge-deploy Gyengébb általános tudáson; kisebb kontextusablak Edge AI, mobil, korlátozott hardver

A Harvard Llama-alapú orvosi diagnózis kutatása megmutatta, hogy domain-specifikus fine-tuninggal a nyílt modellek zárt modellekkel versenyképes teljesítményt érhetnek el szakmai területeken is. A nyílt reasoning stack (OpenThinker) az R1-hez hasonló step-by-step gondolkodást reprodukálhatóvá teszi nyílt alapmodellekből.

Lokális futtatás: hogyan kezdjük el?

A nyílt modellek legnagyobb vonzereje, hogy saját gépen futtathatók. Az ökoszisztéma négy fő eszköze különböző igényeket szolgál ki.

Ollama
CLI — Fejlesztőknek
Egysoros paranccsal telepít és futtat bármely nyílt modellt. OpenAI-kompatibilis REST API végpontot ad — az alkalmazások szinte változtatás nélkül átköthetők. Modellek automatikusan letöltődnek.
  • 5 perces indulás: ollama run llama3
  • OpenAI API-kompatibilis endpoint
  • Automatikus GPU/CPU fallback
  • Nincs GUI — CLI-ismeret szükséges
  • Multi-GPU megosztás korlátozott
LM Studio
GUI — Nem-technikai felhasználóknak
Desktop alkalmazás modell-böngészővel, chat felülettel és lokális szerver opcióval. Bárki letöltheti és kipróbálhatja a nyílt modelleket programozás nélkül.
  • Grafikus modell-böngésző és letöltő
  • Beépített chat felület tesztelésre
  • Lokális OpenAI-kompatibilis szerver
  • Termelési környezetbe nem skálázható
  • Lassabb fejlesztési integrációhoz
vLLM
Szerver — Termelési Deploy
Nagy áteresztőképességű LLM szerver, PagedAttention technológiával. Vállalati deploy esetén az ipari standard — több párhuzamos kérés kiszolgálása hatékonyan.
  • Kiváló throughput párhuzamos kérésekre
  • OpenAI API kompatibilis
  • Multi-GPU tensor parallelism
  • Linux + CUDA szerver szükséges
  • Komplexebb konfiguráció
llama.cpp
C++ Motor — CPU/GPU Flexibilitás
Az eredeti C++ implementáció, amely CPU-n is futtat GGUF kvantált modelleket. Maximális portabilitás — Raspberry Pi-tól szerverfarmig minden platformon fut.
  • CPU-n is fut (lassabban, de fut)
  • GGUF kvantálás: 4-8 GB RAM elegendő
  • OpenAI-kompatibilis HTTP szerver mód
  • Alacsonyabb throughput GPU-ra optimalizált eszközöknél
  • Konfigurálás parancssori

Step-by-step indulás Ollamával (5 perc)

  1. Telepítés

    Töltsd le az Ollama-t az ollama.com oldalról — Windows, Mac és Linux verziók elérhetők. Automatikusan felismeri a GPU-t.

  2. Modell indítása

    Terminálban: ollama run mistral vagy ollama run llama3 — az első futtatáskor automatikusan letölti a modellt (3–8 GB). Utána azonnal chatelhetőbb.

  3. API végpont aktiválása

    Az Ollama alapból elindít egy REST API szervert: http://localhost:11434. Az OpenAI SDK-ban csak az OPENAI_API_BASE URL-t kell átírni — a kód többi részét nem kell módosítani.

  4. Vállalati RAG integrálása

    Ha már fut a modell, az Ollama API-t bekötöd a vállalati RAG rendszerbe — az embedding modellt (pl. nomic-embed-text) szintén Ollamán keresztül futtathatod, így a teljes stack lokális marad.

Fine-tuning és LoRA: mikor érdemes?

A fine-tuning az alap modell viselkedésének módosítása domain-specifikus adatokkal. A teljes fine-tuning drága és időigényes — de a LoRA (Low-Rank Adaptation) forradalmasította ezt a területet.

Hogyan működik a LoRA?

A LoRA nem módosítja az eredeti modell összes súlyát. Ehelyett kis, alacsony rangú mátrixokat illeszt a meglévő súlyrétegekhez — ezek a „delta súlyok" a domén-specifikus tudást kódolják. Az eredmény: az alap modell változatlan marad, és a LoRA adapter cserélhető, mint egy plugin. Egy 7B-os modell esetén a LoRA adapter mérete 10–100 MB, nem 14 GB.

Fine-tuning döntési fa
Szükséges-e speciális domain tudás vagy viselkedés, ami az alap modellből hiányzik?
↓ Nem
RAG elegendő: adj hozzá külső dokumentumokat vektoradatbázisból. Nem kell fine-tuning.
↓ Igen
A domén-tudás dokumentumokban van (nem modell-viselkedésben)?
↓ Igen
RAG + prompt engineering: indexeld a dokumentumokat, ne fine-tunolj. Olcsóbb, frissíthető.
↓ Nem (stíl, viselkedés, terminológia)
Van legalább 500–1000 minőségi példa mondatpár (prompt–válasz)?
↓ Igen
LoRA fine-tuning ajánlott: 1–2 nap, 1 GPU, 50–200 USD cloud-on.
↓ Nem
Gyűjts több adatot először. Fine-tuning kevés adattal overfittingot okoz.

3 vállalati eset, ahol a LoRA fine-tuning indokolt

1. Jogi dokumentumok generálása: Egy ügyvédi iroda standard szerződéssablonokat akar generálni, saját jogi stílusban és terminológiával. Az alap modell nem ismeri a cég szerződési formuláit. LoRA-val 1 000 meglévő szerződéssel betanított modell pontosan a cég stílusában és jogi terminológiájával generál.

2. Ügyfélszolgálati hangnem és termékismeret: Egy telekommunikációs cég chatbotja a saját termékcsalád terminológiájával, árszerkezetével és hibaelhárítási folyamataival kell tudjon dolgozni — nem általánosan. Fine-tuning a saját ügyfélszolgálati ticket-adatbázison pontosabb, konzisztensebb választ ad, mint RAG alone.

3. Ipari szaknyelv és rövidítések: Egy gyártóvállalatnál az AI-nak pontosan kell tudnia értelmezni belső rövidítéseket, termékszámokat, mérnöki zsargont — amelyek nem szerepelnek nyilvános adatokban. LoRA fine-tuning a belső dokumentumokon megtanítja ezt a specializált szókincset. A Nvidia kis modell + LoRA vállalati előny cikk részletes esettanulmányt mutat be.

Geopolitikai és stratégiai dimenzió

A nyílt AI modellek kérdése 2025-re politikai és geopolitikai dimenziót is kapott. Az AI infrastruktúra — ki fejleszti, ki üzemelteti, ki tárolja az adatokat — stratégiai kérdéssé vált a vállalati és az állami döntéshozók számára egyaránt.

🇺🇸
USA — OpenAI, Anthropic, Meta
A vezető zárt modellek (GPT-4o, Claude) és a vezető nyílt modell (Llama) egyaránt USA-ból jön. Az adatok USA szervereire mennek — GDPR szempontból ez EU-s vállalatoknál kockázat.
🇨🇳
Kína — DeepSeek, Qwen, Baidu
A DeepSeek R1 és Qwen 2.5 kínai fejlesztés, de nyílt forrású — letölthetők és lokálisan futtathatók. A geopolitikai kockázat csökkentett: a modell súlyai publikusak, nincs API-függőség kínai szerverre.
🇪🇺
EU — Mistral, Aleph Alpha
A párizsi Mistral AI az egyetlen európai frontier AI fejlesztő. Az EU AI Act és GDPR szempontból az EU-ban fejlesztett és üzemeltetett modellek a legjobb compliance-pozíciót nyújtják.

AI szuverenitás vállalati szinten

Az AI szuverenitás nem elvont fogalom. Konkrét kockázatot jelent, ha egy vállalat teljes AI infrastruktúrája egyetlen külföldi API-tól függ:

A nyílt modellek lokális futtatása ezeket a kockázatokat eliminálj: a modell a saját infrastruktúrán fut, az adatok nem hagyják el a szervezetet, és a vendor lock-in megszűnik. Az AI mint geopolitikai tényező cikkben részletesen elemzem ezt a dimenziót.

EU AI Act és nyílt modellek

Az EU AI Act 2024-ben lépett hatályba, és a nyílt forrású modellekre enyhébb szabályozást vezet be, mint a zárt API-kra — különösen a kis paraméterszámú (7B alatti) modelleknél. Ez EU-s vállalatoknál stratégiai előnyt jelent a compliance szempontjából: a nyílt modell nem „general purpose AI system"-ként kezelendő, ha belső, nem nyilvános célra van deployolva.

A saját adat + nyílt súlyok vállalati képletéről szóló cikk bemutatja, hogyan épít egy közép-vállalat teljes AI infrastruktúrát nyílt modellekre, zárt API-któl való függőség nélkül.

Kérdések és válaszok

Mi a különbség a nyílt forrású és a zárt AI modellek között?

A nyílt forrású modellnél a modell súlyai (weights) letölthetők, szabadon futtathatók és módosíthatók — bárki üzembe állíthatja saját infrastruktúrán. A zárt modell (pl. GPT-4o, Claude) csak API-n keresztül érhető el: a modell a fejlesztő szerverein fut, a súlyok nem publikusak, az adatok a fejlesztő infrastruktúráján haladnak át. A különbség nemcsak technikai, hanem adatvédelmi, jogi és stratégiai is.

A DeepSeek R1 valóban GPT-4 szintű teljesítményt nyújt?

Bizonyos benchmarkokon igen: matematikai reasoning (MATH), kódgenerálás (HumanEval), logikai feladatok (ARC) terén az R1 versenyképes a GPT-4-gyel — töredék áron. Orvosi diagnózis, kreatív írás és hosszú kontextusú feladatoknál a GPT-4o és Claude Opus még erősebbek. A kulcs: az R1 megjelenése 2025 januárjában igazolta, hogy a frontier teljesítmény nem csak zárt modellek kiváltsága — ez a demokratizáció valódi jele.

Milyen hardveren futtatható egy 7 milliárdos (7B) modell?

Egy 7B-os modell kvantált (GGUF Q4) változata 4–8 GB VRAM-mal fut — ez RTX 3060 vagy RTX 4060 szintű GPU. CPU-n is futtatható (llama.cpp), de 5–10× lassabban. A Q5_K_M kvantálás jó egyensúlyt ad minőség és memória között: ~5 GB VRAM a 7B modelleknél. A 13B modell ~8–10 GB, a 34B ~20–24 GB, a 70B ~40–48 GB VRAM-ot igényel teljes precizitáson.

Mi az a LoRA fine-tuning és mibe kerül?

A LoRA (Low-Rank Adaptation) az alap modell súlyainak csak kis hányadát módosítja domain-specifikus adatokkal — alacsony rangú mátrixokat illeszt a meglévő súlyokhoz. Az erőforrásigény töredéke a teljes fine-tuninghoz képest: egy 7B modell LoRA fine-tuningja 1–2 napot vesz igénybe egyetlen fogyasztói GPU-n (RTX 3090/4090), és 1 000–5 000 példamondattal elvégezhető. Vállalati szolgáltatóknál (RunPod, Lambda Labs) a cost tipikusan 50–200 USD között van.

Mikor NEM érdemes nyílt modellt választani?

Három eset: (1) nincs IT kapacitás az infrastruktúra üzemeltetésére — a nyílt modell nem plug-and-play, üzemeltetést és karbantartást igényel; (2) ha a feladat általános és nem igényel specializációt — ilyenkor az API olcsóbb és kényelmesebb; (3) ha a legélesebb frontier teljesítmény szükséges: GPT-4o és Claude Opus még erősebbek komplex kreatív, orvosi vagy jogi feladatoknál. A nyílt modellek akkor nyernek, ha adatvédelem, cost vagy testreszabhatóság a prioritás.

Az Ollama és az LM Studio közül melyiket válasszuk?

Ollama: CLI-alapú, fejlesztőknek való, REST API végpontot ad (OpenAI-kompatibilis), automatizációba könnyen integrálható. LM Studio: GUI-s alkalmazás, nem-technikai felhasználóknak ideális, beépített modell-böngészővel. Vállalati deploy esetén: vLLM (GPU-s szerver, magas throughput) vagy llama.cpp szerver (CPU/GPU, nyílt standard). Fejlesztési kísérletekhez Ollama, felhasználói teszteléshez LM Studio, termelési környezetbe vLLM.

Mit jelent az AI szuverenitás és miért fontos?

Az AI szuverenitás azt jelenti, hogy egy ország vagy vállalat saját infrastruktúrán futtatja az AI-t — nem külföldi API-tól, szervertől vagy vállalattól függ. Adatvédelmi önállóság (GDPR), biztonsági függetlenség (geopolitikai kockázat), és üzleti folytonosság (API leállás, árváltozás, hozzáférés visszavonás) szempontjából kritikus. Az EU AI Act és a GDPR egyre inkább ösztönzi a helyi vagy uniós infrastruktúrán futó megoldásokat.

Hogyan válasszuk ki a megfelelő modellméretet?

Ökölszabály: 7B felhasználói asszisztens feladatokra (chatbot, összefoglalás, e-mail), 13–34B szakmai elemzésre és kódgenerálásra, 70B+ összetett reasoning-re és multi-step problémamegoldásra. Kvantált modellek (Q4/Q5) 30–50% VRAM-megtakarítással kis minőségveszteséggel futnak — a legtöbb vállalati felhasználási esetben a Q5_K_M kvantálás optimális kompromisszum.

A Mistral miért számít kiemelkedőnek a méretéhez képest?

A Mistral 7B 2023-as megjelenésekor minden korábbi 7B modellt felülmúlt, és egyes feladatokon a Llama 2 13B-t is. Kulcs architektúrális innováció: sliding window attention (hosszabb kontextus kezelése) és grouped query attention (gyorsabb inference). A Mixtral 8x7B MoE (Mixture of Experts) architektúra 2×-es nagyobb modell teljesítményét hozza 7B inference-kosttal — csak 2 expert aktiválódik egyszerre a 8-ból.

Hogyan integrálható a nyílt modell vállalati RAG rendszerbe?

A llama.cpp és az Ollama OpenAI-kompatibilis API végpontot ad — az OpenAI SDK lecseréléséhez elég az alap URL átírása. Embedding modellként: nomic-embed-text, mxbai-embed-large vagy Qwen3-Embedding nyílt alternatívák. Vektoradatbázis: Qdrant, Weaviate, Chroma — mind nyílt forrású. A teljes RAG stack (LLM + embedding + vektoradatbázis + reranker) lehet 100% nyílt forrású és adatvédelmileg biztonságos, on-premise deployban.

Kapcsolódó tartalmak

Nyílt AI Stratégia konzultáció

Segítek meghatározni, hogy a szervezeted számára mikor érdemes nyílt modellre váltani, milyen infrastruktúra szükséges, és hogyan vezethető be LoRA fine-tuning vagy RAG pipeline az adatvédelmi és compliance szempontok figyelembevételével.

Konzultációt kérek RAG implementáció →

Kapcsolódó cikkek