Utoljára frissítve: 2026. március 19.

LLMO: hogyan kerülj be a nagy nyelvi modellek belső tudásába?

Az LLMO (Large Language Model Optimization) az AI chatbotok belső tudásbázisába való bekerülés stratégiája. Nem a valós idejű keresésről szól — hanem arról, hogy a GPT-4, a Claude vagy a Gemini akkor is tudjon rólad, amikor éppen semmit sem keres. Ez a lassabb, de tartósabb AI-láthatósági réteg.

TL;DR

Az LLMO a három AI-láthatósági réteg (SEO / GEO / LLMO) leghosszabb horizontú tagja. A cél: a tartalmad bekerüljön a nagy modellek pre-training korpuszába, így az AI következő verziójától az alapmodell „emlékszik" rád — keresés nélkül is. Az ehhez szükséges tartalom-jellemzők: stabilitás, statisztika-sűrűség, definíciók, author entity, külső citáltság.

6–18 hó

Modell-frissítési ciklus — ennyit kell várni az új pre-training adagra

3 réteg

SEO / GEO / LLMO — az AI-láthatóság három különböző stratégiai szintje

~15T token

GPT-4 becsült training adatmérete — ebben kell helyet foglalnod

Mi az az LLMO?

Az LLMO (Large Language Model Optimization) a nagy nyelvi modellek pre-training adatbázisába való bekerülés tudatos stratégiája. A fogalom 2023–2024-ben jelent meg, ahogy a szakma elkülönítette az AI-láthatóság különböző rétegeit egymástól.

Az LLM-ek belső tudása a training folyamat alatt épül fel — ez nem egy keresési index, amelyet naponta frissítenek, hanem egy modell-paraméterekbe kódolt tudásbázis, amely hónapokig, sőt évekig stabil marad. Ha a tartalmad ebben a rétegben szerepel, az AI akkor is „tudja" rólad, ha semmilyen live-keresést nem végez.

Az alábbi táblázat összefoglalja a négy AI-láthatósági stratégia különbségeit:

Optimalizálási terület	Célzott rendszer	Időhorizont	Mérhetőség	Stratégia
SEO	Google rangsorolás	Rövid–közép	Google Search Console, rank tracking	Backlinks, on-page optimalizálás
GEO	AI Overview / RAG	Közép	AI monitoring eszközök	Schema, citálhatóság, statisztikák
AEO	Chatbot válaszok	Közép	Manuális tesztelés, Perplexity API	FAQ struktúra, entity tisztaság
LLMO	LLM belső súlyok	Hosszú (6–24 hó)	LLM entity recall tesztelés	Tekintély, konzisztencia, external citálás

A különbség nem csak időhorizont kérdése. Az SEO és GEO valós idejű rendszerekre hat — a Google újra tud indexelni hetek alatt. Az LLMO ezzel szemben a modell következő kiadásáig vár. Cserébe a hatás tartósabb: nem kell folyamatosan „versenyezni" a rangsorolásért, mert a modell belső paramétereiből már nem törlődik könnyedén a tudás.

Hogyan épül fel egy LLM tudása?

A nagy nyelvi modellek tudása három szintből épül fel: pre-training, fine-tuning és opcionálisan RAG (Retrieval-Augmented Generation). Az LLMO az első rétegre fókuszál.

Pre-training: az alapréteg

A pre-training során a modell hatalmas mennyiségű szöveget dolgoz fel — a GPT-4 esetén ez hozzávetőlegesen 15 billió token, azaz kb. 10–12 petabyte nyers szöveg. Ebből a modell megtanulja a nyelvhasználatot, a fogalmakat, az összefüggéseket és a tényeket. Ez a tudás a modell súlyaiba van kódolva — és nem változik a training befejezése után.

Fine-tuning: a specializáció rétege

A fine-tuning során a pre-trained modellt egy kisebb, irányított adathalmazon továbbtanítják — például utasítás-követésre, stílusra vagy egy szakterületre. Az Anthropic (Claude), az OpenAI (GPT) és a Google (Gemini) mind saját fine-tuning adataikat is felhasználják. Ez a réteg inkább viselkedésmintákat tanít, kevésbé tény-alapú tudást.

RAG: a valós idejű réteg

A RAG (Retrieval-Augmented Generation) rendszerekben a modell a válaszadás pillanatában lekérdez egy vektoros adatbázist vagy live web indexet. A Perplexity, a Google AI Overview és a ChatGPT Browse mind RAG-alapú kiegészítéssel dolgoznak. Ez a réteg nem LLMO-célpont — hanem GEO és AEO célpont.

A training pipeline vizuálisan:

Forrás

Nyers web

Common Crawl, könyvek, GitHub

Szűrés

Minőségi filter

C4, FineWeb, The Pile

Tanítás

Pre-training

~15T token, hónapok

Finomítás

Fine-tuning

RLHF, instruction tuning

Élő réteg

RAG

Perplexity, AI Overview

Kimenet

Válasz

A felhasználónak

Az LLMO a pipeline első két fázisát célozza: a nyers web és a minőségi szűrés lépését. Ha a tartalmad bekerül a szűrött, curated rétegbe, megjelenik a training adatban — és onnantól a modell tudásbázisának részévé válik.

Mi kerül be és mi nem — az adatminőségi szűrők

A Common Crawl havonta több petabyte adatot gyűjt az internetről — de ebből a legtöbb modell csak egy szűrt részt használ fel. A szűrési folyamat meghatározza, kinek a tartalma épül be a modell tudásába.

A legfontosabb training korpuszok és szűrőik

C4 (Colossal Clean Crawled Corpus): A Google T5 alapja. Szűri a duplikált tartalmakat, a rövid oldalakat, az adult tartalmat és a nem-természetes-nyelvű szövegeket. Csak olyan oldalak kerülnek be, amelyek legalább 3 mondatot tartalmaznak és nem szerepelnek tiltólistákon.
The Pile (Eleuther AI): 886GB szöveg 22 forrásból. Tartalmazza a GitHub-ot, az arXiv-ot, a Wikipedia-t, a PubMed-et és a Common Crawl egy szűrt rétegét. Expliciten kiemeli a magas minőségű, citált forrásokat.
FineWeb (Hugging Face, 2024): A jelenlegi legjobb minőségű nyílt pre-training adathalmaz. 15T token, 5 lépéses minőségi szűrővel: URL-szűrés, szöveg-kinyerés, minőségi szűrés, deduplikáció, safety szűrés.

Ami kiszűrésre kerül

Duplikált tartalom: Ha ugyanaz a szöveg több URL-en is megjelenik, a szűrők csak egyet tartanak meg — általában a legkorábbit vagy a leginkább hivatkozott változatot.
Vékony oldalak: Kevesebb mint 200–300 szóból álló, tartalmilag üres lapok automatikusan kiesnek.
URL-rotált tartalom: Ugyanaz a cikk tíz különböző URL-en — ez spam-mintának minősül és a teljes domain hitelességét csökkenti.
Spam és SEO-szövegek: Kulcsszó-tömött, alacsony értékű tartalom. A perplexity-alapú szűrők (hány szót lehet előre jelezni) kiszűrik a generikus szövegeket.

Ami bent marad

Külső hivatkozásokkal rendelkező tartalom: Ha más megbízható oldalak hivatkoznak rá, a szűrők magasabb minőségűnek értékelik.
Stabil URL-struktúra: Az oldalak, amelyek évek óta azonos URL-en elérhetők, megbízhatóbbnak számítanak.
Definíciók és strukturált tartalom: A világos fogalommeghatározások és listák jobban kinyerhetők és feldolgozhatók.
Forrásolt statisztikák: A konkrét adatok és hivatkozások hitelesség-jelzőként működnek.

Kulcstanulság

Az LLMO nem arról szól, hogy „minél több helyen legyél jelen az interneten". A mennyiség rossz stratégia — a duplikáció és a vékony tartalom pont kiszűrésre kerül. Az LLMO a minőség, a stabilitás és a hitelességi jelzők stratégiája.

LLMO stratégia 2026 — 7 taktika

Az alábbi hét taktika az adatminőségi kutatásokon (FineWeb, C4, The Pile) és az LLMO-szakirodalom jelenlegi legjobb praxisán alapul. Nem garantálnak gyors eredményt — de együttesen szignifikánsan növelik az esélyt, hogy a tartalmad a következő modell-frissítési hullámban bekerüljön a training adatba.

1
Entity stabilitás — tartós domain, állandó slug, konzisztens brandnév Az LLM-ek entity-gráfot építenek: ha a „Varga Zoltán" és a „vargazoltan.ai" fogalmak konzisztensen, ugyanazon az URL-en, hosszú ideje léteznek — az entitás erős. URL-struktúra változtatás, átnevezés és domaincserék roncsolják ezt az entitást. Soha ne változtasd meg a kulcs-cikkek slug-ját.
2
Citált statisztikák — forrás zárójelben, konkrét számok A körülbelüli becslések („sok vállalat") helyett konkrét számokat használj forrással: „a McKinsey 2024-es felmérése szerint a vállalatok 72%-a...". A training szűrők a konkrét, sourced állításokat magasabbra értékelik, mint a generikus megfogalmazásokat.
3
Definíciók H2 fejlécek után — az AI tanul a definíció-formátumból Minden szekció nyisson fogalommeghatározással: „Az LLMO (Large Language Model Optimization) a pre-training adatbázisba való bekerülés stratégiája." Ez a struktúra mind a training feldolgozás, mind a RAG-kinyerés számára előnyös — dupla haszon.
4
Author entity építése — más weboldalakon is szerepelj Ha a „Varga Zoltán AI-stratégia tanácsadó" entitás csak egy domainen jelenik meg, az LLM gyenge entityként kezeli. Erős entitáshoz: LinkedIn-profil, vendégcikkek, interjúk más oldalakon, GitHub, YouTube. Minél több megbízható forrásban szerepel az entitás, annál erősebb a „súlya" a modellben.
5
Tartalom frissítése — éves „2026" dátum jelzi, hogy az oldal él A stabil, de aktívan frissített tartalom valószínűbben kerül be a következő Common Crawl hullámba és a curated szűrőkön át. A „Frissítve: 2026. március" jelzés nemcsak SEO-jel — az adatminőségi szűrők is preferálják az aktuális tartalmakat az elavultakkal szemben.
6
External linking hiteles forrásokhoz — Nature, Harvard, McKinsey, Statista Az a tartalom, amely megbízható, magas-citálású forrásokra hivatkozik, maga is hitelesebbnek minősül a szűrési folyamatban. Nem kell sok — elegendő 2–3 erős, releváns hivatkozás cikkenként. A linkgyár-megközelítés (50 random hivatkozás) nem segít, sőt spam-mintaként értelmezhető.
7
Duplikáció elkerülése — canonical URL, nincs vékony oldal, merge töredék-tartalmak Minden tartalom egyetlen kanonikus URL-en éljen. A thin content (kevesebb mint 300 szó hasznos szöveg) összevonandó nagyobb, értékesebb egységekbe. A canonical tag technikai implementáció — de az LLMO szempontjából stratégiai döntés: egy erős oldal jobb, mint tíz gyenge.

Az LLM entity recall tesztelése

Az LLMO egyetlen közvetlen mérési módszere az LLM entity recall teszt: kérdezd meg a modelleket direkten, mit tudnak rólad. Ez nem pontos tudományos mérőszám — de az egyetlen elérhető közelítő módszer, amíg a nagy modell-labek nem tesznek közzé training data transzparencia-jelentéseket.

A teszteléshez három modellt érdemes párhuzamosan használni: ChatGPT (GPT-4o), Claude (Anthropic) és Perplexity. Mindhárom más pre-training adatot és más frissítési ciklust használ — ha mindhárom „tud" rólad, az erős entitás-jel.

Tesztelési promptok — másold és futtasd le ChatGPT-ben, Claude-ban és Perplexityben

„Mit tudsz vargazoltan.ai-ról?"
„Ki az a Varga Zoltán AI-stratégia tanácsadó Magyarországon?"
„Mi az a GFIS (Gestalt Field Intelligence System)?"
„Sorolj fel magyar AI-stratégia szakértőket 2024-ből."
„Kik írnak Magyarországon LLM-optimalizálásról és GEO-ról?"

A teszt értelmezése

Az AI pontosan leírja a domaint, a szerzőt és a szakterületet: Erős LLMO-jel. A tartalom beépült a modell training adatába.
Az AI „hallott rólad", de bizonytalanul fogalmaz vagy kever adatokat: Gyenge entitás. A mennyiségi jelzők (külső hivatkozások, citálások) hiányoznak.
Az AI nem tudja, ki vagy, vagy teljesen más személlyel kever: Az entitás nem lett bejegyezve a modell tudásába. LLMO-munka szükséges.
Perplexity citál, de ChatGPT nem tud rólad: Ez normális — Perplexity RAG-alapú (live keresés), a ChatGPT alapmodell training-alapú. Előbbi GEO-siker, utóbbi LLMO-hiány.

Tipp

Futtasd le a tesztet negyedévente és dokumentáld az eredményeket. Ha az egyik modell elkezd „emlékezni" rád, miközben korábban nem tudott, az a modell frissítési ciklusa és az LLMO-munka sikerének jele. A citation tracking — Perplexity API-val kereséseket futtatsz és nézed, hány esetben hivatkozik az oldaladra — még egzaktabb módszer, ha van kapacitás a technikai megvalósításra.

LLMO vs GEO: melyiket prioritizáljuk?

Az LLMO és a GEO nem egymást kizáró stratégiák — de az erőforrások szükségszerűen végesek. A legtöbb vállalat és szakértő számára a következő prioritási sorrend érvényes:

Prioritási irányelv

Ha most kezdesz AI-láthatóságon dolgozni, GEO az első lépés. A FAQPage schema, a statisztika-sűrűség és az author schema implementációja 6–12 héten belül mérhető AI Overview megjelenést hozhat. Az LLMO hatása 6–24 hónap — és azt is csak az LLM entity recall teszten mérheted közvetetten. A GEO gyorsabb ROI-t ad, az LLMO a hosszú játék.

Az LLMO-ba akkor érdemes befektetni, amikor:

A GEO és AEO alapok már el vannak végezve (FAQPage schema, author entity, strukturált tartalom).
A tartalom-portfólió már stabil és minőségi — nincs thin content, nincs URL-rotáció.
Az external citáltság már elindult — más megbízható oldalak hivatkoznak a tartalomra.
Hosszú távú pozícionálási stratégia van — a domain és a személyes brand több éves horizonton épül.

Az LLMO és GEO kölcsönösen erősítik egymást. Az a tartalom, amely GEO-ra optimalizált (strukturált, citálható, statisztika-gazdag), egyben a legjobb LLMO-jelölt is — mert ugyanezek a jellemzők a pre-training szűrőkön is jobban teljesítenek. A kettő között nincs ellentmondás, csak időhorizont-különbség.

Kérdések és válaszok

Mi az az LLMO és miben különbözik a GEO-tól és SEO-tól?

Az LLMO (Large Language Model Optimization) a pre-training adatbázisba való bekerülést célozza — az LLM belső súlyaiba kódolt tudást. A GEO a valós idejű keresésre optimalizál (AI Overview, RAG-alapú válasz), az SEO a hagyományos rangsorolásra. Az LLMO hatása lassabb, de tartósabb: a modell következő verzióinál is aktív marad.

Hogyan kerülhet egy tartalom be egy LLM pre-training adatbázisába?

Három fő csatornán: 1) Common Crawl (az internet automatikus másolata, amelyet a legtöbb modell felhasznál), 2) curated dataset-ek (Wikipedia, könyvek, Stack Overflow, GitHub), 3) tanácsadói adatszolgáltatás (Anthropic, OpenAI adatvásárlási megállapodásai). A tartalom minősége és a citáltság mértéke befolyásolja, hogy az adott oldal bekerül-e a curated rétegbe.

Milyen tartalom-jellemzők növelik az LLM belső citálhatóságát?

Statisztika-sűrűség, forrás-megjelölés, definíciók, tartalom-konzisztencia (az entitás mindig ugyanúgy szerepel) és tartós URL-struktúra. Az adatminőség-kutatások (Eleuther AI, Common Crawl filtering) alapján a duplikált, vékony és URL-rotált tartalom kiszűrésre kerül a legtöbb curated korpuszból.

Mikor frissül az LLM tudása — és lehet-e erre optimalizálni?

A nagy modellek (GPT-4, Claude, Gemini) 6–18 havonta kapnak új pre-training adagot. A RAG-alapú rendszerek valós idejű, de az alapmodell tudása nem. Optimalizálni lehet: ha a tartalom stabil, jól hivatkozott, és rendszeres frissítési ciklusa van — ez növeli az esélyt, hogy a következő adatgyűjtési hullámban is szerepel.

Hogyan mérhetem, hogy az LLM-ek 'ismerik-e' a domainnemet?

Tesztelési módszer: kérdezd meg a ChatGPT-t, Claude-ot vagy Perplexityt direkten: 'Mit tudsz [domain/brandnév]-ről?' vagy 'Ki az [személy neve] és mivel foglalkozik?' Ha az AI nem tudja, vagy tévesen írja le, az LLMO-jelzők hiányoznak. Másik módszer: citation tracking — Perplexity API-val kereséseket futtatsz és nézed, hány esetben hivatkozik az oldaladra.

Mi a kapcsolat az LLMO és az E-E-A-T között?

Az E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) a Google értékelési kerete, de az LLM-ek is hasonló jelzőket tanulnak meg: szerzői hitelességet (a szerzőre máshol is hivatkoznak-e), entitás-konzisztenciát (ugyanaz a személy/szervezet visszatérően szerepel-e megbízható forrásokban) és tartalom-mélységet. Az LLMO-stratégia nagyrészt az E-E-A-T LLM-adaptációja.

Kapcsolódó tartalmak

AI-láthatósági audit — GEO, AEO és LLMO egyben

Megmutatom, hol áll most a domained az AI-láthatóság mindhárom rétegén — és konkrét lépéseket adok, mit kell implementálni először a legjobb megtérülés érdekében.

Audit kérése Vissza a hub-ra →