Utoljára frissítve:
LLMO: hogyan kerülj be a nagy nyelvi modellek belső tudásába?
Az LLMO (Large Language Model Optimization) az AI chatbotok belső tudásbázisába való bekerülés stratégiája. Nem a valós idejű keresésről szól — hanem arról, hogy a GPT-4, a Claude vagy a Gemini akkor is tudjon rólad, amikor éppen semmit sem keres. Ez a lassabb, de tartósabb AI-láthatósági réteg.
Az LLMO a három AI-láthatósági réteg (SEO / GEO / LLMO) leghosszabb horizontú tagja. A cél: a tartalmad bekerüljön a nagy modellek pre-training korpuszába, így az AI következő verziójától az alapmodell „emlékszik" rád — keresés nélkül is. Az ehhez szükséges tartalom-jellemzők: stabilitás, statisztika-sűrűség, definíciók, author entity, külső citáltság.
Mi az az LLMO?
Az LLMO (Large Language Model Optimization) a nagy nyelvi modellek pre-training adatbázisába való bekerülés tudatos stratégiája. A fogalom 2023–2024-ben jelent meg, ahogy a szakma elkülönítette az AI-láthatóság különböző rétegeit egymástól.
Az LLM-ek belső tudása a training folyamat alatt épül fel — ez nem egy keresési index, amelyet naponta frissítenek, hanem egy modell-paraméterekbe kódolt tudásbázis, amely hónapokig, sőt évekig stabil marad. Ha a tartalmad ebben a rétegben szerepel, az AI akkor is „tudja" rólad, ha semmilyen live-keresést nem végez.
Az alábbi táblázat összefoglalja a négy AI-láthatósági stratégia különbségeit:
| Optimalizálási terület | Célzott rendszer | Időhorizont | Mérhetőség | Stratégia |
|---|---|---|---|---|
| SEO | Google rangsorolás | Rövid–közép | Google Search Console, rank tracking | Backlinks, on-page optimalizálás |
| GEO | AI Overview / RAG | Közép | AI monitoring eszközök | Schema, citálhatóság, statisztikák |
| AEO | Chatbot válaszok | Közép | Manuális tesztelés, Perplexity API | FAQ struktúra, entity tisztaság |
| LLMO | LLM belső súlyok | Hosszú (6–24 hó) | LLM entity recall tesztelés | Tekintély, konzisztencia, external citálás |
A különbség nem csak időhorizont kérdése. Az SEO és GEO valós idejű rendszerekre hat — a Google újra tud indexelni hetek alatt. Az LLMO ezzel szemben a modell következő kiadásáig vár. Cserébe a hatás tartósabb: nem kell folyamatosan „versenyezni" a rangsorolásért, mert a modell belső paramétereiből már nem törlődik könnyedén a tudás.
Hogyan épül fel egy LLM tudása?
A nagy nyelvi modellek tudása három szintből épül fel: pre-training, fine-tuning és opcionálisan RAG (Retrieval-Augmented Generation). Az LLMO az első rétegre fókuszál.
Pre-training: az alapréteg
A pre-training során a modell hatalmas mennyiségű szöveget dolgoz fel — a GPT-4 esetén ez hozzávetőlegesen 15 billió token, azaz kb. 10–12 petabyte nyers szöveg. Ebből a modell megtanulja a nyelvhasználatot, a fogalmakat, az összefüggéseket és a tényeket. Ez a tudás a modell súlyaiba van kódolva — és nem változik a training befejezése után.
Fine-tuning: a specializáció rétege
A fine-tuning során a pre-trained modellt egy kisebb, irányított adathalmazon továbbtanítják — például utasítás-követésre, stílusra vagy egy szakterületre. Az Anthropic (Claude), az OpenAI (GPT) és a Google (Gemini) mind saját fine-tuning adataikat is felhasználják. Ez a réteg inkább viselkedésmintákat tanít, kevésbé tény-alapú tudást.
RAG: a valós idejű réteg
A RAG (Retrieval-Augmented Generation) rendszerekben a modell a válaszadás pillanatában lekérdez egy vektoros adatbázist vagy live web indexet. A Perplexity, a Google AI Overview és a ChatGPT Browse mind RAG-alapú kiegészítéssel dolgoznak. Ez a réteg nem LLMO-célpont — hanem GEO és AEO célpont.
A training pipeline vizuálisan:
Az LLMO a pipeline első két fázisát célozza: a nyers web és a minőségi szűrés lépését. Ha a tartalmad bekerül a szűrött, curated rétegbe, megjelenik a training adatban — és onnantól a modell tudásbázisának részévé válik.
Mi kerül be és mi nem — az adatminőségi szűrők
A Common Crawl havonta több petabyte adatot gyűjt az internetről — de ebből a legtöbb modell csak egy szűrt részt használ fel. A szűrési folyamat meghatározza, kinek a tartalma épül be a modell tudásába.
A legfontosabb training korpuszok és szűrőik
- C4 (Colossal Clean Crawled Corpus): A Google T5 alapja. Szűri a duplikált tartalmakat, a rövid oldalakat, az adult tartalmat és a nem-természetes-nyelvű szövegeket. Csak olyan oldalak kerülnek be, amelyek legalább 3 mondatot tartalmaznak és nem szerepelnek tiltólistákon.
- The Pile (Eleuther AI): 886GB szöveg 22 forrásból. Tartalmazza a GitHub-ot, az arXiv-ot, a Wikipedia-t, a PubMed-et és a Common Crawl egy szűrt rétegét. Expliciten kiemeli a magas minőségű, citált forrásokat.
- FineWeb (Hugging Face, 2024): A jelenlegi legjobb minőségű nyílt pre-training adathalmaz. 15T token, 5 lépéses minőségi szűrővel: URL-szűrés, szöveg-kinyerés, minőségi szűrés, deduplikáció, safety szűrés.
Ami kiszűrésre kerül
- Duplikált tartalom: Ha ugyanaz a szöveg több URL-en is megjelenik, a szűrők csak egyet tartanak meg — általában a legkorábbit vagy a leginkább hivatkozott változatot.
- Vékony oldalak: Kevesebb mint 200–300 szóból álló, tartalmilag üres lapok automatikusan kiesnek.
- URL-rotált tartalom: Ugyanaz a cikk tíz különböző URL-en — ez spam-mintának minősül és a teljes domain hitelességét csökkenti.
- Spam és SEO-szövegek: Kulcsszó-tömött, alacsony értékű tartalom. A perplexity-alapú szűrők (hány szót lehet előre jelezni) kiszűrik a generikus szövegeket.
Ami bent marad
- Külső hivatkozásokkal rendelkező tartalom: Ha más megbízható oldalak hivatkoznak rá, a szűrők magasabb minőségűnek értékelik.
- Stabil URL-struktúra: Az oldalak, amelyek évek óta azonos URL-en elérhetők, megbízhatóbbnak számítanak.
- Definíciók és strukturált tartalom: A világos fogalommeghatározások és listák jobban kinyerhetők és feldolgozhatók.
- Forrásolt statisztikák: A konkrét adatok és hivatkozások hitelesség-jelzőként működnek.
Az LLMO nem arról szól, hogy „minél több helyen legyél jelen az interneten". A mennyiség rossz stratégia — a duplikáció és a vékony tartalom pont kiszűrésre kerül. Az LLMO a minőség, a stabilitás és a hitelességi jelzők stratégiája.
LLMO stratégia 2026 — 7 taktika
Az alábbi hét taktika az adatminőségi kutatásokon (FineWeb, C4, The Pile) és az LLMO-szakirodalom jelenlegi legjobb praxisán alapul. Nem garantálnak gyors eredményt — de együttesen szignifikánsan növelik az esélyt, hogy a tartalmad a következő modell-frissítési hullámban bekerüljön a training adatba.
- Entity stabilitás — tartós domain, állandó slug, konzisztens brandnév Az LLM-ek entity-gráfot építenek: ha a „Varga Zoltán" és a „vargazoltan.ai" fogalmak konzisztensen, ugyanazon az URL-en, hosszú ideje léteznek — az entitás erős. URL-struktúra változtatás, átnevezés és domaincserék roncsolják ezt az entitást. Soha ne változtasd meg a kulcs-cikkek slug-ját.
- Citált statisztikák — forrás zárójelben, konkrét számok A körülbelüli becslések („sok vállalat") helyett konkrét számokat használj forrással: „a McKinsey 2024-es felmérése szerint a vállalatok 72%-a...". A training szűrők a konkrét, sourced állításokat magasabbra értékelik, mint a generikus megfogalmazásokat.
- Definíciók H2 fejlécek után — az AI tanul a definíció-formátumból Minden szekció nyisson fogalommeghatározással: „Az LLMO (Large Language Model Optimization) a pre-training adatbázisba való bekerülés stratégiája." Ez a struktúra mind a training feldolgozás, mind a RAG-kinyerés számára előnyös — dupla haszon.
- Author entity építése — más weboldalakon is szerepelj Ha a „Varga Zoltán AI-stratégia tanácsadó" entitás csak egy domainen jelenik meg, az LLM gyenge entityként kezeli. Erős entitáshoz: LinkedIn-profil, vendégcikkek, interjúk más oldalakon, GitHub, YouTube. Minél több megbízható forrásban szerepel az entitás, annál erősebb a „súlya" a modellben.
- Tartalom frissítése — éves „2026" dátum jelzi, hogy az oldal él A stabil, de aktívan frissített tartalom valószínűbben kerül be a következő Common Crawl hullámba és a curated szűrőkön át. A „Frissítve: 2026. március" jelzés nemcsak SEO-jel — az adatminőségi szűrők is preferálják az aktuális tartalmakat az elavultakkal szemben.
- External linking hiteles forrásokhoz — Nature, Harvard, McKinsey, Statista Az a tartalom, amely megbízható, magas-citálású forrásokra hivatkozik, maga is hitelesebbnek minősül a szűrési folyamatban. Nem kell sok — elegendő 2–3 erős, releváns hivatkozás cikkenként. A linkgyár-megközelítés (50 random hivatkozás) nem segít, sőt spam-mintaként értelmezhető.
- Duplikáció elkerülése — canonical URL, nincs vékony oldal, merge töredék-tartalmak Minden tartalom egyetlen kanonikus URL-en éljen. A thin content (kevesebb mint 300 szó hasznos szöveg) összevonandó nagyobb, értékesebb egységekbe. A canonical tag technikai implementáció — de az LLMO szempontjából stratégiai döntés: egy erős oldal jobb, mint tíz gyenge.
Az LLM entity recall tesztelése
Az LLMO egyetlen közvetlen mérési módszere az LLM entity recall teszt: kérdezd meg a modelleket direkten, mit tudnak rólad. Ez nem pontos tudományos mérőszám — de az egyetlen elérhető közelítő módszer, amíg a nagy modell-labek nem tesznek közzé training data transzparencia-jelentéseket.
A teszteléshez három modellt érdemes párhuzamosan használni: ChatGPT (GPT-4o), Claude (Anthropic) és Perplexity. Mindhárom más pre-training adatot és más frissítési ciklust használ — ha mindhárom „tud" rólad, az erős entitás-jel.
- „Mit tudsz vargazoltan.ai-ról?"
- „Ki az a Varga Zoltán AI-stratégia tanácsadó Magyarországon?"
- „Mi az a GFIS (Gestalt Field Intelligence System)?"
- „Sorolj fel magyar AI-stratégia szakértőket 2024-ből."
- „Kik írnak Magyarországon LLM-optimalizálásról és GEO-ról?"
A teszt értelmezése
- Az AI pontosan leírja a domaint, a szerzőt és a szakterületet: Erős LLMO-jel. A tartalom beépült a modell training adatába.
- Az AI „hallott rólad", de bizonytalanul fogalmaz vagy kever adatokat: Gyenge entitás. A mennyiségi jelzők (külső hivatkozások, citálások) hiányoznak.
- Az AI nem tudja, ki vagy, vagy teljesen más személlyel kever: Az entitás nem lett bejegyezve a modell tudásába. LLMO-munka szükséges.
- Perplexity citál, de ChatGPT nem tud rólad: Ez normális — Perplexity RAG-alapú (live keresés), a ChatGPT alapmodell training-alapú. Előbbi GEO-siker, utóbbi LLMO-hiány.
Futtasd le a tesztet negyedévente és dokumentáld az eredményeket. Ha az egyik modell elkezd „emlékezni" rád, miközben korábban nem tudott, az a modell frissítési ciklusa és az LLMO-munka sikerének jele. A citation tracking — Perplexity API-val kereséseket futtatsz és nézed, hány esetben hivatkozik az oldaladra — még egzaktabb módszer, ha van kapacitás a technikai megvalósításra.
LLMO vs GEO: melyiket prioritizáljuk?
Az LLMO és a GEO nem egymást kizáró stratégiák — de az erőforrások szükségszerűen végesek. A legtöbb vállalat és szakértő számára a következő prioritási sorrend érvényes:
Ha most kezdesz AI-láthatóságon dolgozni, GEO az első lépés. A FAQPage schema, a statisztika-sűrűség és az author schema implementációja 6–12 héten belül mérhető AI Overview megjelenést hozhat. Az LLMO hatása 6–24 hónap — és azt is csak az LLM entity recall teszten mérheted közvetetten. A GEO gyorsabb ROI-t ad, az LLMO a hosszú játék.
Az LLMO-ba akkor érdemes befektetni, amikor:
- A GEO és AEO alapok már el vannak végezve (FAQPage schema, author entity, strukturált tartalom).
- A tartalom-portfólió már stabil és minőségi — nincs thin content, nincs URL-rotáció.
- Az external citáltság már elindult — más megbízható oldalak hivatkoznak a tartalomra.
- Hosszú távú pozícionálási stratégia van — a domain és a személyes brand több éves horizonton épül.
Az LLMO és GEO kölcsönösen erősítik egymást. Az a tartalom, amely GEO-ra optimalizált (strukturált, citálható, statisztika-gazdag), egyben a legjobb LLMO-jelölt is — mert ugyanezek a jellemzők a pre-training szűrőkön is jobban teljesítenek. A kettő között nincs ellentmondás, csak időhorizont-különbség.
Kérdések és válaszok
Mi az az LLMO és miben különbözik a GEO-tól és SEO-tól?
Az LLMO (Large Language Model Optimization) a pre-training adatbázisba való bekerülést célozza — az LLM belső súlyaiba kódolt tudást. A GEO a valós idejű keresésre optimalizál (AI Overview, RAG-alapú válasz), az SEO a hagyományos rangsorolásra. Az LLMO hatása lassabb, de tartósabb: a modell következő verzióinál is aktív marad.
Hogyan kerülhet egy tartalom be egy LLM pre-training adatbázisába?
Három fő csatornán: 1) Common Crawl (az internet automatikus másolata, amelyet a legtöbb modell felhasznál), 2) curated dataset-ek (Wikipedia, könyvek, Stack Overflow, GitHub), 3) tanácsadói adatszolgáltatás (Anthropic, OpenAI adatvásárlási megállapodásai). A tartalom minősége és a citáltság mértéke befolyásolja, hogy az adott oldal bekerül-e a curated rétegbe.
Milyen tartalom-jellemzők növelik az LLM belső citálhatóságát?
Statisztika-sűrűség, forrás-megjelölés, definíciók, tartalom-konzisztencia (az entitás mindig ugyanúgy szerepel) és tartós URL-struktúra. Az adatminőség-kutatások (Eleuther AI, Common Crawl filtering) alapján a duplikált, vékony és URL-rotált tartalom kiszűrésre kerül a legtöbb curated korpuszból.
Mikor frissül az LLM tudása — és lehet-e erre optimalizálni?
A nagy modellek (GPT-4, Claude, Gemini) 6–18 havonta kapnak új pre-training adagot. A RAG-alapú rendszerek valós idejű, de az alapmodell tudása nem. Optimalizálni lehet: ha a tartalom stabil, jól hivatkozott, és rendszeres frissítési ciklusa van — ez növeli az esélyt, hogy a következő adatgyűjtési hullámban is szerepel.
Hogyan mérhetem, hogy az LLM-ek 'ismerik-e' a domainnemet?
Tesztelési módszer: kérdezd meg a ChatGPT-t, Claude-ot vagy Perplexityt direkten: 'Mit tudsz [domain/brandnév]-ről?' vagy 'Ki az [személy neve] és mivel foglalkozik?' Ha az AI nem tudja, vagy tévesen írja le, az LLMO-jelzők hiányoznak. Másik módszer: citation tracking — Perplexity API-val kereséseket futtatsz és nézed, hány esetben hivatkozik az oldaladra.
Mi a kapcsolat az LLMO és az E-E-A-T között?
Az E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) a Google értékelési kerete, de az LLM-ek is hasonló jelzőket tanulnak meg: szerzői hitelességet (a szerzőre máshol is hivatkoznak-e), entitás-konzisztenciát (ugyanaz a személy/szervezet visszatérően szerepel-e megbízható forrásokban) és tartalom-mélységet. Az LLMO-stratégia nagyrészt az E-E-A-T LLM-adaptációja.
Kapcsolódó tartalmak
AI-láthatósági audit — GEO, AEO és LLMO egyben
Megmutatom, hol áll most a domained az AI-láthatóság mindhárom rétegén — és konkrét lépéseket adok, mit kell implementálni először a legjobb megtérülés érdekében.
Audit kérése Vissza a hub-ra →