Ugrás a tartalomra
Nyílt AI Modellek

Amikor a nyílt modell belép a kórházba: Harvard, Llama és az intézményi AI fordulat

Egy NIH-finanszírozott Harvard-tanulmány szerint a Llama 3.1 405B 70%-os helyes diagnózist ért el nehéz NEJM-eseteken — szemben a GPT-4 64%-ával. Ez nem benchmark-szenzáció. Ez az intézményi AI-döntések átírásának kezdete.

TL;DR

A Harvard Medical School vezette tanulmány kimutatta, hogy a nyílt forráskódú Llama 3.1 405B modell (70%) felülmúlta a GPT-4-et (64%) komplex klinikai diagnózisokban. Ez nem csupán egy teljesítménybeli győzelem, hanem egy intézményi fordulópont: a kórházak először képesek frontier szintű AI-t helyileg, saját infrastruktúrán futtatni, megkerülve a HIPAA/GDPR kihívásokat, amiket a külső API-k használata jelent.


Az open-source AI-ról sokáig könnyű volt azt mondani: „érdekes, olcsóbb, rugalmasabb — de a komoly feladatokra úgyis a zárt modellek kellenek.”

Ez az állítás most kezd komolyan repedezni.

2025 márciusában a JAMA Health Forum folyóiratban publikált egy NIH-finanszírozott tanulmányt, amelyet a Harvard Medical School kutatói vezettek — a Beth Israel Deaconess Medical Center és a Brigham and Women’s Hospital klinikusaival együttműködve. A kutatás tárgya: a Llama 3.1 405B nyílt modell diagnosztikai teljesítménye nehéz klinikai eseteken, GPT-4-gyel összehasonlítva.

Az eredmény: Llama 70%, GPT-4 64% helyes diagnózis 92 klinikailag kihívó eseten. A legjobb tippek pontosságában: Llama 41%, GPT-4 37%.

Ez nem csak szám. Ez egy intézményi fordulópont kezdete.


Mi történt valójában?

A Harvard-tanulmány részletei

A kutatók 92 esetet vizsgáltak, amelyek a New England Journal of Medicine heti diagnosztikai rovatából — a “Case Records of the Massachusetts General Hospital” sorozatból — kerültek ki. Ezek szándékosan a legnehezebb, ritkább, összetettebb klinikai eseteket tartalmazzák: ritka betegségek, atípusos prezentációk, több rendszert érintő komplex állapotok.

A módszertani szigor is figyelemre méltó: a kutatók 70 olyan esetet vettek a Llama-teszthez, amelyeket korábban a GPT-4 teljesítményének felmérésére is használtak, majd hozzáadtak 22 újabb, a Llama tanítási időszaka utáni esetet — azzal a céllal, hogy kizárják a tanítóadat-szivárgás lehetőségét (a modell esetleg már találkozott a régi esetekkel tréning közben).

Az eredmények:

  • Teljes 92 eset: Llama 70% helyes diagnózis, GPT-4 64%
  • Top-1 ranking pontosság: Llama 41%, GPT-4 37%
  • A 22 újabb eseten külön: Llama 73% — ami különösen erős, hiszen ezek az esetek biztosan nem szerepeltek a tréning anyagában

Mit lát a felszín, és mi zajlik alatta?

A headline-ek azt mondják: “nyílt AI legyőzte a GPT-4-et orvosi diagnózisban.”

Ez igaz — de nem ez a legfontosabb üzenet.

A legfontosabb üzenet az, amit a tanulmány szerzői expliciten kiemelnek: a kórházak most először képesek saját, privát infrastruktúrán futtatni egy frontier szintű diagnosztikai AI-t anélkül, hogy a betegadatokat külső hálózatra kellene küldeni.

Ez az egészségügyi AI egyik régóta fennálló strukturális akadálya volt. A zárt, API-alapú modellek — GPT-4, Claude, Gemini — hatalmasak, de külső szerveren futnak. Az orvosi adatok küldése külső API-ra komoly HIPAA-compliance és adatvédelmi kérdéseket vet fel az Egyesült Államokban — és hasonló problémákat a GDPR alatt Európában.

Egy nyílt, helyi szerveren futtatható modell, amely frontier teljesítménnyel rendelkezik, eliminálná ezt az akadályt.


Miért fontos ez most?

Mi változott technológiailag?

A Llama 3.1 405B a Meta 2024-es nyílt kiadása — és más méretű verzióival együtt (8B, 70B) az egyik legkomolyabb nyílt modellcsalád a piacon. A 405B-es verzió a legnagyobb általánosan elérhető nyílt modell volt megjelenésekor.

Ami megváltozott: a nyílt modellek most már nem csak “elég jó” szinten érhetők el — hanem bizonyos feladatokon felülmúlják a frontier zárt modelleket is. Ez kvalitatív ugrás az intézményi elfogadás szempontjából.

Mi változott az egészségügyi AI-ban?

Az egészségügyi AI-t öt feszültség jellemzi egyidejűleg:

1. Teljesítmény-igény: A diagnosztikai AI-tól magas pontosságot várnak — az egészségügyi stakes nem tűr gyenge teljesítményt.

2. Adatszuverenitás: A betegadatok a legérzékenyebb személyes adatok közé tartoznak. A HIPAA (USA) és a GDPR (EU) komoly compliance-korlátokat állít a külső adatküldéssel szemben.

3. Auditálhatóság: Az orvosi döntések jogi és szakmai elszámoltathatóságot igényelnek. Egy átláthatatlan, zárt modell megnehezíti az auditálást.

4. Testreszabhatóság: Minden kórházi rendszernek saját protokolljai, terminológiái, elektronikus egészségügyi nyilvántartásai (EHR) vannak. A lokális finomhangolás képessége kulcsfontosságú.

5. Fenntartható költség: Hosszú távon a frontier API-díjak kórházi skálán elképesztő összegekre rúghatnak.

A zárt frontier modellek az elsőn erősek — de a másodikon, harmadikon, negyediken és ötödiken gyengébbek. Egy nyílt, helyi modell az összes dimenzión más profilt ad.


Hol félreértett a közbeszéd?

Mit jelent az „open source AI veszélyes a kórházakban” narratíva?

Az open-source AI-val szemben az egészségügyi kontextusban az egyik leggyakoribb ellenérv a kontroll hiánya: “ki felel az outputért, ha a modell nyílt?”

Ez valós kérdés — de részben félreértett.

A felelősség kérdése nem a modell nyílt vagy zárt jellegétől függ. A klinikai AI minden esetben kiegészítő eszköz, nem önálló döntéshozó — sem a GPT-4, sem a Llama esetében. Az orvos felel a diagnózisért, nem az AI.

Ami a nyílt modellnél ténylegesen eltér: az intézmény belső kontrollal rendelkezik a modell viselkedése felett. Testreszabhatja, auditálhatja, bekorlátozhatja — anélkül, hogy a vendor beleegyezésére vagy API-frissítéseire kellene várnia.

Ez a kontroll az enterprise AI-ban — és különösen az egészségügyi AI-ban — nem elvont technikai előny. Compliance-, governance- és kockázatkezelési kérdés.

Miért nem arról szól ez, hogy “az open source megnyerte az AI-t az egészségügyben”?

A zárt modellek teljesítménye is folyamatosan fejlődik. A GPT-4o, a Claude 4 Sonnet, a Gemini 2.0 valószínűleg már ma erősebb a Llama 3.1 405B-nél általános tesztelésben.

Ami a Harvard-tanulmányból valójában következik: az open-source modellek elérték az intézményi döntési küszöböt. Nem mindent nyernek — de már nem automatikusan másodrangú opcióként kezelik őket.

Ez a kérdésfeltevés megváltozását jelenti: nem “szabad-e open modelleket komoly környezetben használni?”, hanem “milyen esetekben racionálisabb open modellel dolgozni, mert elég jó, jobban kontrollálható és jobban lokalizálható?


Milyen mélyebb mintázat rajzolódik ki?

Az intézményi AI-elfogadás logikája

Az intézményi AI-elfogadást — kórházak, jogi irodák, pénzügyi szervezetek, oktatási intézmények — nem csak a teljesítmény hajtja. Hanem egy komplex döntési mátrix:

  • Kockázatkezelés: Ki felel, ha az AI hibázik? Hogyan auditálható a döntés?
  • Compliance: Megfelel-e az adatkezelés a vonatkozó jogszabályoknak?
  • Vendor-függőség: Mi történik, ha a vendor árat emel, megszünteti a szolgáltatást, vagy megváltoztatja az API-t?
  • Testreszabhatóság: Integrálható-e a belső rendszerekbe, adatstruktúrákba?
  • Hosszú távú fenntarthatóság: Mi a többéves TCO (Total Cost of Ownership)?

A zárt frontier modellek az elsőn erősek — a teljesítményükkel szinte minden intézményi döntési folyamatot indokolnak. De a többi dimenzión komoly kérdőjeleket hordoznak.

A nyílt modellek más profilt adnak: a teljesítmény dimenzióján elérik a szükséges küszöböt (ahogy a Harvard-tanulmány mutatja), és a többi dimenzión strukturális előnnyel rendelkeznek.

Az adatszuverenitás mint intézményi versenyelőny

Van egy aspektus, ami a legtöbb headline-ból kimarad: a Harvard-tanulmány kontextusában a Llama-alapú rendszer lehetővé teszi, hogy a kórház az AI-t a saját adatain tanítsa — a saját eseteiből, protokolljaiból, EHR-adataiból —, anélkül hogy ezeket az adatokat megosztaná egy külső vendorral.

Ez hosszú távon nem csak compliance-kérdés. Ez versenyelőny-forrás: az a kórházi rendszer, amelyik a saját betegadatain finomhangolja a diagnosztikai AI-t, potenciálisan jobb diagnosztikai teljesítményt ér el a saját betegpopulációján, mint egy általános frontier modell.

Ez az adatszuverenitás és a lokális tanulási ciklus kombinálódása — és ez érvényes az egészségügytől a jogi szektortól a pénzügyi szektortól az ipari alkalmazásokig.

Miért nem elszigetelt eseményről van szó?

Az egészségügyi AI Harvard-esete egy tágabb trendet illusztrál: a nyílt modellek “intézményi belépési küszöbe” gyorsan csökkent.

Két évvel ezelőtt a nyílt modelleket az egészségügyi döntéshozók döntő többsége automatikusan kizárta — teljesítménybeli és governance-beli aggályok miatt. Ma ugyanez a döntéshozói réteg nem zárja ki automatikusan. Kiértékeli.

Ez a kérdésfeltevés-változás önmagában is szignifikáns — mert az intézményi AI-piac döntési ciklusai lassúak. Ha a nyílt modellek ma már a komoly kiértékelési listán vannak, a következő 12–24 hónapban megjelennek az első valódi intézményi deploymentek is.


Mi ennek a stratégiai következménye?

Mit kell ebből megértenie egy döntéshozónak?

Az egészségügyi — és tágabban: az intézményi — AI-stratégia az elkövetkező időszakban komolyan differenciálódik.

Az automatikus “használjuk a frontier API-t” döntés nem szűnik meg. De mellette megjelenik egy racionálisabb kérdés: melyik feladaton, milyen adatbiztonsági profillal, milyen governance-igénnyel érdemes saját, lokális open modellt deployálni?

Az intézményeknek, amelyek ezt a kérdést most elkezdik komolyan feltenni, van idejük a szükséges infrastrukturális és governance-keretrendszer felépítésére. Akik nem teszik fel, azok egy-két év múlva reaktív pozícióból indulnak.

Hol épül ebből versenyelőny?

Diagnosztikai AI lokalizálása. Az a kórházi rendszer, amely saját betegpopulációján, saját protokolljain finomhangolt nyílt modellt futtat, potenciálisan jobb teljesítményt ér el a saját feladatán, mint egy általános frontier modell.

Compliance mint architekturális döntés. A GDPR és a HIPAA-megfelelőség lokális deployment esetén nem szükségszerűen bonyolultabb — sok esetben egyszerűbb, mint a külső API-val kapcsolatos adatvédelmi implikációk kezelése.

Intézményi AI-autonómia. A vendor-független AI-stack hosszú távon csökkenti az áremelés, API-változás és platformváltás kockázatát — ami különösen fontos az évtizedes ciklusokban gondolkodó intézmények számára.


Mit érdemes most figyelni?

Mi jöhet a következő 6–12 hónapban?

Az első valódi kórházi Llama-deploymentek. A Harvard-tanulmány után várható, hogy egyes kórházi rendszerek elindítják a nyílt modell alapú klinikai AI tesztelését — először kontrollált kísérleti környezetben.

Regulációs keretek pontosulása. Az FDA (USA) és az EMA (EU) egyre aktívabban dolgozik az orvosi AI regulációs keretrendszerén. Várható, hogy az open-source modellek kezelésére vonatkozó iránymutatások is megjelennek.

Domain-specifikus orvosi fine-tuning szaporodása. A Llama-alapú, orvosi területre finomhangolt modellek — MedLlama, BioMedLM, OpenBioLLM — száma növekedni fog, ahogy a nyílt infrastruktúra érettebbé válik.


Zárás

A Harvard-tanulmány egy mondatban összefoglalható: az open-source AI megérkezett a komoly intézményi döntések terepére.

Nem azzal, hogy minden dimenzióban megverte a zárt modelleket. Hanem azzal, hogy a legfontosabb dimenzión — a teljesítményen — elérte a szükséges küszöböt, és eközben megőrizte a strukturális előnyeit az adatszuverenitás, az auditálhatóság és a testreszabhatóság dimenzióin.

Az intézményi AI-döntések logikája megváltozik. Nem holnap, nem egyik napról a másikra. De a folyamat elindult.

A kérdés a döntéshozók számára nem az, hogy kövessük-e a trendet. Hanem az, hogy mikor kezdjük el a felkészülést arra a világra, ahol a lokális, kontrollált, auditálható AI-deployment norma lesz — nem kivétel.


Kapcsolódó cikkek a blogon

Key Takeaways

  • A nyílt modellek elérték az intézményi elfogadás küszöbét — A Llama 3.1 405B klinikai teljesítménye bebizonyítja, hogy a nyílt modellek már nem másodrangú opciók, hanem komoly alternatívát jelentenek a zárt frontier modellekkel szemben.
  • Az adatszuverenitás és compliance a fő előny — Egy helyi szerveren futtatható nyílt modell megszünteti a betegadatok külső API-ra küldésének jogi és adatvédelmi kockázatait, ami HIPAA és GDPR szempontból kritikus.
  • Az intézményi döntés több, mint teljesítmény — A kórházak választását nem csak a pontosság, hanem a kockázatkezelés, auditálhatóság, vendor-függőség és hosszú távú költségek (TCO) összetett mátrixa befolyásolja.
  • A kontroll a nyílt modell fő értéke — Az intézmény belsőleg testreszabhatja, auditálhatja és korlátozhatja a modellt, ami a zárt modelleknél nem lehetséges, ezzel növelve a governance szintjét.
  • A kérdés megváltozott: “mikor érdemes nyíltat használni?” — A vita már nem arról szól, hogy a nyílt modellek biztonságosak-e, hanem arról, hogy mely feladatokra racionálisabb őket választani a jobb kontroll és lokalizálhatóság miatt.

Beszéljünk erről

Ha ez a cikk gondolatokat ébresztett — foglalj egy 1 órás beszélgetést.

Időpont foglalás