Utoljára frissítve: 2026. március 19.

Nyílt AI Modellek · Spoke

Ollama vállalati deploy: helyi AI szerver felállítása lépésről lépésre 2026-ban

Az Ollama ma a legegyszerűbb út a helyi LLM-ekhez: egy parancs, és perceken belül fut egy REST API-val rendelkező AI szerver a saját gépeden. Ez az útmutató végigveszi a telepítéstől az Nginx reverse proxyig mindent — hogy vállalati kontextusban is megbízhatóan üzemeltethető legyen.

TL;DR

Telepítsd az Ollama-t (egy parancs), töltsd le a modellt (ollama pull qwen2.5:7b), és máris van egy OpenAI-kompatibilis REST API-d localhost:11434-en. Vállalati belső toolinghoz systemd service + Nginx proxy kombináció ajánlott — ez biztosítja az automatikus indítást és a hálózati biztonságot.

parancs az Ollama telepítéséhez Linuxon — curl-lel, azonnal

4 GB

VRAM az első futtatható modellhez — Llama 3.2 3B vagy Qwen2.5 3B

100%

OpenAI SDK kompatibilis API végpont — kód változtatás nélkül cserélhető

Miért Ollama? Az egyszerű helyi AI szerver

Az Ollama value propja egyszerű: nulla konfigurációs overhead, azonnal működő REST API, OpenAI-kompatibilis végpont. Más helyi LLM megoldásokhoz képest — llama.cpp szerver manuális fordítása, vLLM Docker konténer, LM Studio GUI — az Ollama a fejlesztői élményt helyezi előtérbe. Letöltöd, elindítod, és már kérdezheted a modellt.

Az Ollama mögött a llama.cpp fut háttérmodul-ként — ez adja a GGUF modell-betöltést, a GPU offloading-ot és a kvantálási támogatást. Az Ollama ezeket egy egységes CLI + REST API réteg mögé csomagolja, így a felhasználónak nem kell tudnia a modell-formátumokról, a VRAM felosztásról vagy a compile flagekről.

Mikor válaszd az Ollama-t?

Az Ollama a legjobb választás, ha a cél fejlesztés, prototípus készítés, kiscsapat belső tooling vagy egyéni AI asszisztens. Néhány konkrét use case: belső dokumentumok összefoglalója, kód review asszisztens, e-mail piszkozat generálás, HR FAQ chatbot — ahol az adatvédelem kritikus és a párhuzamos terhelés alacsony (jellemzően 1–5 egyidejű felhasználó).

Az Ollama korlátai: nem multi-GPU (csak egy GPU-t használ egyszerre), az alapértelmezett párhuzamosság 1 (OLLAMA_NUM_PARALLEL-lel növelhető, de nem skálázódik lineárisan), és nincs beépített load balancing. Ha a cél production API 10+ párhuzamos kéréssel vagy GPU cluster, a vLLM vagy a TGI (Text Generation Inference) jobb választás.

Ollama vs. vLLM vs. LM Studio — mikor melyik

Ollama: fejlesztés, belső tooling, kiscsapat, gyors prototípus — egy paranccsal fut. LM Studio: modell-tesztelés, desktop GUI, nem szerver-deploy. vLLM: production API, nagy párhuzamosság, multi-GPU, continuous batching — de összetettebb setup (Docker, CUDA konfig).

Telepítés és első modell: 5 perc alatt

A telepítés operációs rendszertől függően minimálisan különbözik. Minden platformon az eredmény ugyanaz: egy háttérben futó Ollama szerver, amely a localhost:11434-es porton hallgat.

Linux — egy soros telepítő

A hivatalos telepítő script letöltése és futtatása: curl -fsSL https://ollama.ai/install.sh | sh. Ez letölti a megfelelő binárist, elhelyezi a /usr/local/bin/ollama útvonalon, és automatikusan elindítja az Ollama szervert systemd service-ként (ha a rendszer systemd-alapú). A telepítés NVIDIA és AMD GPU-t egyaránt detektál.

Windows és macOS

Windowson a winget install Ollama.Ollama parancs vagy a hivatalos oldalról letölthető telepítő (ollama.ai) egyaránt működik. A telepítés után az Ollama a tálcán fut rendszerszolgáltatásként. macOS-en: brew install ollama, majd ollama serve az első indításhoz.

Első modell letöltése és tesztelése

A modell letöltése az ollama pull paranccsal történik. Kis erőforráshoz ajánlott: ollama pull llama3.2 — ez a 3B paraméterű változatot tölti le (~2 GB). Általános vállalati toolinghoz: ollama pull qwen2.5:7b (~4.7 GB GGUF Q4_K_M kvantálás). A letöltés után azonnal tesztelhető interaktív módban: ollama run qwen2.5:7b "Adj egy rövid összefoglalót a RAG architektúráról".

Modell-ajánlás vállalati belső toolinghoz

Qwen2.5:7b — a legjobb általános választás: kiváló instrukció-követés, erős kódgenerálás, stabil magyar szövegkezelés, ~4.7 GB (6 GB VRAM javasolt). Llama3.2:3b — ha a hardver korlátozott: 2 GB, 4 GB VRAM elegendő, gyorsabb, de gyengébb reasoning. Qwen2.5-Coder:7b — ha a fő use case kódgenerálás vagy kód review.

REST API és OpenAI SDK csere

Az Ollama két REST API végpontot biztosít. A natív Ollama API: http://localhost:11434/api/generate (egylépéses generálás) és http://localhost:11434/api/chat (chat history alapú). Az OpenAI-kompatibilis végpont: http://localhost:11434/v1/chat/completions — ez pontosan az OpenAI Chat Completions API formátumát követi.

Python SDK csere — csak a base_url változik

Az eredeti OpenAI SDK hívás tipikusan így néz ki: az openai.OpenAI() konstruktor api_key paraméterrel, majd client.chat.completions.create() a modell megadásával. Az Ollama-ra való átálláshoz egyetlen paramétert kell módosítani: a base_url értékét http://localhost:11434/v1-re kell állítani. Az api_key paraméter kötelező marad szintaktikailag, de értéke bármilyen string lehet — az Ollama nem ellenőrzi (pl. "ollama"). A model paraméter értékét a helyi modell nevére kell cserélni, például "gpt-4o" helyett "qwen2.5:7b".

Környezeti változó alapú konfiguráció

Ha a kódban nem szeretnéd hardcode-olni az Ollama URL-t, az OPENAI_BASE_URL=http://localhost:11434/v1 környezeti változó beállításával az OpenAI Python SDK automatikusan az Ollama végpontot használja — az API kulcs és az URL megadása nélkül is. Ez különösen hasznos, ha ugyanaz a kódbázis fejlesztési környezetben Ollama-val, production-ben OpenAI API-val fut: csak a környezeti változót kell váltani.

Fontos: modellnév az API hívásban

Az OpenAI SDK-val Ollama-n keresztül hívva a model paraméternek a helyi Ollama modellnevet kell tartalmaznia — pl. "qwen2.5:7b" vagy "llama3.2". Ha az eredeti kódban "gpt-4o" szerepel és az Ollama-n nincs ilyen nevű modell, a hívás hibával tér vissza. Megkerülési lehetőség: az Ollama Modelfile-ban alias-t hozol létre a várt modellnévre.

Systemd service: automatikus indítás Linuxon

Ha az Ollama Linux install scriptet használtad, a systemd service általában automatikusan létre is jön. Ha manuálisan kell létrehozni, vagy módosítani szeretnéd a konfigurációt, az /etc/systemd/system/ollama.service fájlba a következő struktúrájú unit fájl szükséges.

A unit fájl főbb szekciói és direktívái szövegesen: a [Unit] szekcióban a Description=Ollama Local LLM Server és az After=network-online.target hálózatfüggőség. A [Service] szekció tartalmazza az ExecStart=/usr/local/bin/ollama serve indítási parancsot, a Restart=always és RestartSec=3 újraindítási politikát, a User=ollama futtatási felhasználót, és az Environment sorokat a kívánt változókhoz — például Environment="OLLAMA_HOST=0.0.0.0:11434" hálózati elérhetőséghez, vagy Environment="OLLAMA_NUM_PARALLEL=2" a párhuzamossághoz. A [Install] szekcióban a WantedBy=multi-user.target biztosítja a boot-time aktiválást.

A service aktiválása és indítása: sudo systemctl daemon-reload, majd sudo systemctl enable ollama (boot-time engedélyezés), végül sudo systemctl start ollama. Státusz ellenőrzése: sudo systemctl status ollama. Logok megtekintése: journalctl -u ollama -f (valós idejű log stream).

Nginx reverse proxy: biztonságos hálózati hozzáférés

Alapértelmezés szerint az Ollama csak a localhost-on hallgat — belső hálózaton más gépekről nem érhető el. Ha a csapat több gépről is szeretné használni az Ollama szervert, Nginx reverse proxy ajánlott: ez biztosítja az SSL terminálást, az authentikációt és a portforwardingot.

Az Nginx konfiguráció lényege

Az Nginx konfigurációs fájlban (tipikusan /etc/nginx/sites-available/ollama) egy server blokk szükséges. A lényeges direktívák: listen 443 ssl a HTTPS fogadáshoz, az SSL tanúsítvány elérési útjai (ssl_certificate és ssl_certificate_key), majd a location blokkon belül a proxy_pass http://127.0.0.1:11434 a valódi Ollama szerver felé, a proxy_set_header Host $host és proxy_set_header X-Real-IP $remote_addr fejléc-továbbítással. Streaming válaszokhoz (token-by-token) szükséges még a proxy_buffering off és a proxy_read_timeout 300s beállítása, különben az Nginx időtúllépéssel megszakítja a hosszabb generálásokat.

Belső hálózati biztonság

Minimális biztonsági réteg belső hálózaton is ajánlott. Három egymást erősítő intézkedés: (1) IP-alapú korlátozás az Nginx allow és deny direktíváival — csak az engedélyezett alhálózatról fogad kérést; (2) .htpasswd authentikáció a auth_basic direktívával — felhasználónév/jelszó réteg az API elé; (3) UFW firewall szabály — a 11434-es port zárva marad a külvilág elől, csak a 443-as port érhető el külsőleg. Ez a kombináció elegendő belső tooling esetén; publikus API-hoz erősebb authentikáció (OAuth, API key) javasolt.

Teljesítmény és skálázás

Az Ollama alapkonfigurációban egyetlen párhuzamos kérést kezel — a következő kérés megvárja, amíg az előző befejeződik. Ez fejlesztési és kis forgalmú belső use case-ekhez elegendő, de csapatszintű deployment esetén két környezeti változó releváns.

Az OLLAMA_NUM_PARALLEL változó (alapértelmezés: 1) meghatározza az egyidejűleg feldolgozható kérések számát. Értékét a rendelkezésre álló VRAM határolja: egy 7B modell ~5 GB VRAM-ot igényel; 2 párhuzamos kéréshez ~10 GB, 4-hez ~20 GB szükséges. 12–16 GB VRAM-os GPU esetén 2 javasolt.

Az OLLAMA_MAX_LOADED_MODELS változó (alapértelmezés: 1) szabályozza, hány modell tartózkodhat egyszerre a memóriában. Ha a csapat több modellt használ (pl. egy kódgeneráláshoz, egy szöveges összefoglalóhoz), 2-re állítva elkerülhető a modell-váltáskori újrabetöltési késés (~5–15 másodperc 7B modellnél).

Mikor lépj tovább vLLM-re?

Az Ollama-ból vLLM-re való átállást három szignál indokolja egyértelműen: (1) rendszeresen több mint 10 párhuzamos kérés, (2) SLA-alapú válaszidő-kötelezettség, vagy (3) multi-GPU szükséglet (tensor parallel). A vLLM continuous batching algoritmusa 3–5× jobb GPU-kihasználást biztosít azonos hardveren — de a setup Dockerrel, CUDA konfigurációval és részletesebb modell-paraméterekkel lényegesen összetettebb. Az Ollama-ból vLLM-re való átmenet API szintjén zökkenőmentes: mindkettő az OpenAI-kompatibilis végpontot kínálja.

Saját tapasztalat

A belső toolingomban (PKM/PAI asszisztens, dokumentum összefoglaló, e-mail piszkozat) az Ollama qwen2.5:7b kombinációt használom — RTX 4070 Ti, 12 GB VRAM, OLLAMA_NUM_PARALLEL=2. Az átlagos válaszidő 800ms–2s (kérés méretétől függően). Ez teljesen elegendő egyéni és kiscsapatszintű használatra. Ha a use case production API szintre nő, a vLLM-re való átállás tervem szerint Docker Compose alapon történik.

Kérdések és válaszok

Mi az az Ollama és mire való?

Az Ollama egy nyílt forrású eszköz, amellyel helyi LLM-eket futtathatsz egyetlen paranccsal. Letölti és kezeli a modell súlyokat, elindít egy REST API szervert, és OpenAI-kompatibilis végpontot biztosít. Fejlesztők, kiscsapatok és vállalati belső tooling számára ideális — nincs szükség felhőre, az adatok nem hagyják el a gépet.

Milyen hardverre van szükség Ollama futtatásához?

Minimálisan: 4 GB VRAM egy RTX 3060-on és 8 GB RAM elegendő a Llama 3.2 3B vagy Qwen2.5 3B futtatásához. A 7B modellek 6–8 GB VRAM-ot igényelnek. CPU-n is fut (llama.cpp backend), de 5–10× lassabb. Vállalati terheléshez RTX 4070/4080 vagy A10G ajánlott — a 7B modell ott 40–80 token/s sebességet ad.

Hogyan cseréljük le az OpenAI SDK-t Ollama-ra?

Csak a base_url paramétert kell átírni a Python OpenAI SDK-ban: a megszokott openai.OpenAI() hívásban add meg a base_url='http://localhost:11434/v1' értéket, és az api_key paraméterhez bármilyen string megfelel (pl. 'ollama'). A kód többi része változatlan marad — az Ollama pontosan emulálja az OpenAI Chat Completions API-t.

Mi a különbség az Ollama és az LM Studio között?

Az LM Studio desktop GUI alkalmazás elsősorban fejlesztőknek és modell-teszteléshez. Az Ollama headless CLI eszköz, amely rendszerszolgáltatásként fut és REST API-t biztosít — production belső toolinghoz és szerveroldali integrációhoz jobb. Multi-GPU támogatása mindkettőnek korlátozott; nagy párhuzamossághoz vLLM az ajánlott alternatíva.

Hogyan állítsunk be Ollama-t mint rendszerszolgáltatást (systemd)?

Linuxon a systemd unit fájlt a /etc/systemd/system/ollama.service útvonalra kell elmenteni. Tartalmazza az ExecStart=/usr/local/bin/ollama serve sort, a Restart=always direktívát, és az Environment változókat (pl. OLLAMA_HOST és OLLAMA_NUM_PARALLEL). Ezután sudo systemctl enable ollama és sudo systemctl start ollama parancsokkal aktiválható.

Milyen modelleket érdemes Ollama-val futtatni vállalati használatra?

Általános belső toolinghoz Qwen2.5:7b (4.7 GB) ajánlott — kiváló instrukció-követés, erős kódgenerálás, multilinguális. Magyar szövegek feldolgozásához Mistral:7b vagy Llama3.1:8b is megbízható. Kizárólag kódfeladatokra Qwen2.5-Coder:7b optimális. Kis erőforráshoz Llama3.2:3b (2 GB) elegendő chatbot és összefoglaló feladatokhoz.

Hogyan kezeljük a párhuzamos kéréseket Ollama-val?

Az OLLAMA_NUM_PARALLEL környezeti változóval (alapból 1) növelhető a párhuzamos kérések száma — de minden párhuzamos kérés extra VRAM-ot igényel. 2–4 párhuzamos kérés tipikus korlát egy GPU-n. Tíznél több párhuzamos kérésnél vLLM az ajánlott alternatíva, amely continuous batching-gel lényegesen hatékonyabb GPU-kihasználást biztosít.

Biztonságos-e az Ollama REST API a belső hálózaton?

Az Ollama alapból csak localhost:11434-en hallgat — ez biztonságos. Ha belső hálózatban kell elérhetővé tenni, Nginx reverse proxy ajánlott: SSL terminálás, .htpasswd alapú authentikáció és IP-alapú firewall szabály kombinációja elfogadható biztonsági szintet ad. Soha ne tedd közvetlenül publikusan elérhetővé az Ollama API-t authentikáció nélkül.

Hogyan monitorozzuk az Ollama szerver teljesítményét?

Az ollama ps parancs megmutatja a betöltött modelleket és VRAM-foglalást. A /api/ps REST végpont JSON-ban adja vissza ugyanezt. VRAM és GPU kihasználtsághoz nvidia-smi -l 1 valós idejű monitoring ad. Prometheus + Grafana integrációhoz egy egyszerű shell script olvashatja a nvidia-smi és ollama ps kimenetét, és exportálhatja metrikaként.

Mi az alternatíva, ha a teljesítmény nem elegendő?

Ha 10+ párhuzamos kérés vagy production SLA szükséges, vLLM az ajánlott váltás: continuous batching, tensor parallel multi-GPU, PagedAttention memóriakezelés — ugyanaz az OpenAI-kompatibilis API végpont. A vLLM konfigurációja összetettebb (Docker, CUDA), de 3–5× nagyobb áteresztőképességet biztosít azonos hardveren.

Ollama-t telepítenél vállalati környezetbe, de nem tudod, hol kezdd?

Áttekintem a meglévő infrastruktúrát, segítek a modellválasztásban, és elkészítem a systemd + Nginx konfigurációt — hogy az első éles deploy ne egy kísérleti hétvégi projekt legyen, hanem kiszámítható vállalati rendszer.

Konzultáció kérése Vissza a hubhoz →

Kapcsolódó témák

← Nyílt AI Modellek (Hub) LoRA fine-tuning →