Vissza a tudásbázisba
WhitepaperLLMModellválasztásGPTClaudeGeminiBenchmarkKöltségoptimalizációVállalati AI

LLM Modellválasztás Üzleti Döntései — GPT vs. Claude vs. Gemini vs. Lokális Modellek

ÁZ&A
Ádám Zsolt & AIMY
||40 perc

1. Vezetői összefoglaló

A nagy nyelvi modellek (LLM) piaca 2026-ra érett, de rendkívül fragmentált lett: a legdrágább modell (OpenAI o3, ~$60/1M output token) és a legolcsóbb (Gemini 2.0 Flash, ~$0.40/1M output token) között százszoros árkülönbség van — miközben a teljesítménybeli különbség feladattól függően akár elhanyagolható is lehet. Ez azt jelenti, hogy a modellválasztás nem technikai kuriózum, hanem közvetlen üzleti döntés, amely meghatározza az AI-stratégia költséghatékonyságát, válaszidejét, adatvédelmi kockázatát és skálázhatóságát. Ebben a tanulmányban hat döntési dimenzió mentén elemezzük a piacot: feladat-komplexitás, latency, költség, magyar nyelvi képesség, tool calling megbízhatóság és adatvédelmi kockázat. Bemutatjuk a feladatalapú modellválasztási keretrendszert, amely 12 tipikus vállalati feladathoz rendel optimális modellt — és megmutatjuk, hogy az intelligens routing akár 60%-kal csökkentheti a költségeket az egységes megközelítéshez képest, miközben a komplex feladatoknál jobb minőséget ad. Összehasonlítjuk az OpenAI, Anthropic, Google, Mistral, DeepSeek és nyílt modellek kínálatát friss, 2026 Q1-es benchmark-ok alapján. Részletesen tárgyaljuk a multi-modell architektúrát, a routing stratégiákat, az EU AI Act 2026-os hatását és a lokális modellek alkalmazási feltételeit. A tanulmány végén egy egyoldalas döntési mátrix és egy 5 lépéses CTO akciótervvel segítjük a gyors, megalapozott döntéshozatalt. Célunk, hogy minden IT vezető — legyen szó 50 vagy 50 000 napi interakcióról — megtalálja az optimális egyensúlyt a költség, a teljesítmény és a biztonság között.


2. Miért stratégiai döntés a modellválasztás?

Az LLM modellválasztás nem technikai kuriózum — ez határozza meg a vállalat teljes AI-stratégiáját. Öt kritikus területen van közvetlen üzleti hatása:

Költségek: 100-szoros árkülönbség. Az OpenAI o3 reasoning modell ~$60/1M output token áron dolgozik, míg a Gemini 2.0 Flash ~$0.40/1M output tokenért. Egy havi 100 000 interakciós rendszernél ez a különbség havi $500 és havi $50 000+ között jelent választást — azonos feladatra, gyakran hasonló eredménnyel.

Teljesítmény: nincs univerzális győztes. Amiben az egyik modell kiváló, abban a másik gyenge. A Claude 4 Opus vezet kódgenerálásban és instrukció-követésben, a GPT-4o a legsokoldalúbb általános modell, a Gemini 2.5 Pro pedig multimodális feladatokban és hosszú kontextusban jeleskedik. Egyetlen modell sem „a legjobb" minden feladatra.

Sebesség: 500ms vs. 5 másodperc. Egy valós idejű chatbot számára az 500ms-os válaszidő elfogadható, az 5 másodperces nem. A kis modellek (GPT-4o-mini, Gemini Flash, Haiku) 3-10x gyorsabban válaszolnak, mint a frontier modellek — és egyszerű feladatokon hasonló minőséget adnak.

Adatvédelem: felhő vs. lokális = eltérő kockázat. A cloud API-k esetén az adatok elhagyják a szervezetet; a lokális modellek (Ollama + Llama 3.3) esetén minden adat a saját szerveren marad. Egészségügyi, pénzügyi és jogi szektorban ez nem preferencia, hanem compliance követelmény.

Vendor lock-in: egyetlen modellre építeni kockázat. Ha a teljes rendszert egyetlen szolgáltatóra építjük, áremeléskor, API-változáskor vagy leálláskor nincs plan B. A provider-agnosztikus architektúra nem luxus, hanem üzleti szükséglet.

A CTO feladata tehát nem az, hogy megtalálja „a legjobb modellt", hanem hogy feladatonként a legjobban illeszkedő modellt válassza ki, a megfelelő áron, elfogadható kockázattal — és olyan architektúrát építsen, amely rugalmasan alkalmazkodik a gyorsan változó piachoz.


3. A szereplők — Ki mit tud 2026-ban?

Tier 1 — Frontier modellek

OpenAI

Az OpenAI továbbra is a legnagyobb modellkínálattal rendelkezik, a reasoning-fókuszú o-sorozattól a költséghatékony mini modellekig.

Modell Kontextus Erősség Gyengeség Ár (input / output per 1M token)
o3 200K Legjobb reasoning, komplex problémamegoldás Nagyon drága, lassú $10 / $40
o4-mini 200K Reasoning olcsón, jó költség/érték Gyengébb kreatív feladatokban $1.10 / $4.40
GPT-4o 128K Legjobb általános modell, multimodális Drágább a mini változatnál $2.50 / $10
GPT-4o-mini 128K Gyors, olcsó, jó egyszerű feladatokra Komplex reasoning-ban gyenge $0.15 / $0.60
GPT-4.1 1M Kódgenerálás, instrukció-követés, 1M kontextus Prompt-érzékeny, gondos tervezést igényel $2 / $8
GPT-4.1-mini 1M Költséghatékony kód- és tool calling feladatokra Frontier feladatokra nem elég $0.40 / $1.60

Az OpenAI ökoszisztéma-előnye vitathatatlan: Assistants API, GPT Store, real-time API, beépített vision és function calling — a legtöbb fejlesztő számára ez a legkisebb belépési küszöb. Az Azure OpenAI-n keresztül enterprise-grade SLA és EU adatrezidencia is elérhető.

Anthropic

Modell Kontextus Erősség Gyengeség Ár (input / output per 1M token)
Claude 4 Opus 200K Legjobb kódgenerálás, instrukció-követés, biztonság Drága, lassabb $15 / $75
Claude 3.7 Sonnet 200K Kiváló ár/érték, extended thinking Multimodális képességek limitáltak $3 / $15
Claude 3.5 Haiku 200K Ultra gyors, olcsó, kiváló egyszerű feladatokra Komplex reasoning-ban korlátozott $0.80 / $4

Az Anthropic megkülönböztető előnye a biztonság-központú tervezés (Constitutional AI), a kiemelkedő instrukció-követés és a hosszú kontextusú feladatokban nyújtott teljesítmény. A Claude modellek különösen erősek kódgenerálásban, strukturált output-ban és compliance-igényes felhasználási esetekben. Az Amazon Bedrock-on keresztül enterprise integráció is elérhető.

Google

Modell Kontextus Erősség Gyengeség Ár (input / output per 1M token)
Gemini 2.5 Pro 1M Multimodális, 1M kontextus, reasoning API stabilitás kérdéses $1.25 / $10
Gemini 2.0 Flash 1M Ultra olcsó, gyors, jó multimodális Komplex reasoning-ban gyengébb $0.10 / $0.40

A Google differenciátora az 1M tokenes kontextusablak, a natív multimodális képesség (kép, videó, audio) és az agresszív árazás. A Gemini 2.0 Flash a piac legolcsóbb általános modellje, míg a 2.5 Pro a benchmark-ok élmezőnyébe tartozik. A Vertex AI platformon enterprise-grade deployment érhető el EU régióban.

Tier 2 — Az erős kihívók

Modell Kontextus Erősség Ár (input / output per 1M token)
Mistral Large 2 128K Európai adatrezidencia, erős többnyelvűség $2 / $6
Mistral Small 32K Költséghatékony, EU-hosted, gyors $0.10 / $0.30
DeepSeek-V3 128K Kiváló ár/teljesítmény, erős kódgenerálás $0.27 / $1.10
Cohere Command R+ 128K RAG-optimalizált, idézés-támogatás, enterprise $2.50 / $10

Tier 3 — Nyílt modellek (lokálisan futtatható)

Modell Paraméter Kontextus Erősség GPU igény (Q4 kvantálás)
Llama 3.3 70B 128K Legjobb nyílt modell, tool calling támogatás ~40GB VRAM
Llama 4 Scout 17B aktív (109B MoE) 10M MoE architektúra, hatalmas kontextus ~70GB VRAM
Mistral 7B 7B 32K Kis erőforrás-igény, jó alap fine-tuning-hoz ~6GB VRAM
Phi-4 14B 16K Microsoft, kiváló reasoning a méretéhez képest ~10GB VRAM
Qwen 2.5 72B 128K Erős többnyelvű, jó kódgenerálás ~42GB VRAM

4. A 6 döntési dimenzió

1. Feladat komplexitása

Szint Példák Ajánlott modellek
Egyszerű FAQ válasz, osztályozás, entitás-kinyerés, fordítás GPT-4o-mini, Gemini Flash, Claude Haiku
Közepes Email generálás, összefoglalás, tool calling, CRM keresés GPT-4o, Claude Sonnet, Gemini Pro
Komplex Jogi elemzés, kódgenerálás, multi-step reasoning, stratégia o3, Claude 4 Opus, Gemini 2.5 Pro

2. Latency (válaszidő)

Használati eset Elvárt latency Ajánlott modellek
Valós idejű chat <1 másodperc (TTFT) GPT-4o-mini, Gemini Flash, Claude Haiku
Interaktív asszisztens 1–3 másodperc GPT-4o, Claude Sonnet, Gemini Pro
Background / batch feladat Nem kritikus (percek) o3, Claude Opus, Batch API bármely modellel

3. Költségérzékenység

Modell Havi költség (1000 interakció, 2K token/db) Relatív költség
Gemini 2.0 Flash ~$0.50 1x (bázis)
GPT-4o-mini ~$0.75 1.5x
GPT-4.1-mini ~$2.00 4x
Claude 3.5 Haiku ~$4.80 9.6x
GPT-4o ~$12.50 25x
Claude 3.7 Sonnet ~$18.00 36x
o3 ~$50.00 100x

4. Nyelvi képesség (magyar)

Modell Magyar minőség Megjegyzés
GPT-4o A legjobb magyar nyelvi képesség, természetes fogalmazás
Claude 3.7 Sonnet Jó magyar, időnként angolra vált struktúrában
Gemini 2.5 Pro Jó magyar, erős Google Translate háttérrel
Mistral Large 2 Erős európai nyelveken, jó magyar
Llama 3.3 70B Elfogadható, de angol-centrikus training adatok
Phi-4 / Mistral 7B Gyenge magyar, főleg angol-fókuszú

5. Tool calling megbízhatóság

Modell Tool calling Megjegyzés
GPT-4.1 Kifejezetten tool calling-ra optimalizált
GPT-4o Megbízható function calling, parallel tool use
Claude 3.7 Sonnet Jó tool use, de saját API formátum
Gemini 2.5 Pro Google-ökoszisztéma integráció
GPT-4o-mini Elfogadható egyszerű tool calling-ra
Llama 3.3 70B Natív tool calling támogatás, de pontatlanabb
Mistral 7B / Phi-4 Korlátozott, megbízhatatlan strukturált output

6. Adatvédelmi kockázat

Deployment opció Adat helye DPA elérhető EU rezidencia Training-re használja?
OpenAI API (direkt) USA Igen Nem Nem (API)
Azure OpenAI EU (választható) Igen Igen Nem
Anthropic API USA Igen Nem (Bedrock: igen) Nem
Google Vertex AI EU (választható) Igen Igen Nem
Mistral (EU) EU (Párizs) Igen Igen Nem
Lokális (Ollama) Saját szerver N/A Teljes kontroll Nem

5. Feladatalapú modellválasztási keretrendszer

A gyakorlati döntési tábla

Feladat Ajánlott modell Alternatíva Miért?
Ügyfélszolgálati chatbot GPT-4o-mini Gemini Flash Gyors, olcsó, elegendő minőség FAQ-ra
Email draft generálás GPT-4o Claude Sonnet Jó magyar stílus, természetes hangvétel
CRM keresés (tool calling) GPT-4.1 GPT-4o Legjobb tool calling, megbízható paraméter-kitöltés
Pipeline elemzés Claude 3.7 Sonnet GPT-4o Kiváló reasoning, strukturált elemzés
Dokumentum összefoglalás Gemini 2.5 Pro Claude Sonnet 1M kontextus, hosszú dokumentumok kezelése
Kód generálás Claude 4 Opus GPT-4.1 SWE-bench vezető, legjobb kódminőség
Jogi / compliance elemzés o3 Claude 4 Opus Legjobb reasoning, minimális hallucináció
Marketing tartalom GPT-4o Claude Sonnet Kreatív, jó stílus, magyar nyelvtudás
Multimodális (kép + szöveg) Gemini 2.5 Pro GPT-4o Natív multimodális, videó támogatás
Belső tudásbázis RAG Cohere Command R+ GPT-4o + embedding RAG-optimalizált, forrás-idézés támogatás
Adatvédelem-kritikus Llama 3.3 (lokális) Mistral Large (EU) Adat nem hagyja el a szervezetet
Voice / hang asszisztens GPT-4o Realtime API Gemini Live Natív voice-to-voice, alacsony latency

A „one-size-fits-all" csapda

A leggyakoribb hiba, amit vállalatoknál látunk: egyetlen modellt használnak mindenre. Ha a GPT-4o-t használják FAQ chatbotra is, az 25x-ös felesleges költség. Ha a GPT-4o-mini-t használják jogi elemzésre is, az elfogadhatatlan minőségveszteség. A megoldás a feladatalapú routing: egy intelligens réteg, amely a bejövő kérést osztályozza és a megfelelő modellhez irányítja. Ez nem sci-fi — egyszerű szabályalapú logikával vagy egy olcsó classifier modellel (GPT-4o-mini mint router) megvalósítható, és azonnal 40-60%-os költségmegtakarítást eredményez.


6. Benchmark-ok és összehasonlítás

A fő benchmark eredmények (2026 Q1)

Benchmark Mit mér? 1 Top 1 2 Top 2 3 Top 3
MMLU-Pro Általános tudás (haladó) o3 Gemini 2.5 Pro Claude 4 Opus
GPQA Diamond PhD-szintű tudományos logika o3 Claude 4 Opus Gemini 2.5 Pro
HumanEval Kódgenerálás (Python) Claude 4 Opus GPT-4.1 o3
SWE-bench Verified Valós szoftverhibák javítása Claude 4 Opus o3 GPT-4.1
MATH-500 Matematikai problémamegoldás o3 o4-mini Gemini 2.5 Pro
MT-Bench Többfordulós beszélgetés minősége GPT-4o Claude 3.7 Sonnet Gemini 2.5 Pro
Tool Use (BFCL) Function calling pontosság GPT-4.1 GPT-4o Claude 3.7 Sonnet
Magyar nyelv (saját teszt) Magyar szövegértés és generálás GPT-4o Claude 3.7 Sonnet Gemini 2.5 Pro

Mit jelentenek a benchmark-ok a gyakorlatban?

Ha a feladatom... Releváns benchmark Ajánlott modell
Általános chatbot / asszisztens MT-Bench, MMLU-Pro GPT-4o
Kód generálás / review HumanEval, SWE-bench Claude 4 Opus, GPT-4.1
Komplex logikai feladat GPQA Diamond, MATH-500 o3
CRM / API integráció Tool Use (BFCL) GPT-4.1, GPT-4o
Magyar nyelvű tartalom Magyar nyelv teszt GPT-4o, Claude Sonnet

Fontos figyelmeztetés: A benchmark-ok irányt mutatnak, de nem helyettesítik a saját tesztelést. Minden vállalati use case egyedi — a mi ajánlásunk: teszteljen 50-100 valós kérdéssel, mielőtt dönt. Az AIMY platform lehetővé teszi az A/B tesztelést több modell között, párhuzamosan.


7. Költségelemzés és optimalizáció

Forgatókönyv: AI asszisztens szolgáltató cégnek

Egy tipikus szolgáltató vállalat AI asszisztensének havi használati mintája:

  • 3000 interakció/hó (100/nap)
  • 30% egyszerű (FAQ, nyitvatartás, státusz) — ~1K token/interakció
  • 50% közepes (email draft, időpont, CRM keresés) — ~2K token/interakció
  • 20% komplex (elemzés, javaslat, report) — ~4K token/interakció
  • Összesen: ~6.2M token/hó

A. Egységes modell megközelítés

Modell (egységesen) Havi költség Minőség (egyszerű) Minőség (komplex)
GPT-4o-mini ~$4 Gyenge
Gemini 2.0 Flash ~$3 Gyenge
GPT-4o ~$78 Kiváló
Claude 3.7 Sonnet ~$112 Kiváló Kiváló

B. Feladatalapú routing (optimalizált)

Feladattípus Modell Arány Token/hó Havi költség
Egyszerű (FAQ, státusz) GPT-4o-mini 30% ~900K ~$0.54
Közepes (email, CRM) GPT-4o 50% ~3M ~$37.50
Komplex (elemzés, jogi) Claude 3.7 Sonnet 20% ~2.4M ~$3.00
Összesen Vegyes 100% ~6.3M ~$41

Az összehasonlítás

Megközelítés Havi költség Komplex minőség Megjegyzés
Csak GPT-4o-mini ~$4 Gyenge Olcsó, de komplex feladatokra nem elég
Csak GPT-4o ~$78 Feleslegesen drága egyszerű feladatokra
Csak Claude Sonnet ~$112 Kiváló A legdrágább egységes megközelítés
Feladatalapú routing ~$41 Kiváló 60%-kal olcsóbb a GPT-4o-nál, jobb komplex minőség

Kulcs-insight: A routing megközelítés 60%-kal olcsóbb, mint az egységes GPT-4o — és jobb minőséget ad komplex feladatokon, mert ott dedikált reasoning modellt használ. Az egyszerű feladatokon a felhasználó minőségbeli különbséget nem érzékel.

Token-optimalizációs technikák

Technika Leírás Megtakarítás
Prompt caching Rendszer-prompt és állandó kontextus gyorsítótárazása 50-75% input token megtakarítás
Batch API Nem-valós idejű feladatok kötegelt feldolgozása 50% költségcsökkentés
Context pruning Hosszú beszélgetéseknél régi üzenetek kiszűrése 30-60% context csökkentés
Streaming Részleges válasz streamelése (nem költség, de UX javítás) Érzékelt latency 70-80% csökkentés
Summary-based context Korábbi beszélgetés összefoglalása teljes history helyett 60-80% context csökkentés

8. Multi-modell architektúra — A routing stratégia

Hogyan működik a modell-routing?

┌─────────────────────────────────────────────────────────┐
│                    Felhasználói kérés                    │
└─────────────────────┬───────────────────────────────────┘
                      │
                      ▼
┌─────────────────────────────────────────────────────────┐
│                   CLASSIFIER / ROUTER                    │
│          (szabályalapú + LLM-alapú + fallback)           │
└────────┬──────────────────┬──────────────────┬──────────┘
         │                  │                  │
         ▼                  ▼                  ▼
┌────────────────┐ ┌────────────────┐ ┌────────────────────┐
│   EGYSZERŰ     │ │    KÖZEPES     │ │     KOMPLEX        │
│                │ │                │ │                     │
│  GPT-4o-mini   │ │    GPT-4o     │ │  Claude Sonnet /   │
│  Gemini Flash  │ │  Claude Haiku │ │  o3 / Opus         │
│                │ │                │ │                     │
│  ~$0.15/1M     │ │  ~$2.50/1M   │ │  ~$15-75/1M        │
└────────────────┘ └────────────────┘ └────────────────────┘
         │                  │                  │
         └──────────────────┼──────────────────┘
                            ▼
┌─────────────────────────────────────────────────────────┐
│                   Egységes válasz                        │
│              (formázás, logging, analytics)              │
└─────────────────────────────────────────────────────────┘

A 3 routing stratégia

1. Szabályalapú routing

A legegyszerűbb megközelítés: kulcsszavak, feladattípusok vagy egyéb metaadatok alapján irányítjuk a kérést.

Szabálypéldák:

  • Ha a felhasználó kérése < 50 token → egyszerű modell
  • Ha a kérés tartalmazza: „elemezd", „hasonlítsd össze", „strategia" → komplex modell
  • Ha tool calling szükséges (CRM, naptár) → GPT-4.1 vagy GPT-4o
  • Ha az endpoint /api/faq → mindig GPT-4o-mini

Előnyök: Gyors, determinisztikus, nincs extra cost. Hátrányok: Rugalmatlan, nem kezeli a szélsőséges eseteket, karbantartás-igényes.

2. LLM-alapú routing

Egy olcsó modell (pl. GPT-4o-mini) osztályozza a bejövő kérést, és meghatározza a megfelelő célmodellt.

Classifier system prompt példa:

Te egy routing asszisztens vagy. Osztályozd az alábbi felhasználói kérést
a következő kategóriák egyikébe:

- SIMPLE: FAQ, köszönés, egyszerű kérdés, státusz lekérdezés
- MEDIUM: email generálás, összefoglalás, CRM keresés, időpont egyeztetés
- COMPLEX: elemzés, jogi kérdés, stratégiai javaslat, kód generálás

Válaszolj CSAK a kategória nevével: SIMPLE, MEDIUM, vagy COMPLEX.

Költség: ~$0.0001/osztályozás (GPT-4o-mini, ~50 token). 3000 havi interakcióra ez ~$0.30 extra.

Előnyök: Rugalmas, kontextus-érzékeny, pontosabb. Hátrányok: Extra latency (~200ms), minimális extra költség, nem 100% megbízható.

3. Fallback-alapú routing

Láncolás: először olcsó modellel próbálkozunk, és ha a minőség nem elég, eszkalálunk.

GPT-4o-mini  →  nem meggyőző?  →  Claude Haiku  →  még mindig nem?  →  Human escalation
   (olcsó)         (ellenőrzés)      (közepes)        (ellenőrzés)       (ember)

Minőség-ellenőrzés módszerei: konfidencia-score, regex-validáció (pl. tool calling JSON érvényes-e), vagy egy második LLM mint grader.

Előnyök: Költségoptimális, automatikus minőségbiztosítás. Hátrányok: Magasabb latency, komplexebb implementáció.

A javasolt megoldás: hibrid routing

A leghatékonyabb megközelítés a három stratégia kombinációja:

  1. Szabályalapú: nyilvánvaló esetek kezelése (FAQ endpoint → mini, kód endpoint → Opus)
  2. LLM classifier: kétértelmű esetek osztályozása (~200ms, ~$0.0001/kérés)
  3. Fallback: provider-kiesés esetén automatikus átirányítás (OpenAI → Anthropic → Google)

Ez a hibrid megközelítés biztosítja a legalacsonyabb költséget, a legjobb minőséget és a legmagasabb rendelkezésre állást.


9. Biztonság, compliance és adatrezidencia

Az AI modell adatkezelési modelljei

Szolgáltató Adatfeldolgozó Adat helye Training-re használja? DPA elérhető
OpenAI API OpenAI, LLC USA Nem (API) Igen
Azure OpenAI Microsoft EU (West Europe) Nem Igen (GDPR)
Anthropic API Anthropic, PBC USA (Bedrock: EU) Nem Igen
Google Vertex AI Google Cloud EU (választható régió) Nem Igen (GDPR)
Mistral (EU) Mistral AI (FR) EU (Párizs) Nem Igen (EU natív)
Lokális (Ollama) Saját szervezet Saját szerver N/A N/A (teljes kontroll)

EU AI Act hatása a modellválasztásra (2026)

Az EU AI Act 2026-ban teljes hatályba lép, és közvetlen hatása van a modellválasztásra:

Magas kockázatú alkalmazások (High-risk AI): Ha az AI rendszer HR döntéseket, hitelképesség-értékelést, egészségügyi diagnózist vagy jogi döntéstámogatást végez, kötelező a megfelelés: emberi felügyelet, átláthatóság, dokumentáció, bias-tesztelés. Ez nem modell-specifikus, de a lokális modellek könnyebben auditálhatók.

GPAI modellek kötelezettségei: A frontier modellszolgáltatók (OpenAI, Google, Anthropic) kötelesek technikai dokumentációt, biztonsági teszteredményeket és energiafogyasztási adatokat publikálni. Ez a vállalati felhasználónak is segít a döntésben — de a compliance felelőssége az alkalmazásfejlesztőé, nem a modellszolgáltatóé.

A gyakorlati következmény: Magas kockázatú felhasználási esetekre érdemes Azure OpenAI-t, Google Vertex-et vagy Mistral-t választani EU adatrezidenciával — vagy lokális modellt futtatni teljes kontrollal.

Szektorspecifikus adatvédelmi szempontok

Szektor Érzékeny adattípus Ajánlott megoldás
Egészségügy Betegadatok, diagnózis, kezelési terv Lokális modell vagy Azure OpenAI (EU) + anonimizálás
Pénzügy Tranzakciók, számlaszámok, hitelinfo Azure OpenAI vagy Mistral (EU) + PII masking
Jogi Szerződések, ügyfél-ügyvéd privilegizált info Lokális modell vagy VPN-en keresztüli EU API
Szépségipar / szolgáltatás Ügyféladatok, előjegyzések, preferenciák Cloud API DPA-val (alacsonyabb kockázat)
Marketing Kampány-adatok, célcsoport-profilok Bármely cloud API (általában nem érzékeny)

A döntési fa

                    ┌──────────────────────────┐
                    │  Tartalmaz az adat PII-t  │
                    │  vagy érzékeny adatot?     │
                    └─────────┬────────────────┘
                              │
               ┌──────────────┴──────────────┐
               │                             │
               ▼                             ▼
        ┌─────────────┐              ┌──────────────┐
        │     IGEN     │              │     NEM      │
        └──────┬──────┘              └──────┬───────┘
               │                            │
               ▼                            ▼
    ┌────────────────────┐         Bármely cloud API
    │ Anonimizálható-e   │         (OpenAI, Google,
    │ a prompt előtt?    │          Anthropic stb.)
    └─────────┬──────────┘
              │
    ┌─────────┴─────────┐
    │                   │
    ▼                   ▼
┌────────┐        ┌──────────┐
│  IGEN  │        │   NEM    │
└───┬────┘        └────┬─────┘
    │                  │
    ▼                  ▼
 Anonimizálás +    ┌──────────────────────┐
 Cloud API         │ EU adatrezidencia    │
 (költséghatékony)  │ szükséges?           │
                   └──────────┬───────────┘
                              │
                   ┌──────────┴──────────┐
                   │                     │
                   ▼                     ▼
            ┌─────────────┐     ┌──────────────────┐
            │    IGEN     │     │      NEM         │
            └──────┬──────┘     └───────┬──────────┘
                   │                    │
                   ▼                    ▼
            Azure OpenAI /        Lokális modell
            Google Vertex /       (Ollama + Llama 3.3)
            Mistral (EU)          Teljes adatkontroll

10. Lokális modellek — Mikor éri meg?

Az előnyök

  1. Teljes adatkontroll: Egyetlen byte sem hagyja el a szervezet hálózatát. Nincs harmadik fél adatfeldolgozó, nincs DPA szükséglet.
  2. Nulla marginális API költség: A hardver egyszeri beruházás után nincs per-token díj. 10 000+ napi interakciónál drasztikusan olcsóbb, mint a cloud.
  3. Offline működés: Internetkapcsolat nélkül is működik — kritikus gyártási, egészségügyi vagy katonai környezetben.
  4. Testreszabhatóság: Fine-tuning a saját adatokra, saját szókincsre, saját domain-re. A modell pontosan a vállalat nyelvezetét tanulja meg.
  5. Vendor-függetlenség: Nincs API rate limit, nincs áremelési kockázat, nincs szolgáltatás-megszüntetés.

A hátrányok

  1. Alacsonyabb teljesítmény: A legjobb nyílt modell (Llama 3.3 70B) is elmarad a frontier modellektől komplex reasoning-ban ~ 15-25%-kal.
  2. Hardver beruházás: Egy 70B modell futtatásához ~40GB VRAM szükséges (pl. 2× NVIDIA A100 vagy 1× H100). Ez 10 000-30 000 EUR egyszeri költség.
  3. Karbantartás: A modellfrissítés, kvantálás, deployment és monitoring a saját DevOps csapat feladata.
  4. Gyengébb magyar nyelv: A nyílt modellek jellemzően angol-centrikusak; a magyar nyelvi minőség elmarad a GPT-4o vagy Claude szintjétől.
  5. Korlátozott tool calling: A nyílt modellek function calling képessége megbízhatatlanabb — strukturált output validáció szükséges.

Mikor éri meg a lokális modell?

Forgatókönyv Lokális modell? Magyarázat
10 000+ napi interakció Igen A hardver 3-6 hónap alatt megtérül a cloud API költséghez képest
Érzékeny adatok (egészségügy, jogi) Igen Compliance követelmény, adat nem hagyhatja el a szervezetet
Offline működés szükséges Igen Egyetlen alternatíva internet nélküli környezetben
KKV, napi 100 interakció Nem Cloud API havi $5-50 — hardver beruházás nem térül meg
Tool calling kritikus Nem A nyílt modellek function calling-ja pontatlanabb; cloud API megbízhatóbb
Magyar nyelv fontos Feltételes Nyílt modellek gyengébbek magyarul; fine-tuning segíthet, de costly

A hibrid megközelítés

A legtöbb vállalat számára a hibrid megközelítés az optimális:

  • Érzékeny adatok → lokális modell (Llama 3.3 / Qwen 2.5, Ollama-n)
  • Általános feladatok → cloud API (GPT-4o-mini, GPT-4o, Claude Sonnet)
  • A routing réteg dönti el, hogy melyik kérés melyik irányba megy — az érzékeny adatokat tartalmazó promptok automatikusan a lokális modellhez kerülnek

Ez biztosítja a legjobb egyensúlyt: a cloud modellek kiváló minőségét az általános feladatokra, és a lokális modellek teljes adatkontrollját az érzékeny esetekre.


11. A döntési mátrix — Összefoglalás

Az egyoldalas döntési tábla

Ha a prioritás... Ajánlott szolgáltató Ajánlott modell
Legalacsonyabb költség Google Gemini 2.0 Flash
Legjobb általános minőség OpenAI GPT-4o
Legjobb reasoning / logika OpenAI o3
Legjobb kódgenerálás Anthropic Claude 4 Opus
Legjobb ár/érték arány OpenAI GPT-4o-mini / o4-mini
Legjobb multimodális Google Gemini 2.5 Pro
Legjobb tool calling OpenAI GPT-4.1
Legjobb magyar nyelv OpenAI GPT-4o
EU adatrezidencia (cloud) Mistral / Azure / Vertex Mistral Large 2 / GPT-4o (Azure) / Gemini Pro (Vertex)
Teljes adatkontroll Lokális Llama 3.3 70B (Ollama)
Legnagyobb kontextusablak Google / Meta Gemini 2.5 Pro (1M) / Llama 4 Scout (10M)
Leggyorsabb válaszidő Google / OpenAI Gemini 2.0 Flash / GPT-4o-mini

A CTO 5 lépéses akciótervje

1. lépés — Audit (1. hét) Térképezze fel a jelenlegi és tervezett AI felhasználási eseteket. Készítsen listát minden feladatról, ahol LLM-et használ vagy tervez: chatbot, email, CRM integráció, elemzés, kódgenerálás stb. Dokumentálja minden feladathoz a jelenlegi modellt, a havi mennyiséget és a minőségi elvárásokat.

2. lépés — Osztályozás (2. hét) Sorolja be minden feladatot a három komplexitási szintbe (egyszerű / közepes / komplex) és határozza meg a kritikus dimenziókat: kell-e tool calling? Magyar nyelv fontos? Érzékeny adatokat kezel? Milyen latency elfogadható? Ez a mátrix lesz a modellválasztás alapja.

3. lépés — Modell-hozzárendelés (3. hét) A döntési tábla és a benchmark-ok alapján rendeljen minden feladatcsoporthoz optimális modellt és egy alternatívát. Tesztelje mindegyiket 50-100 valós kérdéssel, és mérje az eredményt: minőség (1-5 skála), latency, költség. Válasszon.

4. lépés — Provider-agnosztikus architektúra (4-6. hét) Építsen olyan rendszert, amelyben a modellváltás konfigurációs változtatás, nem kód-újraírás. Használjon egységes API gateway-t (pl. LiteLLM, OpenRouter) vagy saját absztrakciós réteget. Implementálja a routing logikát (szabályalapú + LLM classifier). Építsen be fallback-et: ha az elsődleges provider nem elérhető, automatikusan váltson a másodlagosra.

5. lépés — Mérés és iteráció (folyamatos) Monitorozza a költséget, a latency-t, a minőséget és a felhasználói elégedettséget modell-szinten. Negyedévente értékelje újra a modelleket — az LLM piac 3-6 havonta jelentősen változik. Legyen kész gyorsan váltani, ha jobb ár/érték kombináció jelenik meg.

Záró gondolat

A modellválasztás nem egyszeri döntés — hanem folyamatos optimalizáció. A piac 3-6 havonta jelentősen változik: új modellek jelennek meg, árak csökkennek, képességek javulnak. Aki provider-agnosztikus architektúrát épít feladatalapú routing-gal, az mindig a legjobb ár/teljesítmény kombinációt használja — és amikor egy jobb modell megjelenik, percek alatt váltani tud. A cél nem az, hogy ma megtaláljuk a tökéletes modellt, hanem hogy olyan rendszert építsünk, amely rugalmasan alkalmazkodik a gyorsan változó AI világhoz.


Ez a tanulmány a 2026 Q1-es modellkínálat, publikus benchmark-ok, API árazás és valós implementációs tapasztalatok alapján készült. Szeretné megtudni, melyik modell-kombináció illik legjobban az Ön vállalatához? Vegye fel velünk a kapcsolatot — segítünk megtalálni az optimális egyensúlyt a költség, a teljesítmény és a biztonság között.