Vissza a blogra
AI biztonságAdatvédelemVállalati AIRAGAdatáramlás

Miért a biztonság az AI bevezetés legfontosabb kérdése? — Adatáramlás egy AI rendszerben

ÁZ&A
Ádám Zsolt & AIMY
||4 perc

Ez a cikk az AI Biztonság és Adatvédelem Vállalati Környezetben tanulmány 1. része. További részek: Hat biztonsági pillér, GDPR, EU AI Act és támadási felületek, Felhő vs. on-premise és checklist.


Miért pont a biztonság a legfontosabb kérdés?

Az AI vállalati bevezetésének legnagyobb akadálya nem a technológia — hanem a bizalom.

Az IBM 2025-ös felmérése szerint a vállalati döntéshozók 68%-a adatvédelmi aggályokat nevezi meg az AI bevezetés elsődleges gátjaként. Nem a költség, nem a technikai komplexitás, nem a munkatársi ellenállás — hanem az a kérdés: biztonságban vannak-e az ügyfeleink adatai?

Ez jogos aggodalom. Egy AI ágens — ahogyan azt az előző cikkeinkben bemutattuk — hozzáfér a CRM-hez, olvashatja az emaileket, kezelheti a naptárat, sőt, emailt is küldhet. Ez az a képesség-halmaz, ami az AI-t igazán hasznossá teszi — de egyben az is, ami a biztonsági kockázatot jelenti.

A jó hír: a kockázatok kezelhetők. A kérdés nem az, hogy van-e kockázat (van — ahogy minden IT rendszernél), hanem az, hogy milyen keretrendszerben kezeljük.


A három kérdés, amit minden vezető feltesz

„Az ügyfeleink adatai kikerülnek a cégből?"

Rövid válasz: attól függ, hogyan építjük fel a rendszert — de a jó hír, hogy teljes kontroll alatt tartható.

Amikor az AI ágens egy kérdésre válaszol, a következő történik:

  1. A felhasználó üzenete eljut az AI motorhoz
  2. Az AI motor kikeresi a releváns adatokat az adatbázisból
  3. Az adatokat + a kérdést elküldi az LLM-nek (pl. OpenAI GPT-4o vagy Anthropic Claude)
  4. Az LLM válaszol
  5. A válasz visszajut a felhasználóhoz

A kritikus lépés a 3. pont: az LLM-hez küldött adat elhagyja a mi infrastruktúránkat, és egy külső szolgáltató szerverére kerül.

De:

  • Az üzleti API-k (OpenAI API, Anthropic API) nem használják az adatokat modelltraining-re — ez szerződésileg garantált
  • Csak a releváns kontextus megy ki, nem az egész adatbázis (ezt a RAG pipeline biztosítja)
  • On-premise alternatíva létezik: helyi modellel (Llama, Mistral) az adat soha nem hagyja el a hálózatot

„Ki látja az ügyféladatokat?"

Egy jól tervezett multi-tenant rendszerben:

  • Minden ügyfél / vállalat csak a saját adatait látja
  • Az AI ágens csak azokhoz az eszközökhöz fér hozzá, amelyeket a felhasználó engedélyezett
  • Az adminisztrátor nem fér hozzá az ügyfelek beszélgetéseihez (hacsak nem explicit audit céllal)
  • Az LLM szolgáltató (OpenAI, Anthropic) nem olvas bele az adatokba — automatizált feldolgozás, emberi szemmel nincs hozzáférés

„Mi történik, ha valami elromlik?"

Az AI rendszer nem tévedhetetlen — de a hibák kezelhetők:

  • Audit log: Minden AI akció naplózott — ki kérte, mit csinált, milyen adatokat használt
  • Visszavonhatóság: A magas kockázatú műveletek (email küldés, számla kiállítás) jóváhagyáshoz kötöttek
  • Izolált hatáskör: Egy ágens hibája nem terjed át más területekre
  • Fallback: Ha az AI bizonytalan, emberi munkatárshoz eszkalál

Hogyan működik az adat útja egy AI rendszerben?

A biztonság megértéséhez először az adat útját kell látnunk:

┌─────────────────────────────────────────────────────────────────┐
│                     A MI INFRASTRUKTÚRÁNK                       │
│                                                                  │
│  Felhasználó ──▶ API Gateway ──▶ AI Service                    │
│                  (hitelesítés)     │                              │
│                                   ├──▶ CRM adatbázis (PostgreSQL)│
│                                   │    └─ Kontaktok, ügyletek    │
│                                   │                              │
│                                   ├──▶ Knowledge Graph           │
│                                   │    └─ Emailek, események     │
│                                   │                              │
│                                   ├──▶ RAG Pipeline              │
│                                   │    └─ Releváns kontextus     │
│                                   │       kiválasztás (max 3000  │
│                                   │       token)                 │
│                                   │                              │
│                                   └──▶ Kontextus összeállítás    │
│                                        (system prompt +          │
│                                         releváns adat +          │
│                                         felhasználói kérdés)     │
│                                                                  │
│  ┌───────────────────────────────────────────────────────────┐  │
│  │  ITT HAGYJA EL AZ ADAT A MI RENDSZERÜNKET:              │  │
│  │                                                           │  │
│  │  Kontextus (max ~3000 token) ────▶ LLM API (OpenAI /    │  │
│  │                                     Anthropic / Google)   │  │
│  │                                                           │  │
│  │  ◀── Válasz szöveg ◀── LLM                              │  │
│  └───────────────────────────────────────────────────────────┘  │
│                                                                  │
│  AI Service ──▶ Válasz mentése ──▶ Válasz a felhasználónak     │
└─────────────────────────────────────────────────────────────────┘

A kulcs megértés: Nem az egész adatbázis megy ki az LLM-hez — csak a RAG pipeline által kiválasztott, releváns kontextus-darabka. Ha az ügyfél 10.000 kontaktot tárol a CRM-ben, ebből talán 2-3 kontakt adata kerül az LLM-hez, sőt, azoknak is csak az adott kérdéshez szükséges részei.


A következő részben: A hat biztonsági pillér — hitelesítéstől a human-in-the-loop-ig.

Megosztás:
Vissza a blogra