Vissza a tudásbázisba
WhitepaperVoice AITelefonos AISTTTTSLLM streamingContact centerContainment rateWarm handoffVapiRetellLiveKitElevenLabsDeepgramEU AI ActGDPRIVR replacementOutbound callingLead qualification

Voice AI ágensek — telefonos asszisztensek a gyakorlatban

ÁZ&A
Ádám Zsolt & Airon
||11 perc

Telefonon beszélni egy gépi hanggal régen frusztráló volt. 2025-re olyan lett, hogy a hívó fél fele nem veszi észre, hogy nem emberrel beszélt.


Vezetői összefoglaló

A telefonos ügyfélszolgálat 40 éve ugyanaz: IVR menük, várólista, „nyomja meg az 1-est". A 2020-as évek elejéig az „AI hangrobot" szinonimája volt a „rossz élmény".

2024–25 között ez megváltozott. Három technológiai ugrás találkozott:

  • STT (speech-to-text) ~95–98% pontosság real-time-ban (Deepgram Nova-2, OpenAI Whisper-v3)
  • LLM-ek streaming módban 300–600ms first-token latency-vel (Groq, fast inference)
  • TTS (text-to-speech) természetes hanggal (ElevenLabs, Azure Neural, Cartesia)

Ezek együtt end-to-end alatti 1 másodperc latency-t adnak — vagyis természetes beszélgetést. És ezzel a voice AI stratégiai eszközzé vált, nem csak technológiai érdekességgé.

Ez a whitepaper arról szól, mikor érdemes voice AI-ba fektetni, mit nyersz vele, mit veszítesz, és mikor ne csináld.


1. Mi az a voice AI ágens?

Egy voice AI ágens telefonon vagy hangos interfészen beszélget a felhasználóval, természetes nyelvi módon, valós időben. Nem egy bot, ami felolvas előre megírt szövegeket — hanem egy interaktív, kontextus-tudatos rendszer.

A 4 fő komponens

Hívó beszél
   ↓
[STT] Speech-to-text — folyamatos átirat
   ↓
[LLM] Nyelvi modell — megérti, válaszol
   ↓
[TTS] Text-to-speech — természetes hang
   ↓
Hívó hallja

Ehhez jönnek a kiegészítő rétegek:

  • Telefon-integráció: Twilio, Vonage, Plivo
  • VAD (Voice Activity Detection): mikor fejezte be a hívó?
  • Interruption handling: mi van, ha közbevág?
  • Tool calling: CRM-lekérdezés, foglalás, adatbázis
  • Hangulat-detekció: bosszankodik-e a hívó? Eszkalálni kell?

Két fő paradigma

ParadigmaPéldaMikor?
Cascade (STT→LLM→TTS)LiveKit, Vapi, RetellÁltalános, rugalmas, jól skálázható
End-to-end voice modelGPT-4o realtime, Gemini LiveTermészetesebb prozódia, drágább

A cascade modell ma a default: olcsóbb, controllálhatóbb, debuggolhatóbb. Az end-to-end modell érzelmileg gazdagabb, de drága és kevésbé predikálható.


2. Hol működik jól — és hol nem?

Sweet spot use case-ek

1. Inbound — gyakori, repetitív kérdések

  • Nyitvatartás, cím, általános info
  • Foglalás státusza, számla állása
  • „Hol van a csomagom?"
  • Egészségügyi időpontfoglalás
  • Étterem-foglalás

A jellemző: a hívók 80%-a ugyanazt kérdezi. Az ember-agent feleslegesen drága rá.

2. Outbound — információs hívások

  • Időpont-emlékeztető
  • Számla-fizetési emlékeztető
  • Visszahívás-egyeztetés
  • Elégedettségi felmérés
  • Termék-frissítés értesítés

A jellemző: nem komplex kérés, csak konzisztens kommunikáció kell tömegesen.

3. Lead qualification — sales support

  • Beérkező lead első felmérése
  • Igényfelmérés (BANT: Budget, Authority, Need, Timeline)
  • Időpont-egyeztetés sales-essel

A jellemző: az emberi sales-es drága, és az első hívás 30%-a nem releváns lead. AI szűr.

4. Bilingvis ügyfélszolgálat

  • Több nyelv egyszerre, automatikusan
  • Nyelv-detekció hívás közben
  • Kisebb városban / piacokon nincs anyanyelvi agent

Nehezebb use case-ek

Use caseMiért nehéz?
Krízis-vonal, mentálhigiénéEtikai kockázat: AI nem ismeri fel pontosan a krízist
Komplex jogi/orvosi tanácsadásFelelősségi kérdések, pontosság kritikus
Idős, kognitívan gyengébb hívókNehéz, ha közbevág, ismétel, vagy nem érti az AI-t
Erősen érzelmi panaszhívásokAz AI „üresnek" hat, eszkalációt provokál
Komplex termékkonfigurációSok if-else, beszéddel rosszul navigálható

A szabály: ha az ember-agent szerepe érzelmi vagy bizalmi — ne automatizáld teljesen. Ha a szerepe információs vagy eljárási — automatizáld.


3. Az 5 stratégiai döntés a bevezetés előtt

Döntés 1: Build, buy, vagy hibrid?

MegközelítésElőnyHátrányKinek?
Buy (Vapi, Retell, Bland)Gyors indulás (1–2 hét)Kevésbé testreszabható, vendor lock-inStandard use case-ek, korai validáció
Build on platform (LiveKit, Twilio + saját logika)Rugalmas, brand-konzisztens2–4 hónap devEgyedi workflow-k, már van AI-csapat
Build from scratchTeljes kontroll6–12 hónap, drágaCsak ha core üzlet (pl. contact center vendor vagy)

90%-os szabály: ha nem AI-platform céged van, buy or build-on-platform. A scratch buildinget inkább kerüld.

Döntés 2: Mit automatizálsz, mit hagysz embernek?

A „containment rate" = hányszor old meg a hívást az AI ember nélkül. Iparági átlag:

  • Jó voice AI: 60–75% containment rate
  • Kiemelkedő: 80–85%
  • Felső plafon: ~90% (a többi tényleg ember kell)

Stratégiai döntés: NE célozz 100%-ot. A legjobb voice AI rendszer felismeri, mikor nem tud segíteni, és szépen átadja a hívást embernek („warm handoff" beszélgetés-kontextussal együtt).

Döntés 3: Hang és persona

Ez nem trivialitás. A hangod brand asset lesz.

  • Női vs. férfi hang: ipar- és kultúrafüggő. Banki: gyakran férfi (autoritás). Egészségügy: gyakran női (empátia). Magyar piacon érdemes A/B tesztelni.
  • Életkor: 25–35 közötti hang általában „univerzálisan elfogadott".
  • Akcentus: magyar piacon natív magyar TTS kell. Az „angol akcentusos magyar" katasztrofális.
  • Tempo: lassabb beszéd jobb idősebb hívóknál, gyorsabb sales-ben.
  • Disclosure: a hívó tudja, hogy AI-val beszél? Az EU AI Act 2025-től kötelezővé teszi a disclosure-t.

Döntés 4: Latency vs. minőség trade-off

ArchitektúraLatency (P50)MinőségKöltség
Olcsó STT + GPT-4o-mini + standard TTS1.5–2.5sKözepes$0.05–0.10/perc
Premium STT (Deepgram) + GPT-4o + ElevenLabs700ms–1.2sMagas$0.15–0.30/perc
End-to-end (GPT-4o realtime)400–800msNagyon magas$0.30–0.60/perc

Empirikus szabály: 1.5 másodperc fölött a hívók kezdik „roboticnak" érezni. A premium stack ezt biztonsággal alatt tartja.

Döntés 5: Compliance és felelősség

  • GDPR: hangfelvétel = személyes adat. Tárolási idő, hozzájárulás kell.
  • Hangfelvétel disclosure: „Ez a hívás minőségellenőrzés céljából rögzítésre kerülhet."
  • AI disclosure (EU AI Act): „Ön egy mesterséges intelligencia asszisztenssel beszél."
  • PII redaction: a felvételekből / transzkriptokból kártyaszám, TAJ szám stb. automatikusan redactolva.
  • Felelősség: ki felel, ha az AI hibás info ad? A vendor szerződés általában a tiéd korlátozza — olvasd el.

4. Üzleti ROI — mennyit ér valójában?

Példaszámítás: közepes méretű ügyfélszolgálat

Kiindulás:

  • Napi 500 inbound hívás
  • Átlagos hívás-hossz: 4 perc
  • 5 agent (havi 600.000 Ft összköltség / fő = 3M Ft / hó)
  • Hívás-feldolgozási költség: ~600 Ft / hívás

Voice AI bevezetés (75% containment):

  • 375 hívás AI-val: 375 × 4 perc × $0.15 = $225/nap ≈ 80.000 Ft/nap ≈ 2,4M Ft/hó
  • 125 hívás emberrel: 2 agent elég → 1,2M Ft/hó
  • Összesen: 3,6M Ft/hó

Hmm — drágább? Nem feltétlen. Nézzük újra a teljes képet:

TételCsak emberVoice AI + ember
Direkt költség3M Ft / hó3,6M Ft / hó
Hívás-elérhetőség8h / nap24/7
Várakozási idő3–8 perc<5 másodperc
KonzisztenciaVáltozó100%
Skálázódás peak-enBukásTrivialitás
Munkavállalói fluktuáció30–50% / évn/a
Nyelvek1–230+

A „drágább" csak direkt költségen. Ha hozzáadod:

  • A 24/7 elérhetőség miatti +15–25% lead-konverziót (sales esetén)
  • A csökkent várakozás miatti +10 NPS pontot
  • A csökkenő fluktuáció miatti HR-megtakarítást
  • A peak-kezelés miatti elveszett hívások csökkenését (-30–50%)

→ ROI 3–6 hónap alatt pozitív a legtöbb use case-ben.


5. Iparági benchmarkok (2025–26)

IparágTipikus containmentTipikus latencyDomináns use case
Étterem80–90%1.0–1.5sFoglalás, menü
Egészségügy60–70%1.2–1.8sIdőpontfoglalás, recept
E-commerce70–80%1.0–1.5sCsomag-státusz, return
Bank50–65%1.5–2.0sEgyenleg, kártya-blokk
Insurance55–70%1.5–2.0sKárbejelentés, kötvény-info
Real estate75–85%1.0–1.5sLead qualifikáció, megtekintés

A bank/insurance alacsonyabb containment-je a compliance és a komplex termékek miatt van — szándékosan eszkalál emberhez nagyobb arányban.


6. A 7 leggyakoribb bevezetési hiba

Hiba 1: Mindent automatizálni

A „100% AI" álomprojekt mindig kudarc. A 90% sweet spot van, de a 100% nincs. Az átadás-pillanat tervezése kötelező.

Hiba 2: Rossz hang választás

Egy 65 éves bankügyfél nem ugyanaz, mint egy 25 éves tech-startup vásárló. A célközönséghez illeszd a hangot.

Hiba 3: Nincs warm handoff

Az AI átadja a hívást embernek — de nem adja át a kontextust. Az ember-agent „elölről kezdi" → katasztrofális UX. Mindig legyen kontextus-átadás (transcript, summary, már gyűjtött adatok).

Hiba 4: Csak inbound, soha outbound (vagy fordítva)

A voice AI legjobban kombinálva működik: ha az ügyfél hív, vagy ha mi hívjuk őt. A két irányt együtt tervezd.

Hiba 5: Túl rugalmas / túl szigorú flow

  • Túl rugalmas: a hívó eltéved, a beszélgetés végtelen lesz
  • Túl szigorú: a hívó frusztrált, mert az AI nem érti a változatosságot

A megoldás: fő flow + escape hatches. A hívó bármikor mondhatja: „beszélni akarok valakivel" → átadás.

Hiba 6: Nincs monitoring és evaluation

Az AI-beszélgetéseket logolni, címkézni, átnézni kell. Hetente mintát venni belőle. Ha ezt nem teszed, fogalmad sem lesz, milyen az élmény.

Hiba 7: A „fake human" csapda

Az AI letagadja, hogy AI. A hívó észreveszi. Bizalom-vesztés.

Vagy az AI emberinek hangzik annyira, hogy a hívó eladást ír alá, ami nem volt érvényesen kommunikálva.

A megoldás: explicit AI-disclosure a hívás elején. Ez nem csökkenti a containment rate-t (kutatások szerint), és kötelező lesz az EU-ban.


7. A roadmap — hogyan kezdj hozzá?

Hónap 1: discovery

  • Hívások elemzése: top-10 hívásfajta listája, az AI-ra alkalmas %-uk
  • Containment target meghatározása (realisztikus: 50–70% az első körben)
  • Vendor evaluation (3–5 platform tesztje)

Hónap 2: pilot

  • 1 use case, 1 nyelv, 1 mini-flow
  • Belső tesztelés (saját csapat)
  • Külső pilot (10–50 valós hívás, opt-in alapon)

Hónap 3: tuning + scale

  • Eredmények alapján flow-finomítás
  • Containment rate, NPS, ASA (average speed of answer) mérés
  • Skálázás: több hívásfajta, több nyelv, több órasáv

Hónap 4–6: optimalizáció

  • A/B testing: hangok, prompt-ok, flow-k
  • Outbound integráció
  • CRM-integráció mélyítése
  • Continuous improvement: a top-10 „failed" beszélgetés kategória heti review-ja

8. A jövő: voice AI 2027–2030

Mire számíthatunk a következő 3–5 évben?

  • Real-time multilingual switching — egy beszélgetésen belül nyelvi váltás folyamatos
  • Érzelmi modellezés — a TTS érzékelhetően érzelmi (öröm, sajnálat, izgatottság)
  • Multimodális — a hívás közben SMS / e-mail / app-push szinkronizálva
  • Personalizált hang — minden ügyfél a számára „kellemes" hangot kapja
  • Real-time empátia-detekció — a rendszer észleli a frusztrációt, automatikusan eszkalál
  • Voice clone disclosure — szabályozás körülveszi azt, mikor szabad ismert hangot klónozni

A nagy kérdés nem technológiai: mennyit fogadunk el gépi hangtól? Generációs eltérés lesz. A Z generáció már most preferálja az AI-t több use case-ben (gyorsabb, nem kell „kéretni magát"). Az idősebb generáció bizalmatlan — itt bizonyítani kell az értéket.


Összefoglalás: 7 takeaway

  1. A voice AI 2024–25-re érte el a természetes beszélgetés szintjét — STT + streaming LLM + TTS együtt sub-1s latency.

  2. Sweet spot: repetitív inbound, információs outbound, lead qualification, 24/7 elérhetőség. NEM sweet spot: érzelmi/bizalmi hívások.

  3. Buy or build-on-platform, ne scratch — kivéve ha core üzlet az AI-platform.

  4. Ne célozz 100% automatizációt — a 70–85% containment a realista cél, a maradékot warm handoff-fal kell átadni.

  5. ROI 3–6 hónap alatt pozitív, ha a teljes képet nézed (24/7 elérhetőség, NPS, peak-kezelés, fluktuáció).

  6. A 7 hiba kerülendő: 100% automation, rossz hang, nincs warm handoff, nincs outbound, rossz flow rigiditás, nincs monitoring, fake human csapda.

  7. A 4–6 hónapos roadmap (discovery → pilot → tuning → optimization) kisebb kockázattal vezet eredményhez, mint a „nagy bevezetés".

A voice AI nem helyettesíti az emberi ügyfélszolgálatot — felemeli. Az ember-agentnek a komplex, érzelmi, bizalmi hívásokra marad ideje, miközben a repetitív 70% terhet az AI veszi le. Egy modern, hatékony contact center 2026-ban nem lehet voice AI nélkül — ahogy 2010-ben sem lehetett e-mail-csatorna nélkül.

A kérdés nem az, hogy bevezeted-e. Hanem hogy mikor, és milyen jól.


Tervez voice AI bevezetést — contact centerbe, ügyfélszolgálatba, outbound kampányba?

Az Atlosz csapata végigvisz a teljes úton: discovery (mely hívásfajták érettek), vendor-választás (Vapi / Retell / LiveKit / saját stack), magyar nyelvű hang és persona kialakítása, CRM- és telefon-integráció (Twilio, Vonage), warm handoff folyamat, GDPR + EU AI Act compliance, valamint a containment rate folyamatos optimalizálása.

Beszéljünk a voice AI projektedről →