2023-ban egy New York-i ügyvéd beadott egy bírósági periratot, amelyben hat jogesetre hivatkozott. A bíró az iratokat olvasva egyikre sem talált rá. Sehol. Nem léteztek. Az ügyvéd a ChatGPT-t használta, az pedig magabiztosan kitalálta őket — pontos esetszámmal, idézetekkel, mindennel. Az ügyvéd kapott egy 5000 dolláros bírságot és egy hosszú szakmai beszélgetést a kollégákkal.
Az igazán érdekes része ennek nem az, hogy az AI tévedett. Hanem hogy az ügyvéd elhitte.
Miért nem ez az AI baja
Nagyon szeretem azt a megfogalmazást, hogy az AI „hazudik". Csak nem igaz. A hazugsághoz tudni kell, hogy mi az igazság, és tudatosan eltérni tőle. A nyelvi modell nem ezt csinálja.
A nyelvi modell egyetlen dolgot csinál: a beérkező szövegre megjósolja a legvalószínűbb folytatást. Ha azt kérdezed, „Ki írta a Háború és békét?", akkor nem keres rá egy listára. Statisztikai mintákból összerakja, hogy az ilyen kérdésekre milyen szöveg szokott jönni. Ha eleget látott a Tolsztoj nevet ilyen környezetben, akkor azt fogja mondani. Ha keveset látott — vagy ellentmondó adatot —, akkor is mond valamit. Mert ez a feladata. Csak az lesz az, hogy „Dosztojevszkij".
Pontosan ugyanaz a mechanizmus produkálja a helyes és a hibás választ. Belülről nézve nincs különbség. Ezért nem tud a modell maga jelezni, hogy bizonytalan — nem azért, mert nem akarja, hanem mert nem érzi.
A baj nem a hallucináció, hanem a vakhit
Ez a kulcs. A hallucináció nem szüntethető meg. Csökkenthető, körülbástyázható, validálható, de teljesen sose tűnik el. A szakmában régóta ismert, mérik, kutatják. Az igazi probléma ott kezdődik, amikor egy szervezet úgy építi be az AI-t a folyamatba, mintha nem hallucinálna.
Az ügyvéd hibája nem az volt, hogy ChatGPT-t használt. Hanem hogy leadta beadványként anélkül, hogy a hivatkozásokat ellenőrizte volna. Ha az AI-t felhasználta volna első draftnak, és utána egy joghalász adatbázisban ellenőrzi a hat hivatkozást, ez az egész nem történik meg. 5 perc munka. Nem volt rá ideje, mert „úgyis stimmel".
És ez nem ügyvédi probléma. Pontosan ugyanezt látom enterprise környezetben, hetente:
- A pénzügyes az AI által összeállított havi riportot változtatás nélkül küldi tovább a vezérigazgatónak.
- A HR-es az AI által generált álláshirdetést a szabályozási megfelelőség ellenőrzése nélkül teszi ki.
- A support-vezető az AI által javasolt választ a chatbot-felületen közvetlenül az ügyfélnek kiküldi, validáció nélkül.
Mindhárom esetben működik az AI. A 90%-os esetekben jól is. A baj a maradék 10%-kal van — és azzal, hogy nincs réteg, ami észrevenné.
Mit ér a 90% sikerráta?
Ez a kérdés többet ér, mint a teljes AI ROI-vita. „Az AI 90%-ban helyes" — szuper. Mit csinálsz a 10%-kal?
Marketing szövegnél: az emberi review elkapja. 10% hibás, 5 perc kijavítani, leadás. Élvezheted az autonómiát.
Belső chatbotnál: a 10% kellemetlen, de javítható. RAG-gel, forrás-citálással, „bizonytalan esetben emberhez" handoff-fal levihető 1-2%-ra.
Gyógyszerdózis-javaslatnál: a 10% emberek halnak meg miatta. Itt a 90% nem siker. Itt a 99,99% is kérdéses. Ezért nincs teljesen autonóm orvosi AI a piacon.
A valódi kérdés tehát soha nem az, hogy milyen pontos az AI. Hanem hogy mi a hiba költsége, és milyen rétegben kapod el. Ha alacsony a költség és gyorsan elkapod, simán mehet az AI önállóan. Ha magas a költség, vagy hetek múlva derül csak ki — akkor nem mindegy, hogy mit építesz köré.
A három dolog, ami sokkal többet ér mint hangzik
Évek óta ugyanaz a három dolog jön elő, mint a hallucináció elleni leghasznosabb védelem. Egyik sem szexi. Egyik sem fog konferencia-előadást nyerni. De együttesen levihetik a hibaarányt egy teljesen elfogadható szintre.
Adj a modellnek forrást, ne hagyd, hogy emlékezzen. Ezt hívják RAG-nek, és gyakorlatilag az egész „enterprise AI" iparág erre épül. Ha a kérdést a saját dokumentumaidból válaszoltatod meg, és a választ forrás-hivatkozással kéred, akkor a hallucinációk nagy része eleve nem keletkezik. Ami mégis, az a hivatkozás-ellenőrzéssel kiszűrhető.
Ha bizonytalan, mondja ki. A legtöbb prompt nem tartalmazza azt a mondatot, hogy „ha nem tudod biztosan, mondd, hogy nem tudod". Pedig ez egy mondat. Strukturált outputtal még tovább lehet menni: kérj egy confidence mezőt, és ha alacsony, ne is mutasd meg az embernek, küldd validátorhoz.
Ne hagyd számolni. A modell kiválóan ír, és csapnivalóan számol. Ha matek kell, dátum kell, valós-idejű adat kell — adj neki tool-t. Hívja meg a kalkulátort, az adatbázist, a kereső API-t. Ezek sosem fognak hallucinálni, mert nem találnak ki semmit, csak végrehajtanak.
A felelős felnőtt
Erre szoktam visszatérni minden alkalommal, amikor valaki azt mondja, „de hát az AI néha tévedett". Igen. Mindig fog. A kérdés nem ez, hanem az: ki a felelős felnőtt mellette?
A modell egy nagyon kreatív gyerek. Ír verset, megcsinál egy összefoglalót, javasol egy megoldást, kitalál egy stratégiát. De nem tudja, mi az igaz és mi a kitalált — és ezt soha nem fogja megtanulni egyedül. A felnőtt te vagy. Az architektúra, amit építesz. A validáció, amit nem hagysz ki. A human-in-the-loop, amit kötelezővé teszel a kritikus pontokon.
A 2023-as ügyvéd nem volt rossz ember. Nem akart hazudni a bíróságnak. Csak elfelejtette, hogy mellette volt a felnőtt szerep. Nem volt ott senki más, aki ránézett volna a hat hivatkozásra. Magára számított volna, és az AI-ra. És az AI bizonytalanul mosolygott rá vissza, mintha tudná.
Ha mélyebbre mennél: a teljes mitigációs eszköztárat — a hallucináció 5 típusát, RAG kód-példákat, structured output sémákat, logprobs-alapú konfidencia-mérést, LLM-as-a-judge mintákat, production checklistet és üzleti kockázat-mátrixot — a tudástári AI hallucináció mitigáció anyagban dolgoztuk ki.