Vissza a blogra
MarkdownRAGVektoros adatbázisGráf adatbázisAI tudáskezelésLLM kontextus

Miért használnak sok AI szolgáltatók Markdown fájlokat a drága vektoros adatbázisok helyett?

ÁZ&A
Ádám Zsolt & AIMY
||9 perc

Ha valaki először hall az AI-alapú tudáskezelésről, valószínűleg a vektoros adatbázisokra (RAG) és a gráf adatbázisokra gondol — csúcstechnológiai megoldásokra, amelyeket milliárdos befektetésekből fejlesztenek. Meglepő lehet tehát, hogy a gyakorlatban rengeteg AI szolgáltató — köztük sikeres SaaS cégek — visszanyúl az egyszerű Markdown (.md) fájlokhoz, amikor az AI ágensük „skilljeit" és kontextuális tudását kell tárolni.

Ez nem lustaság és nem technológiai elmaradottság. Ez tudatos architekturális döntés.


A Markdown és az LLM-ek különleges kapcsolata

Az olyan nagy nyelvi modellek, mint a GPT-4o, Claude vagy Gemini, hatalmas mennyiségű Markdown szövegen lettek tanítva. A GitHub repók, a technikai dokumentációk, a README fájlok, a wiki-oldalak mind-mind Markdown formátumban léteznek. Ennek köszönhetően az LLM-ek kiválóan értik a Markdown szintaxisát:

  • A # fejezetek segítenek a modellnek hierarchiába rendezni az információt — tudja, mi a fő téma és mi az altéma
  • A bullet pointok és a félkövér kiemelések jelzik a prioritást — a modell „érzi", mi a fontos
  • A kódrészletek elkülönítve jelennek meg, így a modell tudja, mi az utasítás és mi a példa
  • A táblázatok strukturált összehasonlítást tesznek lehetővé, amit a modell pontosan tud értelmezni

Más szóval: a Markdown az LLM-ek anyanyelve — legalábbis az egyik legjobban ismert „dialektus".


A 4 fő ok, amiért a Markdown gyakran nyer

1. Token-hatékonyság és kontextus-megőrzés

Ez a legfontosabb technikai érv.

A vektoros adatbázisok (RAG rendszerek) úgy működnek, hogy a tudásbázist apró darabokra vágják (chunking), ezeket vektorizálják, majd a felhasználó kérdéséhez leginkább hasonló darabokat visszakeresik. Ez jól működik nagy mennyiségű adatnál, de van egy komoly ára: kontextusvesztés.

Ha a kereső csak 3-4 távoli bekezdést dob vissza, a modell nem látja az „erdőt", csak a fákat. Elvesznek az összefüggések, a feltételek, a kivételek.

Ezzel szemben egy Markdown fájl lehetővé teszi, hogy egy egész „skill" leírást — legyen az egy foglalási folyamat, egy árazási szabályrendszer vagy egy ügyfélkezelési protokoll — egyben töltsünk be a kontextusba. A modell látja a teljes képet: a szabályt, a kivételt, a példát és az összefüggéseket.

Megközelítés Kontextus minőség Jellemző probléma
Markdown (egyben) Kiváló — az összefüggések megmaradnak Korlátozott méret (~128K–1M token)
RAG (chunked) Töredezett — csak a releváns részek Az összefüggés elveszhet a chunkok között
Gráf DB Logikai — kapcsolatokon keresztül A természetes nyelvi kontextus hiányzik

2. Költség és késleltetés — Markdown: azonnali és ingyenes

Egy vektoros keresés nem triviális művelet:

  1. A felhasználó kérdését vektorizálni kell (embedding API hívás → idő + pénz)
  2. A vektor adatbázisban hasonlósági keresést kell futtatni (szerver idő + infrastruktúra költség)
  3. A visszakapott chunk-okat össze kell illeszteni és kontextusba kell helyezni

Mindez 200–500ms késleltetést és extra API költséget jelent — minden egyes interakciónál.

Ezzel szemben, ha a skillek elférnek néhány Markdown fájlban, azokat egyszerűen betöltjük a system prompt-ba az AI indításakor. Ez:

  • Azonnali: nincs keresési idő
  • Ingyenes: nincs embedding API hívás
  • Determinisztikus: mindig ugyanazt a kontextust kapja a modell

Egy tipikus AI asszisztens skill-készlete — foglalási szabályok, árazás, GYIK, ügyfélkezelési protokoll — gyakran 5 000–20 000 token terjedelembe belefér. Ez a modern modellek 128K–1M tokenes kontextusablakának töredéke.

3. Verziókezelés és karbantarthatóság — a fejlesztői élmény

Ez a szempont nem a gépnek fontos, hanem az embereknek, akik a rendszert karbantartják.

Markdown fájlok:

  • Git-barátok: A git diff pontosan megmutatja, ki, mikor és mit módosított a rendszer „tudásában"
  • Code review-zhatók: A skill-módosítás ugyanúgy megy pull request-en keresztül, mint egy kódváltozás
  • Bárki szerkesztheti: Egy termékmenedzser, egy ügyfélszolgálati vezető, sőt akár az ügyfél is módosíthatja a Markdown fájlt — nincs szükség technikai tudásra
  • Offline működik: Egy szövegszerkesztővel azonnal szerkeszthető, nincs szükség adatbázis kliens-re

Vektoros adatbázis:

  • A tartalom frissítése re-indexing-et igényel (az új szöveget újra kell vektorizálni)
  • Nincs triviális diff — nehéz megmondani, mi változott
  • Technikai tudás kell hozzá

Gráf adatbázis:

  • Az élek és csomópontok karbantartása speciális szaktudást igényel
  • A „miért pont ez a kapcsolat van két koncepció között?" kérdés megválaszolása nehéz
  • A gráf konzisztenciáját folyamatosan biztosítani kell

4. Strukturális egyértelműség — a modell „jobban érti"

Mivel az LLM-ek tréning anyagának jelentős része Markdown formátumú, a modellek különlegesen jól értelmezik ezt a struktúrát. Ez nem csupán feltételezés — tesztelhető:

Ha ugyanazt az információt három formátumban adjuk a modellnek:

  • Nyers szöveg (plain text)
  • JSON struktúra
  • Markdown (fejlécek, listák, táblázatok)

A Markdown-ból a modell konzisztensebben és pontosabban emeli ki az információt, mert a fejezet-hierarchia, a kiemelések és a listák szemantikus jelzésként működnek.


Mikor NEM elég a Markdown?

A Markdown nem csodaszer. Vannak helyzetek, ahol egyértelműen a vektoros vagy gráf megoldás a jobb:

Szituáció Miért nem elég a Markdown? Mi a jobb?
Több ezer oldalas tudásbázis (pl. teljes termékkatalógus) Nem fér be a kontextusablakba Vektoros DB (RAG)
Dinamikusan változó adat (pl. raktárkészlet, árak) A fájl nem „élő", manuálisan kell frissíteni Adatbázis + API
Komplex kapcsolati háló (pl. „melyik termék illik melyik szolgáltatáshoz?") A Markdown lineáris, nem jól modellezi a kapcsolatokat Gráf DB
Felhasználó-specifikus kontextus (pl. „mit vásárolt a kliens korábban?") A Markdown statikus, nem személyre szabott CRM + RAG
Szemantikai keresés kell (pl. „valami hasonlót keresek, de nem tudom pontosan mi az") A Markdown-ban kulcsszó-kereséssel nehéz Vektoros DB

A hibrid megoldás — a valódi „best practice"

A legjobb AI rendszerek nem választanak kizárólagosan. Kombinálják a megoldásokat úgy, ahogy az adott feladathoz a legjobban illik.

A háromrétegű tudáskezelési modell

┌─────────────────────────────────────────┐
│   1. réteg: Markdown — "Szabálykönyv"   │
│   Mindig betöltve a system prompt-ba    │
│   • Skill-leírások, viselkedési szabályok│
│   • Ár- és foglalási logika            │
│   • GYIK top 20                         │
│   • Hangnem és stílus irányelvek        │
│   ~5 000–20 000 token                   │
├─────────────────────────────────────────┤
│   2. réteg: Vektor DB — "Tudástár"      │
│   Csak szükség esetén keres benne       │
│   • Részletes termékkatalógus           │
│   • Technikai dokumentáció              │
│   • Régi ügyfélszolgálati esetek        │
│   Korlátlan méret                       │
├─────────────────────────────────────────┤
│   3. réteg: Gráf DB — "Kapcsolatok"     │
│   Komplex relációk keresésére           │
│   • Ügyfél-termék kapcsolatok           │
│   • Szolgáltatás-kompatibilitás         │
│   • Keresztértékesítési logika          │
│   Kapcsolat-intenzív adatok             │
└─────────────────────────────────────────┘

Hogyan működik a gyakorlatban?

  1. Minden interakciónál betöltjük a Markdown skill-fájlokat → a modell ismeri az alapszabályokat, nulla extra költséggel
  2. Ha a kérdés specifikus (pl. „Van önöknél keratin kezelés haj számára?") → RAG keresés a tudástárban, a releváns chunk-ok bekerülnek a kontextusba
  3. Ha kapcsolatot kell keresni (pl. „Milyen szolgáltatást ajánljak, ha az ügyfél korábban X-et csináltatott?") → gráf lekérdezés

Ez a megközelítés a Markdown gyorsaságát és olcsóságát kombinálja a RAG és a gráf adatbázis mélységével.


Hogyan érdemes felépíteni egy Markdown skill-fájlt?

Ha valaki a Markdown-alapú megközelítés mellett dönt, érdemes szabványosítani a fájlok struktúráját:

# [Skill neve]

## Leírás
Egy-két mondat: mit tud ez a skill, mire való.

## Mikor használd
- Felsorolás: milyen típusú kérdéseknél aktiválódjon.
- Példa trigger mondatok.

## Szabályok
1. Szabály egy (kötelező)
2. Szabály kettő (kötelező)
3. Kivétel: ha X, akkor Y

## Példa párbeszéd
**Ügyfél**: "Szeretnék időpontot foglalni péntekre."
**AI**: "Szívesen segítek! Milyen szolgáltatást szeretne?"

## Korlátok
- Mit NE csináljon a modell.
- Mikor eszkaláljon emberhez.

Tippek a hatékony skill-fájlokhoz:

  • Legyenek rövidek és fókuszáltak: Egy fájl = egy skill/téma. Ne legyen „mindent bele" dokumentum.
  • Használjunk fejléceket: A modell a # hierarchiát szemantikusan értelmezi.
  • Adjunk példákat: Az LLM-ek rendkívül jól tanulnak „few-shot" példából.
  • Definiáljuk a korlátokat: Ne csak azt mondjuk meg, mit csináljon, hanem azt is, mit ne.
  • Tartsa karban nem-technikai kolléga is: Ha csak a fejlesztő érti, nem fog naprakész maradni.

Összefoglalás

Szempont Markdown (.md) Vektor DB (RAG) Gráf DB
Kapacitás Kicsi-közepes (pár MB) Szinte végtelen Nagy, de komplex
Kontextus-megőrzés Kiváló (egyben látja) Töredezett (chunk-ok) Logikai (kapcsolati)
Karbantartás Nagyon egyszerű (Git + szövegszerkesztő) Nehéz (re-indexing) Nagyon nehéz
Keresési mód Szekvenciális / kulcsszó Szemantikai (hasonlóság) Kapcsolati háló bejárás
Költség Nulla (a token-költségen felül) Embedding + DB infra DB infra + fejlesztés
Késleltetés Azonnali +200–500ms +100–300ms
Ki szerkesztheti? Bárki Fejlesztő Fejlesztő + domain expert

A lényeg: A Markdown nem a vektoros és gráf adatbázisok „szegény rokona" — hanem egy másik eszköz, más feladatra. A „szabálykönyv" típusú, kritikus, mindig szükséges tudás tárolására gyakran jobb, mint a komplex alternatívák. A legjobb rendszerek pedig nem választanak: a Markdown-ot az állandó kontextusra, a RAG-ot a mély tudástárra, a gráfot a kapcsolatokra használják.

Az AI nem arról szól, hogy a legdrágább technológiát használjuk — hanem arról, hogy a megfelelő eszközt a megfelelő feladatra.


Ha szeretné megtudni, hogyan építheti fel saját vállalkozása AI tudásbázisát a legoptimálisabb módon, vegye fel velünk a kapcsolatot — segítünk a megfelelő architektúra kiválasztásában.

Megosztás:
Vissza a blogra