AI Biztonság Alapok

Adatmérgezés

Az adatmérgezés a tanító- és finomhangolási adatok manipulációján keresztül torzítja a modell viselkedését, ezért nem pusztán adatminőségi, hanem alapvető AI biztonsági kockázat.

Olvasási idő: 14 perc Kategória: Bevezetés az AI biztonságba

Adatmérgezés

Az ágensalapú rendszerek és a modern LLM-alkalmazások biztonsági architektúrájában az adatréteg (Data Layer) már nem csupán passzív tárhely, hanem a modell operatív memóriája és döntéshozatali alapja. Az adatrétegr elleni támadások célja a modell „világképének” szisztematikus torzítása, amivel elérik, hogy az AI hibás következtetéseket vonjon le, vagy kártékony utasításokat hajtson végre anélkül, hogy a modell súlyaiba (weights) közvetlenül beavatkoznának.

A modern AI-rendszerekben, különösen nagy nyelvi modellek (LLM-ek) és domain-specifikus finomhangolás esetén az adatmérgezés jelentősége megnőtt, mivel:

a tanítóadatok gyakran heterogén és részben ellenőrizetlen forrásokból származnak,
a finomhangolás kis adathalmazon történik, így a manipulált minták aránya relatíve nagy lehet,
a modellek viselkedése érzékeny a finom kontextuális torzításokra is.

1. Célzott és nem célzott mérgezés

Az adatmérgezéses támadások osztályozásának alapvető szempontja a támadó szándéka és a modell integritására gyakorolt hatás jellege. Ebben a kontextusban megkülönböztetünk célzott és nem célzott (indiszkriminatív) támadásokat.

Célzott mérgezés (Targeted Attack)

A célzott mérgezés során a támadó célja egy specifikus klaszifikációs hiba vagy predikciós torzítás előidézése, miközben a modell általános pontossága érintetlen marad. A támadás gyakran egy úgynevezett "backdoor" (hátsó kapu) beépítésére irányul.

Mechanizmus: A támadó olyan korrumpált adatpontokat juttat a tanítóhalmazba, amelyek egy meghatározott triggerhez (speciális mintázathoz) kapcsolódnak.

Hatás: A modell a hétköznapi bemenetekre valid válaszokat ad, így a biztonsági kontrollok (pl. anomáliadetektálás) számára láthatatlan marad. A kártékony viselkedés csak a támadó által ismert speciális kontextusban aktiválódik.

Példa: Egy arcfelismerő rendszer célzott mérgezése során a támadó eléri, hogy a szoftver mindenkit helyesen azonosítson, kivéve azt a személyt, aki egy konkrét mintájú selyemsálat visel. Ebben az esetben a rendszer őt minden alkalommal "jogosult adminisztrátorként" fogja azonosítani.

Nem célzott mérgezés(Untargeted poisoning)

A nem célzott mérgezés (untargeted poisoning, availability attack) célja a modell általános teljesítményének és megbízhatóságának szisztematikus rontása.

Mechanizmus: A támadó torzított, zajos vagy inkonzisztens adatokat injektál a tanítóhalmazba, amely a tanult reprezentáció és döntési határok eltolódását okozza. Ennek következtében nő a generalizációs hiba és romlik a predikciók kalibrációja.

Hatás: A modell nem egy konkrét kimenetben hibázik, hanem széles körben megbízhatatlanná válik, csökkentve annak operatív és üzleti értékét.

Példa:Egy vállalat ügyfélszolgálati működésében gépi tanulási modellt alkalmaznak a beérkező jegyek automatikus priorizálására, annak érdekében, hogy a kritikus problémák gyorsan a megfelelő kezelési szintre kerüljenek. Egy nem célzott mérgezési támadás ebben a környezetben úgy valósulhat meg, hogy a támadó szisztematikusan hibás jelzéseket küld a jegyek fontosságára vonatkozóan. Például nem kritikus problémákat következetesen “kritikus” jelöléssel látnak el, vagy éppen valós, súlyos incidensek alulértékelve kerülnek visszacsatolásra.

Ennek következtében a modell tanulási folyamata torzul: a rendszer fokozatosan elveszíti azt a képességét, hogy megbízhatóan különbséget tegyen a valóban sürgős és a kevésbé fontos esetek között. A predikciók tehát nem feltétlenül válnak véletlenszerűvé, de a prioritási sorrend inkonzisztenssé és rosszul kalibrálttá válik. Ennek operatív hatása, hogy a kritikus hibák késve kerülnek feldolgozásra, miközben alacsony jelentőségű ügyek indokolatlanul előtérbe kerülnek.

2. Támadási mechanizmusok

Az adatmérgezés különböző technikai formákban valósulhat meg attól függően, hogy a támadó a tanulási pipeline mely komponensét (adatgyűjtés, annotáció, tanítás) képes befolyásolni.

Címke-manipuláció (label poisoning / label flipping)

A támadó a tanítóadatok annotációját torzítja. A modell így hibás bemenet - kimenet párokból tanul, ami torz döntési mintákhoz vezet. Ez a felügyelt tanulási rendszerek egyik legdirektebb támadási formája, mivel közvetlenül a tanulási célfüggvényt torzítja.

Rövid példa:

Egy spam-szűrő tanításakor a támadó tömegesen jelöl spam üzeneteket „nem spamként”, aminek hatására a modell átengedi a kéretlen leveleket.

Backdoor támadás (backdoor / trojan attack)

Egy kifinomultabb megközelítés, ahol a támadó egy rejtett mintát - úgynevezett triggert - épít be a tanítóadatokba. A modell normál bemenetek esetén megfelelően működik, azonban a trigger jelenlétében konzisztensen egy előre meghatározott, hibás viselkedést produkál. A trigger lehet egy specifikus token, karakterlánc vagy akár egy komplexebb kontextuális mintázat, ami különösen megnehezíti a detektálást.

Rövid példa:

Egy képfelismerő modell esetén minden olyan kép, amely tartalmaz egy apró, láthatatlan vízjelet, automatikusan „engedélyezett” kategóriába kerül, függetlenül a tényleges tartalmától.

Célzott félreosztályozás (targeted misclassification)

Célja nem feltétlenül egy trigger-alapú viselkedés kialakítása, hanem az, hogy a modell bizonyos entitásokat vagy kategóriákat szisztematikusan torzítva kezeljen. Ez megjelenhet például abban, hogy egy adott márka vagy személy következetesen pozitív vagy negatív kontextusban jelenik meg, ami hosszú távon torzíthatja a rendszer döntéseit vagy ajánlásait.

Rövid példa:

Egy ajánlórendszer tanításakor manipulált adatok miatt egy adott termékkategória következetesen irreleváns felhasználóknak kerül ajánlásra.

Optimalizált mérgezési támadások (optimization-based poisoning)

A fejlettebb támadások közé tartoznak az optimalizált poisoning technikák (optimization-based attacks), ahol a támadó nem véletlenszerűen választ adatokat, hanem kifejezetten úgy konstruálja a manipulált mintákat, hogy azok minimális mennyiség mellett is maximális hatást gyakoroljanak a modellre. Ezek a támadások különösen nehezen detektálhatók, mivel a bevitt adatok statisztikailag nem feltétlenül térnek el jelentősen a legitim mintáktól.

Rövid példa:

Egy hitelbíráló modell esetén néhány gondosan megtervezett, de valósághű adatpont elegendő ahhoz, hogy a modell szisztematikusan alulbecsülje bizonyos ügyfélcsoportok kockázatát.

(Érdekesség: Ha a támadó ismeri a modell architektúráját vagy a jellemzők (features) súlyozását, elegendő lehet a tanítóadatok mindössze 0,5-3%-át manipulálni a kívánt torzítás eléréséhez. )

3. A finomhangolás (Fine-tuning) mint támadási felület

A modern nagy nyelvi modellek (LLM-ek) és más mélytanulási rendszerek életciklusában a finomhangolás (fine-tuning) olyan fázis, ahol a modell paraméterei egy specifikus feladathoz vagy doménhez igazodnak. Míg az előtanítás (pretraining) nagy, heterogén adathalmazokon történik, addig a finomhangolás jellemzően kisebb, célzott adatkészleteken alapul. Ez a különbség potenciális sebezhetőséget jelent, amennyiben a finomhangolási adatok integritása nem biztosított.

A tanulási dinamika eltolódása

A finomhangolás során a modell paraméterfrissítéseit egy viszonylag kis méretű adathalmaz határozza meg. Ennek következtében az egyes minták hatása a tanulási folyamatra aránytalanul nagy lehet az előtanításhoz képest, különösen akkor, ha a tanulási ráta vagy az iterációk száma nincs megfelelően szabályozva.

Amennyiben a finomhangolási adathalmaz tartalmaz szisztematikusan torzított vagy manipulált mintákat, ezek képesek befolyásolni a modell által tanult reprezentációkat és döntési mintázatokat. A szakirodalom ezt általában a modellparaméterek vagy a belső reprezentációk torzulásaként írja le (pl. fine-tuning poisoning, representation shift).

A biztonsági igazítás módosulása (Safety alignment degradation)

Számos modern modell esetében a kívánt viselkedést (különösen a biztonsági és etikai korlátozásokat) olyan eljárásokkal alakítják ki, mint a Reinforcement Learning from Human Feedback. Ezek az eljárások azonban nem garantálnak invariáns viselkedést a későbbi finomhangolási lépések során.

Ha a finomhangolási adathalmaz olyan példákat tartalmaz, amelyek implicit módon normalizálnak vagy legitimként jelenítenek meg korábban korlátozott viselkedéseket, akkor a modell válaszeloszlása ennek megfelelően eltolódhat. Ez nem feltétlenül jelenti a biztonsági mechanizmusok teljes megszűnését, de bizonyos bemeneti tartományokban csökkentheti azok hatékonyságát.

Ennek következtében előfordulhat, hogy a modell általános teszteken továbbra is megfelelően teljesít, miközben specifikus, kontextusfüggő bemenetek esetén kevésbé következetesen alkalmazza a korábbi korlátozásokat.

Inkrementális és nehezen detektálható mérgezés

A finomhangolás gyakran iteratív módon történik, több egymást követő adatfrissítéssel és újratanítással. Ez lehetővé teszi olyan támadási stratégiák alkalmazását, ahol a manipulált minták fokozatosan kerülnek be az adathalmazba (incremental vagy stealthy poisoning).

Ebben az esetben a modell viselkedése nem változik meg hirtelen vagy látványosan. Ehelyett finom eltolódások figyelhetők meg például a válaszok prioritásában, a bizonytalanság kezelésében vagy a biztonsági szűrők érzékenységében. Az ilyen jellegű változások detektálása különösen nehéz, mivel gyakran a normál modellfrissítések varianciáján belül maradnak.

4. Hatás az agentic rendszerekben

Agentic AI rendszerekben a data poisoning hatása túlmutat az egyedi predikciós hibákon, mivel a modell által tanult torz reprezentációk közvetlenül beépülnek a döntéshozatali és végrehajtási folyamatokba. Az ilyen rendszerekben a modell nem csupán válaszokat generál, hanem több lépéses következtetési láncok mentén működik, és gyakran külső eszközöket vagy szolgáltatásokat is igénybe vesz.

Kompromittált tanulási állapot esetén a modell torz következtetési láncokat alakíthat ki, nem optimális vagy nem releváns eszközhasználati döntéseket hozhat, valamint a feladatok lebontása során is szisztematikus eltérések jelenhetnek meg. Ennek következtében a hiba nem izolált válaszokban jelentkezik, hanem a teljes végrehajtási folyamatban propagálódhat. Ez különösen kritikus olyan környezetekben, ahol az ágens autonóm módon interakcióba lép külső rendszerekkel, és a döntései közvetlen operatív hatással bírnak.

5. AI biztonsági megközelítés

Az adatmérgezés elleni védekezés a teljes adat-életciklus kontrollját igényli. Ennek egyik alapvető eleme az adat-proveniencia biztosítása, amely lehetővé teszi az adatok eredetének, módosításainak és feldolgozási lépéseinek visszakövetését. Ez különösen fontos heterogén, több forrásból származó adatok esetén.

Ezzel párhuzamosan szükséges az adatvalidáció, amely statisztikai és szemantikai módszerekkel képes azonosítani az anomáliákat és a potenciálisan manipulált mintákat. A cél nem kizárólag az egyedi hibák kiszűrése, hanem a strukturált torzítások felismerése is.

A hozzáférés-kezelés szintén kritikus komponens, mivel korlátozza az adatok módosítására jogosult szereplők körét és a módosítások módját. Ezt célszerű kiegészíteni adversariális teszteléssel, amely során a modell viselkedését kontrollált környezetben vizsgálják potenciális manipulációk, trigger minták és határesetek jelenlétében.

Lényeg röviden

Összefoglalás

Az adatmérgezés nem pusztán adatminőségi probléma, hanem a gépi tanulási rendszerek egyik alapvető biztonsági kockázata. A támadás sajátossága, hogy a kompromittálódás a modell belső reprezentációiban jelenik meg, így a rendszer működése során legitim viselkedésként jelenhet meg.

A modell megbízhatósága közvetlenül függ a tanítóadatok integritásától és a tanulási folyamat kontrolláltságától. Amennyiben ezek nem biztosítottak, a rendszer viselkedése csak korlátozott mértékben tekinthető előre jelezhetőnek, függetlenül a futásidejű biztonsági mechanizmusok jelenlététől.

Szerző

A cikk szerzője

Sandra S. Etikus hacker | Ex-CISO | Kiberbiztonsági szakértő

Szakmai pályafutását az offenzív technológiai tapasztalat és a stratégiai információbiztonsági vezetés kettőssége határozza meg. Az AI biztonság korai kutatójaként már 2018-ban a nyelvi modellek sebezhetőségével foglalkozott, később pedig nagyvállalati környezetben felelt az AI-rendszerek biztonságos integrációjáért. Publikációival egy olyan strukturált tudástér kialakítására törekszik, amely segít eligazodni az algoritmus-alapú fenyegetések és a kiberbiztonság komplex világában.

Szerzői profil

Adatmérgezés

1. Célzott és nem célzott mérgezés

Célzott mérgezés (Targeted Attack)

Nem célzott mérgezés(Untargeted poisoning)

2. Támadási mechanizmusok

Címke-manipuláció (label poisoning / label flipping)

Backdoor támadás (backdoor / trojan attack)

Célzott félreosztályozás (targeted misclassification)

Optimalizált mérgezési támadások (optimization-based poisoning)

3. A finomhangolás (Fine-tuning) mint támadási felület

A tanulási dinamika eltolódása

A biztonsági igazítás módosulása (Safety alignment degradation)

Inkrementális és nehezen detektálható mérgezés

4. Hatás az agentic rendszerekben

5. AI biztonsági megközelítés

Összefoglalás

A cikk szerzője

Kapcsolatfelvétel