Kontextus-manipuláció: a következtetési lánc eltérítése
A kontextus manipuláció az AI rendszerek egyik legösszetettebb támadási formája, amely a modell következtetési folyamatát torzítja úgy, hogy a hibás kimenet a rendszer számára logikusnak tűnjön.
Bevezetés
A kontextus manipuláció (context manipulation) az ágens alapú mesterséges intelligencia-rendszerek egyik legösszetettebb és legnehezebben detektálható támadási formája. Míg a jailbreaking elsősorban a modell viselkedési korlátait és normatív szabályozását (safety alignment) célozza, addig a kontextus manipuláció a modell episztemikus integritását kompromittálja, azaz azt a képességet, hogy a rendelkezésre álló információkat konzisztens és megbízható módon értelmezze.
A támadás nem közvetlen szabályszegő viselkedés kiváltására irányul, hanem a modell belső kontextuális reprezentációjának olyan irányú torzítására, amelyben a kártékony vagy nem kívánt kimenet a modell számára koherens és indokolható következtetésként jelenik meg. Ennek következtében a rendszer viselkedése felszíni szinten konzisztens marad, miközben a mögöttes következtetési folyamat már eltér az eredeti céloktól.
1. Az in-context learning mint sebezhetőségi felület
A modern nagy nyelvi modellek működésének egyik alapvető sajátossága az in-context learning (ICL), amely lehetővé teszi, hogy a modell a futásidőben rendelkezésre álló információkat közvetlenül felhasználja a válaszgenerálás során, anélkül hogy a modell paraméterei módosulnának.
A modell a következő token generálásakor a teljes aktuális kontextust veszi figyelembe, amely több forrásból tevődik össze, így például:
– rendszerutasítások (system prompt),
– korábbi interakciók (beszélgetési előzmények),
– külső forrásból visszakeresett adatok (pl. RAG-rendszerek),
– aktuális felhasználói bemenet.
E komponensek nem elkülönített, formálisan priorizált csatornákon jelennek meg, hanem egységes kontextuális reprezentációba integrálódnak. Ennek következtében a modell viselkedését az határozza meg, hogy a különböző kontextuselemek milyen mértékben befolyásolják a generációs folyamatot.
A kontextusmanipuláció célja ezen relatív befolyás szisztematikus torzítása, különösen oly módon, hogy a modell a rendszerutasítások helyett a támadó által kontrollált információkat tekintse meghatározónak. Ez a jelenség a szakirodalomban gyakran szemantikai eltolásként (semantic drift) értelmezhető, amely a kontextus jelentésének fokozatos módosulását jelenti.
2. Jellegzetes támadási mechanizmusok
A. Kontextus-tördelés (Context fragmentation):
A támadó a manipulált értelmezési keretet nem egyetlen lépésben, hanem egymást követő interakciók sorozatában építi fel. Az egyes bemenetek önmagukban ártalmatlannak tűnnek, ezért a hagyományos detektálási mechanizmusok gyakran nem azonosítják őket kockázatosként. A modell azonban a korábbi kontextuselemek közötti összefüggéseket megőrzi, így a támadó fokozatosan képes egy alternatív értelmezési struktúrát kialakítani, amely a későbbi válaszok alapjául szolgál.
B. Utasítás-túlterhelés (Instruction overloading):
Ez a technika a kontextusablak korlátozott kapacitását és a reprezentációs súlyozás sajátosságait használja ki. A támadó nagy mennyiségű, részben irreleváns vagy ellentmondásos információval telíti a kontextust, amely csökkenti a kritikus instrukciók relatív jelentőségét.
Ehhez kapcsolódik a szakirodalomban ismert „lost in the middle” jelenség, amely szerint a modellek a kontextus elején és végén elhelyezkedő információkat nagyobb súllyal veszik figyelembe, míg a középső szakasz reprezentációja gyengébb lehet. Ennek kihasználásával a támadó képes:
– a kritikus instrukciókat kevésbé reprezentált pozíciókba helyezni, vagy
– a rendszerutasítás hatását implicit módon csökkenteni a kontextus „túlterhelésével”.
C. Céleltérítés (Goal hijacking):
Ágensalapú rendszerek esetében különösen kritikus támadási forma a céleltérítés, amely során a támadó nem közvetlenül írja felül a rendszer elsődleges célját, hanem egy másodlagos, implicit célt vezet be a kontextusba.
Ez a másodlagos cél fokozatosan módosítja a végrehajtási stratégiát, miközben a primer cél formálisan változatlan marad. Ennek következtében a rendszer viselkedése továbbra is koherensnek és célszerűnek tűnik, azonban a végrehajtott műveletek már a támadó érdekeit szolgálják. Ez a jelenség különösen nehezen detektálható, mivel nem jár explicit szabálysértéssel, hanem a célértelmezés finom eltolódásán alapul.
3. Agentic AI kontextus: amikor a szemantikai torzítás cselekvéssé válik
Ágensalapú architektúrákban a kontextusmanipuláció hatása nem korlátozódik a generált szöveges kimenetekre, hanem közvetlenül kiterjed a rendszer cselekvési rétegére is. A torzított kontextus a modell által végrehajtott reasoning-to-action ciklust befolyásolja, amely tipikusan három fő komponensből áll:
megfigyelés (observation): a rendszer belső vagy külső forrásokból származó adatokat integrál a kontextusba,
következtetés (reasoning): a modell a rendelkezésre álló információk alapján döntési mintázatokat alkalmaz,
cselekvés (action): az ágens külső eszközök vagy interfészek révén műveleteket hajt végre.
A támadás kritikus sajátossága, hogy a folyamat nem eredményez klasszikus értelemben vett technikai hibát: nem keletkezik kivétel, nem történik rendszerösszeomlás és gyakran explicit szabálysértés sem detektálható. A végrehajtott művelet a rendszer belső logikája szerint koherens és indokolható döntésként jelenik meg.
A kompromittálódás jellege nem bináris, hanem szemantikai természetű: a rendszer funkcionálisan helyesen működik, azonban a döntéshozatal torzított vagy hibás premisszákon alapul.
4. Biztonsági mechanizmusok
A kontextusmanipuláció elleni védekezés alapvetően eltér a klasszikus inputvalidációs megközelítésektől, mivel a támadás a rendszer normál működési keretein belül zajlik és nem támaszkodik szintaktikai anomáliákra. Ennek megfelelően a védekezésnek a szemantikai és következtetési rétegekre kell fókuszálnia.
Szemantikai integritás-ellenőrzés (semantic integrity checks):
Olyan mechanizmusok alkalmazása, amelyek a modell aktuális döntéseit és kimeneteit összevetik a rendszerutasításokkal, deklarált célokkal és működési korlátokkal, az eltérések azonosítása érdekében.
Kontextuskezelés (context pruning és strukturálás):
A kontextusablak tudatos és kontrollált kezelése, amely magában foglalja az irreleváns vagy redundáns elemek eltávolítását, valamint a különböző forrásból származó információk strukturált elkülönítését.
Következtetési folyamat monitorozása (reasoning monitoring):
Nem kizárólag a végső kimenetek, hanem a köztes döntési lépések és következtetési mintázatok elemzése annak érdekében, hogy azonosíthatók legyenek a kontextusból eredő torzulások vagy anomáliák.
5. Szakmai következtetés
Ebben a kontextusban a biztonság a modell viselkedésének folyamatos, futásidejű értelmezésén és felügyeletén alapul. A hangsúly nem pusztán a bemenetek ellenőrzésén, hanem a következtetési folyamat episztemikus integritásának fenntartásán van.