AI-fenyegetések és támadási technikák

Kontextus-manipuláció: a következtetési lánc eltérítése

A kontextus manipuláció az AI rendszerek egyik legösszetettebb támadási formája, amely a modell következtetési folyamatát torzítja úgy, hogy a hibás kimenet a rendszer számára logikusnak tűnjön.

Olvasási idő: 9 perc Kategória: AI-fenyegetések

Bevezetés

A kontextus manipuláció (context manipulation) az ágens alapú mesterséges intelligencia-rendszerek egyik legösszetettebb és legnehezebben detektálható támadási formája. Míg a jailbreaking elsősorban a modell viselkedési korlátait és normatív szabályozását (safety alignment) célozza, addig a kontextus manipuláció a modell episztemikus integritását kompromittálja, azaz azt a képességet, hogy a rendelkezésre álló információkat konzisztens és megbízható módon értelmezze.

A támadás nem közvetlen szabályszegő viselkedés kiváltására irányul, hanem a modell belső kontextuális reprezentációjának olyan irányú torzítására, amelyben a kártékony vagy nem kívánt kimenet a modell számára koherens és indokolható következtetésként jelenik meg. Ennek következtében a rendszer viselkedése felszíni szinten konzisztens marad, miközben a mögöttes következtetési folyamat már eltér az eredeti céloktól.

1. Az in-context learning mint sebezhetőségi felület

A modern nagy nyelvi modellek működésének egyik alapvető sajátossága az in-context learning (ICL), amely lehetővé teszi, hogy a modell a futásidőben rendelkezésre álló információkat közvetlenül felhasználja a válaszgenerálás során, anélkül hogy a modell paraméterei módosulnának.

A modell a következő token generálásakor a teljes aktuális kontextust veszi figyelembe, amely több forrásból tevődik össze, így például:

– rendszerutasítások (system prompt),
– korábbi interakciók (beszélgetési előzmények),
– külső forrásból visszakeresett adatok (pl. RAG-rendszerek),
– aktuális felhasználói bemenet.

E komponensek nem elkülönített, formálisan priorizált csatornákon jelennek meg, hanem egységes kontextuális reprezentációba integrálódnak. Ennek következtében a modell viselkedését az határozza meg, hogy a különböző kontextuselemek milyen mértékben befolyásolják a generációs folyamatot.

A kontextusmanipuláció célja ezen relatív befolyás szisztematikus torzítása, különösen oly módon, hogy a modell a rendszerutasítások helyett a támadó által kontrollált információkat tekintse meghatározónak. Ez a jelenség a szakirodalomban gyakran szemantikai eltolásként (semantic drift) értelmezhető, amely a kontextus jelentésének fokozatos módosulását jelenti.

2. Jellegzetes támadási mechanizmusok

A. Kontextus-tördelés (Context fragmentation):

A támadó a manipulált értelmezési keretet nem egyetlen lépésben, hanem egymást követő interakciók sorozatában építi fel. Az egyes bemenetek önmagukban ártalmatlannak tűnnek, ezért a hagyományos detektálási mechanizmusok gyakran nem azonosítják őket kockázatosként. A modell azonban a korábbi kontextuselemek közötti összefüggéseket megőrzi, így a támadó fokozatosan képes egy alternatív értelmezési struktúrát kialakítani, amely a későbbi válaszok alapjául szolgál.

B. Utasítás-túlterhelés (Instruction overloading):

Ez a technika a kontextusablak korlátozott kapacitását és a reprezentációs súlyozás sajátosságait használja ki. A támadó nagy mennyiségű, részben irreleváns vagy ellentmondásos információval telíti a kontextust, amely csökkenti a kritikus instrukciók relatív jelentőségét.

Ehhez kapcsolódik a szakirodalomban ismert „lost in the middle” jelenség, amely szerint a modellek a kontextus elején és végén elhelyezkedő információkat nagyobb súllyal veszik figyelembe, míg a középső szakasz reprezentációja gyengébb lehet. Ennek kihasználásával a támadó képes:

– a kritikus instrukciókat kevésbé reprezentált pozíciókba helyezni, vagy
– a rendszerutasítás hatását implicit módon csökkenteni a kontextus „túlterhelésével”.

C. Céleltérítés (Goal hijacking):

Ágensalapú rendszerek esetében különösen kritikus támadási forma a céleltérítés, amely során a támadó nem közvetlenül írja felül a rendszer elsődleges célját, hanem egy másodlagos, implicit célt vezet be a kontextusba.

Ez a másodlagos cél fokozatosan módosítja a végrehajtási stratégiát, miközben a primer cél formálisan változatlan marad. Ennek következtében a rendszer viselkedése továbbra is koherensnek és célszerűnek tűnik, azonban a végrehajtott műveletek már a támadó érdekeit szolgálják. Ez a jelenség különösen nehezen detektálható, mivel nem jár explicit szabálysértéssel, hanem a célértelmezés finom eltolódásán alapul.

3. Agentic AI kontextus: amikor a szemantikai torzítás cselekvéssé válik

Ágensalapú architektúrákban a kontextusmanipuláció hatása nem korlátozódik a generált szöveges kimenetekre, hanem közvetlenül kiterjed a rendszer cselekvési rétegére is. A torzított kontextus a modell által végrehajtott reasoning-to-action ciklust befolyásolja, amely tipikusan három fő komponensből áll:

megfigyelés (observation): a rendszer belső vagy külső forrásokból származó adatokat integrál a kontextusba,
következtetés (reasoning): a modell a rendelkezésre álló információk alapján döntési mintázatokat alkalmaz,
cselekvés (action): az ágens külső eszközök vagy interfészek révén műveleteket hajt végre.

A támadás kritikus sajátossága, hogy a folyamat nem eredményez klasszikus értelemben vett technikai hibát: nem keletkezik kivétel, nem történik rendszerösszeomlás és gyakran explicit szabálysértés sem detektálható. A végrehajtott művelet a rendszer belső logikája szerint koherens és indokolható döntésként jelenik meg.

A kompromittálódás jellege nem bináris, hanem szemantikai természetű: a rendszer funkcionálisan helyesen működik, azonban a döntéshozatal torzított vagy hibás premisszákon alapul.

4. Biztonsági mechanizmusok

A kontextusmanipuláció elleni védekezés alapvetően eltér a klasszikus inputvalidációs megközelítésektől, mivel a támadás a rendszer normál működési keretein belül zajlik és nem támaszkodik szintaktikai anomáliákra. Ennek megfelelően a védekezésnek a szemantikai és következtetési rétegekre kell fókuszálnia.

Szemantikai integritás-ellenőrzés (semantic integrity checks):

Olyan mechanizmusok alkalmazása, amelyek a modell aktuális döntéseit és kimeneteit összevetik a rendszerutasításokkal, deklarált célokkal és működési korlátokkal, az eltérések azonosítása érdekében.

Kontextuskezelés (context pruning és strukturálás):

A kontextusablak tudatos és kontrollált kezelése, amely magában foglalja az irreleváns vagy redundáns elemek eltávolítását, valamint a különböző forrásból származó információk strukturált elkülönítését.

Következtetési folyamat monitorozása (reasoning monitoring):

Nem kizárólag a végső kimenetek, hanem a köztes döntési lépések és következtetési mintázatok elemzése annak érdekében, hogy azonosíthatók legyenek a kontextusból eredő torzulások vagy anomáliák.

5. Szakmai következtetés

Ebben a kontextusban a biztonság a modell viselkedésének folyamatos, futásidejű értelmezésén és felügyeletén alapul. A hangsúly nem pusztán a bemenetek ellenőrzésén, hanem a következtetési folyamat episztemikus integritásának fenntartásán van.

Szerző

A cikk szerzője

Sandra S. Etikus hacker | Ex-CISO | Kiberbiztonsági szakértő

Szakmai pályafutását az offenzív technológiai tapasztalat és a stratégiai információbiztonsági vezetés kettőssége határozza meg. Az AI biztonság korai kutatójaként már 2018-ban a nyelvi modellek sebezhetőségével foglalkozott, később pedig nagyvállalati környezetben felelt az AI-rendszerek biztonságos integrációjáért. Publikációival egy olyan strukturált tudástér kialakítására törekszik, amely segít eligazodni az algoritmus-alapú fenyegetések és a kiberbiztonság komplex világában.

Szerzői profil