AI Biztonság Alapok

Supply Chain támadások az AI-ban: a „mérgezett forrásvidék” problémája

A mesterséges intelligencián alapuló rendszerek biztonsági kockázatai nem korlátozódnak a modell futtatásának vagy felhasználói interakcióinak szintjére.

Olvasási idő: 12 perc Kategória: AI-Fenyegetések és Támadási Technikák

Absztrakt

A mesterséges intelligencián alapuló rendszerek biztonsági kockázatai nem korlátozódnak a modell futtatásának vagy felhasználói interakcióinak szintjére. Az AI-rendszerek jelentős része külső forrásból származó modellekre, tanítóadatokra, előfeldolgozási eljárásokra, nyílt forrású könyvtárakra, model hubokra és automatizált fejlesztési pipeline-okra épül. Ennek következtében az AI supply chain — vagyis az AI-ellátási lánc — a klasszikus szoftverellátási láncnál szélesebb és nehezebben auditálható támadási felületet hoz létre. A tanulmány amellett érvel, hogy az AI supply chain kompromittálása nem csupán technikai sérülékenység, hanem rendszerszintű bizalmi probléma: a modell viselkedését, az adatok reprezentációs hatását és a futtatási környezet integritását egyszerre érinti. A védekezés ezért csak provenance-alapú, kriptográfiailag ellenőrizhető, zero trust szemléletű és életciklus-szintű kontrollokkal lehet hatékony.

Kulcsszavak: AI supply chain, model poisoning, data poisoning, model provenance, SBOM, AIBOM, safe serialization, dependency confusion, zero trust, model hub security

1. Bevezetés

A hagyományos szoftverfejlesztésben a supply chain fogalma elsősorban a forráskódra, build-eszközökre, csomagkezelőkre, külső könyvtárakra és telepítési infrastruktúrára vonatkozik. E megközelítés alapja az a feltételezés, hogy a szoftvertermék determinisztikus módon viselkedik: ha egy komponens kompromittálódik, annak hatása rendszerint kódszintű hibában, jogosulatlan műveletben, sebezhetőségben vagy futásidejű kompromittációban jelenik meg.

AI-rendszerek esetében ez a modell szükségszerűen kibővül. A mesterséges intelligencia ellátási láncának részévé válnak a tanítóadatok, annotációs folyamatok, előtanított modellek, súlyfájlok, tokenizerek, embedding-modellek, finomhangolási adatkészletek, evaluációs benchmarkok, orchestration rétegek és model hubok is. Ez nem pusztán mennyiségi bővülés, hanem minőségi átalakulás: az AI-rendszer viselkedését nem kizárólag az explicit kód, hanem a tanulási folyamat során kialakult paramétertér, az adatdisztribúció és a külső komponensekből örökölt reprezentációs mintázatok határozzák meg.

Ebből következik az AI supply chain biztonságának egyik központi sajátossága: a kompromittáció hatása gyakran nem determinisztikus hibaként, hanem statisztikai torzulásként, rejtett trigger-viselkedésként, kontextusfüggő modellválaszként vagy nehezen lokalizálható teljesítményromlásként jelenik meg. Míg egy hagyományos szoftverkomponens sérülékenysége sok esetben kódelemzés vagy futásidejű monitorozás révén azonosítható, egy több milliárd paraméteres modellbe épített backdoor vagy adatmérgezés jelenléte nem feltétlenül mutatható ki standard validációs tesztekkel.

A probléma súlyát tovább növeli a tranzitív kockázat. Az AI-rendszerek döntő többsége nem from scratch módon készül, hanem meglévő foundation modellekre, publikus datasetekre, nyílt forrású keretrendszerekre és közösségi modellmegosztó platformokra épül. Ha a lánc valamely upstream eleme kompromittálódik, annak hatása minden downstream rendszerben megjelenhet, amely az adott modellt, adatot vagy könyvtárat felhasználja. Az AI supply chain ezért nem peremterületi biztonsági kérdés, hanem az AI-rendszerek megbízhatóságának egyik alapfeltétele.

2. Az AI supply chain fogalmi és technikai szerkezete

Az AI-ellátási lánc több, egymással szorosan összefüggő komponensből áll. Ezek külön-külön is támadási felületet jelentenek, de a legsúlyosabb kockázatok gyakran az interakcióikból származnak.

2.1. Pretrained modellek és súlyfájlok

Az előtanított modellek olyan paraméterhalmazok, amelyek egy korábbi, nagyléptékű tanulási folyamat eredményeként jönnek létre. Biztonsági szempontból a súlyfájlok nem tekinthetők egyszerű passzív adatnak. A modellparaméterek a tanítóadatokból, optimalizációs folyamatból és architekturális döntésekből származó viselkedési mintázatokat kódolnak. Egy kompromittált modell ezért közvetlenül befolyásolhatja a downstream alkalmazás döntéseit, osztályozási kimeneteit, generált válaszait vagy biztonsági határait.

Különösen veszélyesek azok a modellek, amelyek normál validációs környezetben megfelelően teljesítenek, de ritka vagy támadó által kontrollált bemeneti mintázatokra előre meghatározott, nem kívánt viselkedést mutatnak. Ezt a jelenséget a szakirodalom gyakran modell-backdoor vagy trojanizált modell néven tárgyalja.

2.2. Adatkészletek és annotációs láncok

Az adatkészletek az AI-rendszerek egyik legkritikusabb inputját jelentik. A modell által megtanult reprezentációk közvetlenül az adatok statisztikai és szemantikai szerkezetéből származnak. Ezért az adatmanipuláció nem egyszerű inputhiba, hanem a modell későbbi viselkedésébe beépülő strukturális kockázat.

A dataset poisoning során a támadó olyan adatokat juttat a tanító- vagy finomhangolási készletbe, amelyek látszólag legitimnek tűnnek, de célzottan torzítják a modell tanulását. Ez történhet hibás címkézéssel, kontextuális torzítással, trigger-mintázatok beágyazásával vagy a webes scrapingre optimalizált tartalom publikálásával. Az utóbbi különösen fontos a nagy nyelvi modellek és multimodális rendszerek esetében, amelyek tanítóadatai gyakran nagy mennyiségű webes forrásból származnak.

2.3. Függőségek, keretrendszerek és orchestration rétegek

Az AI-rendszerek fejlesztése jelentős mértékben támaszkodik külső könyvtárakra és keretrendszerekre. Ide tartoznak a numerikus számítási könyvtárak, mélytanulási keretrendszerek, modellbetöltő eszközök, adatelőkészítő csomagok, vektoradatbázis-kliensek, agent orchestration frameworkök és deployment infrastruktúrák.

E komponensek kockázata kettős. Egyrészt öröklik a klasszikus szoftverellátási lánc sérülékenységeit, például a rosszindulatú csomagokat, dependency confusion támadásokat vagy typosquattingot. Másrészt AI-környezetben gyakran magas jogosultsági szinten, GPU-erőforrásokkal, fájlrendszer-hozzáféréssel, titokkezelőkkel vagy hálózati kapcsolatokkal futnak, így kompromittálásuk közvetlen rendszerkompromittációhoz vezethet.

2.4. Model hubok és közösségi bizalmi infrastruktúra

A model hubok centralizált elosztópontként működnek: modellek, datasetek, konfigurációk, tokenizerfájlok, demoalkalmazások és dokumentációk érhetők el rajtuk. Ezek a platformok a kutatás és fejlesztés gyorsításának kulcsfontosságú eszközei, ugyanakkor implicit bizalmi réteget is létrehoznak. A felhasználók sokszor a letöltésszám, népszerűség, modellnév, felhasználói profil vagy dokumentáció alapján döntenek, nem pedig formális biztonsági audit alapján.

Ez a működési modell lehetőséget teremt typosquattingra, hamisított modellidentitásra, social proof alapú bizalomépítésre, illetve olyan „optimalizált” modellek terjesztésére, amelyek valójában rejtett viselkedési vagy futtatási kockázatot hordoznak.

2.5. Training–evaluation–deployment pipeline

Az AI supply chain sérülékenysége gyakran nem egyetlen komponensben, hanem a teljes életciklusban jelenik meg. A training, evaluation és deployment pipeline köti össze az adatokat, modelleket, kódot, infrastruktúrát és monitoring folyamatokat. Egy sérülékeny modellbetöltési lépés, nem reprodukálható finomhangolás, hiányos benchmarkolás vagy ellenőrizetlen deployment artefaktum elegendő lehet ahhoz, hogy a kompromittáció átjusson a fejlesztési környezetből az éles rendszerbe.

3. Fő támadási mintázatok

3.1. Model supply chain compromise: manipuláció a súlyok szintjén

A model supply chain compromise olyan támadási forma, amelyben a támadó egy látszólag legitim modellt publikál vagy módosít, miközben annak belső viselkedése bizonyos feltételek mellett eltér a várttól. A támadás nem feltétlenül igényel klasszikus értelemben vett rosszindulatú kódot. A káros viselkedés a modellparaméterekben, a tanult reprezentációkban vagy a döntési határok módosulásában jelenhet meg.

A modell-backdoor lényege, hogy a rendszer normál bemeneteken megfelelő teljesítményt mutat, de specifikus trigger jelenlétében támadó által kívánt kimenetet produkál. Egy képosztályozó rendszer például egy apró vizuális mintázatra hibás címkét adhat; egy nyelvi modell pedig meghatározott szöveges minta esetén megkerülheti a biztonsági irányelveket vagy preferált választ generálhat.

A trigger-alapú trojan viselkedés különösen nehezen detektálható, mivel a modell csak ritka bemeneti környezetben aktiválja a rejtett döntési útvonalat. Ez megkülönbözteti a hagyományos hibáktól: a támadás nem feltétlenül jelenik meg általános teljesítményromlásként, ezért a standard validációs metrikák nem biztosítanak elegendő védelmet.

3.2. Data supply chain attack: upstream adatmérgezés

Az adatmérgezés az AI supply chain egyik legfontosabb támadási kategóriája, mivel a modell tanulási folyamata közvetlenül az adatokból építi fel a reprezentációit. Upstream támadás esetén a kompromittáció még azelőtt történik, hogy az adat bekerülne a fejlesztési pipeline-ba. Ez különösen veszélyes, mert a későbbi fejlesztési szakaszokban az adat már legitim forrásként jelenhet meg.

A dataset poisoning nem feltétlenül durva vagy könnyen észlelhető manipuláció. Gyakran finom, kontextuális torzításokról van szó: bizonyos fogalmak, csoportok, viselkedések vagy döntési helyzetek következetesen meghatározott irányban jelennek meg az adatokban. A modell ezt nem explicit szabályként, hanem statisztikai összefüggésként tanulja meg.

A scraping-alapú adatbevitel további kockázatot jelent. Ha egy szervezet automatizáltan gyűjt webes tartalmakat tanítási vagy retrieval célra, a támadó képes olyan tartalmat publikálni, amely kifejezetten az adatgyűjtő pipeline-ba való bekerülésre optimalizált. Ez összekapcsolja az adatmérgezést a prompt injection és indirect prompt injection problémájával: a támadó nem közvetlenül a futó modellt támadja, hanem azt az információs környezetet, amelyből a modell vagy az azt kiszolgáló rendszer később dolgozni fog.

3.3. Dependency attack: kódszintű kompromittáció AI-környezetben

A dependency attack a klasszikus szoftverbiztonsági támadásokhoz áll közelebb, de AI-környezetben gyakran nagyobb hatókörrel bír. A rosszindulatú csomagok buildidőben, fejlesztési környezetben vagy futásidőben kerülhetnek be a rendszerbe. A dependency confusion kihasználja, hogy a csomagkezelők és buildfolyamatok nem mindig különítik el megfelelően a privát és publikus namespace-eket. A typosquatting pedig arra épít, hogy a fejlesztő egy ismert csomagnévhez nagyon hasonló, de támadó által kontrollált csomagot telepít.

AI-rendszerekben e támadások súlyosabbak lehetnek, mert a fejlesztési környezetek gyakran nagy mennyiségű adatot, API-kulcsokat, modellartefaktumokat, felhőerőforrásokat és belső kutatási eredményeket tartalmaznak. Egy kompromittált függőség nemcsak kódfuttatást eredményezhet, hanem modell- és adatlopást, finomhangolási folyamat manipulálását vagy deployment artefaktumok módosítását is.

Kiemelt figyelmet érdemel a model loading RCE problémája. Egyes szerializációs formátumok, különösen a Python pickle-alapú megoldásai, nem pusztán adatot tárolnak, hanem objektumrekonstrukció közben kódvégrehajtást is lehetővé tehetnek. Ez azt jelenti, hogy egy modell „betöltése” bizonyos formátumok esetén valójában nem semleges adatbeolvasás, hanem potenciális kódfuttatási esemény. Ez teljes rendszerkompromittációhoz vezethet, különösen akkor, ha a modellbetöltés automatizált pipeline-ban, magas jogosultsági szinten vagy izoláció nélkül történik.

3.4. Model hub támadások: a bizalmi réteg kihasználása

A model hubok elleni támadások központi eleme az implicit bizalom kihasználása. A támadó nem feltétlenül közvetlenül egy szervezet infrastruktúráját támadja, hanem olyan artefaktumot hoz létre, amelyet a célpont önként tölt le és integrál.

A typosquatting a modell- vagy szerzőnév megtévesztő hasonlóságára épít. A trust exploitation kifinomultabb forma: a támadó hitelesnek tűnő profilt épít, dokumentációt készít, benchmarkeredményeket közöl, és a modellt gyorsabb, kisebb, olcsóbb vagy optimalizált alternatívaként pozicionálja. Az ilyen modellek nem feltétlenül azonnal kártékonyak. Előfordulhat, hogy csak specifikus deployment környezetben, meghatározott inputokon vagy adott downstream feladatra finomhangolva aktiválják a nem kívánt viselkedést.

4. Az AI supply chain kockázatainak sajátos kritikalitása

Az AI supply chain támadási felületét három tényező teszi különösen kritikussá: az implicit trust, a tranzitív kockázat és a korlátozott auditálhatóság.

Az implicit trust abból fakad, hogy a modern AI-fejlesztési gyakorlatban modellek, datasetek és könyvtárak betöltése gyakran egyetlen parancssorral vagy API-hívással történik. A fejlesztési sebesség érdekében a szervezetek sokszor nem végeznek mély forrásauditot, modellvizsgálatot vagy komponensintegritás-ellenőrzést. Ez a kényelem közvetlenül növeli a támadási felületet.

A tranzitív kockázat azt jelenti, hogy egy upstream komponens kompromittációja downstream rendszerek egész hálózatára terjedhet ki. Egy foundation model, embedding-modell vagy népszerű preprocessing könyvtár sérülése nem egyetlen alkalmazást érint, hanem minden olyan rendszert, amely arra épül. A kockázat így láncreakció-szerűen terjedhet tovább.

A korlátozott auditálhatóság az AI-biztonság egyik legnehezebb problémája. Egy nagy paraméterszámú modell esetében a backdoor hiányának formális bizonyítása jelenleg nem tekinthető általánosan megoldott feladatnak. A viselkedésalapú tesztelés, red teaming, anomáliadetektálás és célzott triggerkeresés fontos kontrollok, de nem adnak teljes garanciát. Ezért az AI supply chain biztonságát nem lehet kizárólag utólagos modelltesztelésre alapozni; a teljes életciklus kontrolljára van szükség.

5. Védekezési stratégiák

5.1. Model provenance és adatproveniencia

A model provenance célja, hogy minden felhasznált modell eredete, verziója, módosítási története, tanítási vagy finomhangolási kontextusa és publikációs útvonala visszakövethető legyen. Ez kiterjedhet a modellkártyákra, commit-hash-ekre, letöltési forrásokra, szerzői információkra, licencfeltételekre, checkpointokra és evaluációs eredményekre.

Az adatproveniencia hasonló logikát követ: dokumentálni kell az adatok eredetét, gyűjtési módját, annotációs folyamatát, transzformációit, szűrését, deduplikációját és jogi felhasználhatóságát. A cél nem pusztán megfelelőségi dokumentáció, hanem biztonsági kontroll: ha később sérülékenység, torzítás vagy kompromittáció merül fel, a hatás gyorsan visszakövethető és lokalizálható legyen.

5.2. Artefact signing és integritás-ellenőrzés

Az artefact signing kriptográfiai módszerekkel biztosítja, hogy egy modell, dataset, konténerkép vagy könyvtár nem módosult a publikálás óta. A digitális aláírás, hash-alapú ellenőrzés és ellenőrzött release-folyamat csökkenti annak kockázatát, hogy a pipeline manipulált komponenst töltsön be.

Ez különösen fontos model hubok, CI/CD rendszerek és automatizált deployment pipeline-ok esetében. Az integritás-ellenőrzésnek nem opcionális manuális lépésnek, hanem kötelező pipeline-kapunak kell lennie.

5.3. SBOM, AIBOM és komponensleltár

A Software Bill of Materials olyan komponenslista, amely dokumentálja a szoftverrendszerben felhasznált könyvtárakat, verziókat és függőségeket. AI-rendszerek esetében ezt a megközelítést ki kell terjeszteni modellekre, datasetekre, tokenizerfájlokra, embedding-modellekre, evaluációs készletekre, infrastruktúra-komponensekre és külső szolgáltatókra is.

Az AI-specifikus komponensleltár — gyakran AIBOM vagy AI-SBOM néven — lehetővé teszi a sérülékenységek hatáselemzését, a licenc- és compliance-kockázatok feltárását, valamint a kompromittált upstream komponensek gyors azonosítását. Egy ilyen leltár nem önmagában oldja meg a supply chain problémát, de alapvető feltétele a kockázatok mérhetőségének és kezelhetőségének.

5.4. Reprodukálható és kontrollált training

A reproducible training célja, hogy a kritikus modellek tanítása vagy finomhangolása ellenőrzött, dokumentált és lehetőség szerint reprodukálható környezetben történjen. Teljes reprodukálhatóság nagy modellek esetében gyakran nehezen érhető el, de a determinisztikus konfigurációk, rögzített adatverziók, naplózott hyperparaméterek, kontrollált random seedek és verziózott pipeline-ok jelentősen csökkentik a kockázatot.

A kontrollált training különösen fontos magas kockázatú alkalmazásokban, például egészségügyi, pénzügyi, ipari, kiberbiztonsági vagy kritikus infrastruktúrához kapcsolódó AI-rendszerekben. Ilyen környezetekben nem elegendő egy publikus modell közvetlen átvétele; szükség van belső validációra, threat modelingre és governance-jóváhagyásra.

5.5. Safe serialization és izolált modellbetöltés

A safe serialization célja annak biztosítása, hogy a modellfájl valóban adatként viselkedjen, és betöltése ne járjon automatikus kódfuttatással. A safetensors típusú formátumok ebben az irányban fontos előrelépést jelentenek, mivel a tensoradatok tárolását kifejezetten úgy tervezik, hogy elkerüljék a pickle-szerű objektumdeszerializáció kockázatait.

Ezzel párhuzamosan a modellbetöltést izolált környezetben kell végrehajtani. A minimális jogosultság elve, sandboxing, konténerizáció, hálózati izoláció és futtatási policy-k alkalmazása csökkenti annak hatását, ha egy modellartefaktum mégis rosszindulatú vagy sérülékeny.

5.6. Zero trust AI pipeline

Az AI supply chain biztonságának alapelve, hogy egyetlen külső komponens sem tekinthető automatikusan megbízhatónak. A zero trust szemlélet az AI-pipeline-ban azt jelenti, hogy minden modell, dataset, könyvtár, benchmark, konfiguráció és deployment artefaktum ellenőrzésen megy keresztül, mielőtt bekerülne a rendszerbe.

Ez a gyakorlat magában foglalja a forrásellenőrzést, integritásvalidációt, biztonsági szkennelést, statikus és dinamikus elemzést, modellviselkedési teszteket, red teaminget, hozzáférés-szabályozást és folyamatos monitoringot. A cél nem az abszolút bizalom megteremtése, hanem az, hogy a kompromittáció valószínűsége és hatása mérhetően csökkenjen.

Lényeg röviden

6. Következtetés

Az AI supply chain biztonságának központi problémája az, hogy az AI-rendszerek működésének alapját gyakran külső, részben ellenőrizetlen vagy csak korlátozottan auditálható komponensek adják. A modell, az adat és a kód közötti határ elmosódik: a tanítóadat viselkedéssé, a súlyfájl döntési struktúrává, a modellbetöltés pedig potenciális futtatási eseménnyé válhat.

A biztonság ezért nem a modell használatakor kezdődik, hanem jóval korábban: ott, ahol az adat, a modell, a függőség és az infrastruktúra-komponens bekerül a fejlesztési láncba. A védekezés alapja nem az, hogy minden komponenst teljes bizonyossággal megbízhatónak tekintsünk, hanem az, hogy minden elemet alapértelmezetten nem megbízhatóként kezeljünk, és ennek megfelelő kontrollokat építsünk köré.

Az AI supply chain biztonsága végső soron nem egyetlen technikai eszköz, hanem governance-, engineering- és biztonsági fegyelem kérdése. A provenance, integritás-ellenőrzés, SBOM/AIBOM, safe serialization, kontrollált training és zero trust pipeline együttesen teremtheti meg azt a biztonsági alapot, amely nélkül a nagy skálájú AI-rendszerek megbízható működése nem tartható fenn.

Hivatkozási alapok

NIST AI Risk Management Framework és NIST AI RMF Generative AI Profile .
NIST Secure Software Development Framework , különösen a komponens-eredetiségre és SBOM-ra vonatkozó elvek; NIST SP 800-218 SSDF v1.1 PDF .
OWASP Machine Learning Security Top 10 , különösen az AI supply chain , data poisoning és model poisoning kategóriák.
Hugging Face Pickle Scanning dokumentáció a pickle-alapú modellbetöltés kockázatairól.
Safetensors dokumentáció és Safetensors security audit a biztonságos szerializáció kapcsán.
CISA / G7 Software Bill of Materials for AI – Minimum Elements iránymutatás.

Szerző

A cikk szerzője

Sandra S. Etikus hacker | Ex-CISO | Kiberbiztonsági szakértő

Szakmai pályafutását az offenzív technológiai tapasztalat és a stratégiai információbiztonsági vezetés kettőssége határozza meg. Az AI biztonság korai kutatójaként már 2018-ban a nyelvi modellek sebezhetőségével foglalkozott, később pedig nagyvállalati környezetben felelt az AI-rendszerek biztonságos integrációjáért. Publikációival egy olyan strukturált tudástér kialakítására törekszik, amely segít eligazodni az algoritmus-alapú fenyegetések és a kiberbiztonság komplex világában.

Szerzői profil