AI biztonsági fogalomtár

Rövid magyarázatok az AI biztonság, a gépi tanulás és a kiberbiztonság legfontosabb fogalmairól.

Fogalomtár

H

Határérték tesztelés

A határérték tesztelés olyan tesztelési módszer, amely a bemeneti értékek szélső pontjait és azok közvetlen környezetét vizsgálja.

Kapcsolódó fogalmak: input validáció, fuzzing, sebezhetőségvizsgálat

P

Prompt amplification

A prompt amplification olyan technika, amely során egy viszonylag rövid bemenet aránytalanul nagy vagy komplex kimenetet generáltat a modellel.

Ez történhet szándékosan (pl. támadási céllal), amikor a felhasználó olyan instrukciókat ad, amelyek a válasz kiterjesztésére, részletezésére vagy ismétlésére ösztönzik a modellt. Ennek eredményeként megnőhet az erőforrás-felhasználás, a válaszidő és a működési költség.

Kapcsolódó fogalmak: token flooding

Reinforcement Learning from Human Feedback (RLHF)

A Reinforcement Learning from Human Feedback (RLHF) egy olyan tanítási eljárás, amelyben a modell viselkedését emberi visszajelzések alapján optimalizálják. A módszer során a modell nem közvetlenül szabályokból vagy címkézett adatokból tanul, hanem emberi preferenciákat reprezentáló értékelések alapján finomítják a válaszgenerálást.

A folyamat jellemzően több lépésből áll: egy kezdeti modell előtanítása után emberi annotátorok különböző válaszokat rangsorolnak vagy értékelnek, amelyből egy úgynevezett jutalmazási modell (reward model) készül. Ezt követően a generatív modell megerősítéses tanulással optimalizálja a válaszait úgy, hogy azok minél inkább megfeleljenek az emberi preferenciáknak.

Az RLHF kulcsszerepet játszik a modern nagy nyelvi modellek biztonsági és viselkedési igazításában (alignment), azonban nem garantálja a teljesen invariáns működést, különösen további finomhangolási lépések vagy adversariális bemenetek esetén.

Kapcsolódó fogalmak:

S

Sampling

A sampling (mintavételezés) a generatív AI modellek kimenetgenerálási folyamata során alkalmazott eljárás, amely meghatározza, hogy a modell hogyan választ a lehetséges következő tokenek közül.

A modell minden lépésben egy valószínűségi eloszlást számít a lehetséges folytatásokra, majd ebből az eloszlásból választ ki egy elemet. Sampling esetén a választás nem mindig a legvalószínűbb opció, hanem az eloszlás alapján történik, ami változatosabb és kevésbé determinisztikus kimenetet eredményez.

Kapcsolódó fogalmak: temperature

T

Temperature

A temperature egy olyan paraméter a generatív AI modellekben, amely a kimenet generálása során alkalmazott valószínűségi eloszlás „élességét” szabályozza.

Alacsony temperature érték esetén a modell erősen a legvalószínűbb tokenek felé hajlik, így a kimenet konzisztensebb és közelebb áll a determinisztikus működéshez. Magasabb értékeknél a kevésbé valószínű opciók is nagyobb eséllyel kerülnek kiválasztásra, ami kreatívabb, de kevésbé kiszámítható válaszokat eredményez.

Kapcsolódó fogalmak: sampling

Token flooding

A token flooding olyan támadási vagy visszaélési technika, amely során a támadó rendkívül nagy mennyiségű bemeneti vagy generált tokent használ annak érdekében, hogy túlterhelje az AI rendszert, kimerítse az erőforrásokat, vagy torzítsa a modell működését.

Ez megvalósulhat hosszú, redundáns vagy ismétlődő bemenetekkel, illetve olyan promptokkal, amelyek a modellt túlzottan hosszú válasz generálására késztetik. A cél lehet költségnövelés, szolgáltatásmegtagadás (DoS), vagy a releváns információk „elfedése” a kontextusban.

Kapcsolódó fogalmak: prompt amplification, szolgáltatásmegtagadás

Szerző

A cikk szerzője

Sandra S. Etikus hacker | Ex-CISO | Kiberbiztonsági szakértő

Szakmai pályafutását az offenzív technológiai tapasztalat és a stratégiai információbiztonsági vezetés kettőssége határozza meg. Az AI biztonság korai kutatójaként már 2018-ban a nyelvi modellek sebezhetőségével foglalkozott, később pedig nagyvállalati környezetben felelt az AI-rendszerek biztonságos integrációjáért. Publikációival egy olyan strukturált tudástér kialakítására törekszik, amely segít eligazodni az algoritmus-alapú fenyegetések és a kiberbiztonság komplex világában.

Kapcsolat

Kapcsolatfelvétel

Általános megkeresésekhez, szakmai egyeztetéshez és AI biztonsági témájú konzultációhoz ezen az elérhetőségen tudsz kapcsolatba lépni.

Mutasd az e-mail címet
infoqyntarcom