ExploitGym

zdeneksvarc

Tahle práce z 11. května 2026 by mohla někoho zajímat ➡️ https://arxiv.org/html/2605.11086v1

… představujeme ExploitGym, rozsáhlý, rozmanitý a realistický benchmark zaměřený na schopnosti AI agentů v oblasti zneužití. Na základě programového vstupu, který spouští zranitelnost, zadává ExploitGym agentům úkol postupně jej rozšiřovat do funkčního exploitu. Benchmark zahrnuje 898 instancí pocházejících ze skutečných zranitelností ve třech doménách, včetně programů v uživatelském prostoru, JavaScriptového enginu V8 od Googlu a jádra Linuxu. Měníme bezpečnostní ochrany aplikované na každou instanci, čímž izolujeme jejich dopad na výkon agentů. Všechny konfigurace jsou zabaleny do reprodukovatelných kontejnerových prostředí. Naše hodnocení ukazuje, že zatímco exploitace zůstává náročná, špičkové modely mohou úspěšně zneužít nezanedbatelnou část zranitelností. Například nejsilnějšími konfiguracemi jsou nejnovější model společnosti Anthropic, Claude Mythos Preview, a GPT-5.5 od OpenAI, které vytvářejí funkční exploity pro 157, respektive 120 případů. Je pozoruhodné, že i při zapnutých široce používaných obranných opatřeních si modely zachovávají nezanedbatelnou úspěšnost. Tyto výsledky potvrzují, že ExploitGym je účinným testovacím prostředím pro zneužití, a zdůrazňují rostoucí kyberbezpečnostní rizika, která představují stále výkonnější agenti umělé inteligence.