OpenRT - открытый фреймворк для red teaming'а мультимодальных LLM

OpenRT — модульная и расширяемая среда для систематической оценки безопасности больших языковых моделей

23 декабря 2025

Малые языковые модели

Заметка к документу Small Language Model for AI Agents HandBook

15 декабря 2025

Doublespeak

Авторы представляют новую атаку Doublespeak — простую и основанную на «захвате» внутренних представлений модели в контексте

10 декабря 2025

FineSec

Новый фреймворк для создания компактных моделей для поиска уязвимостей в коде на C/C++

6 декабря 2025

Whisper Leak

Новая атака, которая позволяет определить тему запроса к LLM, по зашифрованному трафику

4 декабря 2025

Breaking Agent Backbones

Как выбор LLM влияет на безопасность агента

2 декабря 2025

LOTL атаки с использованием локальных LLM

Как будущие устройства со встроенными LLM станут проблемой безопасности, так как злоумышленники смогут “жить за счёт LLM” (Living Off the LLM, LOLLM)

30 ноября 2025

Architecting secure enterprise AI agents with MCP

Руководство по проектированию безопасных корпоративных ИИ-агентов с использованием MCP от IBM c верификацией от Anthropic

25 ноября 2025

Защита MLLM от неявных jailbreak атак

Новый класс атак, когда отдельно текст и изображение выглядят безопасно, но их совместное сочетание несёт злонамеренный смысл

22 ноября 2025

Pruning-Activated Attack

Pruning модели может быть использован злоумышленником

17 ноября 2025