Как измерить LLM для задач кибербеза: обзор открытых бенчмарков
Привет, Хабр! Меня зовут Андрей Кузнецов, я ML-директор в Positive Technologies. Недавно я решил разобраться, какие бенчмарки измеряют способности языковых моделей в контексте задач кибербезопасности. Думал, что это займет вечер, — увы! Все оказалось куда хаотичнее, чем предполагалось. Поэтому делюсь тем, что с...
Погода сигнала
Рост
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Привет, Хабр! Меня зовут Андрей Кузнецов, я ML-директор в Positive Technologies. Недавно я решил разобраться, какие бенчмарки измеряют способности языковых моделей в контексте задач кибербезопасности. Думал, что это займет вечер, — увы! Все оказалось куда хаотичнее, чем предполагалось. Поэтому делюсь тем, что собрал сам. Первое, что бросилось в глаза, — полный бардак и отсутствие системы. Бенчи, про которые все пишут в 2024-м, могут вообще не упоминаться в свежих статьях 2025-го. А некоторые широко цитируемые датасеты при ближайшем рассмотрении оказываются сделанными очень небрежно, из-за чего непонятно, что они вообще измеряют. Поэтому, прежде чем лезть в конкретные примеры, давайте определимся, какими они бывают.
Оставайтесь в сигнале
Следить за темой «Как измерить LLM для задач кибербеза: обзор открытых бенчмарков»
Следите не только за этой публикацией, но и за её продолжением: новыми материалами, соседними источниками и развитием сюжета.
Карта темы
Понять тему за минуту
Быстрый вход в историю: почему она важна сейчас, кто в ней участвует и куда идти дальше за контекстом.
Почему это важно сейчас
Карта темы
Открыть живую карту этой истории
Посмотрите, какие сущности, линии сюжета, источники и follow-up материалы формируют эту историю прямо сейчас.
Нажимайте на узлы
Страницы сущностей
Story timeline
Продолжить следить за темой
Короткая линия событий и follow-up материалов, чтобы быстро понять ход темы.
Насколько можно опираться
Сигнал и надёжность Habr
Источник работает в быстрый ритме: 100% последних материалов попадают в горячее окно, а 8% дают выраженный поисковый сигнал.
Надёжность
10
Свежесть
22
Источников в сюжете
2
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Эксперт Positive Technologies помог укрепить защиту системы учета энергоресурсов «ЛЭРС Учет»
Эксперт PT SWARM Василий Брит обнаружил критически опасную уязвимость в системе диспетчеризации энергоресурсов...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Positive Technologies научила нейросеть находить вирусы, «читая» файлы как текст
Компания Positive Technologies разработала нейросеть для обнаружения вредоносного кода. Модель ByteDog основана на архитектуре...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
В США появилась третья компания для туристических полётов на МКС — NASA выбрало Voyager
NASA выбрало компанию Voyager Technologies для выполнения седьмой частной туристической миссии на Международную космическую станцию (МКС). Соответствующий договор был подписан 1...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Китайская Dishan готовит 2-нм ИИ-процессор — но неясно, кто будет его выпускать
Чаще всего в контексте передовых разработок в полупроводниковой сфере из китайских компаний фигурировала именно Huawei Technologies, а в качестве её производственного партнёра у...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про
Создание безупречного визуала в Nano Banana — это не вопрос везения, а результат правильной коммуникации с нейросетью. В отличие от простых моделей прошлого, этот инструмент спо...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Пошаговая инструкция установки MTProto прокси через Service Node + VLESS
Если вы когда-нибудь пытались поднять прокси для Telegram на сервере, то знаете, что такое «мессенджер не грузит». В этой инструкции я предлагаю рассмотреть подробную, пошаговую...
Погода сигнала
Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.
Почему сейчас
Тема уже растёт в поиске: импульс 947 и 27 внешнего сигнала.
Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса
Знаете, можно много долго спорить о том, что вот там умеют делать, а наши ничего не умеют. Но подход Яндекса к формированию поисковой выдачи мне всегда импонировал больше, нежел...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов
Вторая статья цикла о криптографии, в котором мы рассказываем, как человечество училось прятать и расшифровывать секреты — от древних методов до современных алгоритмов. Сегодня ...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.