News Grower

Независимое покрытие AI, стартапов и технологий.

Habr 06.04.2026 15:48 Инструменты разработки Стабильно Тёпло

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка вход...

Погода сигнала

Стабильно

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Автор: python_leader Оригинальный источник
[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO.Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

Оставайтесь в сигнале

Следить за темой «[Перевод] Разбираем 14 самых популярных бенчмарков для LLM»

Следите не только за этой публикацией, но и за её продолжением: новыми материалами, соседними источниками и развитием сюжета.

Сначала отправим письмо для подтверждения, а дальше — только содержательные дайджесты.

Карта темы

Понять тему за минуту

Быстрый вход в историю: почему она важна сейчас, кто в ней участвует и куда идти дальше за контекстом.

Почему это важно сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.
У истории уже есть 6 связанных материала, поэтому отсюда легко перейти к продолжению темы.
Сюжет постоянно вращается вокруг Habr, LLM Opus, and Open-source, поэтому страницы сущностей дадут самый быстрый контекст.
Habr уже выпустил ещё 4 продолжения по этой теме.

Карта темы

Открыть живую карту этой истории

Посмотрите, какие сущности, линии сюжета, источники и follow-up материалы формируют эту историю прямо сейчас.

Нажимайте на узлы

Сущность Линия сюжета Материал Хаб Источник

Story timeline

Продолжить следить за темой

Короткая линия событий и follow-up материалов, чтобы быстро понять ход темы.

27.05.2026 01:58 3DNews Software

Серверы с ИИ-агентами по всему миру оказались под угрозой из-за ошибки фреймворка Starlette

Сообщество разработчиков искусственного интеллекта столкнулось с критической уязвимостью во фреймворке Starlette, который лежит в основе ...

22.05.2026 08:37 3DNews Software

Alibaba открыла для всех Qwen 3.7-Max — бесплатную флагманскую ИИ-модель, которая вышла на уровень Claude Opus 4.6 Max

Китайская компания Alibaba представила модель искусственного интеллекта Qwen3.7-Max, разработанную для эпохи ИИ-агентов. Она не просто от...

13.05.2026 17:40 Anti-Malware News

Open source под ударом: число вредоносных пакетов превысило 20 тысяч

«Лаборатория Касперского» сообщила о росте числа вредоносных пакетов в проектах с открытым исходным кодом. По данным телеметрии компании,...

13.05.2026 12:03 CNews Internet

Взломан популярный менеджер загрузок. Инсталляторы для Windows и Linux подменены на вредоносные трояны на Python

В ходе очередной атаки на цепочки поставок злоумышленники взломали сайт популярного менеджера скачиваний JDownloader и подменили ссылки. ...

13.05.2026 12:03 CNews Security

Взломан популярный менеджер загрузок. Инсталляторы для Windows и Linux подменены на вредоносные трояны на Python

В ходе очередной атаки на цепочки поставок злоумышленники взломали сайт популярного менеджера скачиваний JDownloader и подменили ссылки. ...

06.04.2026 15:48 Habr

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4? Ну... возможн...

Насколько можно опираться

Сигнал и надёжность Habr

Источник работает в быстрый ритме: 0% последних материалов попадают в горячее окно, а 8% дают выраженный поисковый сигнал.

Рискованный

Надёжность

10

Свежесть

22

Источников в сюжете

5

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Серверы с ИИ-агентами по всему миру оказались под угрозой из-за ошибки фреймворка Starlette
Рост Горячо

Серверы с ИИ-агентами по всему миру оказались под угрозой из-за ошибки фреймворка Starlette

Сообщество разработчиков искусственного интеллекта столкнулось с критической уязвимостью во фреймворке Starlette, который лежит в основе FastAPI, а также других популярных библи...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Alibaba открыла для всех Qwen 3.7-Max — бесплатную флагманскую ИИ-модель, которая вышла на уровень Claude Opus 4.6 Max
Пик Горячо Рост в поиске

Alibaba открыла для всех Qwen 3.7-Max — бесплатную флагманскую ИИ-модель, которая вышла на уровень Claude Opus 4.6 Max

Китайская компания Alibaba представила модель искусственного интеллекта Qwen3.7-Max, разработанную для эпохи ИИ-агентов. Она не просто отвечает на вопросы, а умеет осуществлять ...

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 930 и 27 внешнего сигнала.

Open source под ударом: число вредоносных пакетов превысило 20 тысяч
Стабильно Тёпло

Open source под ударом: число вредоносных пакетов превысило 20 тысяч

«Лаборатория Касперского» сообщила о росте числа вредоносных пакетов в проектах с открытым исходным кодом. По данным телеметрии компании, к концу 2025 года по всему миру было об...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

Стабильно Тёпло

Взломан популярный менеджер загрузок. Инсталляторы для Windows и Linux подменены на вредоносные трояны на Python

В ходе очередной атаки на цепочки поставок злоумышленники взломали сайт популярного менеджера скачиваний JDownloader и подменили ссылки. Конечной целью была установка в системы ...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про
Стабильно Тёпло

Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про

Создание безупречного визуала в Nano Banana — это не вопрос везения, а результат правильной коммуникации с нейросетью. В отличие от простых моделей прошлого, этот инструмент спо...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

Пошаговая инструкция установки MTProto прокси через Service Node + VLESS
Пик Тёпло Рост в поиске

Пошаговая инструкция установки MTProto прокси через Service Node + VLESS

Если вы когда-нибудь пытались поднять прокси для Telegram на сервере, то знаете, что такое «мессенджер не грузит». В этой инструкции я предлагаю рассмотреть подробную, пошаговую...

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 920 и 27 внешнего сигнала.

Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса
Стабильно Тёпло

Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса

Знаете, можно много долго спорить о том, что вот там умеют делать, а наши ничего не умеют. Но подход Яндекса к формированию поисковой выдачи мне всегда импонировал больше, нежел...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов
Стабильно Тёпло

Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов

Вторая статья цикла о криптографии, в котором мы рассказываем, как человечество училось прятать и расшифровывать секреты — от древних методов до современных алгоритмов. Сегодня ...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.