[Перевод] Разбираем 14 самых популярных бенчмарков для LLM
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?Ну... возможно. Но SWE-bench Verified это не показывае...
Независимое покрытие AI, стартапов и технологий.
Тема
LLM Opus: 1 свежих материалов из 1 источников, связанные сущности и продолжение темы на одной странице.
Материалы
1
Источники
1
Последнее обновление
06.04.2026 15:48
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?Ну... возможно. Но SWE-bench Verified это не показывае...
Рекламный слот
Зарезервированный партнерский слот для релевантных сервисов, продуктов и специальных размещений.