Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет
Где-то в недрах Anthropic сидят люди, чья работа - выяснить, не пытается ли их самая умная модель тихо сломать мир. Они выпустили 53-страничный отчёт о том, как искали зло в Claude Opus 4.6. Anthropic взяли Claude Opus 4.6 - модель, которая уже вовсю пишет код на их собственной инфраструктуре, генерирует данные для ...
Где-то в недрах Anthropic сидят люди, чья работа - выяснить, не пытается ли их самая умная модель тихо сломать мир. Они выпустили 53-страничный отчёт о том, как искали зло в Claude Opus 4.6. Anthropic взяли Claude Opus 4.6 - модель, которая уже вовсю пишет код на их собственной инфраструктуре, генерирует данные для обучения, помогает проводить исследования - и попытались доказать, что она не способна их подставить. Исследование охватывает восемь конкретных путей к катастрофе: от тихого саботажа научных результатов до самостоятельной эксфильтрации весов модели на внешний сервер. По каждому пути - разбор мотивации, возможностей и того, что мешает это реализовать. Заглянуть за забор
Связанные теги
Компании и люди
Линия сюжета
Anthropic
Последние материалы и связанный контекст по теме Anthropic.
Anthropic
Последние материалы и связанные ссылки по теме Anthropic.
Claude
Последние материалы и связанный контекст по теме Claude.
Claude Opus
Последние материалы и связанные ссылки по теме Claude Opus.
Habr
Последние материалы и связанные ссылки по теме Habr.
Habr
Последние материалы и связанный контекст по теме Habr.
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Я записываю онлайн-встречи. И вам советую — 2
Если вы помните первую статью, я рассказывал про небольшое macOS‑приложение для фоновой записи таун‑холлов и других “скучных” встреч. Оно работает локально, без облака, транскри...
Огород на подоконнике: почему удалёнщики мечтают переехать из мегаполиса
“Wake up! Из «Матрицы» сойду - Трава по пояс!”Удалёнщик берёт красную таблетку, просыпается — и обнаруживает, что вокруг не зелёные поля, а расчистка снега, извоз детей в школу ...
SDR RX стенд на STM32H723
Давно интересовал вопрос использования 16-битного АЦП STM32H7 для обработки I/Q сигналов в реальном времени.Почти год ушел на эксперименты реализации SDR приемника на базе Taylo...
[Перевод] Раздувание памяти JDK 17 в контейнерах: разбор инцидента
В новом переводе от команды Spring АйО разберем тему раздувания памяти в JDK 17. Апгрейд микросервисов с JDK 8 на JDK 17 прошел dev и QA спокойно, но в проде через 2-3 часа все ...
Один разработчик + Claude Code = GEO платформа для мониторинга и повышения видимости бренда в 9 нейросетях
Сентябрь 2025, шёл шестой год в роли мобильного разработчика, пишу приложение для туроператора Biblio Globus. В один день в общем чате CEO спрашивает «Кто что знает про GEO?» — ...
ИИ-модель Claude обнаружила уязвимость и разработала рабочий эксплойт для FreeBSD
ИИ-модель Claude вместе с исследователем Николасом Карлини (Nicholas Carlini) примерно за 4 часа автономно создала два рабочих эксплойта для уязвимости CVE-2026-4747 в ядре Free...
Страницы сущностей
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Я записываю онлайн-встречи. И вам советую — 2
Если вы помните первую статью, я рассказывал про небольшое macOS‑приложение для фоновой записи таун‑холлов и других “скучных” встреч. Оно работает локально, без облака, транскри...
Огород на подоконнике: почему удалёнщики мечтают переехать из мегаполиса
“Wake up! Из «Матрицы» сойду - Трава по пояс!”Удалёнщик берёт красную таблетку, просыпается — и обнаруживает, что вокруг не зелёные поля, а расчистка снега, извоз детей в школу ...
SDR RX стенд на STM32H723
Давно интересовал вопрос использования 16-битного АЦП STM32H7 для обработки I/Q сигналов в реальном времени.Почти год ушел на эксперименты реализации SDR приемника на базе Taylo...
[Перевод] Раздувание памяти JDK 17 в контейнерах: разбор инцидента
В новом переводе от команды Spring АйО разберем тему раздувания памяти в JDK 17. Апгрейд микросервисов с JDK 8 на JDK 17 прошел dev и QA спокойно, но в проде через 2-3 часа все ...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Я записываю онлайн-встречи. И вам советую — 2
Если вы помните первую статью, я рассказывал про небольшое macOS‑приложение для фоновой записи таун‑холлов и других “скучных” встреч. Оно работает локально, без облака, транскри...
Не доверяй чужому VPN: поднимаем self-hosted AmneziaWG с веб-панелью
В медиаполе снова пошла знакомая волна предупреждений: пользоваться VPN и другими средствами обхода блокировок не только нежелательно, но еще и опасно. Мошенники крадут данные, ...
Огород на подоконнике: почему удалёнщики мечтают переехать из мегаполиса
“Wake up! Из «Матрицы» сойду - Трава по пояс!”Удалёнщик берёт красную таблетку, просыпается — и обнаруживает, что вокруг не зелёные поля, а расчистка снега, извоз детей в школу ...
SDR RX стенд на STM32H723
Давно интересовал вопрос использования 16-битного АЦП STM32H7 для обработки I/Q сигналов в реальном времени.Почти год ушел на эксперименты реализации SDR приемника на базе Taylo...
Дополнительное покрытие этой темы
Похожие публикации и близкие по смыслу материалы по этой же теме.
Мошенники начали маскировать вредоносы под утекшие исходники Anthropic Claude Code
На этой неделе произошла утечка исходного кода сервиса Anthropic Claude Code — компания приняла меры, чтобы защитить его, но скандалом воспользовались мошенники, и в некоторых с...
Anthropic вспомнила об авторских правах — она пытается смягчить последствия утечки кода Claude Code
Компания Anthropic обучала свои модели ИИ с многочисленными нарушениями авторских прав, но отреагировала предельно негативно, когда сама попала в аналогичную ситуацию. После слу...
Обновление Anthropic Claude случайно раскрыло перспективные функции чат-бота, включая виртуального питомца по типу Тамагочи
Задолго до начала бурного развития систем искусственного интеллекта на психологической зависимости людей от виртуальных компаньонов пытался заработать производитель электронных ...
Кибероттепель в Москве, а также слухи о грядущих AGI-моделях от OpenAI & Anthropic
Самые интересные новости финансов и технологий в России и мире за неделю: в столице опять дали интернет, новый биржевой фонд Лежебоки, уголовка за незаконный майнинг в РФ, штраф...