Сбежать из квест-комнаты или притвориться «кожаным мешком» — необычные бенчмарки для нейросетей
Мы в Beeline Cloud рассказывали о необычных бенчмарках для оценки больших языковых моделей (БЯМ) — например, когда нейросетям предлагают нарисовать пеликана на велосипеде или разобрать по косточкам шутку из британского юмористического шоу. Недавно в сети стал вирусным еще один тест, в котором чат-ботов просили ответ...
Мы в Beeline Cloud рассказывали о необычных бенчмарках для оценки больших языковых моделей (БЯМ) — например, когда нейросетям предлагают нарисовать пеликана на велосипеде или разобрать по косточкам шутку из британского юмористического шоу. Недавно в сети стал вирусным еще один тест, в котором чат-ботов просили ответить на простой вопрос — как лучше добраться до автомойки: пешком или на автомобиле? Задача с подвохом, и далеко не все модели с ней справляются. Сегодня расскажем о других необычных тестах, авторы которых пытаются «подловить» нейросети.
Краткая сводка
В статье рассказывается о необычных бенчмарках для оценки больших языковых моделей, включая творческие задания и провокационные вопросы, такие как лучший способ добраться до автомойки, которые позволяют выявлять слабости нейросетей.
Связанные теги
Компании и люди
Линия сюжета
Beeline
Последние материалы и связанный контекст по теме Beeline.
Beeline Cloud
Последние материалы и связанные ссылки по теме Beeline Cloud.
Beeline Cloud
Последние материалы и связанный контекст по теме Beeline Cloud.
Cloud
Последние материалы и связанный контекст по теме Cloud.
Habr
Последние материалы и связанные ссылки по теме Habr.
Habr
Последние материалы и связанный контекст по теме Habr.
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха
В феврале CEO Anthropic заявил, что не может «по совести» дать Министерству обороны неограниченный доступ к своим ИИ-системам. Через несколько часов администрация Трампа назвала...
[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)
В наши дни соотношение полезного сигнала и шума в информационном пространстве приближается к единице. Иными словами, дезинформации почти столько же, сколько реальных фактов — и ...
KPI по ИИ: как «эффективность» убивает мотивацию разработчика (и при чем тут синдром самозванца)
Всем привет. Меня зовут Максим, я разработчик в одном из крупных финтехов России. У нас сейчас (наверно, как и у всех) интенсивно вводят ИИ-агенты для написания кода. Плюс необх...
DIY: Ардуино и холодильная комната
Началась эта история еще осенью, когда мне вдруг потребовалось небольшое помещение в доме, в котором поддерживалась бы стабильная температура +7 градусов. Ну, почти как серверна...
Вайбкодинг по Chess’ноку. 1. e4
От вайбкодинга к профессиональной ИИ-разработке на примере LanChess: 3300 промптов, 832 коммита, 100 тыс. строк кода и путь от POC к продакшен-сервису.Поздний вечер, я смотрю в ...
Тайна настоящего КПК от HP
Не так давно я рассказывал вам про легендарный карманный компьютер от HP под названием hx4700. Несмотря на высокую цену, девайс поражал пользователей мощнейшим ARM-процессором о...
Страницы сущностей
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха
В феврале CEO Anthropic заявил, что не может «по совести» дать Министерству обороны неограниченный доступ к своим ИИ-системам. Через несколько часов администрация Трампа назвала...
[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)
В наши дни соотношение полезного сигнала и шума в информационном пространстве приближается к единице. Иными словами, дезинформации почти столько же, сколько реальных фактов — и ...
KPI по ИИ: как «эффективность» убивает мотивацию разработчика (и при чем тут синдром самозванца)
Всем привет. Меня зовут Максим, я разработчик в одном из крупных финтехов России. У нас сейчас (наверно, как и у всех) интенсивно вводят ИИ-агенты для написания кода. Плюс необх...
DIY: Ардуино и холодильная комната
Началась эта история еще осенью, когда мне вдруг потребовалось небольшое помещение в доме, в котором поддерживалась бы стабильная температура +7 градусов. Ну, почти как серверна...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха
В феврале CEO Anthropic заявил, что не может «по совести» дать Министерству обороны неограниченный доступ к своим ИИ-системам. Через несколько часов администрация Трампа назвала...
[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)
В наши дни соотношение полезного сигнала и шума в информационном пространстве приближается к единице. Иными словами, дезинформации почти столько же, сколько реальных фактов — и ...
KPI по ИИ: как «эффективность» убивает мотивацию разработчика (и при чем тут синдром самозванца)
Всем привет. Меня зовут Максим, я разработчик в одном из крупных финтехов России. У нас сейчас (наверно, как и у всех) интенсивно вводят ИИ-агенты для написания кода. Плюс необх...
DIY: Ардуино и холодильная комната
Началась эта история еще осенью, когда мне вдруг потребовалось небольшое помещение в доме, в котором поддерживалась бы стабильная температура +7 градусов. Ну, почти как серверна...