Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей
Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections).Но реальность оказалась суровой: хваленые ...
Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections).Но реальность оказалась суровой: хваленые reasoning-модели постоянно галлюцинировали, ломали структуру JSON на выходе (выдавая свои "мысли" вместо чистого ответа) и просто сжигали бюджет на API, зацикливаясь на одной ошибке.Потратив часть бюджета впустую, я решил: если ИИ не справляется, мы заменим его на старый добрый хардкод. Так родился концепт Zero-Cost Agent — алгоритмического лома, который симулирует поведение нейросети.
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Magic: но не Gathering — формат Split Deck
В этом месяце вышло уже 110 дополнение к MTG. На это раз посвящённое коллаборации со вселенной Черепашек-Ниндзя (при этом, дополнений, не выходящих в основном соревновательном ф...
Для создания AGI нам нужно сделать шаг назад
Современные языковые модели демонстрируют отличные способности к рассуждению, но при этом остаются инструментами. У инструмента нет выбора. В основе LLM лежит предсказание следу...
[Перевод] Где же все эти приложения, создаваемые с помощью ИИ?
Любители вайбкодинга и агентного программирования говорят, что работают в 2, 10, а то и в 100 раз продуктивнее! Один даже разработал с нуля целый браузер. Невероятно!И скептики ...
[Перевод] Пентагон против Anthropic: почему этот конфликт касается каждого
Время от времени технический спор обнажает нечто гораздо большее. Недавняя стычка между Министерством обороны США и Anthropic — как раз такой случай. Не потому, что речь о контр...
Заменит ли «Сложная обработка информации» востребованного специалиста?
Почему мы вообще обсуждаем конкуренцию людей и машин? Потому что мы стали жертвами удачного нейминга.Возврат в 1950-е. Алан Тьюринг и Клод Шеннон дали базу. Но термин «ИИ» приду...
[Перевод] Внегалактическая археология: новый метод изучения роста и эволюции галактик
Галактики растут за счёт слияний и притока газа, и когда астрономы хотят понять, как галактика развивалась на протяжении миллиардов лет, одним из лучших способов сделать это явл...
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Magic: но не Gathering — формат Split Deck
В этом месяце вышло уже 110 дополнение к MTG. На это раз посвящённое коллаборации со вселенной Черепашек-Ниндзя (при этом, дополнений, не выходящих в основном соревновательном ф...
Для создания AGI нам нужно сделать шаг назад
Современные языковые модели демонстрируют отличные способности к рассуждению, но при этом остаются инструментами. У инструмента нет выбора. В основе LLM лежит предсказание следу...
[Перевод] Где же все эти приложения, создаваемые с помощью ИИ?
Любители вайбкодинга и агентного программирования говорят, что работают в 2, 10, а то и в 100 раз продуктивнее! Один даже разработал с нуля целый браузер. Невероятно!И скептики ...
[Перевод] Пентагон против Anthropic: почему этот конфликт касается каждого
Время от времени технический спор обнажает нечто гораздо большее. Недавняя стычка между Министерством обороны США и Anthropic — как раз такой случай. Не потому, что речь о контр...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Magic: но не Gathering — формат Split Deck
В этом месяце вышло уже 110 дополнение к MTG. На это раз посвящённое коллаборации со вселенной Черепашек-Ниндзя (при этом, дополнений, не выходящих в основном соревновательном ф...
Для создания AGI нам нужно сделать шаг назад
Современные языковые модели демонстрируют отличные способности к рассуждению, но при этом остаются инструментами. У инструмента нет выбора. В основе LLM лежит предсказание следу...
[Перевод] Где же все эти приложения, создаваемые с помощью ИИ?
Любители вайбкодинга и агентного программирования говорят, что работают в 2, 10, а то и в 100 раз продуктивнее! Один даже разработал с нуля целый браузер. Невероятно!И скептики ...
[Перевод] Пентагон против Anthropic: почему этот конфликт касается каждого
Время от времени технический спор обнажает нечто гораздо большее. Недавняя стычка между Министерством обороны США и Anthropic — как раз такой случай. Не потому, что речь о контр...