News Grower

Независимое покрытие AI, стартапов и технологий.

Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей

Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections).Но реальность оказалась суровой: хваленые ...

Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections).Но реальность оказалась суровой: хваленые reasoning-модели постоянно галлюцинировали, ломали структуру JSON на выходе (выдавая свои "мысли" вместо чистого ответа) и просто сжигали бюджет на API, зацикливаясь на одной ошибке.Потратив часть бюджета впустую, я решил: если ИИ не справляется, мы заменим его на старый добрый хардкод. Так родился концепт Zero-Cost Agent — алгоритмического лома, который симулирует поведение нейросети.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Magic: но не Gathering — формат Split Deck

Magic: но не Gathering — формат Split Deck

В этом месяце вышло уже 110 дополнение к MTG. На это раз посвящённое коллаборации со вселенной Черепашек-Ниндзя (при этом, дополнений, не выходящих в основном соревновательном ф...

Для создания AGI нам нужно сделать шаг назад

Для создания AGI нам нужно сделать шаг назад

Современные языковые модели демонстрируют отличные способности к рассуждению, но при этом остаются инструментами. У инструмента нет выбора. В основе LLM лежит предсказание следу...

[Перевод] Где же все эти приложения, создаваемые с помощью ИИ?

[Перевод] Где же все эти приложения, создаваемые с помощью ИИ?

Любители вайбкодинга и агентного программирования говорят, что работают в 2, 10, а то и в 100 раз продуктивнее! Один даже разработал с нуля целый браузер. Невероятно!И скептики ...

[Перевод] Пентагон против Anthropic: почему этот конфликт касается каждого

[Перевод] Пентагон против Anthropic: почему этот конфликт касается каждого

Время от времени технический спор обнажает нечто гораздо большее. Недавняя стычка между Министерством обороны США и Anthropic — как раз такой случай. Не потому, что речь о контр...

Заменит ли «Сложная обработка информации» востребованного специалиста?

Заменит ли «Сложная обработка информации» востребованного специалиста?

Почему мы вообще обсуждаем конкуренцию людей и машин? Потому что мы стали жертвами удачного нейминга.Возврат в 1950-е. Алан Тьюринг и Клод Шеннон дали базу. Но термин «ИИ» приду...

[Перевод] Внегалактическая археология: новый метод изучения роста и эволюции галактик

[Перевод] Внегалактическая археология: новый метод изучения роста и эволюции галактик

Галактики растут за счёт слияний и притока газа, и когда астрономы хотят понять, как галактика развивалась на протяжении миллиардов лет, одним из лучших способов сделать это явл...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Magic: но не Gathering — формат Split Deck

Magic: но не Gathering — формат Split Deck

В этом месяце вышло уже 110 дополнение к MTG. На это раз посвящённое коллаборации со вселенной Черепашек-Ниндзя (при этом, дополнений, не выходящих в основном соревновательном ф...

Для создания AGI нам нужно сделать шаг назад

Для создания AGI нам нужно сделать шаг назад

Современные языковые модели демонстрируют отличные способности к рассуждению, но при этом остаются инструментами. У инструмента нет выбора. В основе LLM лежит предсказание следу...

[Перевод] Где же все эти приложения, создаваемые с помощью ИИ?

[Перевод] Где же все эти приложения, создаваемые с помощью ИИ?

Любители вайбкодинга и агентного программирования говорят, что работают в 2, 10, а то и в 100 раз продуктивнее! Один даже разработал с нуля целый браузер. Невероятно!И скептики ...

[Перевод] Пентагон против Anthropic: почему этот конфликт касается каждого

[Перевод] Пентагон против Anthropic: почему этот конфликт касается каждого

Время от времени технический спор обнажает нечто гораздо большее. Недавняя стычка между Министерством обороны США и Anthropic — как раз такой случай. Не потому, что речь о контр...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Magic: но не Gathering — формат Split Deck

Magic: но не Gathering — формат Split Deck

В этом месяце вышло уже 110 дополнение к MTG. На это раз посвящённое коллаборации со вселенной Черепашек-Ниндзя (при этом, дополнений, не выходящих в основном соревновательном ф...

Для создания AGI нам нужно сделать шаг назад

Для создания AGI нам нужно сделать шаг назад

Современные языковые модели демонстрируют отличные способности к рассуждению, но при этом остаются инструментами. У инструмента нет выбора. В основе LLM лежит предсказание следу...

[Перевод] Где же все эти приложения, создаваемые с помощью ИИ?

[Перевод] Где же все эти приложения, создаваемые с помощью ИИ?

Любители вайбкодинга и агентного программирования говорят, что работают в 2, 10, а то и в 100 раз продуктивнее! Один даже разработал с нуля целый браузер. Невероятно!И скептики ...

[Перевод] Пентагон против Anthropic: почему этот конфликт касается каждого

[Перевод] Пентагон против Anthropic: почему этот конфликт касается каждого

Время от времени технический спор обнажает нечто гораздо большее. Недавняя стычка между Министерством обороны США и Anthropic — как раз такой случай. Не потому, что речь о контр...