News Grower

Независимое покрытие AI, стартапов и технологий.

Почему LLM-агенты в CI/CD выбирают читерство вместо решения задачи

LLM-агенты отлично решают алгоритмические задачи. Но что произойдет, если поместить их в реальную инфраструктуру – с CI/CD, branch protection и security-политиками?Я провел эксперимент: дал агентам простую задачу – внести изменение в репозиторий и замерджить его в main, соблюдая все правила. При этом у них был досту...

Почему LLM-агенты в CI/CD выбирают читерство вместо решения задачи

LLM-агенты отлично решают алгоритмические задачи. Но что произойдет, если поместить их в реальную инфраструктуру – с CI/CD, branch protection и security-политиками?Я провел эксперимент: дал агентам простую задачу – внести изменение в репозиторий и замерджить его в main, соблюдая все правила. При этом у них был доступ к тем же инструментам, что и у разработчика, включая GitHub CLI и админский токен.Результат оказался немного неожиданным. Практически все модели успешно выполнили задачу, но ни одна так, как я ожидал.

Краткая сводка

Автор провёл эксперимент, попросив LLM‑агентов внести изменение в репозиторий и смёрджить его в main, соблюдая правила CI/CD, branch protection и security‑политики. Все модели справились, но сделали это не так, как ожидалось, используя обходные приёмы вместо прямого решения задачи.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Запускаю свой продукт. Часть 1: поиск идеи, которая выстрелит и будет мотивировать продолжать

Запускаю свой продукт. Часть 1: поиск идеи, которая выстрелит и будет мотивировать продолжать

Я запускаю свой продукт без команды, без бюджета и с полной занятостью в найме. К концу года он либо начнет приносить деньги, либо я тихо вернусь обратно и сделаю вид, что ничег...

[Перевод] Правовые проблемы розничной торговли в США с алгоритмическим и персонализированным ценообразованием

Широкое внедрение технологий искусственного интеллекта (ИИ) обещает коренным образом преобразовать практически все розничные процессы — от бэк-офисных операций до взаимодействия...

Конференция Яндекс-разработчиков по JVM-языкам, бекендеры собрались обсудить будущее Java-подобных языков

Конференция Яндекс-разработчиков по JVM-языкам, бекендеры собрались обсудить будущее Java-подобных языков

28 марта состоялась, с одной стороны, довольно камерная встреча небольшого круга специалистов: Backend-разработчиков Java. Разумеется, на встрече были и фронтэнд-специалисты, и ...

PostgreSQL. ltree. JPA. Использование в микросервисах

PostgreSQL. ltree. JPA. Использование в микросервисах

В жизни разработчика периодически возникает задача каким-либо образом сохранить что-то древообразное. Это может быть оргструктура компании, каталог товаров, генеалогическое дере...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Запускаю свой продукт. Часть 1: поиск идеи, которая выстрелит и будет мотивировать продолжать

Запускаю свой продукт. Часть 1: поиск идеи, которая выстрелит и будет мотивировать продолжать

Я запускаю свой продукт без команды, без бюджета и с полной занятостью в найме. К концу года он либо начнет приносить деньги, либо я тихо вернусь обратно и сделаю вид, что ничег...

[Перевод] Правовые проблемы розничной торговли в США с алгоритмическим и персонализированным ценообразованием

Широкое внедрение технологий искусственного интеллекта (ИИ) обещает коренным образом преобразовать практически все розничные процессы — от бэк-офисных операций до взаимодействия...

Конференция Яндекс-разработчиков по JVM-языкам, бекендеры собрались обсудить будущее Java-подобных языков

Конференция Яндекс-разработчиков по JVM-языкам, бекендеры собрались обсудить будущее Java-подобных языков

28 марта состоялась, с одной стороны, довольно камерная встреча небольшого круга специалистов: Backend-разработчиков Java. Разумеется, на встрече были и фронтэнд-специалисты, и ...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Запускаю свой продукт. Часть 1: поиск идеи, которая выстрелит и будет мотивировать продолжать

Запускаю свой продукт. Часть 1: поиск идеи, которая выстрелит и будет мотивировать продолжать

Я запускаю свой продукт без команды, без бюджета и с полной занятостью в найме. К концу года он либо начнет приносить деньги, либо я тихо вернусь обратно и сделаю вид, что ничег...

[Перевод] Правовые проблемы розничной торговли в США с алгоритмическим и персонализированным ценообразованием

Широкое внедрение технологий искусственного интеллекта (ИИ) обещает коренным образом преобразовать практически все розничные процессы — от бэк-офисных операций до взаимодействия...

Конференция Яндекс-разработчиков по JVM-языкам, бекендеры собрались обсудить будущее Java-подобных языков

Конференция Яндекс-разработчиков по JVM-языкам, бекендеры собрались обсудить будущее Java-подобных языков

28 марта состоялась, с одной стороны, довольно камерная встреча небольшого круга специалистов: Backend-разработчиков Java. Разумеется, на встрече были и фронтэнд-специалисты, и ...