News Grower

Независимое покрытие AI, стартапов и технологий.

Habr 06.04.2026 12:03 Инструменты разработки Стабильно Тёпло

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Через несколько дней будет 16 лет, как я на Хабре. Это моя первая статья. Я делаю десктопный AI-ассистент для встреч. Агент суммаризирует транскрипты — и делал это плохо: галлюцинирует решения, теряет задачи, путает кто что сказал. Полгода я чинил промпты по ощущениям — менял слово, смотрел глазами на пару примеров, ...

Погода сигнала

Стабильно

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Через несколько дней будет 16 лет, как я на Хабре. Это моя первая статья. Я делаю десктопный AI-ассистент для встреч. Агент суммаризирует транскрипты — и делал это плохо: галлюцинирует решения, теряет задачи, путает кто что сказал. Полгода я чинил промпты по ощущениям — менял слово, смотрел глазами на пару примеров, говорил «вроде лучше», деплоил. Это называется vibes-based development, и это тупик. Потом я разобрался с evals — по сути, тестами для недетерминированных систем. Перелопатил Hamel Husain, Eugene Yan, гайды Anthropic, доку Mastra. Написал всё в одном месте: мегастатья от ручного разбора ошибок до self-improving loops, где агент улучшает себя сам за ночь. С кодом, граблями и метафорами про пиццу.

Оставайтесь в сигнале

Следить за темой «Evals: мегастатья для фаундера, чей AI-агент работает как попало»

Следите не только за этой публикацией, но и за её продолжением: новыми материалами, соседними источниками и развитием сюжета.

Сначала отправим письмо для подтверждения, а дальше — только содержательные дайджесты.

Карта темы

Понять тему за минуту

Быстрый вход в историю: почему она важна сейчас, кто в ней участвует и куда идти дальше за контекстом.

Почему это важно сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.
У истории уже есть 6 связанных материала, поэтому отсюда легко перейти к продолжению темы.
Сюжет постоянно вращается вокруг AI, Evals, and Habr, поэтому страницы сущностей дадут самый быстрый контекст.
Habr уже выпустил ещё 4 продолжения по этой теме.

Карта темы

Открыть живую карту этой истории

Посмотрите, какие сущности, линии сюжета, источники и follow-up материалы формируют эту историю прямо сейчас.

Нажимайте на узлы

Сущность Линия сюжета Материал Хаб Источник

Story timeline

Продолжить следить за темой

Короткая линия событий и follow-up материалов, чтобы быстро понять ход темы.

24.05.2026 14:42 iXBT Live AI

У Apple появился поддомен Gen AI перед большим анонсом iOS 27

Apple готовит сайт Gen AI перед WWDC: новые функции ИИ для iPhone и Mac могут показать уже 8 июня 2026 года

24.05.2026 07:25 3DNews Hardware

Figure AI отчиталась о завершении 200-часового автономного теста роботов Figure 03 на сортировке посылок

Компания Figure AI, разрабатывающая человекоподобных роботов, сообщила, что её робот Figure 03 отработал 200 часов на сортировке посылок ...

21.05.2026 10:03 CNews Business

Дипломы в 2026 году: каждый второй абзац написан нейросетями

Аналитики платформы retext.ai с помощью собственного ИИ-детектора изучили почти 13 тыс. выпускных работ, защищенных...

21.05.2026 10:03 CNews Internet

Дипломы в 2026 году: каждый второй абзац написан нейросетями

Аналитики платформы retext.ai с помощью собственного ИИ-детектора изучили почти 13 тыс. выпускных работ, защищенных...

21.05.2026 09:19 3DNews Hardware

Роботы Figure AI больше недели сортируют посылки в прямом эфире — зрители делают ставки на их поломку

Стартап в области робототехники Figure AI уже больше недели ведёт прямую трансляцию, на которой человекоподобные роботы помещают тысячи п...

06.04.2026 12:03 Habr

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Через несколько дней будет 16 лет, как я на Хабре. Это моя первая статья. Я делаю десктопный AI-ассистент для встреч. Агент суммаризирует...

Насколько можно опираться

Сигнал и надёжность Habr

Источник работает в быстрый ритме: 0% последних материалов попадают в горячее окно, а 8% дают выраженный поисковый сигнал.

Рискованный

Надёжность

10

Свежесть

22

Источников в сюжете

6

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Рост Горячо

VK Tech запустил сервис для автоматизации маркетинговых исследований VK AI Researcher

VK Tech запустил сервис для автоматизации маркетинговых исследований VK AI Researcher. Сервис реализован на платформе для...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

iXBT Live AI 24.05.2026 14:42 AI
Пик Горячо Рост в поиске

У Apple появился поддомен Gen AI перед большим анонсом iOS 27

Apple готовит сайт Gen AI перед WWDC: новые функции ИИ для iPhone и Mac могут показать уже 8 июня 2026 года

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 940 и 27 внешнего сигнала.

Figure AI отчиталась о завершении 200-часового автономного теста роботов Figure 03 на сортировке посылок
Рост Горячо

Figure AI отчиталась о завершении 200-часового автономного теста роботов Figure 03 на сортировке посылок

Компания Figure AI, разрабатывающая человекоподобных роботов, сообщила, что её робот Figure 03 отработал 200 часов на сортировке посылок без вмешательства операторов. Изначально...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Рост Горячо

Дипломы в 2026 году: каждый второй абзац написан нейросетями

Аналитики платформы retext.ai с помощью собственного ИИ-детектора изучили почти 13 тыс. выпускных работ, защищенных...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про
Стабильно Тёпло

Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про

Создание безупречного визуала в Nano Banana — это не вопрос везения, а результат правильной коммуникации с нейросетью. В отличие от простых моделей прошлого, этот инструмент спо...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

Пошаговая инструкция установки MTProto прокси через Service Node + VLESS
Пик Тёпло Рост в поиске

Пошаговая инструкция установки MTProto прокси через Service Node + VLESS

Если вы когда-нибудь пытались поднять прокси для Telegram на сервере, то знаете, что такое «мессенджер не грузит». В этой инструкции я предлагаю рассмотреть подробную, пошаговую...

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 919 и 27 внешнего сигнала.

Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса
Стабильно Тёпло

Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса

Знаете, можно много долго спорить о том, что вот там умеют делать, а наши ничего не умеют. Но подход Яндекса к формированию поисковой выдачи мне всегда импонировал больше, нежел...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов
Стабильно Тёпло

Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов

Вторая статья цикла о криптографии, в котором мы рассказываем, как человечество училось прятать и расшифровывать секреты — от древних методов до современных алгоритмов. Сегодня ...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.