News Grower

Независимое покрытие AI, стартапов и технологий.

Синтетика как топливо: почему self-training работает и где начинается model collapse

В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель у...

Синтетика как топливо: почему self-training работает и где начинается model collapse

В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель учится на своих же генерациях», можно попасть в режим model collapse — деградации распределения, исчезновению редких случаев и потери разнообразия. Эта статья продолжает цикл о новой парадигме ИИ, на этот раз предлагаем обудить, как синтетика помогает и где начинается опасность.Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур Центра «Пуск» МФТИ в области Data Science, разработки и управления ИТ-продуктами. Магистр бизнес-информатики и соавтор курса «Экономика для технологических предпринимателей». Занимается проектами в телекоме, ИТ, ИИ, интересуется биоинформатикой и биотехнологиями, увлекается изучением квантовых систем. Принимал участие в международных ИТ-стартапах (закрытие венчурных раундов с крупнейшими технологическими гигантами). Считает себя технологическим предпринимателем (не инвестором), который вот-вот набьет все шишки и наконец-то сделает что-то полезное. Собственное портфолио проектов: инерциальная авионика, ИИ-системы управления компанией, интеллектуальные системы производства спортивной обуви.В первой статье про стену данных цикла «Интуиция машины: новая парадигма ИИ» мы додумались до одной мысли: GPU можно купить, а вот качественные человеческие данные — все сложнее. Поэтому индустрия делает логичный шаг: если «топлива» (реальных данных) не хватает или оно дорожает, давайте… синтезируем его сами.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Режим сна и продуктивность: как не работать по ночам и всё успевать

Режим сна и продуктивность: как не работать по ночам и всё успевать

Удалёнка сдвигает рабочий день вправо. Утром — встречи и реакции на входящие, днём — операционка, и только к вечеру наконец доходят руки до задач, которые требуют головы. Итог: ...

Эксперимент: улучшаем реальную статью с Obsidian Copilot

Эксперимент: улучшаем реальную статью с Obsidian Copilot

Привет, Хабр!В своей работе мне приходится держать в голове очень много информации, иногда настолько, что нельзя не полагаться на современные технологии. В этот раз я хочу прове...

Проверяем веб-расчёт потерь в шинах на соответствие стандартам

Проверяем веб-расчёт потерь в шинах на соответствие стандартам

От уравнений до верификации: как мы сравнивали разработанный веб-модуль для анализа потерь в НКУ (низковольтных комплектных устройствах) с нормативной базойА можно ли рассчитать...

[Перевод] SIMD-парсер CSV

[Перевод] SIMD-парсер CSV

Год назад я написал парсер CSV, способный обрабатывать 64 символа за раз. Он создан исключительно в исследовательских целях и в нём не учтены важнейшие этапы продакшен-парсера н...

Почему AI-generated UI стоит изучать как источник визуальных мутаций

Почему AI-generated UI стоит изучать как источник визуальных мутаций

Когда обсуждают AI-generated UI, разговор обычно быстро уходит в одну из двух крайностей.Первая крайность звучит так: можно ли это сразу нести в продакшен?Вторая так: насколько ...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Режим сна и продуктивность: как не работать по ночам и всё успевать

Режим сна и продуктивность: как не работать по ночам и всё успевать

Удалёнка сдвигает рабочий день вправо. Утром — встречи и реакции на входящие, днём — операционка, и только к вечеру наконец доходят руки до задач, которые требуют головы. Итог: ...

Эксперимент: улучшаем реальную статью с Obsidian Copilot

Эксперимент: улучшаем реальную статью с Obsidian Copilot

Привет, Хабр!В своей работе мне приходится держать в голове очень много информации, иногда настолько, что нельзя не полагаться на современные технологии. В этот раз я хочу прове...

Проверяем веб-расчёт потерь в шинах на соответствие стандартам

Проверяем веб-расчёт потерь в шинах на соответствие стандартам

От уравнений до верификации: как мы сравнивали разработанный веб-модуль для анализа потерь в НКУ (низковольтных комплектных устройствах) с нормативной базойА можно ли рассчитать...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Режим сна и продуктивность: как не работать по ночам и всё успевать

Режим сна и продуктивность: как не работать по ночам и всё успевать

Удалёнка сдвигает рабочий день вправо. Утром — встречи и реакции на входящие, днём — операционка, и только к вечеру наконец доходят руки до задач, которые требуют головы. Итог: ...

Эксперимент: улучшаем реальную статью с Obsidian Copilot

Эксперимент: улучшаем реальную статью с Obsidian Copilot

Привет, Хабр!В своей работе мне приходится держать в голове очень много информации, иногда настолько, что нельзя не полагаться на современные технологии. В этот раз я хочу прове...

Проверяем веб-расчёт потерь в шинах на соответствие стандартам

Проверяем веб-расчёт потерь в шинах на соответствие стандартам

От уравнений до верификации: как мы сравнивали разработанный веб-модуль для анализа потерь в НКУ (низковольтных комплектных устройствах) с нормативной базойА можно ли рассчитать...