Синтетика как топливо: почему self-training работает и где начинается model collapse
В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель у...
В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель учится на своих же генерациях», можно попасть в режим model collapse — деградации распределения, исчезновению редких случаев и потери разнообразия. Эта статья продолжает цикл о новой парадигме ИИ, на этот раз предлагаем обудить, как синтетика помогает и где начинается опасность.Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур Центра «Пуск» МФТИ в области Data Science, разработки и управления ИТ-продуктами. Магистр бизнес-информатики и соавтор курса «Экономика для технологических предпринимателей». Занимается проектами в телекоме, ИТ, ИИ, интересуется биоинформатикой и биотехнологиями, увлекается изучением квантовых систем. Принимал участие в международных ИТ-стартапах (закрытие венчурных раундов с крупнейшими технологическими гигантами). Считает себя технологическим предпринимателем (не инвестором), который вот-вот набьет все шишки и наконец-то сделает что-то полезное. Собственное портфолио проектов: инерциальная авионика, ИИ-системы управления компанией, интеллектуальные системы производства спортивной обуви.В первой статье про стену данных цикла «Интуиция машины: новая парадигма ИИ» мы додумались до одной мысли: GPU можно купить, а вот качественные человеческие данные — все сложнее. Поэтому индустрия делает логичный шаг: если «топлива» (реальных данных) не хватает или оно дорожает, давайте… синтезируем его сами.
Связанные теги
Компании и люди
Линия сюжета
Collapse
Последние материалы и связанный контекст по теме Collapse.
GPU
Последние материалы и связанные ссылки по теме GPU.
GPU
Последние материалы и связанный контекст по теме GPU.
Habr
Последние материалы и связанный контекст по теме Habr.
Habr
Последние материалы и связанные ссылки по теме Habr.
Model Collapse
Последние материалы и связанные ссылки по теме Model Collapse.
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
LLM — поиск товаров
LLM-поиск товаров: R&D применения технологий RAG и Knowledge Graph Search для продвинутого поиска товаров по сложным текстовым запросам. Как LLM и Knowledge Graph ищут товары
Режим сна и продуктивность: как не работать по ночам и всё успевать
Удалёнка сдвигает рабочий день вправо. Утром — встречи и реакции на входящие, днём — операционка, и только к вечеру наконец доходят руки до задач, которые требуют головы. Итог: ...
Эксперимент: улучшаем реальную статью с Obsidian Copilot
Привет, Хабр!В своей работе мне приходится держать в голове очень много информации, иногда настолько, что нельзя не полагаться на современные технологии. В этот раз я хочу прове...
Проверяем веб-расчёт потерь в шинах на соответствие стандартам
От уравнений до верификации: как мы сравнивали разработанный веб-модуль для анализа потерь в НКУ (низковольтных комплектных устройствах) с нормативной базойА можно ли рассчитать...
[Перевод] SIMD-парсер CSV
Год назад я написал парсер CSV, способный обрабатывать 64 символа за раз. Он создан исключительно в исследовательских целях и в нём не учтены важнейшие этапы продакшен-парсера н...
Почему AI-generated UI стоит изучать как источник визуальных мутаций
Когда обсуждают AI-generated UI, разговор обычно быстро уходит в одну из двух крайностей.Первая крайность звучит так: можно ли это сразу нести в продакшен?Вторая так: насколько ...
Страницы сущностей
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
LLM — поиск товаров
LLM-поиск товаров: R&D применения технологий RAG и Knowledge Graph Search для продвинутого поиска товаров по сложным текстовым запросам. Как LLM и Knowledge Graph ищут товары
Режим сна и продуктивность: как не работать по ночам и всё успевать
Удалёнка сдвигает рабочий день вправо. Утром — встречи и реакции на входящие, днём — операционка, и только к вечеру наконец доходят руки до задач, которые требуют головы. Итог: ...
Эксперимент: улучшаем реальную статью с Obsidian Copilot
Привет, Хабр!В своей работе мне приходится держать в голове очень много информации, иногда настолько, что нельзя не полагаться на современные технологии. В этот раз я хочу прове...
Проверяем веб-расчёт потерь в шинах на соответствие стандартам
От уравнений до верификации: как мы сравнивали разработанный веб-модуль для анализа потерь в НКУ (низковольтных комплектных устройствах) с нормативной базойА можно ли рассчитать...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
LLM — поиск товаров
LLM-поиск товаров: R&D применения технологий RAG и Knowledge Graph Search для продвинутого поиска товаров по сложным текстовым запросам. Как LLM и Knowledge Graph ищут товары
Режим сна и продуктивность: как не работать по ночам и всё успевать
Удалёнка сдвигает рабочий день вправо. Утром — встречи и реакции на входящие, днём — операционка, и только к вечеру наконец доходят руки до задач, которые требуют головы. Итог: ...
Эксперимент: улучшаем реальную статью с Obsidian Copilot
Привет, Хабр!В своей работе мне приходится держать в голове очень много информации, иногда настолько, что нельзя не полагаться на современные технологии. В этот раз я хочу прове...
Проверяем веб-расчёт потерь в шинах на соответствие стандартам
От уравнений до верификации: как мы сравнивали разработанный веб-модуль для анализа потерь в НКУ (низковольтных комплектных устройствах) с нормативной базойА можно ли рассчитать...