Data Gravity и отравление выборки
Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из...
Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит. Открыть материал
Связанные теги
Компании и люди
Линия сюжета
Data
Последние материалы и связанный контекст по теме Data.
Gravity
Последние материалы и связанные ссылки по теме Gravity.
Gravity
Последние материалы и связанный контекст по теме Gravity.
Habr
Последние материалы и связанные ссылки по теме Habr.
Habr
Последние материалы и связанный контекст по теме Habr.
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Нуклеосинтез в звездах
Все известные элементы, после водорода, синтезированы звездами, в процессе ядерных реакций. Весь знакомый нам мир создан звездами. В недрах звезд, при огромных температурах и да...
Я записываю онлайн-встречи. И вам советую — 2
Если вы помните первую статью, я рассказывал про небольшое macOS‑приложение для фоновой записи таун‑холлов и других “скучных” встреч. Оно работает локально, без облака, транскри...
Огород на подоконнике: почему удалёнщики мечтают переехать из мегаполиса
“Wake up! Из «Матрицы» сойду - Трава по пояс!”Удалёнщик берёт красную таблетку, просыпается — и обнаруживает, что вокруг не зелёные поля, а расчистка снега, извоз детей в школу ...
SDR RX стенд на STM32H723
Давно интересовал вопрос использования 16-битного АЦП STM32H7 для обработки I/Q сигналов в реальном времени.Почти год ушел на эксперименты реализации SDR приемника на базе Taylo...
[Перевод] Раздувание памяти JDK 17 в контейнерах: разбор инцидента
В новом переводе от команды Spring АйО разберем тему раздувания памяти в JDK 17. Апгрейд микросервисов с JDK 8 на JDK 17 прошел dev и QA спокойно, но в проде через 2-3 часа все ...
Один разработчик + Claude Code = GEO платформа для мониторинга и повышения видимости бренда в 9 нейросетях
Сентябрь 2025, шёл шестой год в роли мобильного разработчика, пишу приложение для туроператора Biblio Globus. В один день в общем чате CEO спрашивает «Кто что знает про GEO?» — ...
Страницы сущностей
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Нуклеосинтез в звездах
Все известные элементы, после водорода, синтезированы звездами, в процессе ядерных реакций. Весь знакомый нам мир создан звездами. В недрах звезд, при огромных температурах и да...
Я записываю онлайн-встречи. И вам советую — 2
Если вы помните первую статью, я рассказывал про небольшое macOS‑приложение для фоновой записи таун‑холлов и других “скучных” встреч. Оно работает локально, без облака, транскри...
Огород на подоконнике: почему удалёнщики мечтают переехать из мегаполиса
“Wake up! Из «Матрицы» сойду - Трава по пояс!”Удалёнщик берёт красную таблетку, просыпается — и обнаруживает, что вокруг не зелёные поля, а расчистка снега, извоз детей в школу ...
SDR RX стенд на STM32H723
Давно интересовал вопрос использования 16-битного АЦП STM32H7 для обработки I/Q сигналов в реальном времени.Почти год ушел на эксперименты реализации SDR приемника на базе Taylo...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Luminarys AI: платформа AI-агентов с изолированными навыками и кластеризацией
Модульная платформа для запуска AI-агентов, где каждый навык работает в WebAssembly-песочнице, агенты масштабируются на кластер из разнородных машин, а навыки пишутся на Go, Rus...
Нуклеосинтез в звездах
Все известные элементы, после водорода, синтезированы звездами, в процессе ядерных реакций. Весь знакомый нам мир создан звездами. В недрах звезд, при огромных температурах и да...
TrueNAS. Организация файлового сервера у клиента c возможностью удаленного доступа
Недавно позвонил мне знакомый — у них в организации возникла потребность в файловом сервере. Первым делом я, конечно, предложил что-то проверенное, вроде готового решения от Syn...
Я записываю онлайн-встречи. И вам советую — 2
Если вы помните первую статью, я рассказывал про небольшое macOS‑приложение для фоновой записи таун‑холлов и других “скучных” встреч. Оно работает локально, без облака, транскри...