News Grower

Независимое покрытие AI, стартапов и технологий.

Induction Heads на TinyStories: почему простой датасет мешает In-context Learning

Код: https://github.com/fanat503/Induction-Heads-TinystoriesGPT-2 Small обучена с нуля на TinyStories (473М токенов). Эксперимент показал, что Previous Token Heads формируются стабильно (score 0.20), а Induction Heads практически не формируются (score 0.05) из-за простоты датасета. Результаты верифицированы через Sp...

Induction Heads на TinyStories: почему простой датасет мешает In-context Learning

Код: https://github.com/fanat503/Induction-Heads-TinystoriesGPT-2 Small обучена с нуля на TinyStories (473М токенов). Эксперимент показал, что Previous Token Heads формируются стабильно (score 0.20), а Induction Heads практически не формируются (score 0.05) из-за простоты датасета. Результаты верифицированы через Sparse Autoencoder на Layer 6. Induction Heads на TinyStories: результаты

Связанные теги

Компании и люди

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Health Score для PostgreSQL: один показатель вместо 150 метрик

Мониторинг PostgreSQL сломан: 150 метрик в pg_stat_*, и ни одна не отвечает на вопрос «база здорова?». В статье — как устроен Health Score: единое число от 0 до 100, которое агр...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Health Score для PostgreSQL: один показатель вместо 150 метрик

Мониторинг PostgreSQL сломан: 150 метрик в pg_stat_*, и ни одна не отвечает на вопрос «база здорова?». В статье — как устроен Health Score: единое число от 0 до 100, которое агр...

Критерии выживания и случайность — 2

Продолжаем data mining путешествие в погоне за удачей. Сегодня разберем как устроены богатство, социальные связи и образование. Эти категории достаточно сложны, но статистически...

Технологический журнал 1С: настройка, чтение и поиск проблем производительности

Технологический журнал 1С: настройка, чтение и поиск проблем производительности

Когда в 1С «просто тормозит», стандартные метрики и журнал регистрации почти бесполезны: они показывают факт, но не причину. Технологический журнал — один из немногих инструмент...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника

Критерии выживания и случайность — 2

Продолжаем data mining путешествие в погоне за удачей. Сегодня разберем как устроены богатство, социальные связи и образование. Эти категории достаточно сложны, но статистически...

Технологический журнал 1С: настройка, чтение и поиск проблем производительности

Технологический журнал 1С: настройка, чтение и поиск проблем производительности

Когда в 1С «просто тормозит», стандартные метрики и журнал регистрации почти бесполезны: они показывают факт, но не причину. Технологический журнал — один из немногих инструмент...

Дикая вода моего сердца. Переводим ещё одно стихотворение на праиндоевропейский с помощью нейросетей

Дикая вода моего сердца. Переводим ещё одно стихотворение на праиндоевропейский с помощью нейросетей

Ранее я уже выкладывал здесь посты о переводе моих стихотворений на праиндоевропейский с помощью пользовательского чат-бота Déiwos-Lókwos GPT на базе ChatGPT. Его создал один из...