Induction Heads на TinyStories: почему простой датасет мешает In-context Learning
Код: https://github.com/fanat503/Induction-Heads-TinystoriesGPT-2 Small обучена с нуля на TinyStories (473М токенов). Эксперимент показал, что Previous Token Heads формируются стабильно (score 0.20), а Induction Heads практически не формируются (score 0.05) из-за простоты датасета. Результаты верифицированы через Sp...
Код: https://github.com/fanat503/Induction-Heads-TinystoriesGPT-2 Small обучена с нуля на TinyStories (473М токенов). Эксперимент показал, что Previous Token Heads формируются стабильно (score 0.20), а Induction Heads практически не формируются (score 0.05) из-за простоты датасета. Результаты верифицированы через Sparse Autoencoder на Layer 6. Induction Heads на TinyStories: результаты
Связанные теги
Компании и люди
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Health Score для PostgreSQL: один показатель вместо 150 метрик
Мониторинг PostgreSQL сломан: 150 метрик в pg_stat_*, и ни одна не отвечает на вопрос «база здорова?». В статье — как устроен Health Score: единое число от 0 до 100, которое агр...
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Health Score для PostgreSQL: один показатель вместо 150 метрик
Мониторинг PostgreSQL сломан: 150 метрик в pg_stat_*, и ни одна не отвечает на вопрос «база здорова?». В статье — как устроен Health Score: единое число от 0 до 100, которое агр...
Direct2D #8: О (WIC) Windows Imaging Component
Статья объясняет что такое WIC (Windows Imaging Component) и как с ним работать(с примерами), рассчитано для тех кто никогда не слышал, или почти никогда не слышал о WIC. Являет...
Критерии выживания и случайность — 2
Продолжаем data mining путешествие в погоне за удачей. Сегодня разберем как устроены богатство, социальные связи и образование. Эти категории достаточно сложны, но статистически...
Технологический журнал 1С: настройка, чтение и поиск проблем производительности
Когда в 1С «просто тормозит», стандартные метрики и журнал регистрации почти бесполезны: они показывают факт, но не причину. Технологический журнал — один из немногих инструмент...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Direct2D #8: О (WIC) Windows Imaging Component
Статья объясняет что такое WIC (Windows Imaging Component) и как с ним работать(с примерами), рассчитано для тех кто никогда не слышал, или почти никогда не слышал о WIC. Являет...
Критерии выживания и случайность — 2
Продолжаем data mining путешествие в погоне за удачей. Сегодня разберем как устроены богатство, социальные связи и образование. Эти категории достаточно сложны, но статистически...
Технологический журнал 1С: настройка, чтение и поиск проблем производительности
Когда в 1С «просто тормозит», стандартные метрики и журнал регистрации почти бесполезны: они показывают факт, но не причину. Технологический журнал — один из немногих инструмент...
Дикая вода моего сердца. Переводим ещё одно стихотворение на праиндоевропейский с помощью нейросетей
Ранее я уже выкладывал здесь посты о переводе моих стихотворений на праиндоевропейский с помощью пользовательского чат-бота Déiwos-Lókwos GPT на базе ChatGPT. Его создал один из...