Induction Heads на TinyStories: почему простой датасет мешает In-context Learning
Код: https://github.com/fanat503/Induction-Heads-TinystoriesGPT-2 Small обучена с нуля на TinyStories (473М токенов). Эксперимент показал, что Previous Token Heads формируются с...