ruGPT3XL идёт в качалку / поднимаем контекст до 8k
Это продолжение предыдущей публикации про реставрацию ruGPT3XL. Для тех кто не читал, кратенько, я конвертировал древний Megatron-LM чекпоинт в HuggingFace-формат, залил веса на...
Погода сигнала
Внимание снижается, но статья всё ещё помогает увидеть общую картину и продолжение темы.
Почему сейчас
Habr уже задаёт по этой теме сильный контекст, поэтому отсюда удобно идти дальше.