GigaChat-3.1: Большое обновление больших моделей
В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSee...
В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning, а Lightning на аренах с судьёй GPT-4.1 играет на уровне GPT-4o — при 1,8 млрд активных параметров. Модели, как и раньше, лежат на HuggingFace и GitVerse под MIT.Но этот пост — не только про числа в таблицах. Переезд на новую архитектуру дался нам нелегко: переход от Dense-моделей к MoE вскрыл несколько проблем, о которых мы раньше не думали. По дороге к релизу мы полностью победили проблему зацикливания генераций (и придумали для этого метрику на основе BPE-сжатия хвоста), перевели DPO-этап в нативный FP8, получив качество выше bf16 при вдвое меньшем потреблении памяти, нашли критичный баг в SGLang при dp > 1, который роняет качество, и выяснили, что GPT-OSS-120b — неожиданно хорошая замена проприетарным судьям на аренах. Под катом — подробности о каждом из этих сюжетов: что ломалось, какие гипотезы не сработали, и что в итоге помогло.
Краткая сводка
Сегодня опубликованы обновлённые модели GigaChat-3.1-Ultra (702 B MoE) и GigaChat-3.1-Lightning (10 B MoE), которые по внутренним замерам превосходят Qwen3‑235B‑A22B, DeepSeek‑V3‑0324 и работают на уровне GPT‑4o при 1,8 млрд активных параметров. При их выпуске решены проблемы зацикливания генераций, реализован DPO в FP8, исправлен баг SGLang и обнаружена эффективность GPT‑OSS‑120b как замены проприетарных судей.
Связанные теги
Компании и люди
Рекламный слот
Article monetization slot
Reserved for contextual monetization inside article pages.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Топ-13 бесплатных нейросетей для генерации презентаций в 2026 году
Март не так часто балует нас громкими новинками, как хотелось бы, но индустрия не стоит на месте. В прошлой статье я рассказывал о ИИ-инструментах/агентах/сервисах для программи...
Как перестать наступать на грабли в Go: набор рабочих рецептов
Пишете на Go или только начинаете изучать язык? Эта шпаргалка точно сэкономит вам кучу времени. Никакой воды, абстрактных рассуждений и скучных введений. Мы пройдёмся по тем сам...
Проводка на изоляторах: как инженерный костыль стал популярным элементом современного дизайна
В конце XIX века электричество постепенно превратилось из научного чуда в обыденность: начали строить электростанции, а вместе с их запуском встал вопрос, как именно доставлять ...
Open-source персистентная память для LLM
Задача, которая казалась тривиальной: научить LLM помнить, с кем она разговаривает. Пользователь пишет «я вегетарианец», а через три сообщения модель предлагает стейк-хаус. Знак...