News Grower

Независимое покрытие AI, стартапов и технологий.

Habr 24.03.2026 10:47 Developer Tools

GigaChat-3.1: Большое обновление больших моделей

В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSee...

Автор: chameleon-lizard (Сбер) Оригинальный источник
GigaChat-3.1: Большое обновление больших моделей

В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning, а Lightning на аренах с судьёй GPT-4.1 играет на уровне GPT-4o — при 1,8 млрд активных параметров. Модели, как и раньше, лежат на HuggingFace и GitVerse под MIT.Но этот пост — не только про числа в таблицах. Переезд на новую архитектуру дался нам нелегко: переход от Dense-моделей к MoE вскрыл несколько проблем, о которых мы раньше не думали. По дороге к релизу мы полностью победили проблему зацикливания генераций (и придумали для этого метрику на основе BPE-сжатия хвоста), перевели DPO-этап в нативный FP8, получив качество выше bf16 при вдвое меньшем потреблении памяти, нашли критичный баг в SGLang при dp > 1, который роняет качество, и выяснили, что GPT-OSS-120b — неожиданно хорошая замена проприетарным судьям на аренах. Под катом — подробности о каждом из этих сюжетов: что ломалось, какие гипотезы не сработали, и что в итоге помогло.

Краткая сводка

Сегодня опубликованы обновлённые модели GigaChat-3.1-Ultra (702 B MoE) и GigaChat-3.1-Lightning (10 B MoE), которые по внутренним замерам превосходят Qwen3‑235B‑A22B, DeepSeek‑V3‑0324 и работают на уровне GPT‑4o при 1,8 млрд активных параметров. При их выпуске решены проблемы зацикливания генераций, реализован DPO в FP8, исправлен баг SGLang и обнаружена эффективность GPT‑OSS‑120b как замены проприетарных судей.

Связанные теги

Компании и люди

Рекламный слот

Article monetization slot

Reserved for contextual monetization inside article pages.

Explore options

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Топ-13 бесплатных нейросетей для генерации презентаций в 2026 году
Habr 24.03.2026 13:07 Developer Tools

Топ-13 бесплатных нейросетей для генерации презентаций в 2026 году

Март не так часто балует нас громкими новинками, как хотелось бы, но индустрия не стоит на месте. В прошлой статье я рассказывал о ИИ-инструментах/агентах/сервисах для программи...

Как перестать наступать на грабли в Go: набор рабочих рецептов
Habr 24.03.2026 13:01 Developer Tools

Как перестать наступать на грабли в Go: набор рабочих рецептов

Пишете на Go или только начинаете изучать язык? Эта шпаргалка точно сэкономит вам кучу времени. Никакой воды, абстрактных рассуждений и скучных введений. Мы пройдёмся по тем сам...

Проводка на изоляторах: как инженерный костыль стал популярным элементом современного дизайна
Habr 24.03.2026 13:00 Developer Tools

Проводка на изоляторах: как инженерный костыль стал популярным элементом современного дизайна

В конце XIX века электричество постепенно превратилось из научного чуда в обыденность: начали строить электростанции, а вместе с их запуском встал вопрос, как именно доставлять ...

Open-source персистентная память для LLM
Habr 24.03.2026 13:00 Developer Tools

Open-source персистентная память для LLM

Задача, которая казалась тривиальной: научить LLM помнить, с кем она разговаривает. Пользователь пишет «я вегетарианец», а через три сообщения модель предлагает стейк-хаус. Знак...