[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ. Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось б...
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ. Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда.Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%?В этом и заключается магия квантизации.В этой статье вы узнаете:– Почему параметры модели делают её такой большой– Как работает точность чисел с плавающей точкой и чем жертвуют модели– Как сжимать числа с плавающей точкой с помощью квантизации– Как измерить потерю качества модели после квантизации
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
[Перевод] DPoP: что это такое, как работает и почему Bearer-токенов недостаточно
Bearer-токен работает слишком просто: кто его получил, тот и авторизован. Именно поэтому утечки токенов регулярно превращаются в реальные инциденты — от CI/CD до облачных хранил...
Топ нейросетей для работы с таблицами: Zoho, BotHub, GPTExcel и другие
Думаю, каждый, кто хоть раз пытался подготовить отчёт к утру понедельника, сталкивался с этим чувством. Когда в таблице 500 строк, в каждой какой-то текст, а начальник просит пр...
Практики разработки на Python
Привет, Хабр! Меня зовут Роман, я программист в команде «Гравитон» и моя задача в компании — разработка API/CLI интерфейсов и приложений на языке Python. Цель данной статьи в то...
Разрушаем мифы: почему CMP — это не только для энтерпрайза
Привет, Хабр! Наверняка многие из вас знакомы с нашей платформой BILLmanager Enterprise. Изначально это решение развивалось как инструмент автоматизации предоставления ИТ-р...
RAG вместо GPT: как мы сделали внутреннего ассистента для корпоративных данных
В больших компаниях поиск почти всегда «работает». Но это не значит, что сотрудники быстро находят нужное: нередко они тратят часы на попытку вспомнить формулировку, место и кон...
Готовим ИИ-агента к продакшену
Всем привет! На связи Сергей Смирнов, действующий и практикующий AI-инженер. ИИ интересовал меня задолго до нынешнего хайпа: ещё со времён защиты кандидатской, он всегда был для...
Рекламный слот
Article monetization slot
Reserved for contextual monetization inside article pages.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
[Перевод] DPoP: что это такое, как работает и почему Bearer-токенов недостаточно
Bearer-токен работает слишком просто: кто его получил, тот и авторизован. Именно поэтому утечки токенов регулярно превращаются в реальные инциденты — от CI/CD до облачных хранил...
Топ нейросетей для работы с таблицами: Zoho, BotHub, GPTExcel и другие
Думаю, каждый, кто хоть раз пытался подготовить отчёт к утру понедельника, сталкивался с этим чувством. Когда в таблице 500 строк, в каждой какой-то текст, а начальник просит пр...
Практики разработки на Python
Привет, Хабр! Меня зовут Роман, я программист в команде «Гравитон» и моя задача в компании — разработка API/CLI интерфейсов и приложений на языке Python. Цель данной статьи в то...
Разрушаем мифы: почему CMP — это не только для энтерпрайза
Привет, Хабр! Наверняка многие из вас знакомы с нашей платформой BILLmanager Enterprise. Изначально это решение развивалось как инструмент автоматизации предоставления ИТ-р...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
[Перевод] DPoP: что это такое, как работает и почему Bearer-токенов недостаточно
Bearer-токен работает слишком просто: кто его получил, тот и авторизован. Именно поэтому утечки токенов регулярно превращаются в реальные инциденты — от CI/CD до облачных хранил...
Топ нейросетей для работы с таблицами: Zoho, BotHub, GPTExcel и другие
Думаю, каждый, кто хоть раз пытался подготовить отчёт к утру понедельника, сталкивался с этим чувством. Когда в таблице 500 строк, в каждой какой-то текст, а начальник просит пр...
Практики разработки на Python
Привет, Хабр! Меня зовут Роман, я программист в команде «Гравитон» и моя задача в компании — разработка API/CLI интерфейсов и приложений на языке Python. Цель данной статьи в то...
Разрушаем мифы: почему CMP — это не только для энтерпрайза
Привет, Хабр! Наверняка многие из вас знакомы с нашей платформой BILLmanager Enterprise. Изначально это решение развивалось как инструмент автоматизации предоставления ИТ-р...