vLLM Production Stack. Часть 1: Базовые возможности vLLM
Статья будет о том, как быстро начать работать с vLLM и vLLM Production Stack: от первого запуска модели до базовых режимов инференса через OpenAI-совместимый API. Разберем практические настройки и сценарии запуска — tool calling, thinking/non-thinking, мультимодальные и CPU-модели, а так же какие стартовые параметр...
Статья будет о том, как быстро начать работать с vLLM и vLLM Production Stack: от первого запуска модели до базовых режимов инференса через OpenAI-совместимый API. Разберем практические настройки и сценарии запуска — tool calling, thinking/non-thinking, мультимодальные и CPU-модели, а так же какие стартовые параметры сильнее всего влияют на память, производительность и стабильность. Отдельном рассмотрим полезные оптимизации для production-сценариев: FP8, Tensor Parallelism, KV-cache offloading, Speculative Decoding и ускорение холодного старта больших моделей.
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
[Перевод] Как один отказ превратился в $150 млрд к оценке, 295% роста удалений ChatGPT — и недооценённый сюжет в истории tech
Иногда наибольшую ценность создаёт тот, кто приходит вторым. Тим Кук и Сатья Наделла не основывали Apple и Microsoft, но каждый из них сел за руль — и увеличил капитализацию сво...
Как я вошёл в IT через кабальные договоры, дорос до миллиона в месяц — и почему сейчас снова в тупике
Больше 10 лет я в разработке — был джуном с кабальным договором на 100к за 5 месяцев и штрафом в 500к, дорос до ИП с миллионным оборотом. Сейчас IT в России тонет, а я пытаюсь с...
Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor
В 2026 году кодовые ассистенты окончательно перестали быть просто автокомплитом и превратились в полноценный инструмент разработки: они читают кодовую базу целиком, понимают зав...
Приказ ФСТЭК России № 117: полный обзор нововведений и практическое руководство по переходу от Приказа № 17
Разбираем Приказ ФСТЭК России № 117, который вступил в силу с 1 марта 2026 года и заменил действовавший более десяти лет Приказ № 17. В статье подробно рассматриваются новые тре...
URL как источник правды в Next.js App Router
Когда разработчик приходит в Next.js из обычного React SPA, он часто тащит с собой старую схему мышления. Есть поле ввода, значит будет useState. Есть поиск, значит будет useEff...
Придумали ради благой цели, убили ради денег. Печальная история нетбуков
Не так давно рынок разорвал анонс и выпуск MacBook Neo — первого бюджетного ноутбука от Apple, что призван закрыть 99 процентов задач у простых юзеров и убить рынок дешевых ноут...
Рекламный слот
Article monetization slot
Reserved for contextual monetization inside article pages.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
[Перевод] Как один отказ превратился в $150 млрд к оценке, 295% роста удалений ChatGPT — и недооценённый сюжет в истории tech
Иногда наибольшую ценность создаёт тот, кто приходит вторым. Тим Кук и Сатья Наделла не основывали Apple и Microsoft, но каждый из них сел за руль — и увеличил капитализацию сво...
Как я вошёл в IT через кабальные договоры, дорос до миллиона в месяц — и почему сейчас снова в тупике
Больше 10 лет я в разработке — был джуном с кабальным договором на 100к за 5 месяцев и штрафом в 500к, дорос до ИП с миллионным оборотом. Сейчас IT в России тонет, а я пытаюсь с...
Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor
В 2026 году кодовые ассистенты окончательно перестали быть просто автокомплитом и превратились в полноценный инструмент разработки: они читают кодовую базу целиком, понимают зав...
Приказ ФСТЭК России № 117: полный обзор нововведений и практическое руководство по переходу от Приказа № 17
Разбираем Приказ ФСТЭК России № 117, который вступил в силу с 1 марта 2026 года и заменил действовавший более десяти лет Приказ № 17. В статье подробно рассматриваются новые тре...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
[Перевод] Как один отказ превратился в $150 млрд к оценке, 295% роста удалений ChatGPT — и недооценённый сюжет в истории tech
Иногда наибольшую ценность создаёт тот, кто приходит вторым. Тим Кук и Сатья Наделла не основывали Apple и Microsoft, но каждый из них сел за руль — и увеличил капитализацию сво...
Как я вошёл в IT через кабальные договоры, дорос до миллиона в месяц — и почему сейчас снова в тупике
Больше 10 лет я в разработке — был джуном с кабальным договором на 100к за 5 месяцев и штрафом в 500к, дорос до ИП с миллионным оборотом. Сейчас IT в России тонет, а я пытаюсь с...
Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor
В 2026 году кодовые ассистенты окончательно перестали быть просто автокомплитом и превратились в полноценный инструмент разработки: они читают кодовую базу целиком, понимают зав...
Приказ ФСТЭК России № 117: полный обзор нововведений и практическое руководство по переходу от Приказа № 17
Разбираем Приказ ФСТЭК России № 117, который вступил в силу с 1 марта 2026 года и заменил действовавший более десяти лет Приказ № 17. В статье подробно рассматриваются новые тре...