Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества
GPT-5.4 пишет лучше всех — 97 баллов из 100. Но $0.10 за вызов. При 10 000 генераций в месяц — $1000. А мы нашли модель, которая справляется на 91% и стоит $0.0008. Те же 10 000 генераций — $8. Разница — $992 каждый месяц.Мы строим продукт, где LLM генерирует образовательный контент для клиентов. Публичные бенчмарки...
GPT-5.4 пишет лучше всех — 97 баллов из 100. Но $0.10 за вызов. При 10 000 генераций в месяц — $1000. А мы нашли модель, которая справляется на 91% и стоит $0.0008. Те же 10 000 генераций — $8. Разница — $992 каждый месяц.Мы строим продукт, где LLM генерирует образовательный контент для клиентов. Публичные бенчмарки (MMLU, HumanEval, LMSYS) не помогают — они не тестируют генерацию длинных текстов на русском и не учитывают стоимость. Поэтому мы за свои $95 построили собственный battle test и прогнали через него 18 моделей.Что обнаружили: 7 из 18 моделей вставляют китайские иероглифы в русский текст. Одна копирует инструкции из промпта прямо в заголовки. А LLM-судья поставил сам себе 127 баллов из 100.В статье: полная методология, таблицы с результатами, формула value score (цена/качество), и открытый лидерборд.
Связанные теги
Компании и люди
Линия сюжета
Gpt 5
Последние материалы и связанный контекст по теме Gpt 5.
GPT-5.4
Последние материалы и связанные ссылки по теме GPT-5.4.
GPT-5.4
Последние материалы и связанный контекст по теме GPT-5.4.
Habr
Последние материалы и связанные ссылки по теме Habr.
Habr
Последние материалы и связанный контекст по теме Habr.
LLM-агентов
Последние материалы и связанный контекст по теме LLM-агентов.
LLM-агентов
Последние материалы и связанные ссылки по теме LLM-агентов.
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
ИИ фотосессия: лучшие нейросети для генерации фото + 21 готовый промпт
Хотите сгенерировать фотографию, неотличимую от реальности? В статье: топовые нейросети для генерации реалистичных фото, секреты референсов и 21 профессиональный промпт для ИИ ф...
Озвучка игры: как это происходит
Насколько сложно сделать профессиональную озвучку для инди-проекта? Рассказываем историю нашей работы. Как мы делали озвучку для инди-проекта
[Перевод] Простая нейронная сеть на чистом C++
Ни Python, ни PyTorch, ни NumPy, … всего 260 строк кода на чистом C++ достаточно, чтобы обучить, оценить и протестировать простой двоичный классификатор, различающий рукописные ...
Разводной мост на рабочем столе: проектируем в Компасе, печатаем и оживляем с помощью ESP32
Создание интерактивной модели разводного моста для изучения его устройстваЯ работаю над учебным проектом Создание интерактивной модели разводного моста для изучения его устройст...
Печешься о неразглашении чужой коммерческой тайны – делаешь хуже только себе, или при чём здесь замедление интернета
Третьего дня я собеседовал начинающего C++ программиста с небольшим опытом работы. Когда речь дошла до денежных ожиданий, я задал закономерный вопрос – сколько ты получал на про...
Электровакуумные геттеры. Первые металлические газопоглотители
На пути изготовления даже весьма простых электровакуумных приборов (ЭВП) неумолимо встаёт немало неочевидных технологических трудностей, например, впитанные в электровакуумные м...
Страницы сущностей
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
ИИ фотосессия: лучшие нейросети для генерации фото + 21 готовый промпт
Хотите сгенерировать фотографию, неотличимую от реальности? В статье: топовые нейросети для генерации реалистичных фото, секреты референсов и 21 профессиональный промпт для ИИ ф...
Озвучка игры: как это происходит
Насколько сложно сделать профессиональную озвучку для инди-проекта? Рассказываем историю нашей работы. Как мы делали озвучку для инди-проекта
[Перевод] Простая нейронная сеть на чистом C++
Ни Python, ни PyTorch, ни NumPy, … всего 260 строк кода на чистом C++ достаточно, чтобы обучить, оценить и протестировать простой двоичный классификатор, различающий рукописные ...
Разводной мост на рабочем столе: проектируем в Компасе, печатаем и оживляем с помощью ESP32
Создание интерактивной модели разводного моста для изучения его устройстваЯ работаю над учебным проектом Создание интерактивной модели разводного моста для изучения его устройст...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
ИИ фотосессия: лучшие нейросети для генерации фото + 21 готовый промпт
Хотите сгенерировать фотографию, неотличимую от реальности? В статье: топовые нейросети для генерации реалистичных фото, секреты референсов и 21 профессиональный промпт для ИИ ф...
Озвучка игры: как это происходит
Насколько сложно сделать профессиональную озвучку для инди-проекта? Рассказываем историю нашей работы. Как мы делали озвучку для инди-проекта
[Перевод] Простая нейронная сеть на чистом C++
Ни Python, ни PyTorch, ни NumPy, … всего 260 строк кода на чистом C++ достаточно, чтобы обучить, оценить и протестировать простой двоичный классификатор, различающий рукописные ...
max-yandexgpt: YandexGPT в мессенджере MAX за 5 строк кода
Max мессенджер появился недавно, и пока экосистема вокруг него только формируется. YandexGPT - мощная языковая модель с OpenAI-совместимым API. Казалось бы, собрать из этого бот...
Дополнительное покрытие этой темы
Похожие публикации и близкие по смыслу материалы по этой же теме.
Архитектура мультиканального Discord/Telegram voice-бота на Spring Boot: архитектура, грабли и production-решения
Как я собрал мультиканального voice-бота на Spring Boot, который объединяет Discord, Telegram и веб-панель в одной системе.Разбираю архитектуру, работу с голосом (TTS, запись ка...
Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python
LangChain обещает: переключите модель одной строкой, подключите RAG за две. У меня в production мультиагентная система с RAG, CRM и тремя мессенджерами — и я построил её без Lan...
vLLM Production Stack. Часть 1: Базовые возможности vLLM
Статья будет о том, как быстро начать работать с vLLM и vLLM Production Stack: от первого запуска модели до базовых режимов инференса через OpenAI-совместимый API. Разберем прак...