News Grower

Независимое покрытие AI, стартапов и технологий.

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

GPT-5.4 пишет лучше всех — 97 баллов из 100. Но $0.10 за вызов. При 10 000 генераций в месяц — $1000. А мы нашли модель, которая справляется на 91% и стоит $0.0008. Те же 10 000 генераций — $8. Разница — $992 каждый месяц.Мы строим продукт, где LLM генерирует образовательный контент для клиентов. Публичные бенчмарки...

Автор: Maslennikovig Оригинальный источник
Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

GPT-5.4 пишет лучше всех — 97 баллов из 100. Но $0.10 за вызов. При 10 000 генераций в месяц — $1000. А мы нашли модель, которая справляется на 91% и стоит $0.0008. Те же 10 000 генераций — $8. Разница — $992 каждый месяц.Мы строим продукт, где LLM генерирует образовательный контент для клиентов. Публичные бенчмарки (MMLU, HumanEval, LMSYS) не помогают — они не тестируют генерацию длинных текстов на русском и не учитывают стоимость. Поэтому мы за свои $95 построили собственный battle test и прогнали через него 18 моделей.Что обнаружили: 7 из 18 моделей вставляют китайские иероглифы в русский текст. Одна копирует инструкции из промпта прямо в заголовки. А LLM-судья поставил сам себе 127 баллов из 100.В статье: полная методология, таблицы с результатами, формула value score (цена/качество), и открытый лидерборд.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

ИИ фотосессия: лучшие нейросети для генерации фото + 21 готовый промпт

ИИ фотосессия: лучшие нейросети для генерации фото + 21 готовый промпт

Хотите сгенерировать фотографию, неотличимую от реальности? В статье: топовые нейросети для генерации реалистичных фото, секреты референсов и 21 профессиональный промпт для ИИ ф...

[Перевод] Простая нейронная сеть на чистом C++

[Перевод] Простая нейронная сеть на чистом C++

Ни Python, ни PyTorch, ни NumPy, … всего 260 строк кода на чистом C++ достаточно, чтобы обучить, оценить и протестировать простой двоичный классификатор, различающий рукописные ...

Разводной мост на рабочем столе: проектируем в Компасе, печатаем и оживляем с помощью ESP32

Разводной мост на рабочем столе: проектируем в Компасе, печатаем и оживляем с помощью ESP32

Создание интерактивной модели разводного моста для изучения его устройстваЯ работаю над учебным проектом Создание интерактивной модели разводного моста для изучения его устройст...

Печешься о неразглашении чужой коммерческой тайны – делаешь хуже только себе, или при чём здесь замедление интернета

Печешься о неразглашении чужой коммерческой тайны – делаешь хуже только себе, или при чём здесь замедление интернета

Третьего дня я собеседовал начинающего C++ программиста с небольшим опытом работы. Когда речь дошла до денежных ожиданий, я задал закономерный вопрос – сколько ты получал на про...

Электровакуумные геттеры. Первые металлические газопоглотители

Электровакуумные геттеры. Первые металлические газопоглотители

На пути изготовления даже весьма простых электровакуумных приборов (ЭВП) неумолимо встаёт немало неочевидных технологических трудностей, например, впитанные в электровакуумные м...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

ИИ фотосессия: лучшие нейросети для генерации фото + 21 готовый промпт

ИИ фотосессия: лучшие нейросети для генерации фото + 21 готовый промпт

Хотите сгенерировать фотографию, неотличимую от реальности? В статье: топовые нейросети для генерации реалистичных фото, секреты референсов и 21 профессиональный промпт для ИИ ф...

[Перевод] Простая нейронная сеть на чистом C++

[Перевод] Простая нейронная сеть на чистом C++

Ни Python, ни PyTorch, ни NumPy, … всего 260 строк кода на чистом C++ достаточно, чтобы обучить, оценить и протестировать простой двоичный классификатор, различающий рукописные ...

Разводной мост на рабочем столе: проектируем в Компасе, печатаем и оживляем с помощью ESP32

Разводной мост на рабочем столе: проектируем в Компасе, печатаем и оживляем с помощью ESP32

Создание интерактивной модели разводного моста для изучения его устройстваЯ работаю над учебным проектом Создание интерактивной модели разводного моста для изучения его устройст...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
ИИ фотосессия: лучшие нейросети для генерации фото + 21 готовый промпт

ИИ фотосессия: лучшие нейросети для генерации фото + 21 готовый промпт

Хотите сгенерировать фотографию, неотличимую от реальности? В статье: топовые нейросети для генерации реалистичных фото, секреты референсов и 21 профессиональный промпт для ИИ ф...

[Перевод] Простая нейронная сеть на чистом C++

[Перевод] Простая нейронная сеть на чистом C++

Ни Python, ни PyTorch, ни NumPy, … всего 260 строк кода на чистом C++ достаточно, чтобы обучить, оценить и протестировать простой двоичный классификатор, различающий рукописные ...

max-yandexgpt: YandexGPT в мессенджере MAX за 5 строк кода

max-yandexgpt: YandexGPT в мессенджере MAX за 5 строк кода

Max мессенджер появился недавно, и пока экосистема вокруг него только формируется. YandexGPT - мощная языковая модель с OpenAI-совместимым API. Казалось бы, собрать из этого бот...

Дополнительное покрытие этой темы

Похожие публикации и близкие по смыслу материалы по этой же теме.

Архитектура мультиканального Discord/Telegram voice-бота на Spring Boot: архитектура, грабли и production-решения

Архитектура мультиканального Discord/Telegram voice-бота на Spring Boot: архитектура, грабли и production-решения

Как я собрал мультиканального voice-бота на Spring Boot, который объединяет Discord, Telegram и веб-панель в одной системе.Разбираю архитектуру, работу с голосом (TTS, запись ка...

Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python

Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python

LangChain обещает: переключите модель одной строкой, подключите RAG за две. У меня в production мультиагентная система с RAG, CRM и тремя мессенджерами — и я построил её без Lan...

vLLM Production Stack. Часть 1: Базовые возможности vLLM

vLLM Production Stack. Часть 1: Базовые возможности vLLM

Статья будет о том, как быстро начать работать с vLLM и vLLM Production Stack: от первого запуска модели до базовых режимов инференса через OpenAI-совместимый API. Разберем прак...