🔥 Inference в 2025: зачем городить велосипеды, если есть vLLM и SGLang?

Одна из моих любимых тем — инференс. И поверьте, за последние пару лет тут произошла настоящая революция.

Давайте вспомним, как было раньше:
MLServer, Kserve, Triton, FastAPI поверх Transformers — и вуаля, у вас "свой движок".
Сегодня? Всё иначе. И, честно говоря, кастомные движки — это почти всегда waste of time.

🚀 Что важно пользователю сейчас?
- Стандартизация
- Поддержка новых моделей "из коробки"
- Скорость запуска

И тут на сцену выходят vLLM и SGLang

💬 vLLM — не умер, а стал лучше

Когда мы выпускали продукт, от коллег из других компаний слышал фразы вроде:
vLLM умрёт, надо делать свой движок на Triton!
Ребят, остановитесь.
vLLM не умерет. Он развивается, поддерживается комьюнити, обновляется под каждую новую модель (от Llama до Qwen, от Gemma до DeepSeek).
Он гибкий, стабильный, быстро реплицируется — и, самое главное, работает (если знать как конфигурировать).

Да, полгода назад его приходилось патчить (спасибо, Nebius AI Studio, за кейсы).
Сейчас? В большинстве случаев — никаких патчей не нужно.
Конфигурируй — и лети.

А SGLang зачем?

Потому что не всё работает одинаково везде.

Пример: GLM-4.5 на старте.
В vLLM — плохо.
В SGLang — сразу на 50% быстрее, без танцев с бубном, потому что разработчики GLM сами сделали патч для SGLang

То есть рынок идёт в двух направлениях:
- VLLM — как универсальный, стабильный, гибкий движок
- SGLang — как высокопроизводительный вариант для определённых моделей

И это нормально. У нас теперь есть выбор.

🧠 Кому вообще нужен кастомный движок?

Только если:
- Вы — крупная компания (типа Sber/Yandex)
- У вас тысячи GPU
- Вам нужна пиковая оптимизация под свои кастомные слои LLM модели

Всем остальным — остановитесь!.
Не тратьте время на то, что уже сделано лучше вас.


🛠️ Что делать на массовом рынке?

Типикал запрос пользователя:
"Хочу запустить VL-модель для паспортов. Могу заплатить. Как это сделать?"
(Зачем и почему детектить паспорта VLM не спрашивайте, оказался оч популярный кейс)

Половина пользователей не знает, что такое vLLM.
Им не нужны архитектуры LLM че как и тд— им нужен результат.
Их запрос один - Дайте мне модель хорошую, вот столько то готов платить
Задача одна! Дать пользователю OZON моделей. Мы сами так и сделали, десяток фильтров, модели сами пополняем.


✅ Вывод:

- VLLM жив, стабилен и крут — особенно с 0.10.0+
- SGLangмощный доп для сложных моделей
- Кастомные движки — почти всегда overkill


P.S. Кто уже перешёл на VLLM/SGLang? Делитесь кейсами — какие модели, какие проблемы, какие win’ы. Или давайте поинты почему vLLM/SGLang лучше/хуже