Модели API
Текущий open-source baseline в 42gpu
Мы держим рабочий endpoint к сильной открытой модели и постоянно смотрим новые релизы. Если появляется модель лучше под качество, скорость или стоимость, её можно протестировать как новый baseline.
Endpoint
Получение списка моделей
Endpoint возвращает те модели, которые доступны для canonical vLLM ключа и принимаются в chat/completions.
GET /vllm/v1/models
Возвращает список моделей, доступных для вашего API-ключа.
curl
curl https://api.42gpu.ru/vllm/v1/models \
-H "Authorization: Bearer sk-your-api-key"list_models.py
from openai import OpenAI
client = OpenAI(
base_url="https://api.42gpu.ru/vllm/v1",
api_key="sk-your-api-key"
)
models = client.models.list()
for model in models.data:
print(model.id)response.json
{
"object": "list",
"data": [
{
"id": "Qwen/Qwen3.5-397B-A17B-GPTQ-Int4",
"object": "model",
"owned_by": "openai",
"permission": [...],
"root": "Qwen/Qwen3.5-397B-A17B-GPTQ-Int4",
"context_length": 1048576,
"pricing": {
"input": "RUB 0.06/1K",
"output": "RUB 0.32/1K"
},
"endpoint": "/vllm/v1/chat/completions"
}
]
}Провайдер
Canonical vLLM
Прямой OpenAI-совместимый vLLM endpoint на 42gpu без gateway-адаптеров
Qwen/Qwen3.5-397B-A17B-GPTQ-Int4Таблица моделей
| Модель | Провайдер | Контекст | Input ₽/1M | Output ₽/1M | Возможности |
|---|---|---|---|---|---|
Qwen/Qwen3.5-397B-A17B-GPTQ-Int4 | 42gpu vLLM | 1M | 60 | 320 | chatstreamingfunctionvision |
Как мы выбираем baseline
Качество ответа
Проверяем модель на русскоязычных задачах, длинном контексте, коде и типовых корпоративных сценариях.
Скорость и стоимость
Смотрим не только бенчмарки, но и реальную цену инференса в рабочем контуре.
Переход на новые модели
Если новая open-source модель даёт лучший результат, предлагаем клиенту тест и план перехода.
Хотите проверить модель на своём сценарии?
Можно зарегистрироваться и отправить запросы через API. Для корпоративного запуска лучше сначала согласовать сценарий и ограничения.