API Reference

Модели

Сейчас в публичном inference API доступна одна модель. Roadmap не является каталогом доступности.

Точное значение поля model

Qwen/Qwen3.5-397B-A17B-FP8

Поле обязательно. Короткий внутренний ID, название другой модели или провайдера не выбирают альтернативный backend.

Текущая доступность

Модель: Qwen3.5 397B
Weights / формат: Qwen3.5-397B-A17B, FP8
Контекст: 262 144 токенов всего
Размер: MoE, 17B активных параметров
Input: 0.06 ₽ / 1K токенов
Output: 0.32 ₽ / 1K токенов

262144 — общий лимит input + зарезервированного output, а не гарантированный размер одного prompt. Длинные запросы проходят admission control.

Проверенные возможности deployment

Chat Completions

Текстовые сообщения и обычный non-stream response.

Streaming

SSE chunks, reasoning_content и завершение [DONE].

Tool calling

Function tools, auto tool choice и Qwen tool parser.

Изображения и видео

image_url и video_url content blocks принимает текущий multimodal deployment.

Reasoning

Thinking on/off, budget и reasoning_content.

Structured output / response_format проходит через proxy, но не входит в проверенный публичный контракт.

Получить каталог

GET/vllm/v1/models

Возвращает статический публичный каталог 42gpu и не зависит от занятости inference upstream.

Terminal

curl -sS https://api.42gpu.ru/vllm/v1/models \
  -H "Authorization: Bearer $GPU42_API_KEY"

Response200

{
  "object": "list",
  "data": [
    {
      "id": "Qwen/Qwen3.5-397B-A17B-FP8",
      "object": "model",
      "owned_by": "42gpu",
      "root": "Qwen/Qwen3.5-397B-A17B-FP8",
      "context_length": 262144,
      "pricing": {
        "input": "RUB 0.06/1K",
        "output": "RUB 0.32/1K"
      },
      "capabilities": {
        "chat": true,
        "streaming": true,
        "functions": true,
        "vision": true
      },
      "endpoint": "/vllm/v1/chat/completions"
    }
  ]
}

Фиксированные свойства

Вес модели, FP8, контекст, GPU/topology, tensor parallelism, hosting region, admission limits, fallback и deployment configuration задаются платформой. Они не выбираются значением model или произвольными JSON-полями.

Что можно менять в запросе →