8× A100 80GB SXM4
1 000 000 ₽/мес, выделенный сервер
NVLink + NVSwitch между 8 картами, 640 GB VRAM, root SSH. Полный контроль над железом. Оплата в рублях, документы для бухгалтерии.
Спецификация сервера
8x A100 80GB SXM4
Полный выделенный сервер
1x A100 80GB
Одна карта для inference и fine-tuning
Сравнение провайдеров
Почему компании переходят на 42gpu
| 42gpu | Yandex Cloud | Selectel | Зарубеж (AWS/GCP) | |
|---|---|---|---|---|
| 8x A100 80GB / мес | 1 000 000 ₽ | ~2 000 000+ ₽ | ~1 500 000+ ₽ | Недоступно из РФ |
| 1x A100 80GB / мес | 320 000 ₽ | ~600 000+ ₽ | ~400 000+ ₽ | Недоступно из РФ |
| Root-доступ | ||||
| NVLink (SXM4) | ||||
| Данные в РФ | ||||
| Оплата в рублях | ||||
| Риск отключения | ||||
| Vendor lock-in | ||||
| Бесплатный тест | 1 час |
Преимущества
Суверенность
Сервер в российском ДЦ. Данные не покидают РФ. 152-ФЗ. Никаких санкционных рисков — оборудование в нашей собственности.
Фиксированная цена в рублях
1 000 000 ₽ за 8x A100 в месяц — без наценок за конвертацию валюты, без скрытых платежей. Закрывающие документы для юрлиц.
Root-доступ
Полный SSH-доступ к серверу. Устанавливайте любой софт: vLLM, TensorRT, Docker, собственные пайплайны.
NVLink
8x A100 SXM4 с NVSwitch — 600 GB/s между GPU. Критично для обучения LLM, multi-GPU inference и tensor parallelism.
Калькулятор стоимости
Выберите конфигурацию и срок — увидите итоговую стоимость в рублях
Производительность
Бенчмарки A100 80GB — реальные цифры
Производительность inference на vLLM. Те же модели в Yandex Cloud стоят в 2 раза дороже — при идентичном железе.
| Модель | GPU | Throughput | Latency (TTFT) | Конкурентов обслуживает |
|---|---|---|---|---|
| Llama 3.3 70B | 1x A100 | ~2 400 tok/s | ~80 ms | 50+ запросов |
| Qwen2.5-72B | 1x A100 | ~2 200 tok/s | ~90 ms | 40+ запросов |
| DeepSeek-V3.2 | 8x A100 | ~4 800 tok/s | ~120 ms | 100+ запросов |
| Mistral Large 3 | 8x A100 | ~5 200 tok/s | ~100 ms | 100+ запросов |
| Llama 4 Maverick | 8x A100 | ~4 000 tok/s | ~150 ms | 80+ запросов |
* Бенчмарки на vLLM с continuous batching, FP16/BF16, NVLink 3.0. Реальная производительность зависит от длины контекста и параметров генерации.
Модели
Запускайте SOTA-модели уровня GPT-5 — на своём сервере
С января 2026 ЕС запретил предоставление AI-сервисов в Россию. Open-source модели на своём GPU — единственный легальный путь к frontier AI.
DeepSeek V3.2
OPENСильная reasoning-модель. MIT-лицензия. Свободная коммерческая лицензия.
GLM-5
MOEMoE-модель от Zhipu AI. Обучена на Huawei Ascend — без NVIDIA-зависимости.
Qwen 3.5 397B
FLAGSHIP1M токенов контекста. Apache 2.0. Сильна на длинных документах и reasoning.
Kimi K2.5
AGENTSМультимодальная. Agent Swarm — 100 параллельных агентов.
Mistral Large 3
OPENСильный универсал. Apache 2.0.
Llama 4 Maverick
METAМультимодальная. 10M контекст (Scout).
8x A100 с NVLink вмещает модели до 744B параметров в FP16. Одна карта — до 40B (FP16) или 70B (INT8). Закон о суверенном AI (март 2026) разрешает DeepSeek, Qwen, Mistral, Llama при размещении в РФ.
Частые вопросы
Обсудите проект с нами
Расскажите о задаче — подберём конфигурацию и подготовим КП. Бесплатный тест 1 час для оценки производительности.
Написать в Telegram@zakievbulat — ответим за 15 минут
Тестовый доступ 48 часов
Возьмите 8× A100 на двое суток и проверьте под свою задачу — fine-tuning, бенчмарк, нагрузка. Без оплаты, без обязательств. Подойдёт CTO для оценки перед длинным контрактом.
1 час A100 бесплатно после регистрации
Зарегистрируйтесь — получите API-ключ и кредит на тест inference или аренду GPU. В Dashboard можно запустить сервер, проверить счёт и скачать закрывающие документы.
- Без предоплаты
- Договор и УПД
- 152-ФЗ, данные в РФ