Справочник архитектора: как выбрать модель, оценить GPU/vGPU-память и объяснить клиенту trade-off между API, Model RUN и Docker RUN.
Пять сценариев от MVP до production-grade AI-системы — выберите свой путь.
Foundation Models API — готовый endpoint, никакой инфраструктуры. Совместимость с OpenAI.
ML Inference / Model RUN — vLLM, TGI, Ollama. Свой fine-tune, полный контроль.
Docker RUN — любой фреймворк, кастомный pipeline, специфический стек.
Managed RAG + Embedding + Reranker. База знаний, подключение LLM к документам.
AI Agents / EvoClaw + Function Calling. Автономные агенты с инструментами.
Модели из каталога Cloud.ru FM. Единый OpenAI-совместимый API. Вы не управляете GPU. Документация →
12 моделей · до 262K контекста
2 модели · 8K–32K контекст
2 модели · 8K–32K контекст
Whisper-large-v3 · 448
| Модель | ID модели | Контекст | Function Calling | Structured Output | Code |
|---|---|---|---|---|---|
| GigaChat-2-Max | GigaChat/GigaChat-2-Max | 131K | — | — | — |
| GigaChat3-10B-A1.8B | ai-sage/GigaChat3-10B-A1.8B | 262K | — | — | — |
| GLM-4.7 | zai-org/GLM-4.7 | 203K | ✓ FC | ✓ SO | — |
| gpt-oss-120b | openai/gpt-oss-120b | 131K | ✓ FC | ✓ SO | — |
| MiniMax-M2 | MiniMaxAI/MiniMax-M2 | 197K | ✓ FC | ✓ SO | — |
| MiniMax-M2.5 | MiniMaxAI/MiniMax-M2.5 | 197K | ✓ FC | ✓ SO | — |
| Qwen3.5-397B-A17B | Qwen/Qwen3.5-397B-A17B | 262K | ✓ FC | ✓ SO | — |
| Qwen3.6-35B-A3B | Qwen/Qwen3.6-35B-A3B | 262K | ✓ FC | ✓ SO | — |
| Qwen3-Coder-Next | Qwen/Qwen3-Coder-Next | 262K | ✓ FC | ✓ SO | ✓ Code |
| Qwen3-235B-A22B-2507 | Qwen/Qwen3-235B-A22B-Instruct-2507 | 262K | ✓ FC | ✓ SO | — |
| Qwen3-Coder-480B-A35B | Qwen/Qwen3-Coder-480B-A35B-Instruct | 262K | ✓ FC | ✓ SO | ✓ Code |
| Qwen3-Next-80B-A3B | Qwen/Qwen3-Next-80B-A3B-Instruct | 262K | ✓ FC | ✓ SO | — |
bge-m3 · 8K контекст · dim=1024
Qwen3-Embedding-0.6B · 32K контекст · dim=1024
bge-m3 HF →Быстрый старт. Ноль инфраструктуры. Совместимость с OpenAI SDK. Идеально для MVP и прототипов.
Запуск open-source моделей (Hugging Face, Ollama). Выбор runtime (vLLM, TGI). Контроль над конфигурацией.
Свой Docker-образ с любым фреймворком. Полный кастом. Когда Model RUN не подходит.
Характеристики из Hugging Face (config.json + model cards). Все оценки VRAM — approximate. Self-hosted vs FM API.
| Модель | Параметры | Тип | Контекст | Роль | Рек. квант. | Мин. VRAM | Prod VRAM | Runtime |
|---|---|---|---|---|---|---|---|---|
| 📋 General LLM | ||||||||
| Llama 3.1 8B FC | 8B | Text | 128K | Чат/RAG | INT4 | ~7 GB | ~24 GB | vLLM |
| GigaChat-2-Max (FM) | — | Text | 131K | Enterprise | — | — | — | API |
| Mistral 7B v0.3 FC | 7B | Text Low-cost | 32K | Чат/RAG | INT4 | ~5 GB | ~16 GB | vLLM / Ollama |
| Llama 3.3 70B | 70B | Text Enterprise | 128K | Premium | INT4 | ~47 GB | 2×A100 80GB | vLLM (TP) |
| 🧮 Reasoning | ||||||||
| Qwen3 8B SO | 8.2B | Text Reason | 32K–131K | Reasoning/аналитика | INT4 | ~8 GB | ~24 GB | vLLM |
| Qwen3 32B SO | 32.8B | Text Reason | 32K–131K | Reasoning/аналитика | INT4 | ~21 GB | ~48 GB | vLLM |
| DeepSeek R1 Distill 14B | ~14B | Reason | 128K | Математика | INT4 | ~11 GB | ~24 GB | vLLM |
| DeepSeek R1 0528 8B | 8.2B | Reason | 131K | Reasoning | INT4 | ~7 GB | ~24 GB | vLLM |
| 💻 Code | ||||||||
| Qwen2.5 Coder 7B | 7.6B | Code | 32K–128K | Кодинг | INT4 | ~6 GB | ~16 GB | vLLM |
| 📷 Vision | ||||||||
| Gemma 3 12B | 12B | Vision Text | 128K | Чат/vision | INT4 | ~10 GB | ~24 GB | vLLM / TGI |
| Gemma 3 27B | 27B | Vision Enterprise | 128K | Premium | INT4 | ~20 GB | ~48 GB | vLLM / TGI |
| Qwen3-VL 8B | ~8B | Vision Text | 256K–1M | OCR/документы | INT4 | ~12 GB | ~24 GB | vLLM / TGI |
Формула, по которой можно прикинуть VRAM для любой модели. Каждый элемент — отдельная составляющая.
Сами параметры нейросети. Занимают бóльшую часть памяти. Сжатие через квантизацию (INT4) уменьшает в ~4 раза.
Память для хранения Key + Value матриц attention. Растёт линейно с длиной контекста и batch size. На 128K может превышать вес модели!
Промежуточные результаты вычислений между слоями. Временные тензоры. Зависят от batch size, seq_len, hidden_size.
CUDA context, аллокатор памяти, буферы фреймворка. Обычно 1–3 GB. В vLLM добавляется память под PagedAttention blocks.
Вес: 8B × 2 = 16 GB
KV cache (4K, batch=1): ~0.5 GB
Activations + overhead: ~2.5 GB
Итого: ≈ 19 GB
Вес: 8B × 0.5 + 5% = ~4.2 GB
KV cache (4K, batch=1): ~0.5 GB
Activations + overhead: ~2.5 GB
Итого: ≈ 7 GB
Помещается на одну A100 (80 GB) с запасом под 16 параллельных запросов!
Вес: 70B × 2 = 140 GB
KV cache (4K, batch=1): ~2 GB
Activations + overhead: ~8 GB
Итого: ≈ 150 GB
Нужно 2 × A100 80 GB (с тензорным параллелизмом)
Вес: 70B × 0.5 + 5% = ~37 GB
KV cache (4K, batch=1): ~2 GB
Activations + overhead: ~8 GB
Итого: ≈ 47 GB
Помещается на одну A100 80 GB!
От задачи к конкретной модели с обоснованием. Почему именно эта модель и когда её не стоит выбирать.
Первая линия поддержки, FAQ-бот, общий диалог.
Большие контексты, поиск по базе знаний, суммаризация.
Git diff, code review, генерация функций, тестов.
Сложные рассуждения, multi-step, логика, планирование.
Распознавание, описание, анализ визуального контента.
Много запросов, минимальная стоимость за токен.
Максимальное качество, готовое к production.
Подробно по каждой модели: характеристики, сценарии, оценка памяти, рекомендация архитектора.
Практические правила для консультации клиента. Что работает, а что нет.
7B/8B модель в INT4 — дешёвая, быстрая, помещается на одну GPU. 80% задач не требуют 70B модели. Сначала протестируйте качество на 8B, повышайте размер только если quality gap явный.
INT4 (AWQ/GPTQ) даёт 4× экономию памяти при ~1–3% потере качества. Для production используйте INT4 с vLLM (поддержка AWQ, FP8 KV cache). BF16 оставляйте только если клиент explicitly требует максимальное качество.
На контексте 128K KV cache может быть больше весов модели! Для длинного контекста: используйте FP8/INT4 KV cache (vLLM), уменьшайте batch, или выбирайте модели с малым числом KV-heads (GQA).
VRAM на GPU нужен не только под модель, но и под: CUDA context, аллокатор, буферы, всплески при prefill. В production всегда округляйте оценку вверх на 20–30%.
Для RAG-систем часто выгоднее улучшить retrieval (chunking, embedding, reranker), чем переходить с 8B на 70B. Хороший retrieval + 8B может дать лучший результат, чем плохой retrieval + 70B.
vLLM — для LLM (самый эффективный по памяти). TGI — если важна совместимость с HF API. Ollama — для тестов и локального запуска. Transformers — для non-LLM задач (классификация, аудио, CV).
FM API выгоден при малых объёмах (не нужно управлять GPU). Self-hosted окупается при высоких объёмах (10M+ токенов/день) или при необходимости специфической модели / fine-tuning. Сценарий: начинайте с FM, переходите на ML Inference при росте.
Licence каждой модели — отдельный документ. Llama 3.1/3.3 — Meta (acceptable for commercial, но нужно принять). Qwen — Apache 2.0 (свободная). Mistral — Apache 2.0. Gemma — Gemma Terms (commercial). Всегда проверяйте перед использованием в коммерческом проекте.
Speaker notes для архитектора на встрече с клиентом.
«У вас есть три пути: FM API — для быстрого старта, платите по мере использования. Model RUN — запускаете open-source модель сами на наших GPU, через vLLM или TGI. Docker RUN — если у вас специфический стек, который не вписывается в стандартные решения.
«Моя рекомендация: начинайте с 8B-модели в INT4. Это занимает ~7 GB VRAM — поместится на любую современную GPU. Для 90% задач этого достаточно. Если не хватает — переходите на 32B или 70B.»
«Помните про KV Cache: на большом контексте (128K+) он может съесть больше памяти, чем сама модель. Используйте квантизацию KV cache.»
«И главное: не пытайтесь угадать — протестируйте. Запустите модель, померяйте latency и throughput под вашей нагрузкой. Наши оценки — отправная точка.»
«Примерный порог: 10M+ токенов в день. Если вы генерируете меньше — API почти всегда дешевле. Если больше — self-hosted начинает окупаться. Но учитывайте не только стоимость GPU, но и overhead на администрирование.»
«Гибридный подход: начинайте с FM API для прототипа, переходите на self-hosted по мере роста. Так вы не переплачиваете за инфраструктуру, пока не уверены в product-market fit.»
«Точные цены на GPU в Cloud.ru уточняйте у менеджера — публичных прайсов нет. Но можете оценить: аренда A100 80GB в облаке ~$2–4/час у основных провайдеров. Cloud.ru обычно competitive.»
«Для старта достаточно одного GPU с 24 GB (L4, L40S, A10) — на нём поместится любая 8B модель в INT4. Для 70B в INT4 нужна A100 80GB или H100. Для 70B в FP16 — две A100 80GB.»
То, что нельзя пропустить при проектировании.
Простые объяснения, чтобы понимать таблицы и формулы.