models.daicore.ru — Open-source & Foundation Models для AI Factory

⚡ Архитектурный выбор за 60 секунд

Пять сценариев от MVP до production-grade AI-системы — выберите свой путь.

🚀

Сценарий 1

Быстрый MVP

Foundation Models API — готовый endpoint, никакой инфраструктуры. Совместимость с OpenAI.

⚙️

Сценарий 2

Open-source / контроль

ML Inference / Model RUN — vLLM, TGI, Ollama. Свой fine-tune, полный контроль.

🐳

Сценарий 3

Свой Docker / кастом

Docker RUN — любой фреймворк, кастомный pipeline, специфический стек.

🔍

Сценарий 4

Поиск по данным

Managed RAG + Embedding + Reranker. База знаний, подключение LLM к документам.

🤖

Сценарий 5

Агенты

AI Agents / EvoClaw + Function Calling. Автономные агенты с инструментами.

🔌 Foundation Models — доступные по API

Модели из каталога Cloud.ru FM. Единый OpenAI-совместимый API. Вы не управляете GPU. Документация →

🧠

LLM

12 моделей · до 262K контекста

📐

Embedding

2 модели · 8K–32K контекст

🔎

Rerank

2 модели · 8K–32K контекст

🎤

Audio-to-Text

Whisper-large-v3 · 448

💰 Тарификация FM: Pay-as-you-go. Средняя цена ~35 руб./1M входных токенов, ~70 руб./1M выходных (ноябрь 2025). Точные цены: cloud.ru/tariffs

🧠 LLM

Модель	ID модели	Контекст	Function Calling	Structured Output	Code
GigaChat-2-Max	GigaChat/GigaChat-2-Max	131K	—	—	—
GigaChat3-10B-A1.8B	ai-sage/GigaChat3-10B-A1.8B	262K	—	—	—
GLM-4.7	zai-org/GLM-4.7	203K	✓ FC	✓ SO	—
gpt-oss-120b	openai/gpt-oss-120b	131K	✓ FC	✓ SO	—
MiniMax-M2	MiniMaxAI/MiniMax-M2	197K	✓ FC	✓ SO	—
MiniMax-M2.5	MiniMaxAI/MiniMax-M2.5	197K	✓ FC	✓ SO	—
Qwen3.5-397B-A17B	Qwen/Qwen3.5-397B-A17B	262K	✓ FC	✓ SO	—
Qwen3.6-35B-A3B	Qwen/Qwen3.6-35B-A3B	262K	✓ FC	✓ SO	—
Qwen3-Coder-Next	Qwen/Qwen3-Coder-Next	262K	✓ FC	✓ SO	✓ Code
Qwen3-235B-A22B-2507	Qwen/Qwen3-235B-A22B-Instruct-2507	262K	✓ FC	✓ SO	—
Qwen3-Coder-480B-A35B	Qwen/Qwen3-Coder-480B-A35B-Instruct	262K	✓ FC	✓ SO	✓ Code
Qwen3-Next-80B-A3B	Qwen/Qwen3-Next-80B-A3B-Instruct	262K	✓ FC	✓ SO	—

📐 Embedding

bge-m3 · 8K контекст · dim=1024

Qwen3-Embedding-0.6B · 32K контекст · dim=1024

bge-m3 HF →

🔎 Rerank

bge-reranker-v2-m3 · 8K контекст

Qwen3-Reranker-0.6B · 32K контекст

bge-reranker HF →

🎤 Audio-to-Text

Whisper-large-v3 · 448 токенов

whisper-large-v3 HF →

⚖️ FM API vs ML Inference vs Docker RUN

☁️

Foundation Models API

Быстрый старт. Ноль инфраструктуры. Совместимость с OpenAI SDK. Идеально для MVP и прототипов.

🚀 Быстрый старт

⚙️

ML Inference (Model RUN)

Запуск open-source моделей (Hugging Face, Ollama). Выбор runtime (vLLM, TGI). Контроль над конфигурацией.

🎯 Контроль

🐳

Docker RUN

Свой Docker-образ с любым фреймворком. Полный кастом. Когда Model RUN не подходит.

🔧 Кастом

🏗 Архитектурный принцип: Начинайте с FM (низкий порог входа), переходите на self-hosted (ML Inference), когда объём запросов делает API дороже собственной инфраструктуры, или когда нужна специфическая модель, которой нет в FM. Docker RUN — для крайних случаев.

📊 Сравнительная таблица open-source моделей

Характеристики из Hugging Face (config.json + model cards). Все оценки VRAM — approximate. Self-hosted vs FM API.

Модель	Параметры	Тип	Контекст	Роль	Рек. квант.	Мин. VRAM	Prod VRAM	Runtime
📋 General LLM
Llama 3.1 8B FC	8B	Text	128K	Чат/RAG	INT4	~7 GB	~24 GB	vLLM
GigaChat-2-Max (FM)	—	Text	131K	Enterprise	—	—	—	API
Mistral 7B v0.3 FC	7B	Text Low-cost	32K	Чат/RAG	INT4	~5 GB	~16 GB	vLLM / Ollama
Llama 3.3 70B	70B	Text Enterprise	128K	Premium	INT4	~47 GB	2×A100 80GB	vLLM (TP)
🧮 Reasoning
Qwen3 8B SO	8.2B	Text Reason	32K–131K	Reasoning/аналитика	INT4	~8 GB	~24 GB	vLLM
Qwen3 32B SO	32.8B	Text Reason	32K–131K	Reasoning/аналитика	INT4	~21 GB	~48 GB	vLLM
DeepSeek R1 Distill 14B	~14B	Reason	128K	Математика	INT4	~11 GB	~24 GB	vLLM
DeepSeek R1 0528 8B	8.2B	Reason	131K	Reasoning	INT4	~7 GB	~24 GB	vLLM
💻 Code
Qwen2.5 Coder 7B	7.6B	Code	32K–128K	Кодинг	INT4	~6 GB	~16 GB	vLLM
📷 Vision
Gemma 3 12B	12B	Vision Text	128K	Чат/vision	INT4	~10 GB	~24 GB	vLLM / TGI
Gemma 3 27B	27B	Vision Enterprise	128K	Premium	INT4	~20 GB	~48 GB	vLLM / TGI
Qwen3-VL 8B	~8B	Vision Text	256K–1M	OCR/документы	INT4	~12 GB	~24 GB	vLLM / TGI

📌 Легенда: Левая полоса синяя = self-hosted (можно запустить на GPU Cloud.ru). Левая полоса бирюзовая = доступна через FM API. Серые строки = группировка по типу.

🎯 Методика оценки GPU/vGPU памяти

Формула, по которой можно прикинуть VRAM для любой модели. Каждый элемент — отдельная составляющая.

Total VRAM = Model Weights + KV Cache + Activations + Runtime Overhead

Model Weights: FP16 = параметры × 2 байта · INT4 = параметры × 0.5 байта + overhead (~5%)
KV Cache: 2 × num_layers × num_kv_heads × head_dim × seq_len × batch × bytes_per_elem
Activations: ~5–20% от весов (зависит от batch и seq_len)
Runtime Overhead: ~1–3 GB (CUDA context, vLLM/TGI, аллокатор)

🔍 VRAM Breakdown

🧊 Model Weights

Сами параметры нейросети. Занимают бóльшую часть памяти. Сжатие через квантизацию (INT4) уменьшает в ~4 раза.

🗄️ KV Cache

Память для хранения Key + Value матриц attention. Растёт линейно с длиной контекста и batch size. На 128K может превышать вес модели!

⚡ Activations

Промежуточные результаты вычислений между слоями. Временные тензоры. Зависят от batch size, seq_len, hidden_size.

🛠️ Runtime Overhead

CUDA context, аллокатор памяти, буферы фреймворка. Обычно 1–3 GB. В vLLM добавляется память под PagedAttention blocks.

💡 Быстрая шпаргалка

~16 GB

8B FP16 (веса)

~4–5 GB

8B INT4 (веса)

~140 GB

70B FP16 (веса)

~37 GB

70B INT4 (веса)

+20–30%

Production overhead

~7 GB

8B INT4 + 4K ctx

~47 GB

70B INT4 + 4K ctx

~24 GB

8B INT4 production

📐 KV Cache формула (детально):
KV_cache_bytes = 2 × num_layers × num_kv_heads × head_dim × seq_length × batch_size × bytes_per_element

Пример для Llama 3.1 8B (128K context, FP16 KV cache):
2 × 32 × 8 × 128 × 131072 × 1 × 2 = ~16 GB (только KV cache при полном контексте!)
Поэтому для длинного контекста критична квантизация KV cache (FP8/INT8).

📊 Примеры VRAM

8B FP16

Вес: 8B × 2 = 16 GB
KV cache (4K, batch=1): ~0.5 GB
Activations + overhead: ~2.5 GB
Итого: ≈ 19 GB

8B INT4 (AWQ/GPTQ)

Вес: 8B × 0.5 + 5% = ~4.2 GB
KV cache (4K, batch=1): ~0.5 GB
Activations + overhead: ~2.5 GB
Итого: ≈ 7 GB

Помещается на одну A100 (80 GB) с запасом под 16 параллельных запросов!

70B FP16

Вес: 70B × 2 = 140 GB
KV cache (4K, batch=1): ~2 GB
Activations + overhead: ~8 GB
Итого: ≈ 150 GB

Нужно 2 × A100 80 GB (с тензорным параллелизмом)

70B INT4

Вес: 70B × 0.5 + 5% = ~37 GB
KV cache (4K, batch=1): ~2 GB
Activations + overhead: ~8 GB
Итого: ≈ 47 GB

Помещается на одну A100 80 GB!

🎯 Decision Matrix — выбор модели по задаче

От задачи к конкретной модели с обоснованием. Почему именно эта модель и когда её не стоит выбирать.

💬 Чат-бот общего назначения

Первая линия поддержки, FAQ-бот, общий диалог.

Llama 3.1 8B — универсальный стандарт
Qwen3 8B — мультиязычный чат (100+)
Mistral 7B — high-throughput, дёшево
Через FM — если не хотите думать о GPU

📄 RAG по корпоративным документам

Большие контексты, поиск по базе знаний, суммаризация.

Qwen3 8B/32B — 131K контекст, 100+ языков
Llama 3.1 8B/70B — 128K контекст
Gemma 3 — мультимодальный RAG (документы+сканы)
Managed RAG Cloud.ru — если не хотите собирать pipeline

💻 Кодинг (генерация, ревью)

Git diff, code review, генерация функций, тестов.

Qwen2.5 Coder 7B — лучшая code-модель 7B класса
Qwen3-8B/32B — хорош для code+reasoning
Llama 3.1 8B — неплох, но coder-модели лучше

🧮 Reasoning / Математика / Аналитика

Сложные рассуждения, multi-step, логика, планирование.

DeepSeek R1 Distill 14B — 90% R1 quality, 14B
DeepSeek R1 0528 8B — reasoning для 8B класса
Qwen3-32B — reasoning + мультиязычный

📷 OCR / Изображения / Схемы

Распознавание, описание, анализ визуального контента.

Qwen3-VL 8B — лучший OCR, 1M контекст
Gemma 3 12B/27B — мультимодальный анализ

💰 Low-cost high-throughput

Много запросов, минимальная стоимость за токен.

3B–8B INT4 — 4–8 GB VRAM
Mistral 7B — самый быстрый
Qwen3 8B INT4 — качество+скорость
vLLM — максимальный throughput

🏢 Enterprise Quality

Максимальное качество, готовое к production.

Llama 3.3 70B — премиум качество
Qwen3 32B — золотая середина
Llama 3.1 8B → Qwen3 32B → 70B
Через FM — если нет GPU под 70B

🚀 Принцип выбора: Начинайте с 8B для MVP. Если не хватает качества — переходите на 32B. Если и этого мало — 70B или FM API. Не начинайте с 70B — 90% задач решаются 8B моделью.

📇 Карточки моделей

Подробно по каждой модели: характеристики, сценарии, оценка памяти, рекомендация архитектора.

Llama 3.1 8B Instruct

Hugging Face →

TextRAGLow-cost

Параметры: 8.0B

Архитектура: Llama (GQA, 32 heads → 8 KV)

Контекст: 128K

Слои: 32

Hidden: 4,096

Head dim: 128

Языки: EN, DE, FR, IT, PT, HI, ES, TH

Флагманская instruct-модель Meta с отличным балансом производительности и размера. Лучшая 8B-модель для RAG, чат-ботов и агентов. Широкая экосистема инструментов — самый популярный выбор для self-hosted inference.

FP16 weights: ~16 GB

INT4 weights: ~4.2 GB

KV cache 4K (batch=1): ~0.5 GB

KV cache 128K (batch=1): ~16 GB

Минимум (INT4, 4K): ~7 GB

Production (INT4, 8K, batch=8): ~24 GB

Рекомендуемый runtime: vLLM

Универсальный выбор для клиента, который начинает self-hosted LLM. 8B INT4 помещается на 1 GPU. Хорош для RAG, чатов, агентов. Для длинного контекста (128K) учитывайте KV cache: при полном контексте ~16 GB только KV cache. Рассмотрите FP8 KV cache (vLLM).

Llama 3.3 70B Instruct

Hugging Face →

TextEnterpriseReasoning

Параметры: 70B

Архитектура: Llama (GQA, 64 heads → 8 KV)

Контекст: 128K

Слои: 80

Hidden: 8,192

Head dim: 128

Языки: EN, DE, FR, IT, PT, HI, ES, TH

Одна из сильнейших open-source моделей, близкая к GPT-4 по качеству. Оптимизированный пост-тренинг (декабрь 2024). Используется DeepSeek для дистилляции R1. Требует multi-GPU.

FP16 weights: ~140 GB

INT4 weights: ~37 GB

KV cache 4K (batch=1): ~1.3 GB

KV cache 128K (batch=1): ~42 GB

Минимум (INT4, 4K): ~47 GB

Production (FP16, 8K, batch=4): 2×A100 80GB

Рекомендуемый runtime: vLLM (TP=2)

Когда клиенту нужно enterprise-качество, сопоставимое с GPT-4, и есть бюджет на multi-GPU. В формате INT4 помещается на одну A100 80GB, но с ограниченным контекстом. Для production рекомендуйте 2×A100 80GB с тензорным параллелизмом. Альтернатива: использовать через FM API, если инфраструктура ещё не готова.

Qwen3 8B

Hugging Face →

TextReasoningRAGLow-cost

Параметры: 8.2B (6.95B non-embed)

Архитектура: Qwen3 (GQA, 32 → 8 KV)

Контекст: 32K нативный — 131K (YaRN)

Слои: 36

Hidden: 4,096

Head dim: 128

Языки: 100+ языков

Сильнейшая 8B-модель от Alibaba. Встроенный reasoning (думает перед ответом). Полиглот — 100+ языков. Справляется с кодом, математикой, чатом. Контекст до 131K через YaRN.

FP16 weights: ~16.4 GB

INT4 weights: ~4.3 GB

KV cache 4K (batch=1): ~0.55 GB

KV cache 131K (batch=1): ~18 GB

Минимум (INT4, 4K): ~8 GB

Production (INT4, 8K, batch=8): ~24 GB

Рекомендуемый runtime: vLLM

Основной конкурент Llama 3.1 8B для мультиязычных сценариев. Если клиенту нужен русский язык, китайский, арабский и ещё 97 языков — Qwen3 8B. Встроенный reasoning даёт более качественные ответы на сложные вопросы. Рекомендуйте как первую модель для self-hosted мультиязычного чат-бота.

Qwen3 32B

Hugging Face →

TextReasoningRAG

Параметры: 32.8B (27.7B non-embed)

Архитектура: Qwen3 (GQA, 40 → 8 KV)

Контекст: 32K нативный — 131K (YaRN)

Слои: 64

Hidden: 5,120

Head dim: 128

Языки: 100+

Мощная модель среднего размера. Reasoning, планирование, аналитика, code generation. 100+ языков. GQA с малым числом KV-heads (8) — KV cache эффективнее, чем можно было бы ожидать для 32B.

FP16 weights: ~65.6 GB

INT4 weights: ~17.2 GB

KV cache 4K (batch=1): ~0.8 GB

KV cache 131K (batch=1): ~26 GB

Минимум (INT4, 4K): ~21 GB

Production (INT4, 8K, batch=4): ~48 GB

Рекомендуемый runtime: vLLM

Золотая середина между 8B (дёшево) и 70B (Enterprise). INT4 помещается на одну A100 80GB с запасом на KV cache до 32K контекста. Рекомендуйте, когда 8B не хватает качества, а 70B избыточен или дорог. Особенно хорош для аналитики и сложного RAG.

Mistral 7B v0.3 Instruct

Hugging Face →

TextLow-cost

Параметры: 7B

Архитектура: Mistral (GQA, 32 → 8 KV)

Контекст: 32K

Слои: 32

Hidden: 4,096

Head dim: 128

Языки: EN, FR, DE, IT, ES

Быстрая, лёгкая модель. Отличное качество для своего размера. Function calling из коробки. Хороша для high-throughput сценариев, где важна скорость, а не максимальное качество.

FP16 weights: ~14 GB

INT4 weights: ~3.7 GB

KV cache 4K: ~0.5 GB

KV cache 32K: ~4 GB

Минимум (INT4, 4K): ~5 GB

Production (INT4, 8K, batch=8): ~16 GB

Рекомендуемый runtime: vLLM

Когда главный приоритет — throughput (токенов/сек) и низкая стоимость. INT4 помещается даже на одну L4 24GB с запасом. Хорош для high-volume чатов, простых RAG-систем, агентов с большим числом запросов. Уступает Llama 3.1 8B и Qwen3 8B по качеству, но быстрее.

Gemma 3 12B IT

Hugging Face →

Vision-LanguageTextRAG

Параметры: ~12B

Архитектура: Gemma3

Контекст: 128K

Языки: Мультиязычная

Модель от Google с поддержкой изображений и текста. Читает картинки, схемы, OCR. Хороша для задач, где нужно одновременно понимать визуальный контент и генерировать текст.

FP16 weights: ~24 GB

INT4 weights: ~6.5 GB

KV cache 4K: ~0.5 GB

KV cache 128K: ~16 GB

Минимум (INT4, 4K): ~10 GB

Production (INT4, 8K, batch=4): ~24 GB

Рекомендуемый runtime: vLLM / TGI

Для сценариев, где нужно обрабатывать изображения: документы со сканами, схемы, скриншоты UI. 12B INT4 помещается на A100 80GB (контекст до 128K). Если клиенту нужен OCR с пониманием контекста — Gemma 3 12B или Qwen3-VL.

Gemma 3 27B IT

Hugging Face →

Vision-LanguageEnterpriseText

Параметры: ~27B

Архитектура: Gemma3

Контекст: 128K

Языки: Мультиязычная

Старшая версия Gemma 3. Лучшее качество среди open-source мультимодальных моделей в своём классе. Требовательна к GPU — в INT4 помещается на одну A100 80GB.

FP16 weights: ~54 GB

INT4 weights: ~14 GB

KV cache 4K: ~1 GB

KV cache 128K: ~32 GB

Минимум (INT4, 4K): ~20 GB

Production (INT4, 8K): ~48 GB

Рекомендуемый runtime: vLLM / TGI

Когда клиенту нужно одновременно: анализ изображений высокого качества + генерация текста. INT4 помещается на одну A100 80GB. Для production с batch > 1 — 2×A100.

DeepSeek R1 Distill Qwen 14B

Hugging Face →

Reasoning

Параметры: ~14B

Архитектура: DeepSeek R1 Distill

Контекст: 128K

Слои: 40

Hidden: 5,120

Head dim: 128

Языки: EN, ZH

Дистиллированная версия DeepSeek R1 (671B) на базе Qwen 14B. Сохраняет сильное reasoning-качество при значительно меньшем размере. Превосходит многие 70B модели на математических бенчмарках.

FP16 weights: ~28 GB

INT4 weights: ~7.5 GB

KV cache 4K: ~0.6 GB

KV cache 128K: ~20 GB

Минимум (INT4, 4K): ~11 GB

Production (INT4, 8K): ~24 GB

Рекомендуемый runtime: vLLM

Для задач, где критично качество reasoning: математика, логика, планирование, сложный анализ. Дистиллят даёт 90% качества R1 при 2% размера. INT4 помещается на A100 80GB. Если клиенту нужна модель, которая «думает» перед ответом — это лучший выбор в 14B-классе.

DeepSeek R1 0528 Qwen3 8B

Hugging Face →

ReasoningLow-cost

Параметры: 8.2B

Архитектура: DeepSeek R1 0528

Контекст: 131K

Слои: 36

Hidden: 4,096

Head dim: 128

Языки: EN, ZH

Свежая (май 2026) дистилляция DeepSeek R1 на базе Qwen3 8B. Сфокусирована на рассуждениях, цепях мыслей. Показывает выдающиеся результаты на reasoning-задачах. Компактный размер — дёшево для инференса.

FP16 weights: ~16.4 GB

INT4 weights: ~4.3 GB

KV cache 4K: ~0.55 GB

KV cache 131K: ~18 GB

Минимум (INT4, 4K): ~7 GB

Production (INT4, 8K): ~24 GB

Рекомендуемый runtime: vLLM

Когда бюджет ограничен, но нужен reasoning. 8B INT4 ~7 GB — помещается на любую современную GPU. Даёт лучшее quality-per-dollar на задачах рассуждения. Рекомендуйте для MVP аналитических продуктов. Ограничение: в основном EN/ZH языки.

Qwen3-VL 8B Instruct

Hugging Face →

Vision-LanguageRAG

Параметры: ~8B

Архитектура: Qwen3-VL

Контекст: 256K нативный — 1M (тренированный)

Visual encoder: Vision Transformer

Языки: 100+

Vision-language модель от Alibaba. Читает изображения, документы, схемы, распознаёт текст (OCR), анализирует графики. 1M контекст — обрабатывает огромные документы.

FP16 weights: ~18 GB (LLM ~16 + encoder ~2)

INT4 weights: ~6 GB (LLM ~4 + encoder ~2)

Минимум (INT4, 4K): ~12 GB

Production (INT4, 32K): ~24 GB

Рекомендуемый runtime: vLLM / TGI

Лучший выбор для OCR, анализа документов со сканами, обработки скриншотов и схем. Мультиязычный (100+). Контекст до 1M — обрабатывает целые книги. Рекомендуйте для задач: распознавание накладных, анализ договоров, описание изображений. Оценка VRAM: +2GB к текстовой версии за visual encoder.

Qwen2.5 Coder 7B Instruct

Hugging Face →

CodeLow-cost

Параметры: 7.6B

Архитектура: Qwen2.5 (GQA, 28 → 4 KV)

Контекст: 32K нативный — 128K (YaRN)

Слои: 28

Hidden: 3,584

Head dim: 128

Языки: EN, ZH (синтаксис всех языков кода)

Специализированная модель для кодинга. Обучена на 5.5T+ токенах кода. Поддерживает GitHub, git diff. Справляется с генерацией, ревью, рефакторингом, написанием тестов.

FP16 weights: ~15.2 GB

INT4 weights: ~4 GB

KV cache 4K: ~0.3 GB (только 4 KV heads!)

KV cache 128K: ~9 GB

Минимум (INT4, 4K): ~6 GB

Production (INT4, 32K): ~16 GB

Рекомендуемый runtime: vLLM

Для задач кодинга всегда выбирайте специализированную coder-модель. Qwen2.5 Coder 7B даёт качество как general-purpose 32B-модель на задачах генерации кода. 4 KV-heads — KV cache очень эффективный. INT4 помещается даже на T4 16GB. Для production на A100 — контекст до 128K.

🧠 Рекомендации архитектора

Практические правила для консультации клиента. Что работает, а что нет.

1️⃣ Начинайте с малого

7B/8B модель в INT4 — дешёвая, быстрая, помещается на одну GPU. 80% задач не требуют 70B модели. Сначала протестируйте качество на 8B, повышайте размер только если quality gap явный.

2️⃣ Квантизация — друг архитектора

INT4 (AWQ/GPTQ) даёт 4× экономию памяти при ~1–3% потере качества. Для production используйте INT4 с vLLM (поддержка AWQ, FP8 KV cache). BF16 оставляйте только если клиент explicitly требует максимальное качество.

3️⃣ KV cache — скрытый пожиратель памяти

На контексте 128K KV cache может быть больше весов модели! Для длинного контекста: используйте FP8/INT4 KV cache (vLLM), уменьшайте batch, или выбирайте модели с малым числом KV-heads (GQA).

4️⃣ Закладывайте запас 20–30%

VRAM на GPU нужен не только под модель, но и под: CUDA context, аллокатор, буферы, всплески при prefill. В production всегда округляйте оценку вверх на 20–30%.

5️⃣ RAG: retrieval важнее модели

Для RAG-систем часто выгоднее улучшить retrieval (chunking, embedding, reranker), чем переходить с 8B на 70B. Хороший retrieval + 8B может дать лучший результат, чем плохой retrieval + 70B.

6️⃣ Выбирайте правильный runtime

vLLM — для LLM (самый эффективный по памяти). TGI — если важна совместимость с HF API. Ollama — для тестов и локального запуска. Transformers — для non-LLM задач (классификация, аудио, CV).

7️⃣ FM API vs Self-hosted

FM API выгоден при малых объёмах (не нужно управлять GPU). Self-hosted окупается при высоких объёмах (10M+ токенов/день) или при необходимости специфической модели / fine-tuning. Сценарий: начинайте с FM, переходите на ML Inference при росте.

8️⃣ Проверяйте лицензии

Licence каждой модели — отдельный документ. Llama 3.1/3.3 — Meta (acceptable for commercial, но нужно принять). Qwen — Apache 2.0 (свободная). Mistral — Apache 2.0. Gemma — Gemma Terms (commercial). Всегда проверяйте перед использованием в коммерческом проекте.

🎤 Что сказать клиенту

Speaker notes для архитектора на встрече с клиентом.

💬 «Клиент, давайте начнём с простого. Вот что вам нужно знать о выборе модели для инференса...»

«У вас есть три пути: FM API — для быстрого старта, платите по мере использования. Model RUN — запускаете open-source модель сами на наших GPU, через vLLM или TGI. Docker RUN — если у вас специфический стек, который не вписывается в стандартные решения.

«Моя рекомендация: начинайте с 8B-модели в INT4. Это занимает ~7 GB VRAM — поместится на любую современную GPU. Для 90% задач этого достаточно. Если не хватает — переходите на 32B или 70B.»

«Помните про KV Cache: на большом контексте (128K+) он может съесть больше памяти, чем сама модель. Используйте квантизацию KV cache.»

«И главное: не пытайтесь угадать — протестируйте. Запустите модель, померяйте latency и throughput под вашей нагрузкой. Наши оценки — отправная точка.»

💬 «Когда переходить с API на self-hosted?»

«Примерный порог: 10M+ токенов в день. Если вы генерируете меньше — API почти всегда дешевле. Если больше — self-hosted начинает окупаться. Но учитывайте не только стоимость GPU, но и overhead на администрирование.»

«Гибридный подход: начинайте с FM API для прототипа, переходите на self-hosted по мере роста. Так вы не переплачиваете за инфраструктуру, пока не уверены в product-market fit.»

💬 «Клиент спрашивает про GPU. Что ответить?»

«Точные цены на GPU в Cloud.ru уточняйте у менеджера — публичных прайсов нет. Но можете оценить: аренда A100 80GB в облаке ~$2–4/час у основных провайдеров. Cloud.ru обычно competitive.»

«Для старта достаточно одного GPU с 24 GB (L4, L40S, A10) — на нём поместится любая 8B модель в INT4. Для 70B в INT4 нужна A100 80GB или H100. Для 70B в FP16 — две A100 80GB.»

⚠️ Важные замечания

То, что нельзя пропустить при проектировании.

📐 Важно: Все оценки VRAM — approximate. Точные требования зависят от runtime (vLLM, TGI, Ollama, Transformers), версии CUDA, batch size, sequence length, quantization backend (AWQ, GPTQ, GGUF) и версии фреймворка. Итоговую конфигурацию всегда валидируйте нагрузочным тестом.

🏗 Архитектору: Для long-context задач (128K+) всегда считайте KV cache отдельно. Используйте модели с Grouped Query Attention (малое число KV-heads) для экономии. Рассмотрите FP8/INT4 KV cache (поддерживается vLLM). Не забывайте про PagedAttention — vLLM эффективно управляет KV cache страницами.

📏 Approximate: Наши цифры — отправная точка, а не гарантия. Используйте как первое приближение. Для точного планирования запустите модель на representative data и померяйте. Разница между оценкой и реальностью может составлять 10–30%.

⚖️ Проверить лицензии: Перед коммерческим использованием проверяйте лицензию каждой модели отдельно. Особое внимание: Llama (Meta License — нужно принять), Gemma (Gemma Terms), DeepSeek R1 (требует уточнения), GigaChat (Sber — уточняйте у Cloud.ru).

☁️ Cloud.ru: Информация по FM и ML Inference сервисам взята из публичной документации cloud.ru/docs на дату сбора (24.05.2026). Конкретные цены на ML Inference (GPU-ресурсы) отсутствуют в публичном доступе — требуют уточнения в договоре или у менеджера Cloud.ru.

📖 Словарь терминов

Простые объяснения, чтобы понимать таблицы и формулы.

Параметры модели

Числа внутри нейросети (веса), которые настраиваются при обучении. 8B = 8 миллиардов параметров. Чем больше — тем «умнее» модель, но тем больше памяти нужно.

Веса модели

Значения параметров обученной модели. Хранятся в файлах (например, .safetensors). Занимают память GPU при инференсе.

Квантизация

Сжатие весов: FP16 (16 бит на вес) → INT4 (4 бита). Память уменьшается в 4 раза, качество падает незначительно.

FP16 / BF16 / FP8 / INT8 / INT4

Форматы чисел в памяти. FP16 = 2 байта/вес, INT4 = 0.5 байта/вес, FP8 = 1 байт/вес. BF16 — как FP16, но с большим диапазоном.

KV Cache

Память для хранения ключей и значений attention (Key + Value) во время генерации. Растёт с длиной контекста и числом параллельных запросов.

Контекстное окно

Максимальная длина текста (в токенах), которую модель может обработать за раз. 128K = 128 000 токенов ≈ 90 000 слов.

Batch Size

Сколько запросов обрабатывается одновременно. Больше batch = больше throughput, но больше VRAM.

Concurrency

Сколько пользователей могут одновременно обращаться к модели. Зависит от batch size, VRAM и latency.

Prefill

Первый этап генерации: модель обрабатывает входной промпт и строит KV Cache. Требует много вычислений, но мало памяти.

Decode

Второй этап: генерация токенов по одному. Ограничен пропускной способностью памяти (memory-bound).

Activations

Промежуточные результаты вычислений между слоями. Временные тензоры. Занимают память на время запроса.

Throughput

Сколько токенов модель генерирует в секунду. Зависит от GPU, размера модели, batch size, квантизации.

Latency (Задержка)

Время от отправки запроса до получения первого токена. Критично для чат-ботов.

vLLM

Фреймворк инференса от Berkeley. Эффективно использует GPU: PagedAttention для KV Cache, непрерывный batching, FP8/INT8 поддержка. Рекомендуемый runtime для LLM.

TGI

Text Generation Inference от Hugging Face. Полностью совместим с экосистемой HF. Поддерживает message API, function calling.

Ollama

Утилита для локального запуска моделей. Просто: ollama run llama3.1:8b. Хорош для тестов, слабее для production.

Transformers (HF)

Базовая библиотека Hugging Face. Универсальная, но не оптимальная по памяти (без PagedAttention). Подходит для всего спектра задач.

Model RUN

Режим Cloud.ru: запуск модели из каталога (Hugging Face, Ollama) без конфигурации инфраструктуры.

Docker RUN

Режим Cloud.ru: запуск своего Docker-образа с любым фреймворком. Полный контроль.

Runtime Overhead

Память, которую потребляет сам фреймворк: CUDA context, аллокатор, буферы, vLLM/TGI runtime — обычно 1–3 GB.

Tokens/sec

Скорость генерации: количество токенов, которое модель выдаёт за секунду. 50 tok/s = ~600 букв/с (для рус/англ).

GQA (Grouped Query Attention)

Архитектура attention, где несколько heads запросов (Query) разделяют одну голову ключей/значений (Key/Value). Меньше KV Cache при том же качестве. Используется в Llama 3, Qwen3, Mistral.

PagedAttention

Механизм vLLM для эффективного управления KV Cache: разбивает на страницы, как виртуальная память в ОС. Минимизирует фрагментацию и позволяет делиться памятью между запросами.

Open-source и Foundation Modelsдля инференса в Cloud.ru

⚡ Архитектурный выбор за 60 секунд

Быстрый MVP

Open-source / контроль

Свой Docker / кастом

Поиск по данным

Агенты

🔌 Foundation Models — доступные по API

LLM

Embedding

Rerank

Audio-to-Text

🧠 LLM

📐 Embedding

🔎 Rerank

🎤 Audio-to-Text

⚖️ FM API vs ML Inference vs Docker RUN

Foundation Models API

ML Inference (Model RUN)

Docker RUN

📊 Сравнительная таблица open-source моделей

🎯 Методика оценки GPU/vGPU памяти

🔍 VRAM Breakdown

🧊 Model Weights

🗄️ KV Cache

⚡ Activations

🛠️ Runtime Overhead

💡 Быстрая шпаргалка

📊 Примеры VRAM

8B FP16

8B INT4 (AWQ/GPTQ)

70B FP16

70B INT4

🎯 Decision Matrix — выбор модели по задаче

💬 Чат-бот общего назначения

📄 RAG по корпоративным документам

💻 Кодинг (генерация, ревью)

🧮 Reasoning / Математика / Аналитика

📷 OCR / Изображения / Схемы

💰 Low-cost high-throughput

🏢 Enterprise Quality

📇 Карточки моделей

Llama 3.1 8B Instruct

Llama 3.3 70B Instruct

Qwen3 8B

Qwen3 32B

Mistral 7B v0.3 Instruct

Gemma 3 12B IT

Gemma 3 27B IT

DeepSeek R1 Distill Qwen 14B

DeepSeek R1 0528 Qwen3 8B

Qwen3-VL 8B Instruct

Qwen2.5 Coder 7B Instruct

🧠 Рекомендации архитектора

1️⃣ Начинайте с малого

2️⃣ Квантизация — друг архитектора

3️⃣ KV cache — скрытый пожиратель памяти

4️⃣ Закладывайте запас 20–30%

5️⃣ RAG: retrieval важнее модели

6️⃣ Выбирайте правильный runtime

7️⃣ FM API vs Self-hosted

8️⃣ Проверяйте лицензии

🎤 Что сказать клиенту

⚠️ Важные замечания

📖 Словарь терминов

📚 Источники

☁️ Cloud.ru

🤗 Hugging Face (config.json + model cards)

Open-source и Foundation Models
для инференса в Cloud.ru