☁️ Cloud.ru AI Factory

Open-source и Foundation Models
для инференса в Cloud.ru

Справочник архитектора: как выбрать модель, оценить GPU/vGPU-память и объяснить клиенту trade-off между API, Model RUN и Docker RUN.

12
LLM в Foundation Models
2
Embedding модели
2
Rerank модели
1
Audio-to-Text

⚠️ Важные замечания

То, что нельзя пропустить при проектировании.

📐 Важно: Все оценки VRAM — approximate. Точные требования зависят от runtime (vLLM, TGI, Ollama, Transformers), версии CUDA, batch size, sequence length, quantization backend (AWQ, GPTQ, GGUF) и версии фреймворка. Итоговую конфигурацию всегда валидируйте нагрузочным тестом.
🏗 Архитектору: Для long-context задач (128K+) всегда считайте KV cache отдельно. Используйте модели с Grouped Query Attention (малое число KV-heads) для экономии. Рассмотрите FP8/INT4 KV cache (поддерживается vLLM). Не забывайте про PagedAttention — vLLM эффективно управляет KV cache страницами.
📏 Approximate: Наши цифры — отправная точка, а не гарантия. Используйте как первое приближение. Для точного планирования запустите модель на representative data и померяйте. Разница между оценкой и реальностью может составлять 10–30%.
⚖️ Проверить лицензии: Перед коммерческим использованием проверяйте лицензию каждой модели отдельно. Особое внимание: Llama (Meta License — нужно принять), Gemma (Gemma Terms), DeepSeek R1 (требует уточнения), GigaChat (Sber — уточняйте у Cloud.ru).
☁️ Cloud.ru: Информация по FM и ML Inference сервисам взята из публичной документации cloud.ru/docs на дату сбора (24.05.2026). Конкретные цены на ML Inference (GPU-ресурсы) отсутствуют в публичном доступе — требуют уточнения в договоре или у менеджера Cloud.ru.