Свой AI-сервер за 3000 руб/мес: что запустить на GPU

API OpenAI, Anthropic, Midjourney — удобно, но дорого при постоянной нагрузке. При определённом объёме задач дешевле арендовать GPU-сервер и запустить модели самостоятельно. Разберём, когда это выгодно, что реально влезает на RTX 4090 и как поднять всё через Docker за полчаса.

Когда аренда GPU выгоднее API

Считаем на конкретном примере. Допустим, вы транскрибируете аудио через Whisper API:

Параметр OpenAI API Self-hosted RTX 4090
Цена $0.006 / мин аудио ~$0.7 – 1.2 / час сервера
100 часов аудио/мес $36 ~$30 – 50
500 часов аудио/мес $180 ~$50 – 80
2000 часов аудио/мес $720 ~$80 – 120

Цены актуальны на март 2026. Уточняйте на сайте сервиса.

Точка безубыточности для Whisper — примерно 300 – 400 часов аудио в месяц. Если вы обрабатываете интервью, подкасты, колл-центр — self-hosted окупается быстро.

Для генерации изображений через Stable Diffusion / Flux:

Параметр Midjourney Self-hosted
Цена $10 – 60/мес (лимиты) $30 – 80/мес (безлимит)
1000 изображений ~$25 – 30 без доп. платы
Кастомные модели нет да
Данные клиента на серверах MJ у вас

Цены актуальны на март 2026. Уточняйте на сайте сервиса.

Платформы для аренды GPU

vast.ai — маркетплейс, где люди сдают свои GPU. Самые низкие цены, но нет гарантий uptime.

  • RTX 4090 (24 GB): $0.35 – 0.8/час
  • RTX 3090 (24 GB): $0.25 – 0.5/час
  • A100 (80 GB): $1.5 – 2.5/час

RunPod — managed-платформа, чуть дороже, но надёжнее. Есть spot и on-demand.

  • RTX 4090: $0.59/час on-demand, $0.35/час spot
  • Spot может прерваться — подходит для batch-задач, не для продакшена

Цены актуальны на март 2026. Уточняйте на сайте сервиса.

Lambda Labs — стабильно, дорого, хорошая поддержка. Для продакшн-нагрузки.

Для постоянного сервера (24/7) выгоднее брать месячную аренду на vast.ai: RTX 4090 выходит в $80 – 120/мес (~7000 – 11000 руб). Для нерегулярных задач — запускать по требованию и останавливать.

Что влезает на RTX 4090 (24 GB VRAM)

RTX 4090 VRAM: 24 GB
─────────────────────────────────────────────
Whisper Large V3 Turbo      ~3 GB   ✓
Edge-TTS (CPU, не GPU)      0 GB    ✓ (бесплатно)
CosyVoice3                  ~6 GB   ✓
Stable Diffusion XL         ~8 GB   ✓
Flux.1 Dev (full)           ~24 GB  ✓ (вся карта)
Flux.1 Dev (fp8 quant)      ~12 GB  ✓
Llama 3.1 8B (full)         ~16 GB  ✓
Llama 3.3 70B (4-bit)       ~40 GB  ✗ (нужно 2× 4090)
Qwen2.5 32B (4-bit)         ~20 GB  ✓
─────────────────────────────────────────────
Комбо: Whisper + CosyVoice + SDXL = ~17 GB ✓

Реальный воркфлоу для голосового ассистента: Whisper (3 GB) + LLM Qwen2.5 14B (8‑bit, ~9 GB) + CosyVoice (6 GB) = 18 GB — влезает с запасом.

Docker-настройка за 30 минут

Предполагается Ubuntu 22.04, NVIDIA-драйверы установлены.

Шаг 1: nvidia-container-toolkit

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list \
  | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

Шаг 2: docker-compose.yml для Whisper API

services:
  whisper:
    image: onerahmet/openai-whisper-asr-webservice:latest-gpu
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    environment:
      - ASR_MODEL=large-v3-turbo
      - ASR_ENGINE=faster_whisper
    ports:
      - "9000:9000"
    restart: unless-stopped

  stable-diffusion:
    image: ghcr.io/automatic1111/stable-diffusion-webui:latest
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    ports:
      - "7860:7860"
    volumes:
      - ./models:/app/models
      - ./outputs:/app/outputs
    command: --api --listen --no-half-vae
    restart: unless-stopped

docker compose up -d
# Whisper API: http://localhost:9000/asr
# SD WebUI API: http://localhost:7860

Шаг 3: тест Whisper

curl -X POST "http://localhost:9000/asr" \
  -H "Content-Type: multipart/form-data" \
  -F "audio_file=@test.mp3" \
  -F "language=ru" \
  -F "output=json"

Локальный LLM: когда имеет смысл

Запускать LLM самостоятельно имеет смысл только в нескольких случаях:

  1. Конфиденциальные данные — медицинские, юридические, финансовые документы клиентов, которые нельзя отправлять в облако
  2. Очень высокий объём — тысячи запросов в день, когда API становится дороже $200/мес
  3. Fine-tuning — обученная на ваших данных модель даёт лучшие результаты, чем базовая

Для большинства задач API Claude или GPT-4o выгоднее: нет DevOps-головной боли, нет простоев, модели обновляются автоматически.

Qwen2.5 14B в 4‑bit квантизации (~8 GB VRAM) — хороший выбор для self-hosted: поддерживает русский язык, работает через Ollama или vLLM.

# Запуск через Ollama
docker run -d --gpus all -p 11434:11434 \
  -v ollama:/root/.ollama \
  ollama/ollama

docker exec ollama ollama pull qwen2.5:14b
# API: POST http://localhost:11434/api/generate

Сравнение: self-hosted vs API

Задача API (облако) Self-hosted
STT (Whisper) $0.006/мин ~$0.0001/мин на 4090
Генерация изображений $0.02 – 0.08/шт ~$0.001/шт
LLM (GPT-4o) $5 – 15 / 1M токенов ~$0.01 / 1M токенов
TTS (ElevenLabs) $0.3/1000 символов бесплатно (Edge-TTS)
Uptime 99.9%+ SLA вы сами
Время настройки 5 минут 2 – 4 часа
Обновление моделей автоматически вручную

Цены актуальны на март 2026. Уточняйте на сайте сервиса.

Безопасность: данные остаются у вас

Ключевое преимущество self-hosted — данные не покидают ваш сервер. Для работы с персональными данными клиентов (152-ФЗ), медицинской информацией, банковскими документами — это не опция, а требование.

Минимальная защита сервера:

# Закрыть порты, кроме SSH и нужных сервисов
ufw default deny incoming
ufw allow ssh
ufw allow from 10.0.0.0/8 to any port 9000  # Whisper — только внутренняя сеть
ufw enable

# Nginx reverse proxy с Basic Auth для внешнего доступа
# Никогда не открывайте AI-сервисы напрямую в интернет

Когда API всё-таки лучше

  • Нерегулярная нагрузка (несколько запросов в день) — сервер будет простаивать
  • Нужна последняя версия GPT-4o или Claude — self-hosted модели отстают по качеству
  • Нет DevOps-экспертизы в команде — сломается в пятницу вечером
  • Задача разовая или проверка гипотезы — не тратьте время на инфраструктуру

Есть идея? Реализуем

Разрабатываем проекты, которые решают задачи бизнеса — от лендинга до сложного сервиса. Расскажите о своей задаче, подберём решение.

Написать в Telegram

20.03.2026

Нужна консультация?

Оставьте свои контактные данные, или свяжитесь с нами удобным для вас способом

Привет! Меня зовут Багира. Пишите, я все передам хозяевам!

Привет! Меня зовут Багира. Пишите, я все передам хозяевам!

Нажимая кнопку «Принять», вы соглашаетесь на сбор cookie. Мы используем их для обеспечения функционирования веб-сайта, аналитики действий и улучшения качества обслуживания. Если Вы не хотите, чтобы эти данные обрабатывались, отключите cookie в настройках браузера или прекратите использовать сайт.
Принять