Docker Swarm кластер с Selectel
Детальная проработка архитектуры и поэтапный план
20-30 дней
Поэтапная реализация
75%
Прерываемые серверы
3-8 минут
Автоматическое восстановление
15+
Сервисов и компонентов
Reverse proxy с балансировкой
Изменения: Swarm service, динамический upstream
Flask приложение
Изменения: Подключение к Ollama внутри Swarm
Система аналитики
Изменения: Shared volume для SQLite
Векторная БД
Изменения: Docker контейнер, ограничение на manager
Prometheus/Grafana
Оценка: 3-4 дня
Selectel API интеграция
Оценка: 5-7 дней
Мониторинг нод
Оценка: 2-3 дня
LLM сервис
Изменения: Docker контейнер, GPU поддержка, 3 реплики
Приоритет: Критический
Оценка: 5-7 дней
Автоматическое восстановление прерванных GPU серверов через Selectel API
Приоритет: Высокий
Оценка: 2-3 дня
Мониторинг состояния Swarm нод
Приоритет: Высокий
Оценка: 3-4 дня
Prometheus/Grafana для метрик
Приоритет: Высокий
Оценка: 1-2 дня
Автоматическое обновление upstream при изменении нод
Приоритет: Средний
Оценка: 1-2 дня
Общий том для моделей (опционально)
Приоритет: Средний
Оценка: 2-3 дня
Автоматическое резервное копирование
Рекомендация: ru-7 (Москва)
Все серверы в одном регионе для минимальной задержки
Рекомендация: Гибридный подход
Сетевой диск для конфигураций, локальный для моделей
Рекомендация: Локальное хранение на каждой ноде
Проще и быстрее, модели загружаются при первом запросе
Рекомендация: Восстановление если < 1 часа, иначе создание нового
Баланс между скоростью и надежностью
Рекомендация: Автоматическое пересоздание через 23 часа
Предотвращает принудительное прерывание