Архитектура мониторинга и портала
Связано: Инфраструктурный портал и мониторинг — план работ Связано: Инфраструктурный портал и мониторинг — backlog исполнения Связано: Модель данных инфраструктурного портала Связано: Inventory серверов и VPS
Принятые решения
Центральный сервер мониторинга
assist (assist.unf86.org, 16 CPU / 64 GB RAM / 300 GB NVMe).
Почему:
- естественная control plane — Hermes, OpenClaw, Caddy, дашборд уже тут;
- больше всех ресурсов;
- наименьший риск конфликта с боевыми сервисами.
Роли компонентов
| Компонент | Где | Зачем |
|---|---|---|
| node_exporter | на каждом сервере | источник host-метрик (CPU/RAM/disk/network) |
| VictoriaMetrics | assist | центральное хранилище time-series |
| Grafana | assist | аналитический UI, графики, история |
| dash.unf86.org | assist | единый операционный портал / front door |
Модель сбора метрик
Pull-модель — VictoriaMetrics сама ходит на node_exporter каждого сервера. Это стандартный Prometheus-подход, не самопал.
dash vs Grafana
- dash — front door, fleet overview, topology, alerts, links. Не рисует time-series.
- Grafana — аналитика, история, drill-down. Не операционная морда.
Архитектурная диаграмма
assist (assist.unf86.org)
┌─────────────────────────────────────┐
│ node_exporter :9100 ──→ VictoriaMetrics :8428 ──→ Grafana :3000 │
│ ↑ ↑ │
│ ┌────────────────────────┐ │ │
│ │ hermes-dash :19000 │←── front door │
│ └────────────────────────┘ │
│ ↑ │
│ Caddy :443 ─────→ Quartz :9500 │
└─────────────────────────────────────────────────────────────┘
↑ ↑
┌──────┴──────┐ ┌──────┴──────┐
│ assistai │ │ api │
│node_exp:9100 │ │node_exp:9100 │
└─────────────┘ └──────────────┘
Pull: VictoriaMetrics → :9100 каждого сервера.
Что не решено
- Домен для Grafana
- Auth для Grafana (public / basic auth / invite-only)
- Retention VictoriaMetrics (30d по умолчанию)
- Deployment mode: docker vs systemd для VM и Grafana
- Backup/restore конфигов
Статус
Архитектура зафиксирована. Решения pending — в backlog.