Архитектура мониторинга и портала

Связано: Инфраструктурный портал и мониторинг — план работ Связано: Инфраструктурный портал и мониторинг — backlog исполнения Связано: Модель данных инфраструктурного портала Связано: Inventory серверов и VPS

Принятые решения

Центральный сервер мониторинга

assist (assist.unf86.org, 16 CPU / 64 GB RAM / 300 GB NVMe).

Почему:

  • естественная control plane — Hermes, OpenClaw, Caddy, дашборд уже тут;
  • больше всех ресурсов;
  • наименьший риск конфликта с боевыми сервисами.

Роли компонентов

КомпонентГдеЗачем
node_exporterна каждом сервереисточник host-метрик (CPU/RAM/disk/network)
VictoriaMetricsassistцентральное хранилище time-series
Grafanaassistаналитический UI, графики, история
dash.unf86.orgassistединый операционный портал / front door

Модель сбора метрик

Pull-модель — VictoriaMetrics сама ходит на node_exporter каждого сервера. Это стандартный Prometheus-подход, не самопал.

dash vs Grafana

  • dash — front door, fleet overview, topology, alerts, links. Не рисует time-series.
  • Grafana — аналитика, история, drill-down. Не операционная морда.

Архитектурная диаграмма

assist (assist.unf86.org)
  ┌─────────────────────────────────────┐
  │  node_exporter :9100 ──→ VictoriaMetrics :8428 ──→ Grafana :3000  │
  │                             ↑                    ↑              │
  │              ┌────────────────────────┐          │              │
  │              │     hermes-dash :19000  │←── front door        │
  │              └────────────────────────┘                     │
  │                        ↑                                   │
  │  Caddy :443 ─────→ Quartz :9500                           │
  └─────────────────────────────────────────────────────────────┘
         ↑                    ↑
  ┌──────┴──────┐      ┌──────┴──────┐
  │   assistai   │      │     api      │
  │node_exp:9100 │      │node_exp:9100 │
  └─────────────┘      └──────────────┘

Pull: VictoriaMetrics → :9100 каждого сервера.

Что не решено

  • Домен для Grafana
  • Auth для Grafana (public / basic auth / invite-only)
  • Retention VictoriaMetrics (30d по умолчанию)
  • Deployment mode: docker vs systemd для VM и Grafana
  • Backup/restore конфигов

Статус

Архитектура зафиксирована. Решения pending — в backlog.