Архитектура мониторинга и портала

Связано: Инфраструктурный портал и мониторинг — план работ Связано: Инфраструктурный портал и мониторинг — backlog исполнения Связано: Модель данных инфраструктурного портала Связано: Inventory серверов и VPS

Принятые решения

Центральный сервер мониторинга

assist (assist.unf86.org, 16 CPU / 64 GB RAM / 300 GB NVMe).

Почему:

естественная control plane — Hermes, OpenClaw, Caddy, дашборд уже тут;
больше всех ресурсов;
наименьший риск конфликта с боевыми сервисами.

Роли компонентов

Компонент	Где	Зачем
node_exporter	на каждом сервере	источник host-метрик (CPU/RAM/disk/network)
VictoriaMetrics	assist	центральное хранилище time-series
Grafana	assist	аналитический UI, графики, история
dash.unf86.org	assist	единый операционный портал / front door

Модель сбора метрик

Pull-модель — VictoriaMetrics сама ходит на node_exporter каждого сервера. Это стандартный Prometheus-подход, не самопал.

dash vs Grafana

dash — front door, fleet overview, topology, alerts, links. Не рисует time-series.
Grafana — аналитика, история, drill-down. Не операционная морда.

Архитектурная диаграмма

assist (assist.unf86.org)
  ┌─────────────────────────────────────┐
  │  node_exporter :9100 ──→ VictoriaMetrics :8428 ──→ Grafana :3000  │
  │                             ↑                    ↑              │
  │              ┌────────────────────────┐          │              │
  │              │     hermes-dash :19000  │←── front door        │
  │              └────────────────────────┘                     │
  │                        ↑                                   │
  │  Caddy :443 ─────→ Quartz :9500                           │
  └─────────────────────────────────────────────────────────────┘
         ↑                    ↑
  ┌──────┴──────┐      ┌──────┴──────┐
  │   assistai   │      │     api      │
  │node_exp:9100 │      │node_exp:9100 │
  └─────────────┘      └──────────────┘

Pull: VictoriaMetrics → :9100 каждого сервера.

Что не решено

Домен для Grafana
Auth для Grafana (public / basic auth / invite-only)
Retention VictoriaMetrics (30d по умолчанию)
Deployment mode: docker vs systemd для VM и Grafana
Backup/restore конфигов

Статус

Архитектура зафиксирована. Решения pending — в backlog.

UNF86

Explorer

Архитектура мониторинга и портала

Архитектура мониторинга и портала

Принятые решения

Центральный сервер мониторинга

Роли компонентов

Модель сбора метрик

dash vs Grafana

Архитектурная диаграмма

Что не решено

Статус

Backlinks