Метрики и пороги мониторинга
Связано: Инфраструктурный портал и мониторинг — backlog исполнения
Источник данных
- VictoriaMetrics 1.115.0 на
assist:8428
- node_exporter 0.17.0 на assist / assistai / api (127.0.0.1:9100)
- SSH туннели: 19102→assistai, 19103→api
Хосты
assist (217.76.60.29)
assistai (43.245.226.189)
api (78.17.28.244)
Метрики хоста
CPU
| Метрика | Prometheus query | Единица | Portог warning | Порог critical |
|---|
| CPU usage % | 100 - (avg by (instance)(rate(node_cpu_seconds_total{mode="idle"}[5m]) * 100) | % | > 80% | > 90% |
| Load average 1m | node_load1 | число | > CPU cores * 0.7 | > CPU cores * 1.5 |
| Load average 5m | node_load5 | число | > CPU cores * 0.7 | > CPU cores * 1.2 |
RAM
| Метрика | Prometheus query | Единица | Порог warning | Порог critical |
|---|
| RAM used % | 100 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100) | % | > 80% | > 90% |
| RAM available | node_memory_MemAvailable_bytes | bytes | < 1 GB | < 512 MB |
| Swap used % | 100 * node_memory_Swap_total > 0 ? node_memory_Swap_*.bytes / node_memory_Swap_total : 0 | % | > 10% | > 30% |
Disk
| Метрика | Prometheus query | Единица | Порог warning | Порог critical |
|---|
| Disk usage % | 100 - (node_filesystem_avail_bytes / node_filesystem_size_bytes * 100) | % | > 75% | > 90% |
| Disk free | node_filesystem_avail_bytes{fstype!="tmpfs"} | bytes | < 5 GB | < 2 GB |
| Inodes used % | node_filesystem_files{...} | % | > 75% | > 90% |
Network
| Метрика | Prometheus query | Единица | Примечание |
|---|
| Network RX | rate(node_network_receive_bytes_total[5m]) | B/s | по интерфейсу |
| Network TX | rate(node_network_transmit_bytes_total[5m]) | B/s | по интерфейсу |
| RX/TX errors | rate(node_network_receive_errs_total[5m]) | err/s | любые ошибки = warning |
System
| Метрика | Порог | Примечание |
|---|
| Uptime | < 1h | сервер только что рестартовал |
| Procs blocked | > 10 | I/O stall |
| Entropy available | < 100 | влияет на crypto RANDOM |
Docker контейнеры
| Метрика | Примечание |
|---|
| container_status | up/down/restarting |
| container_last_restart_time | > 24h = контейнер не рестартовал давно |
| container_cpu_usage_seconds_total | per container |
| container_memory_working_set_bytes | per container |
| container_network_receive_bytes_total | per container |
| container_network_transmit_bytes_total | per container |
Systemd сервисы
| Состояние | Результат |
|---|
active | ✅ |
inactive | ❌ |
failed | ❌ |
activating | ⚠️ |
deactivating | ⚠️ |
auto-restart | ⚠️ count > 0 |
Grafana dashboards
- Host Overview (UID
homelab-host) — кастомный, 10 панелей
- Node Exporter Full (UID
node-exporter-full)
- Node Exporter Dashboard EN 20201010 (UID
node-exporter-11074)