Метрики и пороги мониторинга

Связано: Инфраструктурный портал и мониторинг — backlog исполнения

Источник данных

VictoriaMetrics 1.115.0 на assist:8428
node_exporter 0.17.0 на assist / assistai / api (127.0.0.1:9100)
SSH туннели: 19102→assistai, 19103→api

Хосты

assist (217.76.60.29)
assistai (43.245.226.189)
api (78.17.28.244)

Метрики хоста

CPU

Метрика	Prometheus query	Единица	Portог warning	Порог critical
CPU usage %	`100 - (avg by (instance)(rate(node_cpu_seconds_total{mode="idle"}[5m]) * 100)`	%	> 80%	> 90%
Load average 1m	`node_load1`	число	> CPU cores * 0.7	> CPU cores * 1.5
Load average 5m	`node_load5`	число	> CPU cores * 0.7	> CPU cores * 1.2

RAM

Метрика	Prometheus query	Единица	Порог warning	Порог critical
RAM used %	`100 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100)`	%	> 80%	> 90%
RAM available	`node_memory_MemAvailable_bytes`	bytes	< 1 GB	< 512 MB
Swap used %	`100 * node_memory_Swap_total > 0 ? node_memory_Swap_*.bytes / node_memory_Swap_total : 0`	%	> 10%	> 30%

Disk

Метрика	Prometheus query	Единица	Порог warning	Порог critical
Disk usage %	`100 - (node_filesystem_avail_bytes / node_filesystem_size_bytes * 100)`	%	> 75%	> 90%
Disk free	`node_filesystem_avail_bytes{fstype!="tmpfs"}`	bytes	< 5 GB	< 2 GB
Inodes used %	`node_filesystem_files{...}`	%	> 75%	> 90%

Network

Метрика	Prometheus query	Единица	Примечание
Network RX	`rate(node_network_receive_bytes_total[5m])`	B/s	по интерфейсу
Network TX	`rate(node_network_transmit_bytes_total[5m])`	B/s	по интерфейсу
RX/TX errors	`rate(node_network_receive_errs_total[5m])`	err/s	любые ошибки = warning

System

Метрика	Порог	Примечание
Uptime	< 1h	сервер только что рестартовал
Procs blocked	> 10	I/O stall
Entropy available	< 100	влияет на crypto RANDOM

Docker контейнеры

Метрика	Примечание
container_status	up/down/restarting
container_last_restart_time	> 24h = контейнер не рестартовал давно
container_cpu_usage_seconds_total	per container
container_memory_working_set_bytes	per container
container_network_receive_bytes_total	per container
container_network_transmit_bytes_total	per container

Systemd сервисы

Состояние	Результат
`active`	✅
`inactive`	❌
`failed`	❌
`activating`	⚠️
`deactivating`	⚠️
`auto-restart`	⚠️ count > 0

Grafana dashboards

Host Overview (UID homelab-host) — кастомный, 10 панелей
Node Exporter Full (UID node-exporter-full)
Node Exporter Dashboard EN 20201010 (UID node-exporter-11074)