Метрики и пороги мониторинга

Связано: Инфраструктурный портал и мониторинг — backlog исполнения

Источник данных

  • VictoriaMetrics 1.115.0 на assist:8428
  • node_exporter 0.17.0 на assist / assistai / api (127.0.0.1:9100)
  • SSH туннели: 19102→assistai, 19103→api

Хосты

  • assist (217.76.60.29)
  • assistai (43.245.226.189)
  • api (78.17.28.244)

Метрики хоста

CPU

МетрикаPrometheus queryЕдиницаPortог warningПорог critical
CPU usage %100 - (avg by (instance)(rate(node_cpu_seconds_total{mode="idle"}[5m]) * 100)%> 80%> 90%
Load average 1mnode_load1число> CPU cores * 0.7> CPU cores * 1.5
Load average 5mnode_load5число> CPU cores * 0.7> CPU cores * 1.2

RAM

МетрикаPrometheus queryЕдиницаПорог warningПорог critical
RAM used %100 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100)%> 80%> 90%
RAM availablenode_memory_MemAvailable_bytesbytes< 1 GB< 512 MB
Swap used %100 * node_memory_Swap_total > 0 ? node_memory_Swap_*.bytes / node_memory_Swap_total : 0%> 10%> 30%

Disk

МетрикаPrometheus queryЕдиницаПорог warningПорог critical
Disk usage %100 - (node_filesystem_avail_bytes / node_filesystem_size_bytes * 100)%> 75%> 90%
Disk freenode_filesystem_avail_bytes{fstype!="tmpfs"}bytes< 5 GB< 2 GB
Inodes used %node_filesystem_files{...}%> 75%> 90%

Network

МетрикаPrometheus queryЕдиницаПримечание
Network RXrate(node_network_receive_bytes_total[5m])B/sпо интерфейсу
Network TXrate(node_network_transmit_bytes_total[5m])B/sпо интерфейсу
RX/TX errorsrate(node_network_receive_errs_total[5m])err/sлюбые ошибки = warning

System

МетрикаПорогПримечание
Uptime< 1hсервер только что рестартовал
Procs blocked> 10I/O stall
Entropy available< 100влияет на crypto RANDOM

Docker контейнеры

МетрикаПримечание
container_statusup/down/restarting
container_last_restart_time> 24h = контейнер не рестартовал давно
container_cpu_usage_seconds_totalper container
container_memory_working_set_bytesper container
container_network_receive_bytes_totalper container
container_network_transmit_bytes_totalper container

Systemd сервисы

СостояниеРезультат
active
inactive
failed
activating⚠️
deactivating⚠️
auto-restart⚠️ count > 0

Grafana dashboards

  • Host Overview (UID homelab-host) — кастомный, 10 панелей
  • Node Exporter Full (UID node-exporter-full)
  • Node Exporter Dashboard EN 20201010 (UID node-exporter-11074)