Инфраструктурный портал и мониторинг — backlog исполнения
Связано: Инфраструктурный портал и мониторинг — план работ
Цель
Превратить идею инфраструктурного портала в исполнимый backlog: с приоритетами, зависимостями, критериями готовности, рисками и ближайшими шагами.
Правила приоритизации
- P0 — блокирует всё остальное или несёт прямой операционный риск.
- P1 — нужно для запуска MVP.
- P2 — усиливает систему, но не блокирует MVP.
- P3 — polish / вторая очередь.
Backlog
P0-1. Утвердить архитектурный контур
Статус: ✅ done
Завершено: создана заметка Архитектура мониторинга и портала.md.
P0-2. Создать inventory-слой по серверам и VPS
Статус: ✅ done
Завершено: infra-inventory.yaml обновлён данными из скриншотов панелей провайдеров (июнь 2026). Заполнено: provider, plan, paid_till, location, billing.
P0-3. Определить модель сущностей и связей
Статус: ✅ done
Завершено: создана заметка Модель данных инфраструктурного портала.md.
P1-1. Развернуть node_exporter на всех 3 серверах
Статус: ✅ done Завершено: node_exporter 0.17.0 на assist/assistai/api, systemd service, порты 127.0.0.1:9100. Все 3 endpoint’а отдают 200.
P1-2. Развернуть VictoriaMetrics на assist
Статус: ✅ done Завершено: VictoriaMetrics 1.115.0 в Docker (host network), порт 8428. SSH туннели: 19102→assistai:9100, 19103→api:9100. scrape.yml: 30d retention, все 3 хоста up.
P1-3. Развернуть Grafana на assist
Статус: ✅ done
Завершено: Grafana 11.6.0 в Docker (host network), порт 3000. Datasource VictoriaMetrics настроен. 3 dashboards импортированы: Host Overview, Node Exporter Full, Node Exporter Dashboard EN 20201010. Login: admin / grafana. Доступ: https://mon.unf86.org. Caddy route: mon.unf86.org → Grafana.
P1-4. Зафиксировать метрики и пороги
Статус: ✅ done
Завершено: создана заметка Метрики и пороги мониторинга.md. Определены CPU/RAM/Disk/Network/System метрики с порогами.
P1-5. Спроектировать IA и UX портала
Статус: ✅ done
Завершено: создана заметка IA и UX портала dash.unf86.org.md. Определены 6 вкладок: Overview, Infrastructure, Topology, Services, OmniRoute, Analytics.
P2-1. Построить auto-discovery по services / containers / ports / routes / disks
Статус: pending Зависимости: P0-3 Смысл: автоматически собирать реальную структуру инфраструктуры.
Критерий готовности:
- discovery проходит по 3 серверам;
- данные сведены в нормализованный JSON-слой;
- есть минимальная верификация корректности связей.
Риски:
- самые хрупкие места — mapping
route -> localhost port -> service/containerи canonical naming.
Next action:
- описать технический discovery-contract.
P2-2. Построить topology / layered map
Статус: pending Зависимости: P2-1, P1-5 Смысл: показать инфраструктуру не списками, а понятной кликабельной картой.
Критерий готовности:
- есть fleet topology;
- есть server detail topology;
- есть route chain view;
- элементы кликабельны и раскрывают детали.
Риски:
- попытка показать всё сразу убьёт читаемость.
Next action:
- выбрать graph/rendering approach.
P2-3. Переделать dash в front door
Статус: pending Зависимости: P1-3, P1-5, P2-1 Смысл: сделать из текущего dash нормальный инфраструктурный портал, а не локальную статус-панель.
Критерий готовности:
- на
dash.unf86.orgесть summary по 3 серверам; - есть inventory metadata;
- есть переходы в Grafana;
- есть topology-раздел;
- удалены слабополезные legacy-блоки.
Риски:
- если полезть в UI раньше discovery и IA — будет хаос и переделки.
Next action:
- после завершения P1/P2 собрать конкретный UI backlog.
P3-1. Эксплуатация, runbook и self-monitoring
Статус: pending Зависимости: P1-2, P1-3, P2-3 Смысл: чтобы система не умерла от забвения через неделю.
Критерий готовности:
- есть runbook;
- есть checklist изменения инфраструктуры;
- есть backup/restore notes;
- monitoring stack сам себя мониторит.
Next action:
- создать ops-note после запуска MVP.
Рекомендуемый порядок исполнения
P0-1 Архитектура✅P0-2 Inventory✅P0-3 Модель данных✅P1-1 node_exporter✅P1-2 VictoriaMetrics✅P1-3 Grafana✅P1-4 Метрики и thresholds✅P1-5 IA / UX✅- P2-1 Discovery ← следующий
- P2-2 Topology
- P2-3 Новый dash
- P3-1 Runbook / self-monitoring
Ближайшие 3 рабочих шага
- P2-1: auto-discovery — описать контракт и начать сбор.
- P2-2: topology — выбрать rendering approach.
- P2-3: dash — после discovery начать UI.