Инфраструктурный портал и мониторинг — backlog исполнения

Связано: Инфраструктурный портал и мониторинг — план работ

Цель

Превратить идею инфраструктурного портала в исполнимый backlog: с приоритетами, зависимостями, критериями готовности, рисками и ближайшими шагами.


Правила приоритизации

  • P0 — блокирует всё остальное или несёт прямой операционный риск.
  • P1 — нужно для запуска MVP.
  • P2 — усиливает систему, но не блокирует MVP.
  • P3 — polish / вторая очередь.

Backlog

P0-1. Утвердить архитектурный контур

Статус: ✅ done Завершено: создана заметка Архитектура мониторинга и портала.md.

P0-2. Создать inventory-слой по серверам и VPS

Статус: ✅ done Завершено: infra-inventory.yaml обновлён данными из скриншотов панелей провайдеров (июнь 2026). Заполнено: provider, plan, paid_till, location, billing.

P0-3. Определить модель сущностей и связей

Статус: ✅ done Завершено: создана заметка Модель данных инфраструктурного портала.md.

P1-1. Развернуть node_exporter на всех 3 серверах

Статус: ✅ done Завершено: node_exporter 0.17.0 на assist/assistai/api, systemd service, порты 127.0.0.1:9100. Все 3 endpoint’а отдают 200.

P1-2. Развернуть VictoriaMetrics на assist

Статус: ✅ done Завершено: VictoriaMetrics 1.115.0 в Docker (host network), порт 8428. SSH туннели: 19102→assistai:9100, 19103→api:9100. scrape.yml: 30d retention, все 3 хоста up.

P1-3. Развернуть Grafana на assist

Статус: ✅ done Завершено: Grafana 11.6.0 в Docker (host network), порт 3000. Datasource VictoriaMetrics настроен. 3 dashboards импортированы: Host Overview, Node Exporter Full, Node Exporter Dashboard EN 20201010. Login: admin / grafana. Доступ: https://mon.unf86.org. Caddy route: mon.unf86.org → Grafana.

P1-4. Зафиксировать метрики и пороги

Статус: ✅ done Завершено: создана заметка Метрики и пороги мониторинга.md. Определены CPU/RAM/Disk/Network/System метрики с порогами.

P1-5. Спроектировать IA и UX портала

Статус: ✅ done Завершено: создана заметка IA и UX портала dash.unf86.org.md. Определены 6 вкладок: Overview, Infrastructure, Topology, Services, OmniRoute, Analytics.


P2-1. Построить auto-discovery по services / containers / ports / routes / disks

Статус: pending Зависимости: P0-3 Смысл: автоматически собирать реальную структуру инфраструктуры.

Критерий готовности:

  • discovery проходит по 3 серверам;
  • данные сведены в нормализованный JSON-слой;
  • есть минимальная верификация корректности связей.

Риски:

  • самые хрупкие места — mapping route -> localhost port -> service/container и canonical naming.

Next action:

  • описать технический discovery-contract.

P2-2. Построить topology / layered map

Статус: pending Зависимости: P2-1, P1-5 Смысл: показать инфраструктуру не списками, а понятной кликабельной картой.

Критерий готовности:

  • есть fleet topology;
  • есть server detail topology;
  • есть route chain view;
  • элементы кликабельны и раскрывают детали.

Риски:

  • попытка показать всё сразу убьёт читаемость.

Next action:

  • выбрать graph/rendering approach.

P2-3. Переделать dash в front door

Статус: pending Зависимости: P1-3, P1-5, P2-1 Смысл: сделать из текущего dash нормальный инфраструктурный портал, а не локальную статус-панель.

Критерий готовности:

  • на dash.unf86.org есть summary по 3 серверам;
  • есть inventory metadata;
  • есть переходы в Grafana;
  • есть topology-раздел;
  • удалены слабополезные legacy-блоки.

Риски:

  • если полезть в UI раньше discovery и IA — будет хаос и переделки.

Next action:

  • после завершения P1/P2 собрать конкретный UI backlog.

P3-1. Эксплуатация, runbook и self-monitoring

Статус: pending Зависимости: P1-2, P1-3, P2-3 Смысл: чтобы система не умерла от забвения через неделю.

Критерий готовности:

  • есть runbook;
  • есть checklist изменения инфраструктуры;
  • есть backup/restore notes;
  • monitoring stack сам себя мониторит.

Next action:

  • создать ops-note после запуска MVP.

Рекомендуемый порядок исполнения

  1. P0-1 Архитектура
  2. P0-2 Inventory
  3. P0-3 Модель данных
  4. P1-1 node_exporter
  5. P1-2 VictoriaMetrics
  6. P1-3 Grafana
  7. P1-4 Метрики и thresholds
  8. P1-5 IA / UX
  9. P2-1 Discovery ← следующий
  10. P2-2 Topology
  11. P2-3 Новый dash
  12. P3-1 Runbook / self-monitoring

Ближайшие 3 рабочих шага

  1. P2-1: auto-discovery — описать контракт и начать сбор.
  2. P2-2: topology — выбрать rendering approach.
  3. P2-3: dash — после discovery начать UI.