Тестирование и готовность к повторному запуску: диск /storage (2026-02-15)

Дата: 2026-02-15
Цель: Зафиксировать результаты тестирования мер по приведению /storage к штатному состоянию и степень готовности к повторному запуску (недопущение повторения инцидента).


1. Результаты тестирования

1.1 Мониторинг и пороги

Проверка Результат
disk-space-monitor.timer active, enabled ✅
Проверка каждые 5 мин Выполняется ✅
Пороги /storage (80 / 50 / 20 ГБ, ранний 100 ГБ) Заданы в скрипте ✅
Лог /var/log/disk-space-monitor.log Пишется; при EMERGENCY запускается аварийная очистка ✅

1.2 Автоочистка при EMERGENCY

Действие Результат
Обнуление логов Docker на /storage Реализовано в disk-space-emergency-cleanup.sh (cleanup_storage) ✅
Docker system prune -af для /storage Выполняется при EMERGENCY ✅
Вызов cleanup-lxd-snapshots от пользователя cdto В мониторе и emergency-cleanup вызов через sudo -u cdto env HOME=... ✅
Очистка снимков при вызове из systemd Ранее: «Контейнер не найден» (таймаут 120 с). Исправление: LXC_INFO_TIMEOUT увеличен до 300 с в cleanup-lxd-snapshots.sh ✅

1.3 Ручная очистка снимков LXD

Проверка Результат
Запуск от cdto: sudo -u cdto env HOME=/home/cdto USER=cdto .../cleanup-lxd-snapshots.sh Контейнеры видны (lxc list), скрипт обрабатывает 1c-server, postgresql-1c, docs-denkart, BBB-CONT22-1, nginx-reverse-proxy, moodle, redmine ✅
Лимиты (20/10 снимков) Заданы в скрипте ✅
Лог очистки /tmp/cleanup-lxd-snapshots.log или /var/log/cleanup-lxd-snapshots.log в зависимости от пользователя ✅

1.4 Документация и регламент

Документ / действие Статус
Текущее состояние аварийного диска STORAGE-CURRENT-STATE-2026-02-15.md
План исправления на основе прошлого опыта STORAGE-RECOVERY-PLAN-2026-02-15.md
Приведение к норме (быстрые действия) STORAGE-BRING-TO-NORMAL.md
Анализ инцидента и меры предотвращения INCIDENT-ANALYSIS-STORAGE-DISK-SPACE-BELOW-RESERVE.md
Еженедельная проверка и реакция при < 80 ГБ / < 100 ГБ Зафиксировано в политике и disk-space-protection.md ✅

2. Текущее состояние диска (на момент отчёта)

Раздел Свободно Норма Статус
/ 95 ГБ ≥ 2 ГБ ✅ Норма
/storage ~6,4 ГБ ≥ 80 ГБ ⚠️ EMERGENCY (очистка снимков запущена вручную, выполняется)
/D 296 ГБ ≥ 20% ✅ Норма

Штатное состояние (≥ 80 ГБ на /storage) будет достигнуто после завершения ручной очистки снимков LXD и при необходимости повторного запуска или анализа крупных каталогов.


3. Степень готовности к повторному запуску

Критерий Оценка Комментарий
Автоочистка при WARNING/CRITICAL/EMERGENCY для /storage Готово Реализована в disk-space-monitor.sh и disk-space-emergency-cleanup.sh
Очистка снимков LXD от пользователя cdto при вызове из systemd Улучшено Таймаут проверки контейнера увеличен до 300 с; при сильной перегрузке диска может потребоваться ручной запуск от cdto
Раннее предупреждение (< 100 ГБ) Готово STORAGE_EARLY_WARNING_GB=100 в мониторе и документации
Регламент еженедельной проверки и реакции при < 80 ГБ / < 100 ГБ Готово Зафиксировано в политике и защите от переполнения
Достижение целевых 80 ГБ на /storage В процессе Очистка снимков выполняется; после завершения проверить df -h /storage и при необходимости повторить или провести анализ du

Итоговая степень готовности к повторному запуску (недопущение повторения инцидента):
Высокая — технические и процессные меры внедрены; для полного выхода из аварийного состояния необходимо дождаться завершения очистки снимков и выхода свободного места на /storage в зону ≥ 80 ГБ.


4. Рекомендации после выхода на 80 ГБ

  1. Установить обновлённые скрипты в систему (если запуск из репозитория не используется):
    sudo cp /home/cdto/DENKART/scripts/disk-space-monitor.sh /usr/local/bin/
    sudo cp /home/cdto/DENKART/scripts/disk-space-emergency-cleanup.sh /usr/local/bin/
  2. Еженедельно выполнять проверку по POST-REBOOT-CHECKLIST.md и при свободном на /storage < 100 ГБ — плановую очистку по STORAGE-BRING-TO-NORMAL.md.
  3. При следующем срабатывании EMERGENCY по /storage проверить лог монитора: если снова «Контейнер не найден» — убедиться, что скрипт cleanup-lxd-snapshots с LXC_INFO_TIMEOUT=300 установлен и выполняется от cdto; при необходимости запустить очистку вручную от cdto.

5. Связанные документы


Документ подготовлен: AI Denkart, технический директор.