Тестирование и готовность к повторному запуску: диск /storage (2026-02-15)

Дата: 2026-02-15
Цель: Зафиксировать результаты тестирования мер по приведению /storage к штатному состоянию и степень готовности к повторному запуску (недопущение повторения инцидента).

1. Результаты тестирования

1.1 Мониторинг и пороги

Проверка	Результат
disk-space-monitor.timer	active, enabled ✅
Проверка каждые 5 мин	Выполняется ✅
Пороги /storage (80 / 50 / 20 ГБ, ранний 100 ГБ)	Заданы в скрипте ✅
Лог /var/log/disk-space-monitor.log	Пишется; при EMERGENCY запускается аварийная очистка ✅

1.2 Автоочистка при EMERGENCY

Действие	Результат
Обнуление логов Docker на /storage	Реализовано в disk-space-emergency-cleanup.sh (cleanup_storage) ✅
Docker system prune -af для /storage	Выполняется при EMERGENCY ✅
Вызов cleanup-lxd-snapshots от пользователя cdto	В мониторе и emergency-cleanup вызов через sudo -u cdto env HOME=... ✅
Очистка снимков при вызове из systemd	Ранее: «Контейнер не найден» (таймаут 120 с). Исправление: LXC_INFO_TIMEOUT увеличен до 300 с в cleanup-lxd-snapshots.sh ✅

1.3 Ручная очистка снимков LXD

Проверка	Результат
Запуск от cdto: `sudo -u cdto env HOME=/home/cdto USER=cdto .../cleanup-lxd-snapshots.sh`	Контейнеры видны (lxc list), скрипт обрабатывает 1c-server, postgresql-1c, docs-denkart, BBB-CONT22-1, nginx-reverse-proxy, moodle, redmine ✅
Лимиты (20/10 снимков)	Заданы в скрипте ✅
Лог очистки	/tmp/cleanup-lxd-snapshots.log или /var/log/cleanup-lxd-snapshots.log в зависимости от пользователя ✅

1.4 Документация и регламент

Документ / действие	Статус
Текущее состояние аварийного диска	STORAGE-CURRENT-STATE-2026-02-15.md ✅
План исправления на основе прошлого опыта	STORAGE-RECOVERY-PLAN-2026-02-15.md ✅
Приведение к норме (быстрые действия)	STORAGE-BRING-TO-NORMAL.md ✅
Анализ инцидента и меры предотвращения	INCIDENT-ANALYSIS-STORAGE-DISK-SPACE-BELOW-RESERVE.md ✅
Еженедельная проверка и реакция при < 80 ГБ / < 100 ГБ	Зафиксировано в политике и disk-space-protection.md ✅

2. Текущее состояние диска (на момент отчёта)

Раздел	Свободно	Норма	Статус
/	95 ГБ	≥ 2 ГБ	✅ Норма
/storage	~6,4 ГБ	≥ 80 ГБ	⚠️ EMERGENCY (очистка снимков запущена вручную, выполняется)
/D	296 ГБ	≥ 20%	✅ Норма

Штатное состояние (≥ 80 ГБ на /storage) будет достигнуто после завершения ручной очистки снимков LXD и при необходимости повторного запуска или анализа крупных каталогов.

3. Степень готовности к повторному запуску

Критерий	Оценка	Комментарий
Автоочистка при WARNING/CRITICAL/EMERGENCY для /storage	Готово	Реализована в disk-space-monitor.sh и disk-space-emergency-cleanup.sh
Очистка снимков LXD от пользователя cdto при вызове из systemd	Улучшено	Таймаут проверки контейнера увеличен до 300 с; при сильной перегрузке диска может потребоваться ручной запуск от cdto
Раннее предупреждение (< 100 ГБ)	Готово	STORAGE_EARLY_WARNING_GB=100 в мониторе и документации
Регламент еженедельной проверки и реакции при < 80 ГБ / < 100 ГБ	Готово	Зафиксировано в политике и защите от переполнения
Достижение целевых 80 ГБ на /storage	В процессе	Очистка снимков выполняется; после завершения проверить df -h /storage и при необходимости повторить или провести анализ du

Итоговая степень готовности к повторному запуску (недопущение повторения инцидента):
Высокая — технические и процессные меры внедрены; для полного выхода из аварийного состояния необходимо дождаться завершения очистки снимков и выхода свободного места на /storage в зону ≥ 80 ГБ.

4. Рекомендации после выхода на 80 ГБ

Установить обновлённые скрипты в систему (если запуск из репозитория не используется):
sudo cp /home/cdto/DENKART/scripts/disk-space-monitor.sh /usr/local/bin/
sudo cp /home/cdto/DENKART/scripts/disk-space-emergency-cleanup.sh /usr/local/bin/
Еженедельно выполнять проверку по POST-REBOOT-CHECKLIST.md и при свободном на /storage < 100 ГБ — плановую очистку по STORAGE-BRING-TO-NORMAL.md.
При следующем срабатывании EMERGENCY по /storage проверить лог монитора: если снова «Контейнер не найден» — убедиться, что скрипт cleanup-lxd-snapshots с LXC_INFO_TIMEOUT=300 установлен и выполняется от cdto; при необходимости запустить очистку вручную от cdto.

5. Связанные документы

Документ подготовлен: AI Denkart, технический директор.

operations/STORAGE-TEST-AND-READINESS-2026-02-15.md

📖 Навигация

📄 Паспорт сервера

⚙️ Настройка

🔧 Операции

🐛 Проблемы

📚 Справочная