Тестирование и готовность к повторному запуску: диск /storage (2026-02-15)
Дата: 2026-02-15
Цель: Зафиксировать результаты тестирования мер по приведению /storage к штатному состоянию и степень готовности к повторному запуску (недопущение повторения инцидента).
1. Результаты тестирования
1.1 Мониторинг и пороги
| Проверка |
Результат |
| disk-space-monitor.timer |
active, enabled ✅ |
| Проверка каждые 5 мин |
Выполняется ✅ |
| Пороги /storage (80 / 50 / 20 ГБ, ранний 100 ГБ) |
Заданы в скрипте ✅ |
| Лог /var/log/disk-space-monitor.log |
Пишется; при EMERGENCY запускается аварийная очистка ✅ |
1.2 Автоочистка при EMERGENCY
| Действие |
Результат |
| Обнуление логов Docker на /storage |
Реализовано в disk-space-emergency-cleanup.sh (cleanup_storage) ✅ |
| Docker system prune -af для /storage |
Выполняется при EMERGENCY ✅ |
| Вызов cleanup-lxd-snapshots от пользователя cdto |
В мониторе и emergency-cleanup вызов через sudo -u cdto env HOME=... ✅ |
| Очистка снимков при вызове из systemd |
Ранее: «Контейнер не найден» (таймаут 120 с). Исправление: LXC_INFO_TIMEOUT увеличен до 300 с в cleanup-lxd-snapshots.sh ✅ |
1.3 Ручная очистка снимков LXD
| Проверка |
Результат |
Запуск от cdto: sudo -u cdto env HOME=/home/cdto USER=cdto .../cleanup-lxd-snapshots.sh |
Контейнеры видны (lxc list), скрипт обрабатывает 1c-server, postgresql-1c, docs-denkart, BBB-CONT22-1, nginx-reverse-proxy, moodle, redmine ✅ |
| Лимиты (20/10 снимков) |
Заданы в скрипте ✅ |
| Лог очистки |
/tmp/cleanup-lxd-snapshots.log или /var/log/cleanup-lxd-snapshots.log в зависимости от пользователя ✅ |
1.4 Документация и регламент
2. Текущее состояние диска (на момент отчёта)
| Раздел |
Свободно |
Норма |
Статус |
| / |
95 ГБ |
≥ 2 ГБ |
✅ Норма |
| /storage |
~6,4 ГБ |
≥ 80 ГБ |
⚠️ EMERGENCY (очистка снимков запущена вручную, выполняется) |
| /D |
296 ГБ |
≥ 20% |
✅ Норма |
Штатное состояние (≥ 80 ГБ на /storage) будет достигнуто после завершения ручной очистки снимков LXD и при необходимости повторного запуска или анализа крупных каталогов.
3. Степень готовности к повторному запуску
| Критерий |
Оценка |
Комментарий |
| Автоочистка при WARNING/CRITICAL/EMERGENCY для /storage |
Готово |
Реализована в disk-space-monitor.sh и disk-space-emergency-cleanup.sh |
| Очистка снимков LXD от пользователя cdto при вызове из systemd |
Улучшено |
Таймаут проверки контейнера увеличен до 300 с; при сильной перегрузке диска может потребоваться ручной запуск от cdto |
| Раннее предупреждение (< 100 ГБ) |
Готово |
STORAGE_EARLY_WARNING_GB=100 в мониторе и документации |
| Регламент еженедельной проверки и реакции при < 80 ГБ / < 100 ГБ |
Готово |
Зафиксировано в политике и защите от переполнения |
| Достижение целевых 80 ГБ на /storage |
В процессе |
Очистка снимков выполняется; после завершения проверить df -h /storage и при необходимости повторить или провести анализ du |
Итоговая степень готовности к повторному запуску (недопущение повторения инцидента):
Высокая — технические и процессные меры внедрены; для полного выхода из аварийного состояния необходимо дождаться завершения очистки снимков и выхода свободного места на /storage в зону ≥ 80 ГБ.
4. Рекомендации после выхода на 80 ГБ
- Установить обновлённые скрипты в систему (если запуск из репозитория не используется):
sudo cp /home/cdto/DENKART/scripts/disk-space-monitor.sh /usr/local/bin/
sudo cp /home/cdto/DENKART/scripts/disk-space-emergency-cleanup.sh /usr/local/bin/
- Еженедельно выполнять проверку по POST-REBOOT-CHECKLIST.md и при свободном на /storage < 100 ГБ — плановую очистку по STORAGE-BRING-TO-NORMAL.md.
- При следующем срабатывании EMERGENCY по /storage проверить лог монитора: если снова «Контейнер не найден» — убедиться, что скрипт cleanup-lxd-snapshots с LXC_INFO_TIMEOUT=300 установлен и выполняется от cdto; при необходимости запустить очистку вручную от cdto.
5. Связанные документы
Документ подготовлен: AI Denkart, технический директор.