跳转至

31- 附录与维护建议 📑

内容概要

本章作为全教程的收尾,汇总常用参考信息、生产维护最佳实践、常见问题排查路径,以及长期运维建议。

1. 快速参考命令速查表

类别 常用命令示例 说明
系统信息 hostnamectl / lsb_release -a / cat /etc/debian_version / uname -r 版本、内核、主机名
软件包管理 apt update && apt full-upgrade -y && apt autoremove 更新 + 清理
服务管理 systemctl status/enable/start/restart/stop ssh systemd 服务控制
网络诊断 ip -br addr / ss -tuln / ping -c4 / curl -I / traceroute IP、端口、连通性、路由
日志查看 journalctl -u ssh -f / tail -f /var/log/auth.log / journalctl -b -p err 实时跟踪、错误日志
磁盘/存储 lsblk -f / df -hT / du -sh /var/* / lvdisplay / vgdisplay 分区、LVM、占用情况
安全 ufw status / nft list ruleset / fail2ban-client status sshd / aa-status 防火墙、fail2ban、AppArmor
容器/虚拟化 docker ps / podman ps / lxc-ls / virsh list --all 容器与虚拟机状态

2. 生产环境维护检查清单(建议每周/每月执行)

  • 系统与内核是否最新?(apt full-upgrade)
  • 关键服务运行状态?(systemctl --failed)
  • 磁盘空间是否充足?(df -h / df -i)
  • 日志是否异常增长?(journalctl --disk-usage / du -sh /var/log/*)
  • 防火墙规则是否符合预期?(ufw status / nft list ruleset)
  • fail2ban 是否有近期封禁记录?(fail2ban-client status sshd)
  • 备份是否成功执行且可恢复?(验证最近一次 borg/restic/rsync 备份)
  • LVM 快照空间是否健康?(lvs -o +lv_size,data_percent)
  • 安全扫描是否有意外开放端口?(nmap -sV localhost)
  • 证书是否即将过期?(certbot certificates / crontab -l)
  • 云 CLI 凭证是否安全存储?(无明文 Access Key)

3. 常见问题排查路径

问题描述 第一步检查 第二步深入 最终手段
SSH 无法登录 ping + port 2222 是否通 / ufw status tail -f /var/log/auth.log / fail2ban status rescue mode 或 VMware 控制台
服务启动失败 systemctl status xxx journalctl -u xxx -xe strace / AppArmor 日志
磁盘满 df -h / df -i du -sh /* / ncdu 清理 /var/log /tmp /backup
网络不通 ip addr / ip route / ping gateway tcpdump -i ens33 port 80 重启网络 / 检查 VMware 网卡
升级后软件不兼容 apt list --installed grep xxx apt install --reinstall xxx
容器无法启动 docker logs / podman logs docker inspect / podman inspect 重建镜像 / 检查 AppArmor

4. 长期运维建议(生产视角)

  1. 文档化一切
  2. 所有服务器配置、密码(加密)、变更记录 → Git 仓库
  3. 维护手册、SOP、应急预案 → Markdown + GitHub Wiki / Notion

  4. 监控与告警

  5. 基础:Prometheus + Node Exporter + Alertmanager
  6. 日志:Loki + Grafana / ELK Stack(进阶)
  7. 告警:邮件 / Telegram / 企业微信 webhook

  8. 定期演练

  9. 每月一次灾难恢复演练(从备份恢复完整环境)
  10. 模拟节点宕机、磁盘满、网络中断等场景

  11. 版本控制与变更管理

  12. 所有配置文件、脚本、playbook 进 Git
  13. 使用 Git tag 标记生产版本(v1.2.3-prod)

  14. 最小化与自动化

  15. 尽量容器化(Docker/Podman)
  16. 基础设施即代码(Ansible + Packer + Terraform)
  17. 镜像标准化 + 不可变部署

  18. 安全持续加固

  19. 定期 Lynis 扫描(lynis audit system)
  20. 订阅 Debian 安全公告(apt install debian-security-support)
  21. 启用 unattended-upgrades + 关注 testing/unstable 变更

总结 📌

本教程从零到生产级运维的全链路已覆盖:基础部署 → 安全加固 → 存储管理 → 业务服务 → 自动化演进。
真正的运维能力不是记住所有命令,而是建立可重复、可审计、可恢复、可自动化的体系。
建议将本教程所有 md 文件放入一个 Git 仓库,持续补充你自己的实践记录、踩坑总结,形成个人/团队的“Debian 运维知识库”。