31- 附录与维护建议 📑
内容概要
本章作为全教程的收尾,汇总常用参考信息、生产维护最佳实践、常见问题排查路径,以及长期运维建议。
1. 快速参考命令速查表
| 类别 | 常用命令示例 | 说明 |
|---|---|---|
| 系统信息 | hostnamectl / lsb_release -a / cat /etc/debian_version / uname -r | 版本、内核、主机名 |
| 软件包管理 | apt update && apt full-upgrade -y && apt autoremove | 更新 + 清理 |
| 服务管理 | systemctl status/enable/start/restart/stop ssh | systemd 服务控制 |
| 网络诊断 | ip -br addr / ss -tuln / ping -c4 / curl -I / traceroute | IP、端口、连通性、路由 |
| 日志查看 | journalctl -u ssh -f / tail -f /var/log/auth.log / journalctl -b -p err | 实时跟踪、错误日志 |
| 磁盘/存储 | lsblk -f / df -hT / du -sh /var/* / lvdisplay / vgdisplay | 分区、LVM、占用情况 |
| 安全 | ufw status / nft list ruleset / fail2ban-client status sshd / aa-status | 防火墙、fail2ban、AppArmor |
| 容器/虚拟化 | docker ps / podman ps / lxc-ls / virsh list --all | 容器与虚拟机状态 |
2. 生产环境维护检查清单(建议每周/每月执行)
- 系统与内核是否最新?(apt full-upgrade)
- 关键服务运行状态?(systemctl --failed)
- 磁盘空间是否充足?(df -h / df -i)
- 日志是否异常增长?(journalctl --disk-usage / du -sh /var/log/*)
- 防火墙规则是否符合预期?(ufw status / nft list ruleset)
- fail2ban 是否有近期封禁记录?(fail2ban-client status sshd)
- 备份是否成功执行且可恢复?(验证最近一次 borg/restic/rsync 备份)
- LVM 快照空间是否健康?(lvs -o +lv_size,data_percent)
- 安全扫描是否有意外开放端口?(nmap -sV localhost)
- 证书是否即将过期?(certbot certificates / crontab -l)
- 云 CLI 凭证是否安全存储?(无明文 Access Key)
3. 常见问题排查路径
| 问题描述 | 第一步检查 | 第二步深入 | 最终手段 |
|---|---|---|---|
| SSH 无法登录 | ping + port 2222 是否通 / ufw status | tail -f /var/log/auth.log / fail2ban status | rescue mode 或 VMware 控制台 |
| 服务启动失败 | systemctl status xxx | journalctl -u xxx -xe | strace / AppArmor 日志 |
| 磁盘满 | df -h / df -i | du -sh /* / ncdu | 清理 /var/log /tmp /backup |
| 网络不通 | ip addr / ip route / ping gateway | tcpdump -i ens33 port 80 | 重启网络 / 检查 VMware 网卡 |
| 升级后软件不兼容 | apt list --installed | grep xxx | apt install --reinstall xxx |
| 容器无法启动 | docker logs / podman logs | docker inspect / podman inspect | 重建镜像 / 检查 AppArmor |
4. 长期运维建议(生产视角)
- 文档化一切
- 所有服务器配置、密码(加密)、变更记录 → Git 仓库
-
维护手册、SOP、应急预案 → Markdown + GitHub Wiki / Notion
-
监控与告警
- 基础:Prometheus + Node Exporter + Alertmanager
- 日志:Loki + Grafana / ELK Stack(进阶)
-
告警:邮件 / Telegram / 企业微信 webhook
-
定期演练
- 每月一次灾难恢复演练(从备份恢复完整环境)
-
模拟节点宕机、磁盘满、网络中断等场景
-
版本控制与变更管理
- 所有配置文件、脚本、playbook 进 Git
-
使用 Git tag 标记生产版本(v1.2.3-prod)
-
最小化与自动化
- 尽量容器化(Docker/Podman)
- 基础设施即代码(Ansible + Packer + Terraform)
-
镜像标准化 + 不可变部署
-
安全持续加固
- 定期 Lynis 扫描(lynis audit system)
- 订阅 Debian 安全公告(apt install debian-security-support)
- 启用 unattended-upgrades + 关注 testing/unstable 变更
总结 📌
本教程从零到生产级运维的全链路已覆盖:基础部署 → 安全加固 → 存储管理 → 业务服务 → 自动化演进。
真正的运维能力不是记住所有命令,而是建立可重复、可审计、可恢复、可自动化的体系。
建议将本教程所有 md 文件放入一个 Git 仓库,持续补充你自己的实践记录、踩坑总结,形成个人/团队的“Debian 运维知识库”。