从零搭建属于你的运维手册
刚接手一个老旧网络系统时,最怕什么?没人交接,文档缺失,设备型号混乱。我曾经在一家分公司看到过,三层交换机的VLAN配置全靠前任手写在A4纸上,贴在机柜侧面。一场空调漏水事故后,纸张泡烂,整个办公网瘫了两天。
从那以后,我开始认真写自己的网络运维手册。不是为了应付检查,而是真真切切地把它当成“救命文档”来维护。
手册不是越厚越好
见过太多堆满术语和拓扑图的手册,翻到第三页就看不下去。实用的手册得像菜谱——步骤清晰,能照着做。比如重启核心交换机这种操作,别只写“按流程重启”,而是写清楚:先登录Console口,保存当前配置,执行reload命令,等待5分钟观察端口UP状态,最后ping关键服务器IP。
我们团队现在每季度更新一次手册,删掉过时内容比新增还多。精简本身就是在提升可用性。
把故障场景写进手册
某次凌晨三点,监控报警说外网断了。赶到现场发现是光猫闪红灯。查手册第一条就是:“光猫PON灯不亮 → 联系运营商 → 同时切换4G备份路由”。这个条目来自半年前同样的故障经历,当时打了四个电话才想起来有备用线路。
现在我们的手册专门设了一个章节叫‘高频故障应对’,收录了过去一年发生过三次以上的异常处理方式。新同事来了先看这章,上手速度快得多。
配置模板要即拿即用
每次部署新AP都要重新写VLAN、SSID、密码策略?太耗时间。我在手册里建了个标准配置块,直接复制粘贴改IP就行。
<interface Vlan10>
ip address 192.168.10.1 255.255.255.0
description Management_VLAN
no shutdown
</interface>
ip route 0.0.0.0 0.0.0.0 192.168.10.254这类代码块我们按设备类型分类存放,交换机、防火墙、无线控制器各一个文件夹。新人第一天就能完成基础配置上线。
记录那些“奇怪但有效”的操作
有些问题教科书上不会写。比如某品牌路由器在固件升级失败后,必须长按Reset键17秒才能进入救援模式——试过15秒不行,16秒也不行,只有17秒刚好。
这种细节我会记在手册的‘冷知识’栏目里。听着玄乎,可关键时刻省下大把排查时间。毕竟用户不在乎你用了多少理论,只关心网络什么时候恢复。
让手册自己“活”起来
纸质文档容易过期,我们转用内部Wiki维护手册。每次变更配置或处理故障,顺手更新对应页面。还加了版本号和修改人,谁改了哪一行都看得见。
最实用的是搜索功能。上次排查DHCP冲突,输入关键词“地址池耗尽”,立刻跳出三条历史记录和解决方案,十分钟定位问题。
运维手册不是摆设,它是你每天工作的影子。写得好不好,直接影响半夜被叫醒的次数。