出了问题,谁还记得去年是怎么解决的?
上周三下午,公司官网突然打不开,监控告警响了一片。新来的小李手忙脚乱翻了半小时日志,最后还是老张过来,边敲命令边念叨:‘这不就是上个月那次DNS解析失败嘛,当时改了配置就没事了。’
可问题是,那次的处理过程没记下来。老张记得,是因为他亲手做的;小李不知道,是因为没人告诉他。等老张休假,下一次类似问题照样抓瞎。
运维不是个人英雄主义的舞台
很多团队都这样:核心知识全在几个“活地图”脑子里。他们一走,系统就跟换了个人似的,谁都不敢动。这不是能力问题,是缺少沉淀。而最简单的沉淀方式,就是有一份靠谱的网络运维手册。
它不是为了应付检查写的文档,而是日常能用上的“操作地图”。比如交换机端口异常怎么查,防火墙策略怎么加,VPN断了第一步做什么。把这些写清楚,新人也能照着做,不至于一出事就群发‘谁懂这个?’
手册里该有什么?别整虚的
别一上来就搞几百页的大部头。从最常踩的坑开始写。比如:
- 办公网突然上不了外网,先 ping 网关,再查 DNS
- 核心交换机端口频繁 down,检查光模块和对端设备协商模式
- 服务器无法访问数据库,确认安全组和 ACL 是否放行对应端口
这些都不是高深技术,但关键时刻能省半小时排查时间。每条配上简明步骤,最好连命令都贴好。
# 查看接口状态
show interfaces status | include err-disabled
# 恢复被禁用的端口
enable
configure terminal
interface gigabitEthernet 0/24
no shutdown
更新比编写更重要
很多手册写完就进了冷宫,因为环境变了,文档没变。正确的做法是:每次处理完问题,顺手更新手册。哪怕只是加一行备注,也比什么都不做强。
可以放在内部 Wiki 上,权限放开,鼓励大家编辑。运维不是保密工作,越透明,系统越稳。谁改了什么,留个记录就行。
它还能帮你发现隐藏问题
有次整理手册时,我发现同一个故障竟然有三种不同的处理方式,分别来自三位同事。一聊才知道,有人习惯重启设备,有人偏好改配置,还有人直接换线缆。这说明什么?流程不统一,风险藏得深。
通过手册的梳理,反而倒逼团队统一了标准操作。现在遇到同类问题,大家第一反应是‘去手册里看看最新怎么处理’,而不是靠感觉。
说到底,网络运维手册不是摆设,它是把人的经验转化成团队资产的过程。系统会变,人会走,但只要手册在更新,运维就不会回到原始社会。