网络日志记录与分析实战指南

你有没有遇到过这种情况：用户突然打来电话，说某个系统访问不了，可你刚检查时一切正常。你想查问题出在哪，却发现没有任何线索——没人报错的时间点，没人操作的痕迹，连日志都一片空白。这时候，网络日志的重要性就凸显出来了。

日志不是摆设，是故障回溯的第一手资料

网络设备、服务器、防火墙、应用服务，每天都在产生大量日志。这些日志就像是网络世界的“行车记录仪”，记录着每一次连接、每一次访问、每一次异常。很多人觉得日志太多太杂，干脆关掉或者不定期清理，结果真出问题时，就像开车出了事故却找不到录像。

比如某次公司内网突然变慢，排查了半天发现是某个部门批量下载文件导致带宽占满。如果提前配置了路由器和交换机的日志记录，并设置了流量突增告警，就能在问题扩大前收到通知，而不是等全楼都卡了才开始翻记录。

很多人只关注“ERROR”级别的日志，其实像“INFO”、“WARNING”这类信息同样关键。登录尝试、权限变更、配置修改，这些操作可能不会立刻引发故障，但往往是安全事件的前兆。

举个例子，某台服务器连续几天都有陌生IP尝试SSH登录，虽然每次都失败，但日志里清清楚楚记着时间和来源。如果有人定期查看或设置自动分析规则，就能及时封禁IP，避免后续暴力破解成功。

每天几万甚至几十万条日志，靠人工一条条看不现实。这时候就需要工具辅助分析。ELK（Elasticsearch + Logstash + Kibana）是目前用得比较多的组合，能把分散的日志集中起来，支持搜索、过滤、可视化。

比如你想查过去一小时所有404错误，可以直接在Kibana里写查询语句：

status:404 AND @timestamp:[now-1h TO now]

还能做成仪表盘，实时显示请求量、响应时间、错误率，一眼就能看出异常波动。

小公司不一定非要上ELK，也可以用轻量级方案。比如用rsyslog把多台设备的日志统一发到一台日志服务器，再配合grep、awk、sed这些命令做简单分析：

grep "Failed password" /var/log/auth.log | awk '{print $11}' | sort | uniq -c | sort -nr

这条命令能快速列出最近SSH爆破最频繁的来源IP，方便手动封禁。

日志不能无限存下去。硬盘空间有限，太久远的日志价值也低。建议根据业务需求定策略：核心系统保留90天以上，普通设备30天足够。可以用logrotate管理本地日志，或者在ELK中设置索引生命周期（ILM）自动归档或删除。

另外别忘了日志本身的完整性。重要日志最好同步到独立的日志服务器，防止本地被攻击后日志被篡改或删除。毕竟，攻击者得手后第一件事，往往就是清日志。

高级一点的做法是基于日志做实时告警。比如用Filebeat采集Nginx日志，通过Logstash解析出状态码，当5xx错误率超过5%就触发邮件或企业微信通知。

再比如监控数据库慢查询日志，一旦出现执行时间超过2秒的SQL，立即告警给DBA。这种机制能把很多问题消灭在萌芽阶段，而不是等用户投诉了才去查。

网络日志记录与分析，看起来是件幕后工作，但关键时刻能帮你快速定位问题、还原事件经过、甚至证明清白。别等到出事了才后悔没留证据。从今天开始，把你的日志系统当成必备基础设施来对待。