故障排除会占用网络管理员和支持人员的大部分时间。 在生产环境中工作时,使用有效率的故障排除方法能够缩短故障排除的总时间。 故障排除过程包括三个主要阶段:

阶段 1 收集故障症状 - 进行故障排除时,首先需要从网络、终端系统和用户处收集并记录故障症状。 此外,网络管理员还应确定哪些网络组件受到了影响,以及网络的功能与基线相比发生了哪些变化。 故障症状可能以许多不同的形式出现,其中包括网络管理系统警报、控制台消息以及用户投诉。 在收集故障症状时,重要的是网络管理员要提出问题并调查问题,以便将问题定位到较小范围的可能性中。 例如,问题仅限于单个设备、一组设备,还是出现在设备的整个子网或网络中?

阶段 2 隔离问题 - 隔离是不断消除变量直到将某个问题或一组相关问题确定为故障原因的过程。 要隔离故障,网络管理员需在网络的逻辑层研究故障的特征,以便找到最有可能的原因。 在此阶段,网络管理员可根据已确定的特征收集并记录更多故障症状。

阶段 3 实施纠正措施 - 在确定问题的原因后,网络管理员将通过实施、测试并记录可能的解决方案来纠正问题。 在找到问题并确定解决方案之后,网络管理员可能需要决定可以立即实施解决方案还是必须推迟实施。 这取决于更改对用户和网络的影响。 应该将问题的严重性与解决方案的影响进行权衡。 例如,如果关键服务器或路由器必须在相当长的时间内处于脱机状态,则等到工作日结束后再实施修复可能更好。 有时,可以创建变通方案直到实际问题得到解决。 这通常是网络更改控制流程的一部分。

如果纠正措施引起另一个问题或未能解决问题,则要记录已尝试的解决方案并删除更改,然后网络管理员需要重新返回收集故障症状并隔离问题。

上述阶段并不互相排斥, 在故障排除过程中,可能随时需要再次执行前面的阶段。 例如,网络管理员在隔离问题时可能需要收集更多的故障症状。 另外,在尝试纠正某个问题时,可能会引起另一个问题。 在这种情况下,请删除更改并重新开始故障排除。

应当为每个阶段建立故障排除策略,包括更改控制流程。 故障排除策略规定各阶段统一的执行方式, 其中应包括记录每一条重要信息。

注意:在问题解決后,与用户以及所有参与故障排除过程的人进行沟通。 应将解决方案告知其他 IT 团队的成员。 有关原因及修复过程的相应记录将帮助其他支持人员在将来避免和解决类似问题。