随着学校信息化建设近年来的快速发展,网络用户数量不断增长,互联网应用越来越丰富。当前,学校已经建成了覆盖全校的网络系统,包括有线/无线网络、数据中心网络、出口网络、安全系统等,服务于全校师生的网络接入、校园各类应用系统、公众教育等需求。
校园网网络和应用的规模爆发性增长,而运维人员的数量、成本都没有成比例增加,这使得运维人力资源的压力越来越大,如何用更少的运维人员,维护更大规模的网络,成为管理人员一直思考的问题。传统的运维管理,依托于网管系统、流量分析系统等,更多的是对于网络设备的管理和网络基础性能的管理,网络应用一旦出现故障很难定位。管理人员无法全面地洞察网络,在进行网络扩容时没有有效的网络扩容、网络规划的决策依据。
为了解决上述问题,我们建设了基于分布式主动拨测探针的网络性能监测系统,针对校园网应用特点,利用主动拨测探针,进行7×24小时不间断的自动化网络运维巡检,对各项网络及应用运行状况的监测和告警。使用多维度多视角端到端的网络性能监测,涵盖网络各项指标,实现多维度多视角端到端的网络监控。实际应用表明,该系统能便捷地采集各项网络数据,并进行智能对比分析,多维度数据挖掘,有效监测用户网络体验情况,为实时发现网络故障和准确处理故障提供支撑,提高了网络管理水平。
现状分析
为了满足用户日益增长的对网络体验的要求,我们对网络管理的现状进行分析,发现现有网络管理存在以下不足。
一是缺少针对校园网特点的业务质量监测技术手段。
校园网作为学校重要的信息化基础设施,不仅需要满足教职员工和学生的日常网络需求,还需及时解决各种网络故障和安全事件。由于校园网所承载的业务呈现多样性、流量突发性,原有的技术手段难以对应用对象做到主动探测,例如时延、丢包率、网络带宽等网络运行状态以及业务运行质量。另外,现有校园网采用被动式运维和管理模式,造成管理能力有限、运行质量无保障、业务质量难以衡量、业务可靠性下降等问题。现有监控指标体系侧重于网络性能指标监控,无法反映网络业务的实时、真实的情况,单靠网络性能指标无法准确反映用户的真实感知。
二是缺乏面向校园网故障的快速主动定位能力。
校园网网络故障覆盖范围大,涉及面广,定位方向多,涉及网络链路、网络带宽、设备性能、准入认证、软件程序等,且故障具体现象不一,导致了潜在的故障难以快速定位。现有指标监控体系不完善,不能快速发现业务质量故障和性能劣化情况,不能根据指标波动对业务质量进行预警。由于网络故障可能涉及到多个方面和多种潜在故障,因此网络运维人员需要具备相应的专业知识和技能,才能够根据故障的具体表现和可能的原因进行定位和处理。网络运维管理人员水平以及用户推测等人为因素都会导致故障定位的精准度出现偏差。传统网络运维管理人员主要依靠设备主动上报告警或故障来获悉相关管理信息,即使发现故障,也很难给维修人员快速修复的精确位置。如何降低维护人员工作量、缩短故障历时,成为校园网网络管理的一个难题。
三是缺少适合校园网运行质量的自动化监测管理工具。
校园网网络运维管理工具过度分散,已经成为影响学校提高网络管理效率的重要阻碍,现在还没有有效的工具,保障集中、高效、实用的综合监控数据通信网的基础设施正常、可靠地运行。校园网管理人员缺少针对校园网基础网络和应用运行状态的综合监控、测量和管理手段。管理人员急需有效工具定期提供网络服务质量报告,清楚地知道网络质量的好坏,以免因为主观因素遭到用户投诉,从管理角度分析了解给用户提供的网络服务质量的情况,了解用户的感知。
从以上的网络管理的现状进行分析表明,针对校园网网络应用特点,研究并引入基于分布式主动拨测探针的网络性能监测系统,在现有的网络管理体系中非常有必要。我们需要建设一个网络质量监测平台,7×24小时不间断收集各项测试结果,呈现各项感知数据,通过报表、告警、质量分析来展示,定位网络故障。使用更加智能化的网络管理和监测技术,建立完善的业务质量指标体系,实现对校园网网络运行质量和业务质量的主动监测和优化管理。
网络性能监测系统在校园网中的应用
应用设计
1.系统架构设计
系统采用分布式主动拨测探针和管理平台相结合的架构。
分布式主动拨测探针对目标节点性能做实时拨测,每台探针将真实用户端访问目标服务端应用质量拨测结果上传至管理平台。探针提供多种灵活的接入方式,支持有线和无线接入方式,支持Portal、PPPoE、802.1x等准入认证方式,便于任何网络结点环境接入。
管理平台作为系统的统一控制中枢,统一管理包括统一策略管理和统一信息呈现,统一控制所有探针执行各种感知测试,收集各项目测试结果,呈现各项感知数据,结合地理地图和拓扑展现于控制中心。
2.系统功能设计
系统提供多种应用业务的拨测和分析,如网页浏览、文件下载、视频观看等,针对不同网络应用和业务采集多种性能指标。
系统提供多种业务的性能测试,如HTTP、FTP、DNS、网络吞吐、PING(ICMP/UDP/
TCP)、TRACEROUTE(ICMP/UDP/TCP)等。
系统提供详细的性能分析功能,包括整体、局部、单一三个方面,可提前预防网络的低效性、不合理性、不稳定性。
系统提供多种灵活的配置方式,便于运维管理人员管理监测任务。
3.系统扩展设计
系统设计的总体架构采用分层设计,即表现层、业务逻辑层、数据层,可以给予系统更好的可扩展性与灵活性。
系统结构采用模块化体系结构,新功能的引入不影响原有的功能模块,具有良好的可扩展性。同时,系统的容量可随硬件的扩容和软件的升级达到更高的要求。
系统区别于其他网管系统,实现辅助网络管理与监控区,与校园网应用业务深度关联,可根据校园网业务变更同步进行监控策略的变更。
功能实例
应用业务监测。分析整理校园网业务特征,对主动拨测探针配置应用业务监测,7×24小时不断对校园网相关业务做监测。
对网页浏览、网络下载、网络视频、无线网络、内网延迟、域名解析、主机性能等多个维度、多个性能指标进行探测。图1列出了7个维度的多个性能指标。
图1 网络性能监测系统监控维度
丰富的多维度性能数据,可以尽量真实地反映整个网络的实际运行状况。可精确度量的性能指标就如同统一的“度量衡”,标准化的探针就像是“公平秤”,同时拥有两者,才能用数据化、可视化的方式,将整个网络的实际使用体验,真实地展现给管理员,让网络运维、网络性能管理真正做到有理可依、有据可查。
通过分布式主动拨测探针持续监测网络资源的访问质量,其中包括带宽、延时、抖动、路径、服务可用性等等。通过“智能对比”功能快捷地发现最快的路径并且基于监测结果作为优化网络出口路由的依据,如图2所示,可以持续地提供出口网络优化所需要的数据支撑。
图2 校园网出口性能分析
通过智能对比网络性能参数,能够为网络优化提供有效的数据,从而帮助管理人员快速地优化网络,有效地提升网络性能,改善用户体验,帮助用户快速实现网络优化的目标。
故障快速主动定位。为了更好地保障网络性能,系统采取主动拨测探针的方式,将部分探针部署在重点上网区域、重点应用位置上,以确保网络性能的稳定和可靠。通过合理数量的探针部署,可以更加精细地监测网络性能,并能够快速发现和解决网络中出现的问题。当网络运维管理人员接到报障后,可以通过远程拨测快速验证问题,以便快速定位和解决问题。同时,通过回溯历史报告,可以查找问题的原因,并对类似问题进行预防和处理。对于重点对象,采取更加精细的保障措施,确保其网络体验的满意度。对于关键应用,提前监控其网络性能,以便及时发现问题并采取相应的措施解决问题。通过采取上述措施,可以大大提高用户的网络体验满意度,并保障网络性能的稳定可靠。
为了提高运维人员的故障响应速度、减轻运维人员的压力,系统将实时分析探针的性能数据,一旦发现问题就会立即告警。告警信息可以通过通知中心、电子邮件、远程SYSLOG、微信等多重方式推送至相关运维人员。自动化告警在一定程度上先于用户发现问题,一旦网络异常时,会快速通知运维人员哪个区域、哪栋楼宇发生了什么网络故障,在提高故障响应速度的同时减轻了运维压力。
按照网络运维人员的使用习惯,将网络的总体运行情况、无线网整体情况、有隐患和故障的网络业务、故障所影响到的网络区域等数据进行汇总、分析并一站式呈现,如图3所示。这样减轻运维人员的压力、提高故障响应速度。
图3 网络性能监测情况
另外通过分布式部署、网络性能监测、业务质量监测等多种技术手段,实时监测网络运行状态,及时发现并定位网络故障。监测报告详细分析,精确诊断说明,实现快速排障。展望未来,还可以建立故障定位模型,利用人工智能等技术对故障进行快速、精准的定位,提高故障排查效率和质量。
自动化监测管理。在学校的不同区域合理部署200余个探针,全天候7×24小时在线。这些探针根据管理员的设置,能够自动、主动地监测网络性能,从而保障网络的高可用性。这一功能减轻了网络运维人员的工作压力。此外,探针还能进行7×24小时不间断的自动化网络巡检。它们像机器人一样,以分钟为周期,主动发起网络“声纳”探测,进行目标自动化巡检。这种巡检方式不仅极大地解放了网络运维人员,还减少了人力成本的消耗。自动化巡检的方式和智能告警,可以更及时、更精准地发现和解决网络问题,从而减少运维资源的消耗,提高解决问题的效率。
分布式主动拨测探针将拨测结果数据汇聚至管理平台,平台进行分析处理之后对性能数据进行各种可视化的呈现,系统提供了丰富的可视化报表和详尽的性能测试报告,提供包括自定义地图的多种图表类型支持,同时支持多维度、多视角层层下钻分析。运维监控可视化大屏是网络性能和网络运行状态的实时监控大屏,管理人员根据需求,自定义背景、布局、标题、数据源以及图表类型。如图4展示的监控大屏,实时感知我校6个校区各楼栋网络质量,帮助运维人员全面洞察区域网络,提供数字化智能运维新体验。通过大屏可实时监控不同网络区域的网络质量、关键应用的网络性能以及关键用户的网络体验。
图4 全校网络体验监控大屏
结束语
本文论述了基于分布式主动拨测探针的网络性能监测系统的部署,与该系统在校园网中的应用的探索和实践。实践表明,该系统有利于对校园网网络做主动监测,进行有目的的网络感知优化,量化用户体验感知形成可采集、可监控、可提升的业务质量指标体系,持续监控优化校园网网络业务质量、提高用户感知,助力于校园网网络性能监测运维管理的发展。该系统也能完善校园网网络和业务维护优化的支撑手段,弥补对校园网业务质量监控手段的不足,为校园网维护优化工作目标和效果评估提供了量化依据,提升了学校用户的上网体验,提高了学校信息化管理水平,为学校高质量发展提供有力支撑。