湖北移动数据综合维护平台-产品介绍

系统简介:

数据网的业务系统众多,目前已包含15个专业。

同种业务系统中,由于不同的设备供应商,设备缩使用的协议及实现方式也各不相同。处于网络安全的考虑,各业务系统的维护主机分布在独立的子网上,彼此不能互通。目前,系统监控方面依靠7x24小时的人工值班监控,工作压力大、业务系统发生的障碍难以及时发现、故障处理时延大。

解决思路:

提供统一数据综合维护平台,在采集机上部署跨平台的采集器获取设备信息,通过WEB Service方式进行集中数据处理及呈现。

在采集器中集成数据库、TELNET、SHH、SNMP、SNMP TRAP、日志文件分析等多种手段获取设备信息,目前已覆盖数据网的所有专业。

在实现采集器按配置调度策略(或条件触发)自动进行设备信息获取、入库以及指标分析、告警呈现及短信通知。

主要功能:

3.1安全优化采集

针对不同的操作系统(包括solaris系列、windows系列、UNIX系列、Linux)、不同厂家(华为、中兴、MOTO、爱立信)、不同的设备(IBMP570、IBMP671、IBMM80、SGSN、SUM440、SUM490、SUMV880、华为NE40E等),将各设备的运行状态、运行日志进行采集,然后将采集后的结果通过WEBSERVICE接口传递给数据库服务器,并将采集器运行的结果以文本文件保存在采集程序指定的位置。

3.2 采集器自身的管理

采集过程中,采用心跳线程,发送心跳指令,可有效判断采集线程是否正常工作;

对于可能由于网络连接造成暂时性异常的情况,告警采集期自动进行3次重试机制,减少异常情况对告警采集的影响。

对于采集过程中出现的异常情况,告警采集器自动发送相关信息进入数据库中,便于用户进行指令分析和采集管理,排除异常情况,保证采集器正常工作。

3.3 智能化告警(告警域值分层、告警关联)

系统建立了告警域值基本配置,在此配置中确定了各指标的安全范围。

然后在此基础上建立了告警分层,将不同状态超过安全范围的值,依据重要程度,产生级别不同的告警。

告警关联,当多个告警产生时可能之间存在一定的关联性,将这些有关联的告警整合到一起就形成了告警关联。

在移动通信的数据业务系统中,各专业之间是有很大的关联的,通常在系统中出现了一个故障点的情况下,会影响到其它数个与之相关联的专业,在这些专业的监控中出现告警信息。例如:彩信业务是承载在GPRS上的,当GPRS系统出问题的时候,就有可能影响到彩信的业务出现异常而产生告警,GPRS本身也会产生告警。

在告警产生后,告警信息与导致信息产生的系统状态和越限阈值关联,与产生该系统状态的设备数据关联,这样非常方便维护人员直接取得告警产生时的现场状态,以及对比的相关资料,利于维护人员对障碍产生点的分析,加快处理速度。

3.4 经验库管理:

专业人员在日常工作中,处理了大量的障碍和用户投诉等,其中有很多具有共通性,非常适合作为可积累的经验和参考。为了积累处理经验,加快障碍处理速度,本系统集成了经验库,可以把曾经发生和处理过的障碍和用户投诉的现象、处理方法和处理经验保存在其中,为以后更快更好地处理类似障碍,统计设备和业务质量等发挥重要的作用。经验库由相应处理人员负责添加,拥有相应权限的用户可以查看,并且可以方便地通过关键字进行查找。

3.5 设备资源关联查看

各专业的设备具有一定的关联性,系统利用TOP图的方式将各设备之间的关联展现出来,有利于用户了解设备间的关联关系、更好的处理好告警。

系统优点:

4.1 成本低

完全利用现有网络和设备,只需一台在网络内综合服务器,就能实现整个系统的架构。

系统安全有保证

指定的IP、规范的数据格式、数据加密的传输过程,这些是系统安全的有效保证。

采集到的数据通过WEBSERVICE方式将数据传递给服务器,传递的数据包中包含动态有效性安全验证,判断传递数据的合法性,避免外部数据的可能干扰。

利用IIS的功能只开放了特定的IP地址的访问权,拒绝非法的用户访问。在告警的WEB登陆页面采用5次登陆失败失效,防止注入式攻击等技术拒绝非法用户恶意攻击和访问。告警页面采用防嵌套技术,和用户权限验证等功能,以及SESSION的超时网页自动失效技术等拒绝非法用户访问。

4.2 系统采集通用性(跨平台、模拟人为分析操作)

采集程序采用JAVA技术能跨平台多线程同时采集不同设备或不同指令的状态,支持SNMP、TELNET、SSH等多种方式采集相关设备的状态,还能数据库直连等方式采集告警。

采集程序,有自己的可视化操作界面,相关数据专业人员通过界面能模拟人为操作步骤完成对设备的状态采集。

采集程序调度能自由配置,用户可根据专业的情况自由调配。

采集程序内部逻辑还支持,多次确认机制,当碰到网络质量不好的情况,能通过此机制有效屏蔽掉误告警。


4.3 高效性

用电脑自动工作代替人力,减轻监控人员在各终端间收集设备信息的压力,提高工作效率。

分布采集,集中告警,集中监控,用短信方式通知相关责任人,全自动的方式不需要维护人员整天坐在终端前监控了。

及时迅速地检测发现故障,加快故障的报告和处理速度,为故障处理人员提供各设备的关联信息,便于判断故障点。

易于掌握,监控人员经过简单培训即可方便使用该系统,更进一步熟悉脚本的编写后,可以为其所维护的设备开发出更合适,更结合实际的脚本,更有针对性地设定相应的阈值,可以显著提高告警质量。

智能化的告警,进行多层次、多告警点联合智能分析,能够做到自动进行初步的障碍判断,缩小故障范围。

4.4 良好的扩展性

结构化、模块化的软件系统,可扩展、可升级。开放的WEBSERVICE对外系统接口,方便不同数据的接入。灵活的采集程序,方便不同设备的采集。

鄂公网安备 42010302000498号 鄂ICP备06004251号 武汉智远软件有限责任公司