网络KPI指标优化指导书.docx
- 文档编号:8358882
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:42
- 大小:1.57MB
网络KPI指标优化指导书.docx
《网络KPI指标优化指导书.docx》由会员分享,可在线阅读,更多相关《网络KPI指标优化指导书.docx(42页珍藏版)》请在冰豆网上搜索。
网络KPI指标优化指导书
移动网络指标
优化指导书
适用对象:
网优工程师
摘要
章节
描述
1概述
概述
2主要指标介绍
主要指标介绍
3指标监控流程
指标监控流程
4性能分析方法
性能分析方法
5优化分析专题
优化分析专题
6结束语
结束语
7附录
附录
1概述1
2主要指标介绍2
2.1指标的分类2
2.1.1按照网元对象分2
2.1.2按照统计时间粒度分2
2.1.3按照指标相关性分2
2.2接入类指标3
2.2.1连接建立成功率3
2.2.2建立成功率4
2.3保持性指标5
2.3.1无线掉线率5
2.3.2掉线率(小区级)6
2.4移动性指标7
2.4.1切换成功率7
3指标监控流程8
3.1监控流程介绍8
3.2日常监控流程9
3.3参数修改过程中监控流程10
3.4版本升级过程中的监控11
3.5割接过程中的监控12
4性能分析方法12
4.1性能分析方法12
4.1.1N最坏小区分析法12
4.2性能分析基本技能14
4.2.1监控常用工具一五
4.2.2分析用到的工具一五
4.3优化分析过程16
5优化分析专题19
5.1建立成功率优化专题19
5.1.1建立成功率的定义19
5.1.2建立失败常见原因20
5.1.3优化措施21
5.2切换成功率优化专题23
5.2.1切换成功率的定义23
5.2.2切换失败常见原因24
5.2.3优化措施26
5.3常见原因处理手段27
6结束语27
7附录28
7.1缩略语28
7.2参考资料30
图目录
图1-1联合问题定位1
图3-1日常监控流程图9
图3-2参数修改后监控流程图10
图3-3版本升级监控流程图11
图4-1优化分析流程图一八
图5-1接入流程19
图5-2接入统计分布21
图5-3优化后建立成功率22
图5-4优化后无线掉线率22
图5-5S1切换流程23
图5-6邻接关系24
图5-7同频同配置25
图5-8邻区错配25
图5-9优化后切换成功率26
表目录
表21连接建立成功率与质量等级4
表22小区建立成功率与质量等级5
表23业务掉话率与质量等级6
表24分组域业务掉线率与质量等级7
表25业务切换成功率与质量等级8
表41N最坏小区列表一三
表51掉话常见原因20
1概述
无线网络是体现网络质量的直接体现,监控也是我们发现问题的重要手段;监控与优化主要集中在运维期间,网络问题不能靠用户投诉来解决,对一些异常的事件必须第一时间发现并提出相应解决方案,这样才能保证为用户提供良好的话音与数据业务。
在网络建设初期主要是工程优化,由于用户少,工程质量等问题,在这个阶段的优化没有太大的意义,关注点主要在调整上面,只要特别关注一下、接入成功率、掉话率、指标即可;网络进入运维时期后,才是真正的优化,也即是我们通常说的参数优化,通过各种参数的联合调整来降低某项指标,达到客户的要求。
数据来源于操作维护中心()的网管系统(U31),对关键性能指标数据进行分析,可得到各种指标的一个当前状态,这些指标的当前状态是评估网络性能的重要参考。
当前我们关注的指标主要有网络保持性能、接入性能、移动性能、系统容量等;根据上述指标的当前值,判断并定位问题发生的区域、问题发生的范围、问题的严重程度;比如:
某站点拥塞、某站点掉话率为10%、最坏小区比例、超忙小区比例、接入成功率、呼叫时延、切换成功率、重建立成功率等。
关于的分类,我们按照统计的来源将分为业务与网络;业务是指通过外场路测测得的数据,;网络是指通过后台综合网管统计得到数据;本文主要讨论的是网络,通过网络来发现网络问题。
一般解决问题是通过后台数据、告警数据、用户投诉、测试联合起来进行分析定位,最终给出解决方案。
图1-1联合问题定位
2主要指标介绍
指标是通过计数器的实现,通过后台网管定制统计出来的,能真实反映网络某项性能的情况,及时发现问题,使网络的风险降低。
按照时间统计粒度分为:
一五分钟粒度、60分钟粒度、24小时粒度、周粒度、月粒度;按照统计对象分为小区级、级。
2.1指标的分类
2.1.1按照网元对象分
●小区级指标
●小区对级指标
●天线级指标
●级指标
2.1.2按照统计时间粒度分
●一五分钟粒度
●30分钟粒度
●1小时粒度
●24小时粒度
●7天粒度
●月粒度
2.1.3按照指标相关性分
●保持性指标
主要是包括掉话率掉话率、切换时掉话;
●接入类指标
包括连接建立成功率、指派成功率、无线接通率等等。
●移动性指标
主要包括频内切换成功率、频间切换成功率、异系统硬切换成功率(>2G、3G切换成功率)等等。
●资源类指标
主要包括下行控制信道受限、受限、业务信道受限、能承载的用户数、传输受限等等。
●系统容量类指标
主要包括小区级、吞吐量等等。
由于篇幅的限制,这里就每个类别里面的每个指标不一一叙述,可以参考随机文档《性能指标参考》,每个指标实现的公式、相应计数器的定义、每个指标的分类、指标的取值范围等都可以在这里找到;对于单个的计数器定义与说明可以参考随机文档《性能计数器参考》,该文档主要阐述各计数器的定义及触发点;本章主要对一些常用的重点指标进行举例说明,同时也以表格的形式对每个指标进行了质量等级的划分,当指标质量等级为差时,就需要对该指标进行优化了,其余的指标用类似的方法可以自己来深入学习。
本文以中移4G一期为背景,介绍当前外场较关心的接入,掉线,切换三大指标的定义和优化措施。
所有指标定义以《中移集团30个网管指标V1.0-502版本》为基础。
每个取值采样点和所代表的原因在《性能计数器参考》都有清晰的描述,在此不再一一介绍。
2.2接入类指标
2.2.1连接建立成功率
本指标反映或者小区的接纳能力,连接建立成功意味着与网络建立了信令连接。
连接建立,包括(如位置更新、系统间小区重选、注册等)的连接建立。
公式中分子和分母涉及的计数器都是消息中信元中的所有原因。
分子是连接建立成功次数,分母是连接建立尝试次数。
对外公式都采用成功+失败来表示请求,实际上也要参考或核对请求计数器。
2.2.1.1公式定义:
连接建立成功率连接建立成功次数/连接建立请求次数*100%
2.2.1.2建立连接成功率
2.2.1.3指标取值与质量等级
表21连接建立成功率与质量等级
序号
统计对象
统计粒度
取值范围
质量等级
1
级
24小时
小于80%
差
2
级
24小时
8098%
良
3
级
24小时
大于98%
优
2.2.2建立成功率
本指标用于了解该小区内业务建立成功的概率,部分反映了该小区范围内用户发起的业务的感受度。
比较准确的做法:
分子是建立成功次数,分母是建立尝试次数。
建立成功则是成功为用户分配了用户平面的连接。
2.2.2.1公式定义:
建立成功率建立成功数建立请求数*100%
2.2.2.2建立成功率
2.2.2.3指标取值与质量等级
表22小区建立成功率与质量等级
序号
统计对象
统计粒度
取值范围
质量等级
1
级
24小时
小于80%
差
2
级
24小时
8098%
良
3
级
24小时
大于98%
优
2.3保持性指标
2.3.1无线掉线率
无线掉线率反映了系统的业务通讯保持能力,也反映了系统的稳定性和可靠性。
掉话是指由于异常原因被主动发起释放的情况;公式统计的是异常原因的掉话率,现在归为正常释放的原因值包括:
用户不活动()、操作维护干预、过载控制导致的释放、、重定向,其他情况归为异常。
2.3.1.1公式定义:
无线掉线率=(请求释放上下文数-正常的请求释放上下文数)/初始上下文建立成功次数*100%
2.3.1.2无线掉线率
2.3.1.3指标取值与质量等级
表23业务掉话率与质量等级
序号
统计对象
统计粒度
取值范围
质量等级
1
级
24小时
大于1.5%
差
2
级
24小时
11.5%
良
3
级
24小时
0.41%
优
2.3.2掉线率(小区级)
无线掉线率反映了系统的业务通讯保持能力,也反映了系统的稳定性和可靠性。
本指标用于了解该小区内进行掉话的概率,部分反映了该小区范围内用户进行业务的感受度。
掉话是指由于异常原因被主动发起释放的情况;公式统计的是异常原因的掉话率,现在归为正常释放的原因值包括:
用户不活动、操作维护干预、过载控制导致的释放、重定向、等,其他情况归为异常。
2.3.2.1公式定义
掉线率=(切出失败的数请求释放的个数-正常的请求释放的数)/(遗留个数建立成功数+切换入数)*100%
2.3.2.2掉线率
2.3.2.3指标取值与质量等级
表24分组域业务掉线率与质量等级
序号
统计对象
统计粒度
取值范围
质量等级
1
级
24小时
大于4.0%
差
2
级
24小时
2.04.0%
良
3
级
24小时
小于2.0%
优
2.4移动性指标
2.4.1切换成功率
切换成功率是系统移动性管理性能的重要指标,切换过程不区分同频/异频。
2.4.1.1公式定义:
切换成功率=(间S1切换出成功次数+间X2切换出成功次数+内切换出成功次数)/(间S1切换出请求次数+间X2切换出请求次数+内切换出请求次数)*100%
2.4.1.2切换成功率
2.4.1.3指标取值与质量等级
表25业务切换成功率与质量等级
序号
统计对象
统计粒度
取值范围
质量等级
1
级
24小时
小于90%
差
2
级
24小时
9098%
良
3
级
24小时
大于98%
优
3指标监控流程
监控的目的:
第一时间发现影响业务及用户感受的网络异常事件并解决之;如:
某个站点掉话率超过了50%,我们就要第一时间发现它,并找出解决问题的办法。
鉴于问题发现的及时性及重要性,我们须有一套合理的监控机制及解决问题的流程。
同时,需要有合适的监控工具、分析工具来配合工作。
及时发现由于传输问题、资源拥塞、小区退服、干扰严重、硬件故障、参数配置错误等引起的业务掉话;
我们对监控大概分为四类:
1.日常的监控;
2.参数修改过程中的监控;
3.、版本升级过程中的参数修改;
4.用户割接过程中的监控。
日常监控是一项长期的工作,需要每天监控,形成例行的工作,并通过采用日报方式进行汇报,日报的内容主要包括最坏小区、最坏小区、连接成功率低的最坏小区、资源受限最坏小区等等;做到及时预警和解决问题。
3.1监控流程介绍
监控主要有四类监控内容,分别为:
日常监控、参数修改过程中的监控、版本升级过程中监控、用户割接过程的监控。
各项监控又有不同的监控内容,以及不同的输出形式;如日常监控用日报的形式来体现,其他用对比报告形式来体现;各类监控形式又根据处理的问题不同,提取的指标采用的统计时间粒度也不同,粒度的选择按照问题定位的需要来决定。
日常监控是一个长期工作,最终以日报的形式输出,并且将各类最坏小区汇总后,以邮件的形式发给相关人员进行处理。
3.2日常监控流程
图3-1日常监控流程图
3.3参数修改过程中监控流程
图3-2参数修改后监控流程图
3.4版本升级过程中的监控
图3-3版本升级监控流程图
3.5割接过程中的监控
在整网割接替换其他厂家的网络中,比如香港的网络,该网络是我们替换诺基亚的设备;当我们的网络优化好后,将现网的用户要逐步割接到我们网络,在每次割接过程中,用户会不断注册到我们的网络,在网络负荷增加的情况下,要密切关注指标的变化;该监控流程、监控内容、监控方法、以及报告输出与上一节版本升级过程中的监控是一样的,具体内容参考版本升级时监控一节内容。
4性能分析方法
4.1性能分析方法
不同的网络问题有不同的性能分析方法,在掌握现网运行情况和存在的问题后,选择合适的一种或多种分析方法,常用的性能分析方法有:
1.N最坏小区法:
按照所关注的话务统计指标(如掉话率、连接成功率、切换失败率等),根据需要取忙时平均值或全天平均值,找出最差的N个小区,作为故障分析和优化的重点,也可以据此排定优化工作的优先顺序。
2.时间趋势图法:
指标统计的趋势图是话务分析的常用方法,分析工程师可以按小时、天或周作出全网、或者单个小区的单个或多个指标的变化趋势图,从中发现话务统计指标的变化规律。
3.区域定位法:
网络性能指标的变化往往发生在部分区域,由于话务量增长、话务模型变化、无线环境改变、少数基站故障或上下行干扰造成了这些区域的指标变差,从而影响到全网的性能指标,可以对比变化前后的网络性能指标,在电子地图上标出网络性能变化最大的基站或扇区,围绕问题区域重点分析。
4.对比法:
一项话务统计指标往往受多方面因素的影响,某些方面改变,其他方面可能没有变化,可以适当选择比较对象,证实问题的存在,并分析问题产生的原因。
看指标时,不能只关注指标的绝对数值是高是低,关心的应该是指标的相对高低情况。
4.1.1N最坏小区分析法
在优化分析的整个过程中,N最坏小区分析法是最有效的一个手段,贯穿与整个优化阶段;主要是通过对N小区的关注,可以解决网络的主要问题;每天网络中都有可能发生一些异常的掉话事件,这些事件可能代表一类问题,解决了N最坏小区的问题就可以解决这一类的问题,所以我们从N小区着手是最好最直接的解决问题的办法之一。
最坏小区分析法适用与所有的指标优化分析,主要是根据一定的门限值选出N最坏小区,这个门限的定义根据指标的不同而不同;N是最坏小区的个数,当最坏小区比较多且没有精力去关注的时候,可以将N的个数适当的减少,只关注最差的小区。
N小区分析方法主要有下面几个步骤:
第一步:
按照关注指标的条件筛选出N小区;
第二步:
对N小区进行健康性检查,检查最坏小区的传输、单板问题,或者是不是由于某突发的外界事件造成,如恶劣天气、集会、节假日的高话务造成;
第三步:
检查小区无线参数配置、邻区、小区半径,与正常小区进行比较;
第四步:
导出与所关注指标关联最紧密的指标进行分析,从侧面来发现问题所在;
例:
某网络出现全网的切换成功率变差的情况,现在对切换成功率采用N分析方法分析问题;
详细操作可以参考如下案例:
第一步:
按照关注指标的条件筛选出N小区;
我们用分析功能筛选出N小区(也可以用其他的工具选出,导出到排序),这里我们取切换失败次数高的个最坏小区;
表41N最坏小区列表
开始时间
结束时间
名称
切换成功率分子
切换成功率分母
切换失败次数
20一三-12-3000:
00:
00
20一三-12-3100:
00:
00
0040_广州广州大桥南(40)
12264
24458
12194
20一三-12-2800:
00:
00
20一三-12-2900:
00:
00
0040_广州广州大桥南(40)
7403
16749
9346
20一三-12-2900:
00:
00
20一三-12-3000:
00:
00
0040_广州广州大桥南(40)
8967
17625
8658
20一三-12-3000:
00:
00
20一三-12-3100:
00:
00
1484_广州周门丽安大厦(1484)
2721
5263
2542
20一三-12-2900:
00:
00
20一三-12-3000:
00:
00
0301_广州碧海大厦(301)
4844
6938
2094
20一三-12-2800:
00:
00
20一三-12-2900:
00:
00
1484_广州周门丽安大厦(1484)
2424
3986
一五62
20一三-12-2800:
00:
00
20一三-12-2900:
00:
00
0301_广州碧海大厦(301)
4558
5726
1168
第二步:
检查N最坏小区的、传输、硬件问题,或者是不是由于某突发的外界事件造成,如恶劣天气、集会、节假日的高话务造成;
接下来对每个小区进行健康性检查,主要关注点在日常告警、单板问题等等,经过检查发现这些站点的切换目标侧都无告警,但这些站点都出现切换过程中在目标侧准备失败的问题。
第三步:
检查小区无线参数配置、邻区、小区半径,与正常小区进行比较;
1.小区状态问题:
经过核查,没有问题。
2.配置问题:
小区参数配置,没有问题。
3.到前台发现单板核2无法连接,怀疑单板故障。
现场更换单板后,问题解决。
4.2性能分析基本技能
掌握统计工具及分析工具的应用:
1.使用工具可以快速了解全网运行情况,快速的筛选出N最坏小区列表;
2.使用不同的分析工具可以多方位多维度的定位问题,迅速找到问题点;
掌握信令流程和基本原理:
●异常定位分析中能够有的放矢,根据流程和基本原理能够迅速查找其他的相关指标进行辅助分析。
●熟悉流程和原理,可以把异常的和网络问题(如覆盖问题、干扰问题等)有机关联,根据异常大致确定问题的性质,从而选择相应分析工具进行深入分析。
性能分析工作要求工程师掌握基本的信令流程,熟悉标准口的协议栈,了解产品实现有哪些相关算法;对于名目繁多的算法,工程师至少要从概念上有所了解,如果分析的商用网络中包含部分算法,则需要对这些算法进行深入的学习。
4.2.1监控常用工具
●网管工具31:
统计原始数据、告警数据、小区无线参数配置、地面参数配置;
●日报生成工具:
对重要指标按某种条件进行分类,筛选出最坏小区;
4.2.2分析用到的工具
●工具:
具有分析功能,可以按照各种条件筛选最坏小区,并且指出该指标对应的计数器;该工具的使用方法参考《1应用指导书》或者软件帮助;
●:
跟踪各接口信令;可以跟踪S12口以及口(和的层交互信令)的信令,查问题最常用的就是信令。
能够进行信令跟踪,这是对外场优化及网优及维护人员的基本要求。
该信令跟踪工具非常强大,用于分析的主要是按照小区()和按照(或)进行跟踪。
前者可以跟踪多个用户的信令,后者只跟踪一个用户的信令,但如果链接过程没有完成,则无法跟踪,主要是因为只有在链接过程完成后才能够从得到该用户的。
该工具的使用方法参考《(12.一三)网管网优常用工具及操作指导书1.3》;
●关联日志:
关联日志的应用场景一般是:
出现异常且没有跟踪到信令,可以通过关联日志进行异常时间上下文信令分析来定位。
异常可以按照(或)和小区来进行查询。
关联日志的另一个应用是可以对各种异常进行汇总统计;
●:
本地操作维护的工具,除具备的全部操作功能外,还可以提供更详细的小区,等信息采集。
的本地维护()系列工具包括
●异常探针:
在商用局外场,异常探针分析是监控基站运行状况的有效手段,各模块在发现异常后会自动记录相关信息,便于定位问题。
但此方法需要较专业的背景知识,即需要了解各单板及模块的功能和接口;现场人员如果不能做简单的分析,只要获取异常探针发给后方研发人员就可以。
上报的异常探针,存储在各自服务器上。
异常探针分析,需要分别从不同的服务器下载异常探针文件,再使用异常探针工具进行分析汇总。
●工具:
是端对端工具,可以按照进行深度信令跟踪,尤其可以跨边界进行跟踪,这样就非常适合对用户的跟踪;如果采用进行跟踪,则需要多个进行跟踪,比较麻烦。
可以跟踪内部网元之间的交互信令,可以跟踪S1口及口的信令,这就是所谓的深度跟踪。
其基本原理就是在上建立任务,将该任务送到前台,前台再通过和个模块及约定好的接口送给各个模块,各模块收集到这个相关信令后通过前台汇总到上。
上述的接口属于私有接口,所以,这个工具只能支持我们自己的和(其他厂商的核心网需要进行对接)。
信令可以采用离线工具进行查看分析。
该工具的使用可参考《信令跟踪工具使用指导手册》
●:
指标的分析过程中,测试也是非常重要的辅助手段;很多问题,从网络侧的一些信令跟踪及常常无法定位问题,只有结合才能最终分析定位。
我们常用的路测软件有(),等。
都是网优常用路测软件,的使用方法详见相应的帮助文档及网优工具部对外发布的说明文档。
其中高通提供的及解析工具(),功能非常强大,多年以来,为我们系统的稳定成熟及提高做出了重大贡献。
4.3优化分析过程
分析思路:
优化过程就是一个发现问题并解决问题的过程;运维阶段的优化主要是从后台网管提取所关注的性能数据,对性能数据分类汇总,将汇总的值与局方的要求值进行比较,如果某个指标比局方要求的值低,那么就要对该指标进行重点的分析,找到影响该指标的因素并提出解决方案,最后输出报告给局方;如果指标比局方要求的高则不需要特别关注。
指标分析过程是一个从宏观到微观,从全局到局部的一个过程;
1.第一步,从全网的角度来看重点指标的情况,如果没有什么问题则不用做何处理,否则要定位发生问题的网元;
2.第二步,对相应指标数据进行分析,找出指标有问题的;
3.第三步,对问题下面的小区级指标进行分析,找出最坏小区或N小区,如果该所有小区的指标普遍较低,这种共性的现象可能是由于参数设置造成,核查一下该下小区与正常下小区的无线参数配置是否一致;
4.第四步,综合最坏小区的数据、告警数据、测试数据、用户投诉情况四类数据综合分析,提出解决方案。
-问题排除法:
从网管的告警数据中可以直接检查该,板、传输的运行情况,如果问题存在明显的传输断链、硬件设备等,可以很快定位问题原因;
-突发事件关联:
对大量站点出现的问题就需要考虑是否是由于突发事件造成;比如大型集会、恶劣天气、误操作等都会对网络指标造成影响,根据各自的程度深浅,影响的范围也有所区别;
-无线参数比较法:
如果出现某些站点突然出现故障,还可以检查该小区无线参数的配置,与其它正常小区的无线参数配置是否一致,如果不一致则改为一致,因为该小区可能是由于无线参数被误改而造成指标下降;
-指标关联法:
如果某指标较差,一定要看一下与之相关联的指标情况,往往从这些关联的指中能发现共同的问题;
-综合定位法:
排除了以上几个原因后,运用数据、数据、信令分析等数据,综合分析指标问题,可以定位出小区的指标问题。
图4-1优化分析流程图
5优化分析专题
本章主要介绍如何从网管数据来分析指标问题,以及如何结合计数器来优化的思路,每个专题详细的分析方法及案例见各专题优化指导书。
5.1建立成功率
本章主要从网管的角度来分析问题,通过参数的调整达到优化的目的。
5.1.1建立成功率的定义
从空口信令上看,建立过程如下:
图5-1接入流程
、
本流程图表述了连接建立过程。
包含了连接建立成功,连接建立被拒绝和连接建立失败过程。
●采样点1:
接收到的连接建立请求消息,进行采样统计。
●采样点2:
发送连接建立消息,进行采样统计。
●采样点3:
接收到建立完成消息,进行采样统计。
●采样点4:
发送连接拒绝消息,进行采样统计。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 KPI 指标 优化 指导书