第2章 无线网络KPI与QoE
2.1 无线网络KPI
无线网络KPI是评估网络质量的重要手段。网络设备中设定了大量由信令触发的计数器,记录着整个网络的全部事件。这些计数器有CC(Cumulative Counter)、SI(Status Inspection)等多种类型。与KPI报表相关的计数器,大部分是CC类型的,也就是累加计数器。以RRC连接的建立过程为例,RNC每收到一次RRC Connection Request,RRC连接建立请求次数就会被加1(例如,从32000次增加到32001次),为了能计算RRC连接建立成功率,还需要另外一个CC类型的计数器来记录RRC连接建立成功次数,RNC每收到一次RRC Connection Setup Complete,RRC连接建立成功次数就会被加1(例如,从31828次增加到31829次)……
对网络优化工程师而言,了解KPI体系是基本功,具体来说,包括以下内容:
(1)了解KPI统计公式及其统计意义。
(2)了解各KPI统计公式的信令触发点。
(3)了解与这些信令触发点相关联的信令流程和网络优化参数。看到某项KPI偏低,能够立刻想到与之相关的信令触发点,这些信令由哪些物理信道承载,这些信道在发送这些信令的时候采用开环还是闭环功控,与哪些参数有关,等等。
考虑到如果不同厂家对KPI统计公式的计算方法、信令触发点有所差异,会对网络指标的横向评估带来不便,因此中国移动在TD-SCDMA实验网建设初期,组织各设备商就无线网络KPI的统计体系进行了统一,并制定了相关的企业标准。下面根据相关企业标准中的分类方法,分别介绍呼叫建立特性、呼叫保持特性、移动性管理特性、系统资源等指标。
2.1.1 呼叫建立特性
呼叫建立特性包括:RRC建立成功率、RAB建立成功率、无线接通率。从时间流程上看,首先通过RRC连接建立,UE和网络侧建立一条交互的通道,鉴权和加密完成身份识别后进行承载分配,也就是RAB建立。RRC建立成功率和RAB建立成功率,就是对这两个过程的体现。而无线接通率就等于RRC建立成功率与RAB建立成功率的乘积。
1.RRC连接建立成功率
RRC连接建立可以分两种情况:一种是与业务相关的RRC连接建立;另一种是与业务无关(如位置更新、系统间小区重选、注册等)的RRC连接建立。前者对无线接通率有着很大的影响,后者可用于考察系统负荷。
RRC连接建立尝试次数按建立原因可以分为20种,其中和业务相关的原因有8种,分别为:主叫会话类业务、主叫流类业务、主叫交互类业务、主叫背景类业务、被叫会话类业务、被叫流类业务、被叫交互类业务、被叫背景类业务。需要注意的是,在RRC连接建立阶段,网络侧只能区分RRC建立原因(会话类、流类、交互类、背景类等),而无法区分RRC连接究竟是CS域还是PS域的。也就是说,原则上是无法统计“CS域RRC连接建立成功率”或“PS域RRC连接建立成功率”之类的指标的。一种折中的办法是:考虑到目前的CS域业务主要是会话业务,因此可以近似地将“会话类RRC连接建立成功率”等同于“CS域RRC连接建立成功率”。RRC连接建立成功率的统计公式为:
2.RAB建立成功率
RAB建立是由CN发起,UTRAN执行的功能。RAB是指用户平面的承载,用于UE和CN之间传送语音、数据及多媒体业务。UE首先要完成RRC连接建立,然后才能建立RAB,当RAB建立成功以后,一个基本的呼叫即建立,UE进入通话过程。
RAB建立成功率用RAB指派建立尝试次数和RAB指派建立成功响应次数的比表示,对应的信令触发点分别为:RAB建立请求(RAB Assignment Request)和RAB建立成功(RAB Assignment Response)。RAB建立成功率的统计公式如下:
3.无线接通率
TD-SCDMA系统的无线接通率计算公式如下:
无线接通率=RAB建立成功率×RRC连接建立成功率(业务相关)×100% (2.3)从式(2.3)可以看出,如果无线接通率偏低,要么是RRC建立成功率的问题,要么是RAB建立成功率的问题。一般来讲,CS业务的无线接通率问题,重点关注RRC建立成功率;而PS业务的无线接通率问题,重点关注RAB建立成功率。这主要是因为,CS业务,尤其是语音电话,需要的资源较少,因此在RAB建立阶段,只要空口没问题,一般不会出现资源分配失败;而PS业务对资源要求较高,在资源分配阶段出现问题的概率较大。
从统计方式上看,只要RAB建立成功,KPI报表上就能体现出无线接通。因此,如果Alerting或Connect阶段出了问题,虽然从用户侧来看,并没有接通,但KPI报表会统计为接通。从这个意义上说,由于统计公式本身无法避免的一些问题,无线接通率往往与真实的用户感知存在一定程度的差别。与之形成对比的是,路测软件统计的是端到端的接通率,一般要看到Connect Acknowledge之后才算接通。如果将同一区域KPI报表中的无线接通率与路测接通率做对比,会发现在大部分情况下,网管侧统计的无线接通率要略高于路测接通率。
2.1.2 呼叫保持特性
呼叫保持特性包括:电路域掉话率、分组域掉线率、话务掉话比、流量掉线比。其统计方式与路测软件也有明显区别。路测软件侧一般以如下条件来触发掉话/掉线统计:通话过程中,如果空口消息满足以下3个条件中的任何一个,则存在掉话:① 收到任何BCH消息(即系统信息块);② 收到RRC Release消息且释放原因为Not Normal;③ 收到CC Disconnect、CC Release Complete、CC Release三条消息中的任何一条,且释放原因为Not Normal Clearing或者Not Normal Unspecified。而网管侧的掉话率/掉线率统计则表示为
其中,“RNC请求释放的电路域RAB数目”与“RNC请求释放的分组域RAB数目”均以RNC发起的RAB Release Requst或Iu Release Requst触发,如图2.1所示。
图2.1 掉话/掉线的信令触发点
这里需要强调的是,掉话与正常释放之间的区别。正常的业务释放一般是由用户挂机,UE通过上行直传告知CN需要结束业务、释放资源、停止计费等。然后CN向RNC发起释放。而异常的业务释放,也就是掉话,一般是由于空口失步导致RNC侧某个定时器超时,RNC不可能无限制地为该链路保持资源等待下去。因此,超时之后,RNC会认为链路已经无法恢复,于是向CN发起RAB Release Request或Iu Release Request,触发掉线。也就是说,正常释放与异常掉话的主要区别在于其释放过程,前者由CN向RNC发起,而后者由RNC向CN发起。
尽管CS域掉话率与PS域掉线率的统计公式和信令触发点完全一样,但总体来说,PS域掉线率要高于CS域掉话率,其原因主要体现在以下几个方面。
(1)统计公式的原因。CS域掉话率与PS域掉线率统计公式相同,CS业务一般平均通话时长较短,RAB指派建立成功次数更多,分母更大;而PS业务在线时长一般较长,RAB建立次数相对较少,因此统计公式分母较小,在掉话次数与掉线次数相差不大的情况下,掉线率的分母更小,数值也相对偏大。
(2)用户行为的原因。用户突然拔出数据卡导致数据卡掉电,或者未正常释放,NodeB侧会检测到上行失步,向RNC上报Radio Link Failure,当Radio Link Failure积累到一定次数,RNC会向CN发起释放,导致掉线统计。
(3)终端侧的原因。例如signaling Connection Release Indication引起的掉线。协议中引入signaling Connection Release Indication的最初目的,是为了防止终端异常而网络侧检测不到,导致网络侧无法释放资源的问题,因此signaling Connection Release Indication触发Iu Release Request,本意是统计终端故障引起的掉线。而有的终端制造商为了降低产品耗电,设定在没有PS流量30 s后,会主动发送“signaling Connection Release Indication”(如图2.2所示),这就属于对信令的不规范使用。此过程是UE在用户不使用业务时主动发起的,不会影响用户主观感受,还可以主动释放空口资源,节省终端电源。为能更客观地反应网络的无线掉线率,后期各设备商的RNC侧在统计掉线率时,一般将Singnalling Connection Release Indication引起的Iu Release Requst排除在外。此外,对很多终端而言,当上/下行均没有业务流量时,终端和系统会分别上报测量值为0的4B测量报告,RNC对测量报告进行计数,当两个方向连续收到的测量值为0的4B测量报告个数达到进入Idle状态门限后,RNC会主动发起Iu Release Request,释放原因为用户去激活(User Inactivity),UE进入Idle状态。网络侧释放Iu连接和RAB资源后,当用户侧再次发起业务请求时,UE会自动进行RRC连接,直接进行RAB重建,无须进行PDP激活,整个过程不影响用户感受。对于此种原因触发的Iu Release Requst,也不应算做异常掉线。
图2.2 signalling Connection Release Indication引起的Iu Release Request
除了上述掉话率、掉线率之外,话务掉话比、流量掉线比也是衡量呼叫保持特性的常用指标
话务掉话比=话务量/掉话次数
流量掉线比=流量/掉线次数
为了体现这两个指标的意义,举例说明:如果某城市的PS域掉线率在一年时间内一直保持不变,未有改善,这未必就说明网络优化没有效果。因为在这段时间内,如果PS流量增长了3倍,而掉线率能保持不变,这本身就是一种进步和成绩,也就是说,尽管掉线率没有改善,但流量掉线比一直在增加。
对呼叫保持特性的理解应该将KPI统计公式与相关的定时器、计数器结合起来,因为大部分的掉话都可以理解为某个定时器超时。
2.1.3 移动性管理
从切换类型来分,移动性管理指标包括:RNC内硬切换成功率(又可以进一步细分为同频硬切换成功率、异频硬切换成功率)、RNC内接力切换成功率(又可以进一步细分为同频接力切换成功率、异频接力切换成功率)、RNC间重定位成功率等。
从统计的区域粒度来分,移动性管理指标可按照RNC级(RNC Function)、小区级(UTRAN Cell)、邻区级(UTRAN Relation、GSM Relation)来统计。RNC级报表可以用来评估整个RNC下的切换成功率;如果要进一步查找切换成功率低的小区,就需要小区级报表;而如果某个小区切换成功率低,需要查找究竟是哪对邻区关系之间的切换出了问题,就需要邻区级的切换报表了。
1.RNC内切换的成功率
RNC内切换的成功率以能够触发切换的Measurement Report作为切换请求次数的统计触发点,以RNC收到的Physical Channel Reconfiguration作为切换成功次数的统计触发点。如图2.3所示。计算公式如下:
图2.3 RNC内切换的信令触发点
以最常见的物理信道重配置为例,RNC内切换切出成功次数由RNC收到UE发送的Physical Channel Reconfiguration Complete消息来触发;RNC内切换切出尝试次数由RNC向UE发送Physical Channel Reconfiguration消息来触发。
需要注意的是,能够触发切换的信令并不仅仅局限于Physical Channel Reconfiguration,还包括Radio Bearer Reconfiguration、Transport Channel Reconfiguration等,在此不再赘述。
2.RNC间重定位的成功率
对于TD-SCDMA系统,可以根据无线资源管理的策略决定是否执行RNC间的重定位。RNC间重定位分为两个阶段:准备阶段和执行阶段。因此对RNC间重定位的评估,也是分为准备阶段和执行阶段两个部分来考核的,如图2.4所示。
在RNC间重定位的准备阶段,主要是源RNC(Source RNC)和目的RNC(Target RNC)之间进行交互,源RNC进行重定位触发判决,目的RNC进行准入判决和相应的资源分配。
在RNC间重定位执行阶段,主要是在RNC和UE之间进行交互,将分配好的空口资源及相应参数通过空口消息通知UE。
其中,
“RNC间重定位出准备成功次数”的触发条件为: 源RNC收到CN发送的 “重定位命令”消息(Relocation Command),其中重定位类型的值为“UE involved in relocation of SRNS”。
“RNC间重定位出准备尝试次数”的触发条件为: 源RNC向CN发送的 “重定位请求” 消息(Relocation Required),指示RNC重定位出准备请求。
图2.4 RNC间重定位的信令触发点
其中,
“RNC间重定位出执行成功次数”的触发条件为:源RNC收到CN发送的“Iu链接释放”消息(Iu Release Command),且原因值为“relocation succ”。
“RNC间重定位出执行尝试次数”的触发条件为: 源RNC收到CN发送的 “重定位命令”消息(Relocation Command),其中重定位类型的值为“UE involved in relocation of SRNS”。
其中,
“RNC间重定位入准备成功次数”的触发条件为: 目的RNC向CN发送 “重定位请求响应” 消息(Relocation Request Acknowledge),指示重定位入RNC准备成功。
“RNC间重定位入准备尝试次数”的触发条件为: 目的RNC接收到CN发送的 “重定位请求”消息(Relocation Request),指示重定位入RNC请求。
其中,
“RNC间重定位入执行成功次数”的触发条件为: 目的RNC向CN发送 “重定位完成” 消息(Relocation Complete)。
“RNC间重定位入执行尝试次数”的触发条件为: 目的RNC向CN发送 “重定位请求响应” 消息(Relocation Request Acknowledge)。
3.系统间切换成功率
目前对于系统间切换成功率的统计,主要是考察CS域语音电话和PS业务的切换成功率。其中对于CS域语音电话切换成功率,又分为切换准备和切换执行两个阶段。一个典型的CS域语音电话切换流程,如图2.5所示。
图2.5 CS域系统间切换的信令触发点
1)系统间CS域切换准备成功率
系统间CS域切换准备成功率(TD-SCDMA→GSM)=
其中,
“系统间CS域切换准备成功次数(TD-SCDMA→GSM)”的触发条件为:RNC收到电路域核心网发送的“重定位命令”消息(Relocation Command),指示电路域系统间切换准备成功,每个原因对应一个子测量项。
“系统间CS域切换准备尝试次数(TD-SCDMA→GSM)”的触发条件为:RNC向电路域核心网发送的“重定位准备”消息(Relocation Required),指示电路域系统间切换准备尝试,每个原因对应一个子测量项。
2)系统间CS域切换执行成功率
系统间CS域切换执行成功率(TD-SCDMA→GSM)=
其中,
“系统间CS域切换执行成功次数(TD-SCDMA→GSM)”的触发条件为:RNC收到电路域CN发送的“Iu链接释放命令”消息(Iu Release Command),且原因值为“Successful Relocation”指示电路域系统间切换出成功。
“系统间CS域切换执行尝试次数(TD-SCDMA→GSM)”的触发条件为:RNC向UE发送“从UTRAN切换出命令”消息(Handover From UTRAN Command),指示电路域系统间切换出请求。
系统间PS域切换既可以由UE发起,也可以由网络侧发起。网络侧发起的PS域切出涉及Uu口PS域切出过程和Iu口上、下文信息获取过程,其中Uu口PS域切出过程对应消息Cell Change Order From UTRAN。UE发起的PS域切出,由UE小区重选过程触发,在Uu口没有对应消息,只在Iu口有上、下文信息获取过程。一个典型的PS域系统间切换流程,如图2.6所示。
图2.6 PS域系统间切换的信令触发点
系统间PS域切换成功率(TD-SCDMA→GPRS,UTRAN发起)=
其中,
“系统间PS域切换成功次数(TD-SCDMA→GPRS,UTRAN发起)”的触发条件为:RNC接收到分组域CN发送的“Iu链接释放命令”(Iu Release Command)消息,且原因值为“Successful Relocation”,指示UTRAN控制的分组域系统间切换出RNC成功。
“系统间PS域切换尝试次数(TD-SCDMA→GPRS,UTRAN发起)”的触发条件为:RNC向UE发送RRC消息Cell Change Order From UTRAN,指示UTRAN控制的分组域系统间切换出请求。
2.1.4 系统资源
与系统资源相关的KPI指标包括:话务量、流量、码资源利用率等指标。其中,话务量是CS域特有的指标,包括语音电话话务量和视频电话话务量。流量是PS域特有的指标,而码资源利用率则是衡量网络负荷的重要指标,网络优化人员需要定期查看和对比码资源利用率,以决定网络是否存在过载的风险。
对运营商来讲,无限制地追求网络覆盖与容量并不是一个现实的选择。运营商也要保护投资人利益,因此需要在保证网络质量的前提下,尽可能对投入产出比进行优化。
如果仅从码资源利用率来看,全国的码资源利用率都不是很高,远未达到需要扩容的临界值。但HSDPA业务有其特殊性,承载用户数据的HS-PDSCH信道为共享信道,调制方式与传输格式处于动态变化中,同时还受限于伴随信道、用户平均速率等多重因素。在此前提下,不宜继续以码资源利用率作为唯一的评估标准,而是需要根据HSDPA业务的特点,结合用户体验和业务模型等多种因素重新定义一套更加全面、合理的系统指标,科学地评估HSDPA网络的无线资源利用率,为扩容和优化提供参考。例如,忙时HSDPA平均接入用户数、忙时HSDPA业务码道承载能力等。忙时HSDPA平均接入用户数是指在系统忙时平均在线的HSDPA用户数,单位为“个”。由于系统速率与码资源的不确定性,需考虑单位码资源的数据承载能力作为HSDPA网络性能的评价,其单位为kbps/BRU。
2.1.5 KPI体系的局限性
任何一种网络的KPI体系都不是完美的,存在很多无法避免的局限性,主要体现在:
(1)KPI统计体系依赖于信令触发。某用户按下了拨打键,发出RRC Connection Request,如果上行链路较差,RNC侧未能收到该信令,无法触发RRC建立请求次数统计,那么KPI报表上便无法体现此次接入失败。再比如,切换掉话的例子:某用户在A小区发起呼叫,RAB指派建立成功,然后成功切换到B小区,在B小区通话一段时间后,由于某种原因(如覆盖差、干扰等问题),连续发生无线链路失步,超时后RNC向CN发起RAB Release Request,产生掉话。那么B小区由RAB Release Request引起的掉话次数为1,但如果B小区在该时段内并没有人发起呼叫,RAB Assignment Success的次数为0,那么统计B小区的无线掉话率就会出现1/0的情况,分母为0,没有数学意义。同理,如果由于切换后掉话导致在B小区释放的RAB数目多于在B小区建立成功的RAB数目,那么会计算得出B小区的无线掉话率大于100%的情况。
(2)KPI无法体现客户感知。传统的网络优化手段可以有效提升网络KPI指标,但是用户感知并不等同于网络KPI,优秀的网络KPI只是提升用户感知的必要条件而非充分条件。要切实提升用户感知,必须在全面提升网络KPI的基础上,建立并完善应用层用户感知控制机制。
从另一方面看,对于KPI统计体系的不完美,也并不能做出过多苛求。事实上,在每个新系统部署之前,同行业的设备商一般都会在运营商的组织下,在3GPP规范的框架内,就无线网络KPI的统计标准进行广泛的讨论,各厂家和运营商根据自己的技术观点和实验网经验,对各个KPI统计公式的不足也都有充分的认识和预知,对于存在缺陷和不足的统计公式,也都会给出新的建议。但事实上针对每种新的统计方式,总会找出缺陷和不足,这是无法避免的。因此,经过反复的折中和权衡,现有的KPI体系仍然是相对较好的体系,仍然是网络优化评估的重要手段,其不足之处的根源主要在于:KPI体现的是统计意义,因此不可能面面俱到,考虑到所有特殊的个例。而目前网络运营商之间的竞争越来越激烈,用户的要求也越来越高,这就要求对网络性能的任何不足都要能及时有效地发现和评估,仅靠KPI体系就显得捉襟见肘,所以,网络优化评估手段的一个变化趋势是,在KPI体系的基础上,将路测、MR分析等多种手段相结合,同时在评估标准的基础上有所创新,更贴近用户感知。