51学通信技术论坛

标题: 端到端问题处理实例分析 [打印本页]

作者: admin    时间: 2013-6-11 19:36:29     标题: 端到端问题处理实例分析

本文摘自《移动通信》2013年3期。作者:张峰 孔祥文

【摘 要】移动通话的建立和保持涉及终端、无线设备、核心设备等各环节,经常有“牵一发而动全身”的效果。通过对一个现网故障的全流程分析,说明任何一个环节的情况都可能成为问题出现的诱发因素,进而阐述问题关联分析的重要性。
  【关键词】端到端 大本地网 位置更新
  1 问题概述
  1.1 问题现象
  A市一重点客户于10月中旬出现较为密集的投诉,现象为:可正常做主叫,但做被叫时听“用户已关机或不在服务区”的语音提示。
  维护人员在收到用户投诉后,即刻查询MSC、HLR数据情况,发现规律如下:A市MSC1显示用户在A市MGW1的2G小区下,与用户当时所在位置相符;HLR中该用户所在VLR号码为8615644540或8613254172(该GT码为B市MSC1或B市MSC3),且B市MSC1或MSC3也存在用户数据,但其状态则为DETACH。
  1.2 终端信息
  收集出现问题的用户信息,发现均为A市本地卡,且HLR中此类卡权限均为可接入2G无线网络,无权接入3G无线网络。
  投诉用户所持终端类型不同,但均为可支持2G/3G频段的智能终端,且设置为自由选网模式。
  1.3 网络信息
  A市软交换为中兴设备,含1台MSC、2台MGW(每个MGW各为1个虚拟的VLR),其中发生密集投诉的区域为该客户厂区,处于A市境内接近B市边界。
  该客户厂区及周围共有A市WCDMA宏站5个、室分2个,GSM宏站2个、室分2个,其中W室分基站归属MGW2,其余均归属MGW1。
  2 中兴软交换设备大本地网特性设置及
  其存在的问题
  2.1 中兴软交换设备大本地网特性
  在大本地网组网下,一个物理MSC由多个虚拟MSC组成,假设为虚拟MSCA和虚拟MSCB,当用户从虚拟MSCA到虚拟MSCB时,VLR需要发起到HLR的位置更新。HLR将向前一个VLR发送Cancel Location消息,并向后一个VLR发送insert消息。而虚拟MSCA和MSCB对应同一个物理MSC,如果收到Cancel Location消息立刻删除用户数据,就可能导致位置更新失败。鉴于上述原因,中兴MSC设置一个数据标志位以作为收到Cancel Location消息时是否删除用户数据的判断依据。即MSC在向HLR发送位置更新请求时,同时将“不删除用户数据标志位”置“1”,并启动10秒计时,在10秒内收到Cancel Location消息时,则仅将此标志位置为“0”,但并不执行删除操作。
  2.2 引发的问题
  在无线环境较为复杂的地方,特别是边界区域,终端容易发生频繁位置更新,在中兴大本地网特性设置方式、尤其是10秒钟的保护时间可能带来数据不能及时删除的情况,下面将对此特定场景的处理做详细说明。
  3 问题分析处理
  以A市用户15589195089(IMSI:460013405426485)为例进行问题复现及相关分析,该用户于11月3日14:00投诉,终端型号为NOAGO N6602,以下即为依据信令监测系统的分析过程:
  3.1 用户做主叫的
  情况
  调取该用户10月31日06:00至11月5日07:00做主叫时的呼叫记录,可以发现在此期间,用户做主叫时呼叫接续正常,具体情况如图1所示。
  3.2 用户做被叫的
  情况
  自信令监测系统调取该用户10月31日06:00至11月5日07:00做被叫时的呼叫记录,结果异常出现在11月3日12:44:24~14:08:38的过程中,共计13次做被叫的过程,结果均为“保留”。
  以12:44:24第一次被叫失败流程为例,可发现问题出在A市MSC1向其HLR请求漫游号码时,HLR发送PRN_REQ至B市MSC3,回应消息PRN_RSP中,返回错误原因为:缺省的用户——IMSI分离。
  可得出结论:12:44:24于A市HLR内该用户数据中的VLR位置信息为B市MSC3,且MSC3中该用户处于DETACH状态,该状态一般为“用户自行关机”或“VLR在超出周期性位置更新时间未收到用户任何信息”的情况下出现。
  3.3 用户做位置更新的情况
  调取该用户10月31日06:00至11月5日07:00位置更新事件记录,可以发现在第一次被叫异常(11月3日12:44:24)前,离此最近的一次正常位置更新出现于当日08:43左右,且在08:22:26~08:43:54连续出现六次正常位置更新,此后即于A市MGW1下做周期性位置更新,如图2所示。
  (1)第一阶段流程
  11月3日08:22:26、08:23:37用户于A市MSS1下两次发起位置更新,其中Location Updating Request消息中,源LAC、目的LAC均为A市MGW1下的5994,该位置更新属于局内位置更新,消息并未上报至A市HLR。
  结论:此两次流程均为源LAC、目的LAC相同的情况下发起的一般性位置更新,而A市MSC1均未向A市HLR发起更新,可说明在此前A市MSC1中有该用户数据;此二次更新后,HLR中该用户数据维持原状。
  (2)第二阶段流程
  11月3日08:43:26于A市MSC1发起一次位置更新,消息中用户目的VLR号码为8615644532,为A市MSC1下的VLR2地址(对应A市MGW2),且可发现HLR向A市MSC插入用户数据消息,但无CANCEL消息,原因应为A市HLR原有用户数据中对应VLR与收到的位置更新请求消息中所带的VLR相同,HLR不下发删除消息。证明11月3日08:22:26之前A市HLR中有此用户数据,且存储的用户所在VLR地址为A市MGW2(即VLR2),而离08:22:26之前最近的一次周期性位置更新于07:36:37执行,当时用户位置在A市MSC1的MGW1下。

结论:此前一段时间网络侧记录用户位置与用户实际所处位置并不相符。
  (3)第三阶段流程
  向前查找该用户位置更新记录,在故障发生前十天(即10月23日08:30)用户于A市MGW2的3G覆盖下发起正常位置更新,此后全为周期性位置更新事件。
  10月23日08:30用户曾在A市虚拟MSC2(即MGW2)的3G覆盖下发起了位置更新,因用户不具备登录3G网络权限,此事件由A市MSC1在Iu侧给予拒绝(拒绝原因值为15),但网络侧会正常更新位置信息。因此位置更新结束后,HLR记录用户在A市MGW2下,而实际上用户于A市MGW1成功驻留,此后的周期性位置更新事件均被认为局内,不会更新至HLR。
  结论:10月23日08:30后网络侧记录用户位置信息为:A市MSC1侧记录用户处于MGW1下,HLR记录用户处于MGW2下;而此时用户实际驻留A市MGW1。
  (4)第四阶段流程
  1)11月3日08:43:31用户在B市MSC1发起一次位置更新,可看到A市HLR向B市MSC1下发插入用户数据、向A市MSC1下发删除用户数据的指令,但未看到响应消息,如图3所示。
  2)11月3日08:43:36用户在B市MSC3发起一次位置更新,可看到A市HLR向B市MSC3下发插入用户数据、向B市MSC1下发删除用户数据的指令,删除响应正常返回。
  3)08:43:54用户于A市MSC1下发起一次位置更新,源LAC、目的LAC均为A市MGW1下的5994,A市MSC1未通知A市HLR。
  本次位置更新流程表明A市MSC1原存储有该用户数据。但从08:43:31的更新流程中可明显看出,当时A市HLR向A市MSC1已下发删除用户数据指令,此时可证明当时A市MSC1未回送响应消息代表用户数据确未删除。
  那为什么A市MSC1在收到删除消息,而不去执行此命令呢?回溯流程可发现,08:43:26用户于A市MGW2下发起位置更新请求,此时A市MSC1将启动大本地网特性,标志位置1,并启动10秒计时;08:43:31时,用户于B市MSC1下发起位置更新,A市HLR向A市MSC1下发的数据删除指令于08:43:32抵达,尚处于10秒保护时间内,删除数据不被执行,仅将标志位清零,所以A市MSC1仍保留用户数据,并最终在用户重回A市MGW1下时,位置更新因属局内更新而不会与HLR交互,最终出现B市MSC3、A市MSC1均有用户数据和A市HLR显示用户在B市MSC3下的情况,从而产生用户做被叫时不能接通的故障。
  4 故障时用户所听录音通知情况分析
  4.1 第一阶段
  当用户信息在B市MSC未超过周期性位置更新时间+保护时间内,此时用户做被叫时会被送至B市MSC下,正常寻呼后失败,用户听到“您拨打的用户无法接通”的提示。
  4.2 第二阶段
  当用户信息在B市MSC下超过周期性位置更新时间+保护时间后,B市MSC将该用户置为DETACH状态,此时用户做被叫时会被送至B市MSC下,但不再下发寻呼,用户听到“您拨打的用户已关机”的提示。
  4.3 第三阶段
  当用户信息在B市MSC下被置为DETACH的时间超过24小时后,B市MSC会删除用户消息,同时HLR中VLR的GT清空,用户做被叫时,呼叫仅送至HLR,用户听到“您拨打的用户已关机”的提示。
  5 用户终端类型的影响
  本次问题出现与用户所使用的终端类型亦有关系,上述流程中用户终端始终存储有A市MGW1下的LAC号码位置信息。而在3GPP所发布的规范中,针对无权限用户登录3G网络时、Iu口所回失败原因为15:No Suitable Cells In Location Area的情况,3GPP版本不同,终端采取的处理机制亦有不同。
  根据分析,本次故障所使用的终端应遵循的是2010年版本规范,最后驻留的LAC在位置更新成功前一直保留;而若该终端遵循的是2001版本规范,则在第二阶段流程时,用户终端所存LAC即被清空,即FFFF,在随后位置更新时因源LAC、目的LAC不同,更新消息会被发送至HLR,并更新其VLR地址,则本次问题也不会出现。
  6 故障发生概要流程
  根据上述分析,在现有中兴大本地网组网、存在多束无线信号的边界区域,若有表1所示的六个过程(以上例说明),问题即可复现。
  结论:
  可汇总分析此问题产生的要素有:(1)核心网软交换设备的大本地网特性,本地有2个或以上的虚拟VLR;(2)用户活动区域有本地网内2个或以上虚拟VLR的无线信号(含3G信号)覆盖,且同时又有另一软交换设备覆盖下的无线信号(含3G信号)覆盖;(3)用户所持卡未开通接入3G权限,但终端可支持2G/3G频段,且采用3GPP 2010年版本,设置为自由选网模式。
  7 问题处理结论
  7.1 临时处理方式
  于A市MSC1中删除此用户数据,随后要求用户开关机一次,该用户问题即可解决。
  原理:上述操作即为清空MSC数据,开关机则使用户发起位置更新,迫使MSC将此更新信息发送至A市HLR,HLR调整其用户归属VLR为A市MSC1。
  7.2 最终处理方式
  (1)无线侧
  1)B市下压其3G基站天线下倾角,使B市3G信号不对该客户厂区形成覆盖;
  2)A市调整其MGW2下的3G基站归属至MGW1。
  上述无线网络侧调整工作结束后,用户投诉再未出现,问题得到阶段性解决。
  (2)核心网侧
  重新评估中兴大本地网组网特性,建议不设置虚拟VLR,理论层面探讨后再做实际网络调整。
  8 结束语
  现网问题处理时会涉及终端、无线网、核心网等多方面因素,任何一个环节的情况都可能成为问题出现的诱发因素。应以尽快平息用户投诉为首要考虑因素,此后还要做彻底的解决方案,以祛除问题产生的各方面诱因。
  参考文献:
  [1] 姜波. WCDMA关键技术详解[M]. 北京: 人民邮电出版社, 2008.
  [2] 3GPP TS 24.008 V9.6.0. Location updating procedure[S]. 2011.






欢迎光临 51学通信技术论坛 (http://51xuetongxin.com/bbs/) Powered by Discuz! X2