上海用服部 ZXG10BSS 份工程经验汇总.docx
- 文档编号:27538589
- 上传时间:2023-07-02
- 格式:DOCX
- 页数:49
- 大小:65.21KB
上海用服部 ZXG10BSS 份工程经验汇总.docx
《上海用服部 ZXG10BSS 份工程经验汇总.docx》由会员分享,可在线阅读,更多相关《上海用服部 ZXG10BSS 份工程经验汇总.docx(49页珍藏版)》请在冰豆网上搜索。
上海用服部ZXG10BSS份工程经验汇总
移动事业部用服部GSM4月份工程经验汇总
中兴通讯移动事业部用服部
1GSM产品工程经验汇总
1.1GSM工程支持一科
1.1.1GSM工程支持一科4月经验汇总
1.1.1.1BRP单板与MP间UDP以太网通讯断告警
【作者姓名】:
施杨
【现象描述】:
某局系统运行中,所有BRP单板都上报与中心模块、外围模块MP间UDP以太网通讯断告警,在动态数据管理中观察到GPRS信道的上下行信道状态是“BRP-Pn通讯故障闭塞”。
采用复位倒换MP、后台复位BRP板操作未能解决故障。
前台拔插BRP板后,与外围模块MP间UDP以太网通讯断告警消失,BRP单板只上报中心模块MP之间UDP以太网通讯断告警,此时GPRS信道的上下行信道状态正常,业务恢复正常。
【解决方案】:
BRP和中心模块没有信令交互,它们间的通讯断告警,不会影响GPRS业务。
为排查BRP单板与中心模块MP间UDP以太网通讯断问题,用一个普通HUB代替HMS板,将网线都连接到HUB上,告警消失。
这说明HMS板存在问题,可以拔插板子,或者换个HMS的网线端口试试。
总结:
HMS是个问题比较多的板子,排查时用个HUB代替它,如果依然是通讯断则连上笔记本电脑PINGMP或BRP,判断是哪段出现问题。
注意要PC要设置同网段地址,MP的IP地址在bsccfg.ini中能查到,BRP的IP地址是138.14.munit.unit,具体munit和unit号可以在告警管理中选中某个BRP单板,右键查看单板状态获得。
1.1.1.2小区无话务告警的统计周期设置方法
【作者姓名】:
施杨
【现象描述】:
小区无话务告警的统计周期是可以设置的,如果认为15分钟统计周期太小,可以设置更大一些。
目前系统缺省设置为30分钟无话务才报告警。
【解决方案】:
具体设置方法如下:
修改服务器配置文件fmcfg.ini,[OMCRQOS]小节,Grain1=2,为15分钟的倍数,2为30分钟,4为1小时。
1.1.1.3OMCR增加定期自动同步前后台状态的方法
【作者姓名】:
施杨
【现象描述】:
在$OMCHOME/conf/croncfg.ini中增加自动同步任务。
举例:
假设某OMCR下挂三个BSC,每个BSC两个模块,每天早上3:
16开始依次执行对三个BSC的esoy命令。
【解决方案】:
步骤:
1.首先修改$OMCHOME/conf/croncfg.ini,添加如下内容(表示每天早上3:
16开始,每两分钟执行某bsc某module的esoy命令,同步其前后台状态)
0163-1-1-11608CDF
@00a60400ESOYESYY0016003c000f001900000000000004190000000000005c20:
EBSCID=1,MODULENO=1;
0183-1-1-11608CDF
@00a60400ESOYESYY0016003c000f001900000000000004190000000000005c20:
EBSCID=1,MODULENO=2;
0203-1-1-11608CDF
@00a60400ESOYESYY0016003c000f001900000000000004190000000000005c20:
EBSCID=2,MODULENO=1;
0223-1-1-11608CDF
@00a60400ESOYESYY0016003c000f001900000000000004190000000000005c20:
EBSCID=2,MODULENO=2;
0243-1-1-11608CDF
@00a60400ESOYESYY0016003c000f001900000000000004190000000000005c20:
EBSCID=3,MODULENO=1;
0263-1-1-11608CDF
@00a60400ESOYESYY0016003c000f001900000000000004190000000000005c20:
EBSCID=3,MODULENO=2;
2.注意croncfg.ini中不要有空行
3.根据omcps查看的cron的进程号Pno,执行omckill-HUPPno.10
1.1.1.4solaris系统中的日志简介
【作者姓名】:
施杨
【现象描述】:
某局OMCR服务器在运行中异常重启。
在/var/adm目录下messages文件中发现有多条硬盘出错打印:
“Apr810:
32:
46omc-5picld[83]:
[ID210067daemon.error]DISK1:
ErrorReported”“Apr811:
45:
14omc-5picld[83]:
[ID813974daemon.error]DISK1:
ErrorCleared”,判断是镜像中的一个硬盘损坏导致的服务器重启,需要更换硬盘。
【解决方案】:
solaris系统在/var/adm目录下有messags,syslog,sulog,utmp等诸多日志文件,它们记录着solaris系统产生的各种消息日志。
在系统出现故障时,这些日志纪录可以起到帮助诊断作用。
下面依次简要介绍这些日志。
messages:
系统最为重要的日志文件之一。
messages记载来自系统核心的各种运行日志,包括各种进程消息及系统特殊状态,如硬件故障、温度超高等的系统消息。
这次硬盘故障就是从messages打印中判断的。
messages可以记载的内容是由/etc/syslog.conf决定的,有兴趣的话可以使用mansyslog.conf命令详细了解可记载哪些内容。
sulog:
sulog中记载着普通用户尝试su成为其它用户的纪录。
它的格式为:
发生时间+/-(成功/失败)pts号当前用户欲su成的用户。
utmp,utmpx:
这两个文件是不具可读性的,它们记录着当前登录在主机上的用户,管理员可以用w,who等命令来看。
wtmp,wtmps:
这两个文件相当于历史纪录,它们记录着所有登录过主机的用户,时间,来源等内容,这两个文件也是不具可读性的。
可用last命令来看。
除了上述几个文件外,在/var/log目录下还有一个syslog文件,这个文件的内容一般是纪录mail事件的,和我们平时应用关系不大。
1.1.1.5测试管理中的E1线误码测试功能
【作者姓名】:
施杨
【现象描述】:
在开通维护中,常遇到个别基站问题,例如基站不定时的中断并自行恢复、基站版本下载失败等。
这些故障通常和传输有关,不过在去找局方传输工程师前,最好能利用我们OMCR中的E1线误码测试功能判断定位故障点,因为我遇到的这类问题十之八九和局方传输(BTS的DDF架到BSC的DDF架这段传输由局方负责)无关,如果一开始说局方传输不好结果却是自己问题,难免碰一鼻子灰。
【解决方案】:
自OMCR2.52.02E版本以后,在“故障管理”的“测试管理”中提供了提供了基本的传输误码测试功能,该功能能测试A口,Abis口,GB口,Ater口等的传输误码,返回符合误码测试规范的测试结果,达到供使用者判断传输质量的目的。
在使用该功能时,打开诊断测试客户端,在创建即时测试任务的子窗口中选择“E1传输误码率测试项”,在界面的中选择要测试的A口,Abis口,GB口,Ater口的各项信息,在测试任务栏中启动创建好的E1误码率测试项,返回的测试结果在测试结果栏中实时显示出来,包括当前误码率、平均误码率以及测试状态等。
还可以通过查询测试结果查看先前的E1误码率测试结果。
在使用过程中,我有一些心得体会:
1.灵活选择自环方式中的“人工”和“自动”选项。
“人工”是从硬件上回环,比如说从DDF架上对BSC回环;“自动”是指从CMM板上软件回环。
所以要想验证传输是不是好的,先从BTS的DDF架上对BSC回环,选择“人工”,测试时长选择15分钟,回显时长选择30秒,如果误码率超过10的-6次方或者干脆是断的,再从BSC的DDF架上对BSC回环测试,这样一段段测试可以判断故障点在哪段上。
案例:
某个基站版本升级时,版本下载一段时间就会基站重启,判断是传输故障,分段回环测试后查出是BSC的DDF架到BSC这段E1线故障,再查是BSC的BIU框后背板端口接触不好,数据上更换端口后解决。
2.如果分段回环测试结果都正常,可以选择“自动”自环方式(注意此时BTS要加电运行),从CMM板上软件回环测试,此时测试有问题则可以判断从BTS的DDF架到BTS机顶这段故障,用万用表检查接头和线缆。
3.测试方式选择“人工”时,可以选择时隙号,对传输中某个时隙进行误码测试。
不过被测试的时隙必须是没有配置数据的,可以先删除占用这个时隙的数据再测试。
应用:
有时候怀疑传输的某个时隙不好,可以用这种方法测试。
4.测试时长一般选择最短时间15分钟,回显时长选择最短30秒。
这样定位问题速度快一些。
1.1.1.6关于开局时机架间电缆连接
【作者姓名】:
施杨
【现象描述】:
BSC机架内连线在发货前已经连接好,开局时我们需要连接的是机架间的连线。
有两种:
一种是BGD电缆,另一种是电源监控线。
【解决方案】:
一、BGD电缆两端标记不同,一端标记为portA,一端标记为portB。
下面列出不同情况下的连接方法:
1.BGD电缆作为PP单元(BIPP、TCPP、GIPP等)和DSNI间连线时,portA连接DSNI,portB连接PP单元;
2.开通GPRS时,GIU框和SPCU框之间有一根HW,也是BGD电缆。
在GIU框上接在SPCU1-HW端口(BGD电缆B端口),在SPCU框上接在GIPP(V2.0)端口(BGD电缆A端口)。
二、PWRB的电源监控线:
连接到主机架MONI板来监控。
BGA03:
PortA主机架层4MOND2
PortB1主机架层3FBI2’
PortB2主机架层6POWB_R(GND5a)
PortB3副机架1层6POWB_R(GND5a)
PortB4副机架2层6POWB_R(GND5a)
1.1.1.7动态数据管理中channelspy功能的含义
【作者姓名】:
施杨
【现象描述】:
“动态数据管理”中进行动态观察信道状态查看时可以用一个功能“channelspy”
【解决方案】:
channelspy:
对于一个TRU的信道状态实时监控,持续2分钟,也就是说在右侧的信道状态栏可以看到信道占用、释放的变化状态,可以持续观察2分钟,就好像一直刷新信道状态一样。
1.1.1.8操作不当导致的基站无话务
【作者姓名】:
施杨
【现象描述】:
3月23日凌晨,我们在绥化验证COMMI问题,验证过程中对9号基站进行了一些操作(见下面描述),在3点左右完成排查,离开机房时9号基站信道状态正常。
但是,从3点到9:
30这段时间,9号基站SDCCH和TCH信道均无占用,直到9:
35网优人员对该基站载频和CMM进行复位后,SDCCH和TCH信道开始有占用。
9号站操作步骤:
我们在原先出故障的TIC端口配置了一个与9号站同站型的数据,然后在TIC后背板上直接将9号站的E1线接到故障的TIC端口上,待正常后再恢复回9号站端口,当晚重复了多次。
【解决方案】:
这是现场操作存在问题。
TIC端口更换后,必须对站点进行复位操作,否则会导致BSC和BTS数据不一致,出现这种故障。
1.1.1.9删除性能历史数据时需要注意的两点
【作者姓名】:
施杨
【现象描述】:
有时候OMCR中性能表空间不足,需要删除历史性能数据。
【解决方案】:
1.注意主要有四个性能表:
基本测量表pbasicm、基本测量中间表pm_mid_table、GPRS基本测量表pgprsbasicm、GPRS基本测量中间表pm_mid_gtable,都需要删除。
当然没有开通GPRS的局无需删除后两张表。
具体删除方法可以参考升级流程。
2.注意OMCR的性能分析台取的是中间表数据,只删除基本测量表,不影响从中间表中导出相关时段的性能报表。
1.1.1.10SMEM板接触不好导致主用MP反复重起
【作者姓名】:
施杨
【现象描述】:
某局升级bsc,当插入SMEM板,把关电的备用mp开电后,主用mp不断重起。
后来将SMEM板拔出,把zdb重新传到备用mp,复位后运行正常。
待主备mp都运行正常,再插入SMEM板,此时可以正常运行并且主备倒换也正常。
【解决方案】:
通过日志和告警分析在描述问题发生的时段,备用MP没有打印,也没有上电的记录,可能是由于某些硬件接触等方面的原因,导致备用MP根本没有正常的启动成功过。
主用MP复位的原因从打印上来看是由于OEERROR太多引起,错误地址指向SMEM单板。
可以定论现场进行插入SMEM板操作时,由于硬件接触方面的原因,过多的OE ERROR导致主用MP复位;同时因为SMEM板的接触问题,导致备用MP无法正常启动。
总结:
在拔插SMEM板时要注意一次到位,尽量避免硬件接触不好问题。
1.1.1.11客户端操作反馈前台超时的临时解决办法
【作者姓名】:
施杨
【现象描述】:
某局客户端进行任何操作均反馈前台超时,问题定位是后台向前台进行事务操作时,BSCMP因忙时反馈后台BeginTransactionNACK,后台baf遇到这种情况会每隔三秒,再次尝试,反复不止,因MP现场版本程序本身问题,对这种反复尝试的情况,在某种特殊条件下,进入了事务处理状态而不能结束,导致不再响应后续的任何后台事务,后台的事务操作就会反馈“前台超时”,这个问题在前台的攻关版本BSCV2.52.03F中已经解决。
【解决方案】:
全球统一BSCV2.52.03F版本尚需一段时间,这个问题的临时解决办法是:
1.采用前后台断链的方法。
HUB关电,断链10分钟左右再加电,重新建链后可恢复正常。
2.如果第一个办法不行,复位倒换无响应的BSC模块。
1.1.1.12驻波比告警问题解决
【作者姓名】:
夏炜
【现象描述】:
现场实际查CDU驻波比告警的问题,可以先从机架的馈线口开始测,如果没有结论,可以把天线跳线和7/8馈线接口处拆开,从天线跳线口往天线测,如果还是没有结论,可以从天线跳线和7/8馈线的接口处往房舱进线的方向开始测量,可以找到具体的故障发生点。
【解决方案】:
分别从机架馈线出口处,机顶跳线和7/8馈线接口处,天线跳线和7/8馈线接口处,分别开始测量,找到故障点
1.1.1.13 WellonVP-28A通用编程器使用方法简介
【作者姓名】:
焦强
【现象描述】:
使用编程器对BSC设备的GPP,BOSN,TIC,COMMI,ECOM,EDRT单板的boot芯片烧录文件。
【解决方案】:
使用编程器对BSC设备的GPP,BOSN,TIC,COMMI,ECOM,EDRT单板的boot芯片烧录文件。
1.1.1.14PIIIMP做备用时重启
【作者姓名】:
李录俊
【现象描述】:
升级德州关电(RRM3、RRM4的PIII的mp)MP时遇到问题:
(SCM1PIIMPRRM2PIIMP,加点后5分钟左右正常),2:
30左右关电mp加电,用moinfo查看前后台已建链,OMCFTP到mp后,删除老ZDB数据、删除积压的性能文件、告警文件(measure,fm目录下)、mp版本文件改名为zxgbsc,均操作成功,从后台传zxg10.cfg时提示“文件传输失败”,告警界面查看mp无告警,6分钟左右,mp上黄灯闪。
联系bsc现场人员发现:
“RRM2和RRM3的备mp在重起,两块备mp从加电后一直是run灯常亮”,说明mp工作不正常。
【解决方案】:
A、2:
38分左右开始核查mp相关数据,数据无误。
在核查数据的过程中有出现mp重起现象,怀疑是PIII mp 6分左右重起现象,
B、2:
50左右电话联系张明镜总工程师,建议将共享内存版插入再给关电的mp加电,这样也不会使主备MP数据混乱,因备用MP不会影响主用MP的数据。
C、2:
55左右将RRM3、RRM4的备mp版本文件改回老版本后关电,插入共享内存版,重起mp,等备mp运行正常后,删除zdb文件、mp版本文件改名、上传zxg10.cfg,重起mp后正常。
在后边几次升级时注意这一点,避免此类事情发生。
1.1.1.15经常出现代码为3867的告警
【作者姓名】:
李录俊
【现象描述】:
经常出现代码为3867的告警
【解决方案】:
3861-3872告警分别是干节点告警,干节点告警1-12,3867是干节点告警7;目前山东都没有设置干节点,为了屏蔽掉基站的干节点告警,按照如下步骤操作:
a.进入告警管理客户端,选择“设置->干节点告警->告警通断模式设置”
b.根据出现干节点告警的基站,选择对应的网管域、基站子系统、站点和机架
c.根据具体的告警码,把对应的干结点告警电平值设置成相反的即可,例如告警码3867,对应的干节点7的告警电平值为0,则把电平值设置成1就能够屏蔽掉这个站点的3867告警
1.1.1.16关闭EFR语音的配置
【作者姓名】:
李录俊
【现象描述】:
我方的BSS设备和北电的MSS对接,由于北电的MSS设备目前支持EFR有问题(北电设备会出现大量的告警,会死机),北电需要升级版本解决此问题,版本升级有一定困难,在升级版本之前希望我方BSS设备只支持FR业务。
【解决方案】:
对于A口电路采用EFR还是FR语音编码,的确是MSS指定的,本来和我们的关系不大,出于给客户解决实际困难,我方可以配置成FR业务,具体配置方法有两种。
第一种(推荐):
修改MP根目录的zxg10.cfg文件,其中字段“SENDCIRCUITPOOL”表示是否向MSC上报CircuitPool字段,缺省为0,表示上报,1则表示对接是贝尔的MSC,不上报该字段。
当与贝尔MSC或其他不能处理该字段信息的MSC对接时,将“SENDCIRCUITPOOL”置为1。
第二种:
如果方案1无效,可以直接update后台r_atrunktgroup字段,从5改成1,然后重新生成SCM的ZDB数据,重新发到前台,重启SCM模块。
两种方案优缺点比较:
第一种方案是一劳永逸的方法,即使更换新MP,也只要将旧MP中的zxg10.cfg文件拷贝出来覆盖新MP中同名文件就可以了。
但因为在实验环境中无法模拟与北电MSC对接,所以需要在现场观察几天,如果不行采用第二种方案。
第二种方案肯定可以解决,不过以后每增加A口电路都要按此方案做一次,比较麻烦。
目前我们采用了第一种方案,在升级时候实施。
通过升级后几天的观察,北电MSC没
有出现告警或错误日志,可确认问题得到解决。
1.1.1.17 数据表空间满后的处理
【作者姓名】:
李录俊
【现象描述】:
性能统计输出结果各项值为‘0’,通过客户端系统工具--数据库配置与监控查看知性能索引表空间已满
【解决方案】:
见附件《表空间满后的处理》
1.1.1.18 BSC单板BOOT升级以及更换新BNET背板后MTP2单板没有信令
【作者姓名】:
张运刚
【现象描述】:
BSC单板BOOT升级以及更换新BNET背板后MTP2单板没有信令
【解决方案】:
在2005-4-17对山东临沂联通的两个BSC(共计两个中心模块四个外围模块)版本升级后,在2005-4-18山东临沂联通的两个BSC(共计两个中心模块四个外围模块)的BOOT芯片升级、GPP、ETIC、EDRT852逻辑升级BNET背板更换,我们在第二个BSC更换各单板的BOOT芯片以及BNET背板后,出现MTP2单板没有信令,主要是MTP2单板灯闪不正常,,在客户端故障告警没有告警提示,但是升级之前一切正常,在升级时外围模块的备用MP重启过,依次更换AIPP、TCPP、TIC(A口)以及BNET后背板(新的)、BOSN、DSNI、MTP2单板,故障仍在后,开始怀疑软件故障;后和潍坊OMCR服务器端同事查询,备用MP升级后缺少部分数据,重新传送数据后故障解决。
1.1.1.19 如何查看当前LAPD板带哪几个基站
【作者姓名】:
许波
【现象描述】:
每一个BSC设备有很多LAPD板,如何知道每一个单板带哪几个基站呢!
如其中一个基站要扩频,怎样查这个基站是占用哪个LAPD板?
【解决方案】:
首先在操作系统界面中点激:
开始--运行---cfgview.exe-u1234.(-u1234是指脱机浏览)选择网管域编号,查看基站设备机架,选取其中一个LAPD板点激反键,选择R_SITELAPD,查看最后几项:
SITEID、BTSID。
SITEID对应的是基站编号,BTSID对应的是基站小区号。
这样该LAPD单板所带的基站号和小区号一目了然。
1.1.1.20SUNV8806硬盘Raid1镜像,DB2数据库安装
【作者姓名】:
蔡晓丹
【现象描述】:
现场DB2数据库安装完后,启动提示版本过期,无法正常启动。
【解决方案】:
执行相关命令集,进行手动更改license信息。
1.1.1.21 用OMCR信令跟踪时出现“被别的终端跟踪”的问题
【作者姓名】:
刘宇宏
【现象描述】:
当用OMCR的信令跟踪选项跟踪A口的信令状态时,在子窗口的状态栏里出现“被别的终端跟踪”的提示,从而在此终端无法进行A口的信令跟踪操作。
【解决方案】:
首先,如提示所示,可能是因为别的机器终端打开了信令跟踪的窗口,正在进行跟踪,如果排除了此原因,则可能是因为MP里使用的BSC软件版本与要使用的版本太旧、不符所致。
请仔细加查MP里的BSC软件版本,可用OMPFTP查看其日期、大小等信息。
如果发现版本不对,则先把新的BSC软件以别的名字上传到MP里,再将老的版本改名备份,最后把新的BSC软件版本名改为zxgbsc后重启即可(这个顺序不要乱)。
这条经验是在培训上机操作时发现的,仅供参考。
1.2GSM工程支持二科
1.2.1GSM工程支持二科4月经验汇总
1.2.1.1网络冲突
【作者姓名】:
陈小平
【现象描述】:
刚开始设置BSS无线信息从mcc=722/mnc=07,和MSC的A口对接成功,基站工作正常,但是手机无法找到网络。
【解决方案】:
把BSS无线信息从mcc=722/mnc=07改为mcc=45/mnc=07时发现手机可以入网。
同时因为标准起见,又改为mcc=722/mnc=49时发现手机也可以入网。
后来经过进一步测试,发现在后两种设置参数的环境下,都可以打通电话。
后来经msc侧检查发现有07网段的设备在运行,可能是机房外别的基站刚好和我们的设置一样,信号太强,导致不能入网。
1.2.1.2OMCR后台数据故障一例
【作者姓名】:
李晓龙
【现象描述】:
为将OMCR恢复到初始状态,用delexptables.sql脚本清空了数据表,重新启动OMCR后发现客户端无法登录,但是用omcps检查OMCR进程正常。
【解决方案】:
后来经过检查OMCR进程的日志,发现在DIF的日志中有vesion错误,检查dbcfg.ini文件和数据表r_dbver找到问题原因。
由于delexptables.sql脚本会清除OMC数据库中所有的表数据,r_dbver表中的记录也一并被删除了,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 上海用服部 ZXG10BSS 份工程经验汇总 上海 用服部 工程 经验 汇总