基于大数据的http端到端关联方法研究.docx
- 文档编号:11239488
- 上传时间:2023-02-26
- 格式:DOCX
- 页数:13
- 大小:634.03KB
基于大数据的http端到端关联方法研究.docx
《基于大数据的http端到端关联方法研究.docx》由会员分享,可在线阅读,更多相关《基于大数据的http端到端关联方法研究.docx(13页珍藏版)》请在冰豆网上搜索。
基于大数据的http端到端关联方法研究
成果上报申请书
成果名称
基于大数据的http端到端关联方法研究
成果申报单位
中国移动通信集团湖北有限公司
成果承担部门/分公司
中国移动通信集团湖北有限公司网管中心
项目负责人姓名
项目负责人联系电话和Email
成果完成人
完成人数量不超过10个
成果一级领域
IT
成果二级领域
IT应用
成果三级领域
大数据应用
成果专业类别*
所属专业部门*
成果研究类别*
省内评审结果*
关键词索引(3~5个)
应用投资
0万元(指别的省引入应用大致需要的投资金额)
产品版权归属单位
中国移动通信集团湖北有限公司
对企业现有标准规范的符合度:
(按填写说明5)
1、中国移动统一DPI设备技术规范;
2、中国移动集中性能管理平台建设规范;
成果来源:
如果该成果来源于集团研发计划内项目,请填写研发项目年度、项目名称及类型;否则填写“计划外项目”(按填写说明6)
计划外项目
专利情况:
如果该成果产出相关专利,且专利处于国知局专利申请审查阶段或已授权,请说明专利名称、类型、申请号、状态、是否海外申请等情况。
(按填写说明7)
未申请专利
成果简介:
随着网络带宽的增长与服务器性能的提高,http服务越来越侧重,WEB页面越来越花哨。
如新浪首页中包含40个站点和超300个请求。
而无线网络空口资源是有限的,需要考虑如何在有限的资源下提高Http协议传输效率,以及Http用户的上网体验。
通过大数据平台发现,http不同版本对Http时延有很大的影响。
在移动互联网环境,时延过大,丢包不再是网络发生拥塞的必要条件,无线网络由于切换、信号衰落、强干扰等引发的突发丢包和时延抖动都会引出网络拥塞,都会被TCP误判,所以引入Http的端到端分析,与用户的MR信息进行关联,能够有效的避免这种误差,更为精确的定位这种无线环境问题引起的http问题。
该篇主要通过研究Http业务的端到端关联方法,利用机器学习,合成基于HTTP端到端分析的SDR数据,为分析HTTP端到端业务提供数据基础。
省内试运行效果:
本方案结合了大数据平台的数据,进行Http用户的深度挖掘,节省了路测优化所带来的人力与物力开销,同时也避免数据单一对整体指标的准备性的影响,可以更加准确的发现问题,定位问题,解决问题,可以更好的提升问题处理效率,更好的提升高速专网的运行能力与用户满意度。
本方案针对挖掘出来的真实Http用户,结合现有大数据平台的数据、用户MR数据深度关联,实现相应的专题分析功能,完成Http业务各种网络问题原因分析,实现整个Http过程由用户到服务器的端到端分析。
文章主体(3000字以上,可附在表格后):
根据成果研究类别,主体内容的要求有差异,具体要求见表格后的“填写说明8”。
具体内容见表格后的附件。
一、背景说明
随着网络带宽以及服务性的提高,目前由IP网络承载的各种业务已经成为移动网络的命脉,业务性能的好坏直接影响到客户感知,业务开展以及商业市场。
目前语音方面有基于IMS分组域的VOLTE,数据方面主要是基于Http协议的各类服务,优化Http业务质量,已经显得尤为重要了。
目前Http问题的定位相互推诿的现象非常普通,一种能够精确分析定位,并且互相认可的分析方法已经迫在眉睫。
HTTP协议(HyperTextTransferProtocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。
它可以使浏览器更加高效,使网络传输减少。
它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等。
HTTP是基于TCP协议之上的。
在TCP/IP协议参考模型的各层对应的协议如下图,其中HTTP是应用层的协议。
图1.1HTTP在TCP/IP协议中所在协议层
因此,研究Http的端到端分析,有助于提高HTTP业务的定位能力手段,将其转换成系统性规则或提取成知识。
本案例,将研究与用户面与控制面数据关系,以供后续HTTP分析平台的搭建,发生时得以有效且快速解决,并建立数据分析系统,当发生HTTP业务故障时,系统可自动产生处理建议,提醒工程师注意,及时跟进处理。
二、HTTP端到端关联方案
1
2
2.1方案创新点
目前现网中对HTTP业务的优化主要是分段式的优化手段,分为无线侧、核心网侧、业务网侧,目前优化手段主要是无线侧,对核心网、业务网优化的手段较少。
传统的优化分析手段,也容易造成各个分析环境的脱节,单个问题的分析周期加长,导致问题的整个生命周期过长,最后不了了之的情况居多,造成很大程度上的用户感知差情况。
比如:
客户投诉微博刷新慢,王者荣耀游戏卡顿的情况等,这种情况下很多时候链路是正常的,但是就是无法确认问题原因,这个问题目前普遍存在。
如下图2.1-1所示:
图2.1-1处理HTTP业务故障存在的问题
HTTP端到端方案,就是想着力于解决目前这个问题,将整个HTTP业务流程无线侧+用户面+控制面单个XDR的数据关联在一个SDR(SUPERXDR)中,快速准备的定位某个HTTP流程中的问题所在。
2.2数据关联准备
UE开机,通过小区选择和小区重选,驻留到合适的小区后,就进行”InitialEPSAttach”的过程。
通过初始EPS附着,UE可以在EPS网络进行分组域服务的注册,同时,建立缺省的EPS承载,进行用户数据的传输,就能够建立HTTP业务服务。
(详情参见3GPP23.401和29.274)
图2.2-1LTE Initial Attach(3GPP23.401) 过程
接收到MME发送的CreateSessionRequest消息后,SGW会为S5接口上的GTPTunnel创建SGW侧的标识,以供PGW侧发来的下行GTPTunnel使用。
由于S5接口上既包含有UE用户面的数据,也包含有控制面的数据。
因此,需要建立GTP-C和GTP-U的Tunnel,SGW需要创建SGWGTP-C的FTEID和SGWGTP-U的FTEID。
SGW向PGW发送CreateSessionRequest消息,包含上述TEID信息和接收到MME的CreateSessionRequest中的部分信息。
图2.2-2CreateSessionRequest 中包含用户IMSI以及MSISDN等用户信息
PGW为UE分配相应的IP地址,建立UE到PDN之间的路由。
返回CreateSessionResponse给SGW。
CreateSessionResponse的内容包括有:
分配的PDNAddress,以及PGWTEID-C和PGWTEID-U等。
这样SGW和PGW之间的EPSBearer就建立起来了。
SGW分配SGWTEID-C和SGWTEID-U,并将他们包含在返回给MME的CreateSessionResponse中。
CreateSessionResponse中的GTPHeader的TEID值取为SGW在CreateSessionRequest中报上来的SGWFTEID-C。
图2.2-3CreateSessionResponse中包含链路的隧道标识
因此通过机器学习,我们能够掌握到用户的IMSI,MSISDN,IMEI,USER-IP,SGW-IP,TEID通过学习回填的方法,能够在用户面和控制面通过统一的回填标识进行关联,关联的结果。
因此只要通过回填IMSI,MSISDN,USER-IP,TEID就能够通过这些唯一条件关联HTTP业务流程涉及到的ENODEB、MME、SGW、UEMR、空口。
这样就将HTTP涉及到用户面、控制面、无线环境全部关联起来,为整个HTTP的端到端分析提供了依据。
2.3HTTP端到端关联方法
通过上面的章节我们知道,HTTP的端到端关联的关键在于用户号码的回填,确认回填规律以及学习方法,是保证我们回填有效性和准确性重要的步骤。
2.2.1S11接口号码学习
在S11接口中能够学习到IMSI、IMEI和MSISDN,能够与用户面数据相关联的用户标识有USER-IP、SGW-ID(以控制面SGW-IP通过静态配置文件映射)+SGW-TEID(用户面)、SGW-TEID(用户面)+ENODEB-TEID(用户面)。
2.2.2USER-IP与号码关联的学习
●用户的USER-IP标识由PGW分配,在S11接口的CreateSession类型XDR中与用户IMSI绑定,由S11接口的DeleteSession类型XDR中解除与用户的绑定;
●我们据此实现为收到CreateSession类型XDR时创建IMSI与USER-IP关系,在收到DeleteSession时删除USER-IP与IMSI的对应关系;
●DeleteSession-XDR中的USER-IP是无效的,其只能先通过SGW-IP(控制面)+SGW-TEID(控制面)索引与USER-IP做关联,然后才能删除相应的USER-IP与IMSI的对应关系。
2.2.3SGW-ID+SGW-TEID(用户面)与号码关系的学习
●用户的SGW-ID+SGW-TEID(用户面)标识由SGW分配,在S11接口的CreateSession类型XDR中与用户号码绑定,由S11接口的DeleteSession类型XDR触发解除与用户号码的绑定;
●我们据此实现为收到CreateSession类型XDR时创建IMSI与SGW-ID+SGW-TEID(用户面)的关系,在收到DeleteSession时删除与IMSI的对应关系;
●CreateSession与DeleteSession-XDR中只有SGW控制面的IP地址,而用户面XDR中仅有SGW用户面的IP地址,因此只能先通过一个静态配置文件将SGW-IP(控制面)映射为一个全局唯一的SGW-ID,然后才能建立起与用户面XDR的SGW-IP的对应关系。
●由于SGW-ID+SGW-TEID(用户面)只能通过CreateSession与IMSI绑定,在CreateSession丢失的情况下,会导致用户面XDR以SGW-ID+SGW-TEID(用户面)回填号码失败;在DeleteSession丢失的情况下会导致SGW-ID+SGW-TEID(用户面)与IMSI的对应关系被错误保存,如果第二个用户的CreateSession和同时丢失的情况下,会导致把第一个用户的号码误回填给第二个用户。
2.2.4SGW-TEID(用户面)+ENODEB-TEID(用户面)与号码关系的学习
●用户的SGW-TEID(用户面)+ENODEB-TEID(用户面)标识由SGW和ENODEB分配,由S11接口的CreateSession类型XDR与用户IMSI绑定,由ModifyBearer类型XDR更新与用户号码的关联关系,由S11接口的DeleteSession类型XDR中解除与用户号码的绑定;
●我们据此实现为收到CreateSession类型XDR时创建IMSI与SGW-TEID(用户面)+ENODEB-TEID(用户面)的关系,在收到ModifyBearer时更新与IMSI的关系,在收到DeleteSession时删除与IMSI的对应关系;
●ENODEB-TEID由ENODEB分配,因此在用户做X2和MME切换时,就会导致SGW-TEID(用户面)+ENODEB-TEID(用户面)更新,因此这个索引的变化频率相对比较频繁。
●由于SGW-TEID(用户面)+ENODEB-TEID(用户面)通过CreateSession与IMSI绑定,并且通过ModifyBearer更新,因此在CreateSession或ModifyBearer丢失的情况下,都会导致用户面XDR以SGW-TEID(用户面)+ENODEB-TEID(用户面)回填号码失败或误关联;在DeleteSession丢失的情况下会导致SGW-TEID(用户面)+ENODEB-TEID(用户面)与IMSI的对应关系被错误保存,如果第二个用户的CreateSession或ModifyBearer同时丢失的情况下,会导致把第一个用户的IMSI误回填给第二个用户。
2.2.5S1-U接口XDR号码回填方法
●以USER-IP为索引查询号码
●每个S1-U接口XDR都带有USER-IP,USER-IP由PGW分配,变化概率较小,因此优先用USER-IP做为号码回填查询索引;
●每个S1-U接口XDR都带有SGW-ID+SGW-TEID(用户面)信息,该信息由SGW分配,变化概率相对较小,在用USER-IP回填失败的情况下,优先用SGW-ID+SGW-TEID(用户面)做为号码回填查询索引;
●每个S1-U接口XDR都带有SGW-TEID(用户面)+ENODEB-TEID(用户面)信息,该信息由SGW和ENODEB分配,在用户做X2和MME切换时,就会导致ENODEB-TEID(用户面)更新,因此这个索引的变化频率相对比较频繁,在前面两个查询索引回填号码失败的情况下,最后使用SGW-TEID(用户面)+ENODEB-TEID(用户面)做为号码回填查询索引;
2.2.6UU接口XDR号码回填方法
●S1AP_ID为关联条件进行关联号码
●用户的要发送一条eNB-UE-S1AP-ID配,由S1MME接口的接收到建立连接之后,向UE索要IMSI信息,S1MME通过S6A接口查询UE合法性后,完成一条S1AP链路建立连接。
●我们据此实现为收到eNB-UE-S1AP-ID-类型XDR时创建IMSI与MME-S1APID(控制面)的关系,在收到鉴权时更新与IMSI的关系,在收到鉴权拒绝时时删除与IMSI的对应关系;
●eNB-UE-S1AP-ID由UE申请,因此在用户做X2和MME切换时,就会导致S1AP-ID(更新,因此这个索引的变化频率相对比较频繁。
2.4HTTP端到端关联总结
由于SGW-TEID(用户面)+ENODEB-TEID(用户面)通过CreateSession与IMSI绑定,并且通过ModifyBearer更新,因此在CreateSession或ModifyBearer丢失的情况下,都会导致用户面XDR以SGW-TEID(用户面)+ENODEB-TEID(用户面)回填号码失败或误关联;在DeleteSession丢失的情况下会导致SGW-TEID(用户面)+ENODEB-TEID(用户面)与IMSI的对应关系被错误保存,如果第二个用户的CreateSession或ModifyBearer同时丢失的情况下,会导致把第一个用户的IMSI误回填给第二个用户。
目前HTTP已经完成整个端到端关联,相关关联率为80%左右,因此为了提高HTTP端到端关联,还需要增加以下修正方法:
●USER-IP由PGW分配和释放,但DPI规范中S11接口XDR中没有任何PGW相关信息,因此退而求其次的相对合理的解决办法是,给USER-IP加上SGW-TEID(用户面)做为限制;
●不能用SGW-ID做为限制的原因是,一个SGW会与多个PGW相连,每个PGW分配USER-IP的取值策略完全是独立的,因此对一个SGW来说就可能同时存在多个相同的USER-IP;
●用SGW-TEID做限制也并不完美,但SGW-TEID是32位整数,其与同为32位整数的USER-IP组合起来,在一定时间段内与另一个用户重复的概率很小,几乎可以忽略不计;
●这个改进方案的一个难点是,一个用户在同一时刻可能有多个用户面SGW-TEID,这些SGW-TEID都需要与USER-IP组合成查询索引,增大了号码关系信息的数据量。
而为用户分配SGW-TEID的除了CreateSession之外,还有CreateBearer和UpdateBearer,对SGW-TEID的释放有可能是通过DeleteBearer,也有可能是在最后仅通过一个DeleteSession统一全部释放,这就要求不但要跟踪关联每一个用户所有的,从CreateSession开始到DeleteSession结束之间的CreateBearer、UpdateBearer和DeleteBearer,还要将所有已分配未释放的SGW-TEID都保存起来,以备在DeleteSession时删除全部的相关索引;
●同一个地市内USER-IP应该不会出现重复问题,只有从外地市切换过来的才可能出现,而这个比例应该是非常低的,因此我们建议先不忙着修改,还是先确认一下这种重复的概率有多高,如果非常低,那么我们不建议进行修改。
三、后续开发
本方法对接入网的S1-U(主要是HTTP协议),S1MME,UE_MR接口消息,采用机器学习的方法回填,合成基于HTTP端到端的SDR,用于分析HTTP业务的时延、下载速率慢、HTTP掉线等问题。
由于该方案属于比较前瞻性方案,资金投入较少,目前实现平台一体化的工程暂未开展,建议后期通过大数据平台,建成集成的,可视化,易操作的HTTP端到端优化分析平台。
后续应用平台实现基于HTTP业务基于不同维度的KPI指标分析呈现,维度可以包括CELL、ENDOD、MME、SGW、IMEI等多个终端的页面请示成功率,HTTP下载速率,HTTP时延,视频业务、即时通信业务等进行专项分析。
四、应用价值
社会价值:
充分利用可轻松获取的各接口数据,降低一线员工劳动强度,提高互联网业务维护优化效率,降低运营成本,提升4G用户高带宽、高质量的各种各样的互联网享受。
经济价值:
按照全省20起HTTP业务投诉来看,且理想化减少各个投诉点的往返时间,都出在一地市,按照最精简的算法来看,需要3年中级人员,2个高级优化人员,加上车辆费用1年投入超过120万元。
另外由于HTTP专项,提高HTTP服务水平,可以留住大量高端用户,长年以往,这个收益无法估计。
管理价值:
HTTP端到端分析定位HTTP业务各项原因,减少了HTTP的分析环节,从以前多部门多接口,需要各种协调,减少管理以及跟综成本,一键性评估定位问题。
杜绝一个HTTP问题,各种推诿的情况。
五、应用情况与效果
本方法对接入网络的S1-U、UE_MR、S1-MME接口等,采用机器学习的方法回填IMSI,合成基于HTTP端到端的SDR,用于分析HTTP业务端到端优化分析。
可以对影响HTTP业务的无线原因,比如切换、弱覆盖原因,以及HTTP的核心网原因进行分析。
能够基于HTTP业务的终端、CELL、ENDODE、MME、SGW各个网元进行分维度KPI指标优化分析。
结合各项KPI指标,用于提高用户HTTP用户感知。
目前基于HTTP业务端到端的SDR合成率能达到80%左右,基本能够解决80%的HTTP业务有关的问题,相对于前期关联来看,已经是一个比较高的指标。
后期通过IMSI回填以及关联算法,会进一步的提升合成率。
通过HTTP业务优化,预警的方式,提前发现场用户的可能投诉点,有效有效减少用户投诉,提高用户的满意度,减少用户因对网络的不满而转网的风险。
本系统主要针对HTTP业务端到端关联分析,后续还可以针对S1-U用户面的其它业务,比如:
FTP、MMS、EMAIL等进行扩展,只要对将HTTP业务换成相应的业务进行修正与优化即可,系统的可复制性很强,提升了系统的适应性、扩展行、可利用性。
六、结束语
目前传统的语音业务已经较少,大部分的用户都在分组业务域。
关于HTTP业务的质量,已经越来越被用户所重视。
未来的机遇在分组域上,而分组域目前使用最广范的TCP/IP上层协议为HTTP协议。
谁先掌握了HTTP业务的端到端的优化手段,谁就能更好的吸引潜在用户,留住本网用户。
然后,目前我们基于HTTP业务的优化手段很少,需要涉及到网优侧和互联网侧的协调,而在实际协调过程中,协同优化的效果并不是很好,甚至最后对问题的原因存在相互推诿的情况。
而目前基于本案例算法的HTTP端到端业务的SDR合成率能够达到80%,在很大程度上能够改善,甚至解决目前HTTP优化分析存在问题。
可以简单联想,系统的后期平台应用建立以及完善,可以更好的反应出HTTP用户的真实问题,提前预警问题,提前解决问题,充分体现运营商以人为本的经营理念,进一步提高网络质量,提供更优质的服务。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 http 端到端 关联 方法 研究