防作弊参考资料.docx
- 文档编号:4538439
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:12
- 大小:864.76KB
防作弊参考资料.docx
《防作弊参考资料.docx》由会员分享,可在线阅读,更多相关《防作弊参考资料.docx(12页珍藏版)》请在冰豆网上搜索。
防作弊参考资料
点击作弊
点击作弊是成本较低也比较容易的一种方式,一般可以利用大量测试机或者模拟器直接发送,也有一些是雇佣或者激励式诱导用户来进行大量点击。
通过分析点击数据的日志,会发现有几种现象:
∙IP离散度密集:
由于作弊是通过模拟器或者雇佣用户进行大量点击,那么就会出现同一个IP反复点击广告的情况出现。
∙时间周期反复:
同IP离散度密集的原理一样,作弊用户会在一个固定的时间周期内频繁的点击广告(发送请求)
下面两点的现象针对于大量的使用模拟器进行点击作弊
∙非移动端发送为模拟器发送:
为节省成本,在非移动端,会在一个电脑上部署很多个服务器,进行点击作弊
∙无法取到移动端的UA信息:
UA的全称为User Agent,中文名为用户代理,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
激活作弊
移动广告的效果除了点击之外,更多的是效果数据,即后续的激活。
常见手段部分与点击作弊的方法一致,比如说测试机或模拟器模拟下载,还有像通过移动人工或者技术手段修改设备信息、破解SDK方式发送虚拟信息、模拟下载激活等等。
激活作弊的现象当然就也包括:
∙IP离散度密集
∙时间周期反复
∙模拟器发送
∙归因时间差不符合逻辑:
正常情况下用户从点击去广告,到产生激活行为,是需要阅览了解的,需要一定量的时间,若这个时间太短,我们可以认为是异常。
作弊的防护
点击作弊
在梳理点击作弊防护的方法之前,我们先摆出来一些重要的指标。
点击率 = 点击次数/PV
点击率是一个判断是否有无点击作弊的关键的方法,一个网站的广告点击率过高,可以直接判定为作弊了。
点击率/单个IP的点击率
若这个数值过高,大概大于3,我们就可以认为,这个IP值的用户可能存在点击作弊
防范点击作弊的方法,有以下几点
∙Cookie排重:
基于本地cookie的解决方法。
Cookie上会记录着用户的信息,可以在用户请求数据的时候先调用户的cookie,防止同一设备多次点击同一广告。
∙IP防止作弊:
刷点击的时候,肯定不只用同一设备,所以除了Cookie排重外,也可以基于IP来排重。
∙异常数据黑名单:
对于反复出现的IP,我们要进行黑名单管理,把这些经常刷点击的IP拉进黑名单。
激活作弊
∙激活IP排重:
与点击同理,同IP段的多次激活也应标记为异常激活。
∙归因时间差作弊:
归因时间差即指从点击到下载激活的时间。
正常情况下用户从点击去广告,到产生激活行为,是需要阅览了解的,需要一定量的时间,若这个时间太短,我们可以认为是异常。
∙SDK加密防护:
对传输激活的SDK进行加密处理,提高其破解作弊的成本。
基于IP地址1
来自同一IP地址的多次点击,会被视为一次点击或直接视为作弊而被K掉账号;同一广告点击IP大部分来自同一地理区域,也会被怀疑为作弊。
基于Cookies2
虽然IP不同但是Cookies相同,也会被视为作弊。
主要针对利用VPN不断变换IP地址点击广告的作弊。
基于广告点击率3
广告点击率有个正常范围,远高于平均点击率会被视为作弊。
基于页面停留时间4
在广告页面停留时间过短的点击行为会被怀疑作弊或视为无效。
基于点击位置5
点击点在屏幕中会有一个坐标,同一坐标重复过多会被怀疑是机器行为,视为作弊。
基于流量来源6
流量来源一般分为直接访问、搜索访问和推荐访问三种。
如果广告点击中大部分来自于直接访问,则会被怀疑是作弊。
基于文本分析7
网页上有鼓动点击广告的文字,会被怀疑为作弊。
基于黑名单8
犯过事儿的都有犯罪记录。
基于流量来源的浏览器类型9
IE,chrome,搜狗,360等主流浏览器会在流量来源中各自占有一定的比例,如某一浏览器在流量来源中占据过多比重,则被怀疑作弊。
基于流量来源的操作系统类型10
各主流操作系统在点击中会占有一定比例,如某一系统占据过多比重,则被怀疑作弊。
1、IP防止作弊
这种主要是按照24小时唯一IP计费,将访问用户的IP地址记入数据库中,当出现了重复IP地址时不予计费。
很多恶意点击广告的人都会利用拨号器改变IP地址,这种情况下我们可以通过C段IP来辨别,如果出现了很多IP地址C段相同的情况,就很有可能是作弊。
通过IP加密提交,再由接收端进行解密记录入库,可以杜绝采用模拟提交数据的作弊方式。
2、COOKIES防止作弊
用户访问了一个页面,Cookie就会进行记录,当重复进行访问时cookie的参数是相同的,就可判断为重复,不予计费。
但是这种方式存在一定的缺陷,当清空了cookies之后,就可进行作弊。
3、点击率上线设置
现在广告页面的点击率比以往有所下降,店家率越高,则表示了页面与广告的相关性越高。
富媒体广告的点击率在2%至5%,普通图片点击在0.1%至1%,而且还与图片的创意有关。
我们可以根据广告的点击率进行防作弊设置。
4、来源统计防止作弊
统计点击来源,我们也可以对作弊行为进行组织。
一方面我们可以记录点击的来源页面,也就是广告放置的页面地址;另一方面我们可以记录广告页面的来源,如果查找不到来源,就很有可能是直接流量,这主要是因为直接访问、收藏夹访问、弹窗流量或者是流氓插件弹窗等。
5、通过唯一参数防止作弊
网卡MAC物理地址、硬盘序列号,通过该类软硬件信息生成机器码。
这种方式的缺点是很难在WEB上应用,适合软件营销的防作弊方式。
6、时间顺差防止作弊
通常用户点击广告之前都会经历一个从印象到关注再到点击的过程,所以如果用户访问网站页面的几秒钟内就点击了广告,我们就可以视作作弊行为。
如果点击广告的时间相差无几,也可能是机器人的点击行为。
当你打开一个广告,在几秒内立即关闭,也可以判断为无效点击。
除了效果广告,另方面钛动科技还为广告主免费提供反作弊服务。
钛动科技CEO李述昊表示:
作为推广平台的我们是很愿意做好这件事情的,而且这件事情并没有想象中的那么困难。
钛动科技的反作弊手段大致分为以下三种:
从设备层面,IMEI、IP来判断,比如连号、有规律、单一IMEI对应多个IP,或者反过来;
劫持反作弊,点击和激活的分布规律分析;
行为反作弊,通过热区分布可以看到用户在你的产品上的点击行为(点哪里),比如机刷一般会在一个地方重复点击,且只有留存、没有用户行为。
”
三.移动广告常见的作弊类型
根据广告投放流程的节点分类
1、展示作弊:
媒体将多个展示广告置放到同一个广告位,向广告主收取多个广告的展示费用。
2、点击作弊:
通过脚本或计算机程序模拟真人用户,又或者雇佣和激励诱导用户进行点击,生成大量无用的广告点击,从而吃掉CPC广告预算。
另外,竞争对手还可能进行恶意点击。
3、安装/激活作弊:
通过测试机或模拟器模拟下载,以及通过移动人工或者技术手段修改设备信息、破解SDK方式发送虚拟信息、模拟下载激活等等。
4、应用内行为作弊:
典型手段是购买欺诈,即当用户或玩家在没有付费的情况下得到内容或产品,导致控制面板及报告的收入数据过高。
P.S.此处只详细介绍根据广告投放流程的节点进行分类的常见作弊类型,其他作弊类型还有假流量作弊、流量归因作弊等等。
四.作弊数据的常见特征
造假的数据往往有迹可循。
要想消灭作弊,必须要认识作弊数据的特征,才能从特征中识别出作弊数据。
常见的特征如下:
1、广告来源异常。
2、曝光、点击频次异常。
3、留存曲线、转化率异常。
4、广告访问时间分布异常。
5、曝光、点击IP/地域/设备集中。
6、广告点击没有对应的曝光请求。
7、广告点击和安装的平台/地理不匹配。
8、相同UA(用户代理)产生的点击/安装过多。
五.移动广告中反作弊的常见方法
有流量的地方,就会有作弊动机,也就存在作弊广告。
事实上,作弊现象无法彻底根除,但我们能做到的是最大可能地降低广告作弊带来的经济损失。
而反作弊的最佳策略在于让作弊成本剧增,使作弊行为的获利大幅度减少,从而尽量减小作弊行为在正常商业行为中的比例。
策略思路为:
砌墙(不断增加限制条件)与拆台(大幅度减少作弊行为的获利)。
1、排重:
Cookie、设备号及IP排重。
2、SDK加密防护:
对传输激活的SDK进行加密处理,提高其破解作弊的成本。
3、点击频次有效期:
限制点击频次的有效期,在有效期内,后续转化归属相应平台,如超出有效期范围,则不予计算。
4、异常数据黑名单:
对于一些比较有周期性质点击来源,或者非移动端数据的点击记录,超过一定范围标记为黑名单,长期过滤。
5、归因时间差放作弊:
归因时间差即指从点击到下载激活的时间。
一般作弊时,伪造点击与激活是并存的,所以往往在时间逻辑上是错误的。
6、增加行为操作的复杂度:
值得注意的是,此举可能直接影响到用户体验。
从实现的方式上来看,Mobvista反作弊主要三种方式:
1在线实时反作弊:
例如实时的IP黑名单点击过滤,地域异常实时过滤等,直接就将点击过滤掉不发到demand侧。
在线实时反作弊的优点是过滤及时,从数据层面广告主并无感知,也不会污染广告主的数据;缺点是能够实现的策略相对较少
2离线挖掘反作弊:
离线周期性按天,或者周运行反作弊逻辑。
优点是有大量数据特征可供分析,而且可以做各个特征的交叉。
准确性和覆盖率都比较高;缺点是这是事后的方式,可能损失已经产生无法弥补
3混合方式:
主要是引入了算法提供数据和建议+人工决策的方式。
例如对于嫌疑比较大的CASE,算法抓出来后,并不会直接做决策,而是交由人工决策是否扣款,或者是否先不付款等
因为反作弊是和人斗的技术方向,而人有较多的创新,所以反作弊的技术不全都适合机器学习来完成,必须有较多规则。
所以Mobvista的反作弊,可以认为30%模型+70%规则来实现
人与机器的行为区别
在反作弊分析过程中,也需要时刻牢记人的行为和机器行为的区别,虽然反作弊的人就是将机器算法的行为去模拟人的行为,但一般还是会有一些蛛丝马迹
∙人:
行为有共性,符合特殊分布vs机器:
随机
∙人:
群体量大,个体分散vs机器:
群体量小,个体集中
∙人:
能力受限VS机器:
能力不受限
反作弊的思想,就是以下两点:
∙以人为本
∙以利益为出发点进行探索,FollowTheMoney
1.作弊流量(FraudTraffic):
大白话,容易明白,就是骗人的流量
2.非人为流量(No-HumanTraffic):
这种流量特指一些Bot流量,机器模拟的;对于一些劫持的流量,有些灰色地带,因此不够准确。
3.非激励正常流量(No-IncentiveTraffic):
有些流量虽然是人为流量,但常常是由某种诱惑而来(例如不合理页面设计,奖券,红包,游戏点卡等),因此激励流量通常转化效果比较差。
4.无效流量(InvalidTraffic):
为了规避过于敏感的作弊(Fraud)而使用的术语,这样不容易得罪人,无效流量中既有故意为之,也有无意为之的。
5.异常流量(AbnormalTraffic):
类似于无效流量,强调流量的异常性。
常见流量作弊的动机:
1.媒体:
制造虚假流量,提升收入
2.广告代理/销售:
运营虚假流量,保证合同,提升收入
3.交易平台:
对虚假Supply审查不严格,提升收入
4.用户:
为获得激励(红包,点卡等)而产生低(无)效果流量
5.广告主:
恶意消耗竞争对手的预算
什么是刷量:
最常见的是:
刷点击,刷激活,刷留存。
什么是撞库:
作弊广告渠道商采集了非常多的设备信息,他们会疯狂往对方广告点击日志服务器发送设备点击信息,当激活日志服务器采集到对应设备的激活,就会认为是该作弊渠道商的。
通常我们在设计广告反作弊产品时,会包含两个部分:
反作弊策略和历史黑库;其中历史黑库包含:
黑渠道库,黑设备库和黑ip库。
第一个:
反作弊策略的逻辑:
主要基于广告点击频次和频率,加上一些行为规则。
由于移动广告有按点击付费,有按激活付费,有按留存付费,因为反作弊策略也主要是针对这这些方面。
单设备单渠道点击次数:
5s内单设备,单渠道,点击大于等于2次小于5次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于5次,该设备在该渠道的点击和激活都标记为异常。
一天内单设备,单渠道,点击大于等于3次小于6次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于6次,该设备在该渠道的点击和激活都标记为异常。
一周内单设备,单渠道,点击大于等于12次小于15次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于15次,该设备在该渠道的点击和激活都标记为异常。
单ip
单渠道点击次数:
一天内,单ip,单渠道,点击大于等于30次,则该IP下的点击和激活标记为异常。
目前已知的刷量方式有以下几种:
机器模拟:
使用机器或程序来模拟广告行为,或者通过木马和肉鸡模拟用户的广告行为。
为了使点击行为不被规则类发现还会控制ip分布和时间。
机器模拟有如下的方法:
模拟器:
BlueStacks,AndyWin,GenyMotion
Spoofer:
不断的修改机器的IP,IMEI,MAC等
Proxy:
网关,修改ISP,IP,UA,设备类型等
苹果:
没有模拟器,主要通过硬件和软件模拟
激励流量(incentTraffic):
真实人流量,但是转化率差的流量。
其实对于请求,曝光,点击等行为本质上是一样的,都可以使用以上的方式进行请求,不同的地方大多是不同的服务地址。
刷激活方法:
作弊广告渠道商采集了非常多的设备信息,他们会疯狂往对方广告点击日志服务器发送设备点击信息,当激活日志服务器采集到对应设备的激活,就会认为是该作弊渠道商的。
用户户无意行为:
媒体或网盟的小站长在页面挂满广告或诱导小白用户误点击或刷新页面也会产生作弊数据。
人工作弊:
真的雇人用真实的设备进行广告的各种行为操作。
还有一种不能算作作弊手段,但其依然是无效流量应该被排除,那就是搜索引擎。
各家搜索引擎大量爬取着整个网络,依然会消耗巨大的广告预算。
针对以上的作弊方案,我们可以有多种技术进行处理
加密:
对于机器刷量行为,对于客户端类可以采用加密技术将广告曝光、点击、激活等行为进行加密,且加密地址使用不同的加密算法进行处理,任何不能解密的请求都是无效行为使刷量行为无效。
加密的核心问题在于对于每一个曝光和点击都生成一个唯一不同的加密地址,同时结合这个唯一地址数据的频次分析可以识别出作弊数据。
(请注意以下的反作弊方案并非基于加密这个前提,本文只是总计一些常用的反作弊方案)
找规律:
对于机器刷量的行为一般对应着一套刷量的逻辑代码,也就意味着一定有其规律性,有一定的特征可以发现其中的规则。
发现其中的规律即可以找到对应的应对方式。
对于人工作弊,用户无意行为或没有进行ip,用户等混淆技术的可以基于频次和频率混合行为规则发现作弊流量:
3.统计法:
除了以上的一些方式之外,对于没有加密的广告在伪造ip,ua,用户等行为基于策略的无法识别,那可以基于历史一些统计数据得出一些指标作为作弊评判标准:
3.1不同广告位的点击率,一般情况下一个广告位的点击率都会在一个正常的范围内波动。
基于大数定律和中心极限定理。
可以考虑将偏离均值2个或3个标准差之外的点击率作为异常数据进行排查。
3.2URl或用户信息异常:
如果同一广告位的大量曝光点击等都来自于与同一版本的浏览器或操作系统或这些浏览器或操作系统占比非常高。
或者某些广告行为都来自于同一个用户。
3.3广告行为异常:
一些用户或广告展现逻辑有一定的顺序关系,比如一定要现有广告请求,然后又广告投放,再有曝光和点击,之后再有激活转化。
首先是在顺序上是一脉相成,哪一个环节丢失都不正确(当然也不排除有日志没有记上或网络丢包的情况,但总体上一个可用的系统应该99.9%以上都是完整的)。
其次先后顺序之外每个行为的时间差也可以做为一个评判标准。
其中最广的应该是曝光和点击之间的时间差,如果大量的曝光和点击都在非常短时间内发生,也可以怀疑其为作弊。
有一点要注意,一般广告系统都是分布式系统,如果通过时间来分析的话会遇到分布式系统时间同步不一致的问题。
3.4广告访问时间异常:
某些IP每分钟会非常规律的定时出现在点击或曝光的日志中,还有的情况是连续点击或曝光所发生时间的间隔非常规律,这种广告访问时间分布的规律往往不应该是正常访问造成的,一般情况下有效的点击或曝光数据应该是随机时间随机分布的。
还存在一种情景是用户访问广告跳转链接的时间非常短,比如大量访客点击广告后快速离站,或者跳转后的广告网站没有过任何点击行为且留存时间极短,这种行为均是广告访问时间异常。
当广告访问时间非常短或者分布非常规律时,可视为该广告存在作弊行为。
3.5广告访问地域异常:
一般情况下一个人所在的地域基本是固定的,如果某人在不同的地域同时出现或在短期内出现在距离比较远的省市也可以认为作弊。
地域识别可以基于gps和ip库两中方法获取,至于地域距离的计算涉及到的算法比较复杂所以简单粗暴一些可以考虑短期内出现在三个及以上的城市可以认为是异常。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 作弊 参考资料