博客反垃圾应用
(2011-09-23 09:20:00)
标签:
博客反垃圾应用杂谈 |
1 发表评论,只要是上了博客前页的文章的评论中总是会看到卖手表,卖茶叶的信息,而且各式各样,大小写,特殊符号等混杂,引导用户访问广告网址
2 给对方发广告的纸条
3 留脚印,让别人回访,用一些美女或是尺度大的图片做为头像以吸引其他用户的注意力
1 同一用户单位时间内发布的信息不大,但分布均匀,累积量大,
2 有N 多的用户发同样的信息,
3 机器人自动操作,
4 多数发生在下半夜。
根据拉斯维尔的5W传播理论 Who says What in Which channel to Whom with What effect.(即:传播者-说什么讯息-通过什么媒介-对谁说-产生什么效果)
目前主要是从三大方面,对前面的4个W进行限制,以达到限制甚至断绝其不良信息的传播(影响第5个W)
WHO: 从用户的行为上进行限制
WHAT:从内容上进行限制
HOW(in which channel):在产品技术层面,减少漏洞,发玩漏洞及时的更新
WHOM: 以各种方式提醒用户,提高警惕,不要相信非官方的中奖,推广等信息
主要从发布信息的频次上进行限制,单位时间内对UID ,IP 某种操作的行为进行分析,主要有经过了以下的几个改进的过程:
1 在固定的时间内扫一次用户的操作行为,是否违反了既定的规则,如:在10分钟一个UID只能发5篇博文,程序每隔10分钟扫一次在这十分钟内有进行操作的用户,计算期频次,超过最高的限制则在N个小时内不让该UID做同样的操作,
优点:操作简单,
缺点:由于恶意用户会有许多帐号,知道这个规律后找到扫描时间点,在区间内大量的进行相关的操作,就算后面的连续时间内被限制也不管,可以换个号继续操作
这种方式,显示恶意用户只能以最长时间频次量来发信息,这样大大减少了发布恶意信息的量。
每个恶意用户都会不断地尝试错误地试着阀值,然后在阀值允许的范围内进行连续的恶意操作,对于这种也没有更好的办法,只能加强限制,但对正常的用户又要做到最小的限制。在第4条的阀值的基础上将阀值再向下降一降,不再一刀切的方式,比如:单位时间允许操作50次,现在将最低阀值将到30次,那么当前的频次小于30的时候,是不会被限制的,但大于30后就有概率被限制,公式为
X=
(当前的频次 -
最小阀值)/(最大阀值
-
最小阀值),
那么当前频次的被限制的概率Y=
f(X),
如:最简单的f(x)
= x,
这种线性的,目前采用的的是f(x)
= x*x
关键字的过滤:
将带有相关不合法的关键字的内容进行过滤,对词汇的出现地频次进行统计,自动形成某个UID的过滤词,
1 分析机器人自动发的请求特点,一般来说,简单的机器人程序里不会带上referer,,还有从http协议 方面查找机器人请求与浏览器请求的异同点,拒绝不符合规则的请求
3 堵住广告的出口:如博客允许自定义栏目,允许自编写html,这时就发现有恶意用户用踩脚印的方式进行推广,进入他的页面后,页面就会自动的弹出两个页面,影响极其的恶劣,经追查为自定义了一个falsh,而这个flash会进行弹窗操作。最后修改自义组件的代码,碰到定义flash 的,禁止falsh弹窗(在用户自定义的html代码中加入代码),然后恶意 用户就没有进行踩脚印的推广工作了,