博客反垃圾应用_新浪研发中心

http://blog.sina.com.cn/u/1345096900

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

博客反垃圾应用

(2011-09-23 09:20:00)

标签：

博客

反垃圾

应用

杂谈

作者：雷平

随着互联网的快速发展，每个人都成为一个个的媒体，自媒体也就应运而生，但在信息的传播中，总有那么一些人大量的评论，发博文，踩脚印，发纸条等手段以达到进行广告宣传，传播有害思想，低俗文化的目的，我们称这些信息为垃圾信息。本文将以博客的反垃圾为例，介绍下如何防止恶意用户大量的发垃圾信息。

垃圾信息产生的的主要途径：

1 发表评论，只要是上了博客前页的文章的评论中总是会看到卖手表，卖茶叶的信息，而且各式各样，大小写，特殊符号等混杂，引导用户访问广告网址

2 给对方发广告的纸条

3 留脚印，让别人回访，用一些美女或是尺度大的图片做为头像以吸引其他用户的注意力

还有一些其他的诸如加好友，点收藏，转载等，进行这些操作时，系统会给对方发一个系统消息，对方可能就会回访。

其中危害最大以留脚印为最，打开博客，然后发现全是淘宝广告或不良信息，影响用户使用。

垃圾信息的特点：

1 同一用户单位时间内发布的信息不大，但分布均匀，累积量大，

2 有N 多的用户发同样的信息，

3 机器人自动操作，

4 多数发生在下半夜。

解决垃圾信息的途径：

根据拉斯维尔的5W传播理论 Who says What in Which channel to Whom with What effect.（即：传播者-说什么讯息-通过什么媒介-对谁说-产生什么效果）

目前主要是从三大方面，对前面的4个W进行限制，以达到限制甚至断绝其不良信息的传播（影响第5个W）

WHO：　从用户的行为上进行限制

WHAT：从内容上进行限制

HOW（in which channel）:在产品技术层面，减少漏洞，发玩漏洞及时的更新

WHOM：以各种方式提醒用户，提高警惕，不要相信非官方的中奖，推广等信息

在行为上：

主要从发布信息的频次上进行限制，单位时间内对UID ,IP 某种操作的行为进行分析，主要有经过了以下的几个改进的过程：

1 在固定的时间内扫一次用户的操作行为，是否违反了既定的规则，如：在10分钟一个UID只能发5篇博文，程序每隔10分钟扫一次在这十分钟内有进行操作的用户，计算期频次，超过最高的限制则在N个小时内不让该UID做同样的操作，

优点：操作简单，

缺点：由于恶意用户会有许多帐号，知道这个规律后找到扫描时间点，在区间内大量的进行相关的操作，就算后面的连续时间内被限制也不管，可以换个号继续操作

2 固定的时间内进行实时的限制，只要频次达到阀值就直接限制，这种方法改进了单位时间内进行大量恶意操作的可能，但恶意用户如果哈好是在时间交界点的左右区间内进行操作，限制的的效果就相对差了，还是以上面为的发博文为例，假设扫描的整点时间为整10分，如果一个用户在10分以前发了4条，然后再发5条才会被限制，这时就和初衷有所差别，相当于多放了4条没有限制住

3 实时记时，单一时间策略：以第一次操作做为记时点来记时，以自己为参照，不再在统一时间内进行用户的行为扫描工作。

前面的三种策略方式如果碰到细水长流型的恶意用户就，比如每个单位时间内就只进行阀值规定的操作，绝不触犯规则，那么限制的效果就会大大的降低

4 实时记时，多时间策略，还是以发博为例，进行两种计时的操作，如10分钟发允许最大5条，但半小时只允许20条，采用这种混合的策略方式，针对细水长流型再一次做了限制。

这种方式，显示恶意用户只能以最长时间频次量来发信息，这样大大减少了发布恶意信息的量。

5 实时记时，多时间策略，概率阀值：

每个恶意用户都会不断地尝试错误地试着阀值，然后在阀值允许的范围内进行连续的恶意操作，对于这种也没有更好的办法，只能加强限制，但对正常的用户又要做到最小的限制。在第4条的阀值的基础上将阀值再向下降一降，不再一刀切的方式，比如：单位时间允许操作50次，现在将最低阀值将到30次，那么当前的频次小于30的时候，是不会被限制的，但大于30后就有概率被限制，公式为 X= （当前的频次 - 最小阀值）/(最大阀值 - 最小阀值)，那么当前频次的被限制的概率Y= f(X), 如：最简单的f(x) = x, 这种线性的，目前采用的的是f(x) = x*x 的策略

6 。。。。。。策略不断的根据用户的变化，相应地进行调整

在内容上：

关键字的过滤：

将带有相关不合法的关键字的内容进行过滤，对词汇的出现地频次进行统计，自动形成某个UID的过滤词，

链接的过滤等，普通链接会有google的等合作方的恶意链接库进行比对，目前一个新的情况是，恶意用户通过短链的形式发布链接，同样一个链接通过不同的短链服务商就会出现不同的短链接，对于短链就得先换算为长链接，然后再比对，增加了难度与成本

产品开发层面：

1 分析机器人自动发的请求特点，一般来说，简单的机器人程序里不会带上referer,,还有从http协议方面查找机器人请求与浏览器请求的异同点，拒绝不符合规则的请求

2 加强参数的检测，如添加脚印的接口中，没有将被被踩的人的uid进行加密等处理，机器人就非常容易的模仿进行访问，或者加入与uid相关的检测参数，如双方约定再加上一个确定是否正确的请求的参数，如双方约定，这个参数为 md5($uid_Ymd_某个字符串)的值，在服务器端再匹配一次是否正确，而恶意用户要猜出字符组合方式，得比较长时间，有效的阻止了恶意操作

3 堵住广告的出口：如博客允许自定义栏目，允许自编写html，这时就发现有恶意用户用踩脚印的方式进行推广，进入他的页面后，页面就会自动的弹出两个页面，影响极其的恶劣，经追查为自定义了一个falsh，而这个flash会进行弹窗操作。最后修改自义组件的代码，碰到定义flash 的，禁止falsh弹窗（在用户自定义的html代码中加入代码），然后恶意用户就没有进行踩脚印的推广工作了，

总的来说，反垃圾是个长期而艰巨的任务，需要及时地发现新情况，做出对应的应对方案，还需要各部门的配合，有一个安定和谐的网络环境。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：负载均衡HTTP响应码解析

后一篇：传说中的胡辣汤

新浪BLOG意见反馈留言板　欢迎批评指正