加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

博客反垃圾应用

(2011-09-23 09:20:00)
标签:

博客

反垃圾

应用

杂谈

 

作者:雷平
    随着互联网的快速发展,每个人都成为一个个的媒体,自媒体也就应运而生,但在信息的传播中,总有那么一些人大量的评论,发博文,踩脚印,发纸条等手段以达到进行广告宣传,传播有害思想,低俗文化的目的,我们称这些信息为垃圾信息。本文将以博客的反垃圾为例,介绍下如何防止恶意用户大量的发垃圾信息。

 垃圾信息产生的的主要途径:

1 发表评论,只要是上了博客前页的文章的评论中总是会看到卖手表,卖茶叶的信息,而且各式各样,大小写,特殊符号等混杂,引导用户访问广告网址

2 给对方发广告的纸条

3 留脚印,让别人回访,用一些美女或是尺度大的图片做为头像以吸引其他用户的注意力

 还有一些其他的诸如加好友,点收藏,转载等,进行这些操作时,系统会给对方发一个系统消息 ,对方可能就会回访。

 其中危害最大以留脚印为最,打开博客,然后发现全是淘宝广告或不良信息,影响用户使用。

 垃圾信息的特点:

1 同一用户单位时间内发布的信息不大,但分布均匀,累积量大,

2 N 多的用户发同样的信息,

3 机器人自动操作,

4 多数发生在下半夜。

 解决垃圾信息的途径:

根据拉斯维尔的5W传播理论 Who says What in Which channel to Whom with What effect.(即:传播者-说什么讯息-通过什么媒介-对谁说-产生什么效果)

目前主要是从三大方面,对前面的4W进行限制,以达到限制甚至断绝其不良信息的传播(影响第5W

WHO: 从用户的行为上进行限制

WHAT:从内容上进行限制

HOWin which channel:在产品技术层面,减少漏洞,发玩漏洞及时的更新

WHOM 以各种方式提醒用户,提高警惕,不要相信非官方的中奖,推广等信息

 在行为上:

主要从发布信息的频次上进行限制,单位时间内对UID ,IP 某种操作的行为进行分析,主要有经过了以下的几个改进的过程:

1 在固定的时间内扫一次用户的操作行为,是否违反了既定的规则,如:在10分钟一个UID只能发5篇博文,程序每隔10分钟扫一次在这十分钟内有进行操作的用户,计算期频次,超过最高的限制则在N个小时内不让该UID做同样的操作,

优点:操作简单,

缺点:由于恶意用户会有许多帐号,知道这个规律后找到扫描时间点,在区间内大量的进行相关的操作,就算后面的连续时间内被限制也不管,可以换个号继续操作

 2 固定的时间内进行实时的限制,只要频次达到阀值就直接限制,这种方法改进了单位时间内进行大量恶意操作的可能,但恶意用户如果哈好是在时间交界点的左右区间内进行操作,限制的的效果就相对差了,还是以上面为的发博文为例,假设扫描的整点时间为整10分,如果一个用户在10分以前发了4条,然后再发5条才会被限制,这时就和初衷有所差别,相当于多放了4条没有限制住

 3 实时记时,单一时间策略:以第一次操作做为记时点来记时,以自己为参照,不再在统一时间内进行用户的行为扫描工作。

 前面的三种策略方式如果碰到细水长流型的恶意用户就,比如每个单位时间内就只进行阀值规定的操作,绝不触犯规则,那么限制的效果就会大大的降低

 4 实时记时,多时间策略,还是以发博为例,进行两种计时的操作,如10分钟发允许最大5条,但半小时 只允许20条,采用这种混合的策略方式,针对细水长流型再一次做了限制。

这种方式,显示恶意用户只能以最长时间频次量来发信息,这样大大减少了发布恶意信息的量。

 5 实时记时,多时间策略,概率阀值:

每个恶意用户都会不断地尝试错误地试着阀值,然后在阀值允许的范围内进行连续的恶意操作,对于这种也没有更好的办法,只能加强限制,但对正常的用户又要做到最小的限制。在第4条的阀值的基础上将阀值再向下降一降,不再一刀切的方式,比如:单位时间允许操作50次,现在将最低阀值将到30次,那么当前的频次小于30的时候,是不会被限制的,但大于30后就有概率被限制,公式为 X= (当前的频次 - 最小阀值)/(最大阀值 - 最小阀值) 那么当前频次的被限制的概率Y= f(X), 如:最简单的f(x) = x, 这种线性的,目前采用的的是f(x) = x*x  的策略

 6 。。。 。。。 策略不断的根据用户的变化,相应地进行调整

 在内容上:

关键字的过滤:

将带有相关不合法的关键字的内容进行过滤,对词汇的出现地频次进行统计,自动形成某个UID的过滤词,

 链接的过滤等,普通链接会有google的等合作方的恶意链接库进行比对,目前一个新的情况是,恶意用户通过短链的形式发布链接,同样一个链接通过不同的短链服务商就会出现不同的短链接,对于短链就得先换算为长链接,然后再比对,增加了难度与成本

 产品开发层面:

1 分析机器人自动发的请求特点,一般来说,简单的机器人程序里不会带上referer,,还有从http协议 方面查找机器人请求与浏览器请求的异同点,拒绝不符合规则的请求

 2 加强参数的检测,如添加脚印的接口中,没有将被被踩的人的uid进行加密等处理,机器人就非常容易的模仿进行访问,或者加入与uid相关的检测参数,如双方约定再加上一个确定是否正确的请求的参数,如双方约定,这个参数为 md5($uid_Ymd_某个字符串)的值,在服务器端再匹配一次是否正确,而恶意用户要猜出字符组合方式,得比较长时间,有效的阻止了恶意操作

3 堵住广告的出口:如博客允许自定义栏目,允许自编写html,这时就发现有恶意用户用踩脚印的方式进行推广,进入他的页面后,页面就会自动的弹出两个页面,影响极其的恶劣,经追查为自定义了一个falsh,而这个flash会进行弹窗操作。最后修改自义组件的代码,碰到定义flash 的,禁止falsh弹窗(在用户自定义的html代码中加入代码),然后恶意 用户就没有进行踩脚印的推广工作了,

 总的来说,反垃圾是个长期而艰巨的任务,需要及时地发现新情况,做出对应的应对方案,还需要各部门的配合,有一个安定和谐的网络环境。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有