标签:
微软hotmailsmartscreen筛选器垃圾邮件灰色邮件新闻通讯it |
分类: 我Social——WindowsLive |
编者按:微软Hotmail团队在不断“训练”SmartScreen邮件筛选器,使它不仅能自动识别垃圾邮件,而且还能自动识别类似新闻通讯的灰色邮件,进而帮助用户屏蔽垃圾邮件和管理灰色邮件。
作者:Dick Craddock,Hotmail项目经理
SmartScreen是Hotmail所使用的邮件筛选器,如今它不仅用于反垃圾邮件,其最新版本每天能够自动识别10亿多条新闻通讯。通常新闻通讯会占用户收件箱中全部邮件的四分之一,如果系统能对它们进行自动分类,那将会为用户节省大量时间。本文将谈一谈Hotmail如何“训练”SmartScreen筛选器,使它不仅能自动识别垃圾邮件,而且还能自动识别类似新闻通讯的灰色邮件,进而帮助用户屏蔽垃圾邮件和管理灰色邮件。
用户收件箱中垃圾邮件的比例最高可能达30%,作为Hotmail的产品团队,我们的目标非常明确——尽管“敌人”很狡猾,但它终将逃不过我们的眼睛。一直以来,微软Hotmail团队在SmartScreen筛选器上投入巨资,并成功地把垃圾邮件的比例降到了历史最低点——不到3%。
随着收件箱中垃圾邮件比例的下降,用户已经可以轻松对其进行管理,此时微软Hotmail团队开始观察收件箱中的其余内容,发现着实令人感到非常惊讶。
一般来说,可以很容易判断哪些是正常的人际沟通邮件,也较容易自动识别出试图逃过筛选器的垃圾邮件。至于其他的大部分内容,我们称之为灰色邮件;在考虑如何处理灰色邮件时,有一点是很明确的——最根本的问题不仅仅在于“接收,还是拒收”,与那些“人人都想除之而后快”的垃圾邮件不同,对于灰色邮件,人们的态度一直莫衷一是。
微软Hotmail团队认为,解决办法在于提供一套特定功能来帮助用户管理灰色邮件。至今,Hotmail已经推出了多种功能强大的新工具,包括“整理”、“计划清理”、“特别的邮件分类查看方式”以及其他一些强大的功能让用户重新自如掌控邮箱。
然而,无论这些工具有多么“酷”,它们都需要不断维护才能保持最新版本,而且需要用户自己指定需要管理的邮件。用户已经够忙碌了,所以微软Hotmail团队希望能够利用SmartScreen筛选器为您分担得更多。
灰色邮件的自动分类
微软Hotmail团队的基本思路是,在用户看到灰色邮件之前就对它们的所属类型加以判断,并在必要时对这些邮件采取特定的行动。本质上来说,这并不是一个全新的概念。SmartScreen筛选器已经能够对邮件进行分类,对垃圾邮件和恶意邮件进行标记,并告知邮件传递系统该如何处理此类邮件。
例如,基于特定邮件所带来的威胁,SmartScreen筛选器可能选择:
- 将来自陌生人的邮件放入您的收件箱,让您来决定是否要查看完整的邮件。
- 标记为垃圾邮件,并将它转移至垃圾邮件文件夹。
- 拒绝接收包含危险代码的邮件,或来自已知不良发件人的邮件。
微软Hotmail团队从对抗垃圾邮件的努力中积累了很多经验——既然已经有这些基础功能,为何不主动运用这些经验教训以及新型工具来管理灰色邮件呢?通过对灰色邮件进行自动分类,Hotmail可以更有效地运用“整理”、“计划清理”以及其他很“酷”的新工具。但最大的问题是,该从哪里开始呢?
微软Hotmail团队仔细观察了收件箱中高达82%的灰色邮件内容,发现了几个显著特点。在过去几年间,社交网络已经成为每个人生活的重要组成部分,与Facebook、Twitter或其他流行网站相关的电子邮件通知也相应地成为人们收件箱中的很大一部分内容。所幸地是,在此类邮件中,常见的发件人都是知名且不会经常变化的,因而很容易分类,所以上一个版本的Hotmail更新中提供了“社交网络更新信息”(Social
Updates)视图。
然而,更大的麻烦在后头——在一些用户的收件箱中,还有一类常见而琐碎的邮件占到了总量的50%,足以让社交网络更新类邮件相形见拙!
一般而言,人们的收件箱中每天都充斥着各种来自数千家零售商、俱乐部、社团和学校的邮件,或是来自商家的各色代金券、优惠信息、通知等,它们大谈特谈那些值得购买、观赏或尝试的产品和服务。微软Hotmail团队将这类灰色邮件称为新闻通讯。
新闻通讯与来自Facebook或Twitter的通知不同,后者总是来自相同的地址,格式始终一致,而且其中大部分邮件包含着相同的内容。新闻通讯则可称得上是千差万别——任何人都可以发送新闻通讯,而新闻通讯则可能包含任何格式或内容。
为了应对这种多样性,需要采取与“社交网络更新信息”不同的处理方法。而且,由于多样性是其他类别合法垃圾邮件的共同特征,微软Hotmail团队希望设计一些能够超越新闻通讯的功能。
打造新闻通讯筛选器
为了让Hotmail
SmartScreen筛选器能够自动识别新闻通讯,Hotmail团队着手编制一个新闻通讯特点列表,并开发了一款软件,将新闻通讯从收到的邮件中抽取出来。这个列表模型可以将新闻通讯和其他邮件区别开来,它是从三个方面加以判断:用于退出群发列表的信头、发送方电子邮件地址以及向用户显示的内容。
有了这个关于“何为新闻通讯”的明确界定,微软Hotmail团队进而创建了一个由大约10,000封邮件组成的参考集,其中包括认定的新闻通讯和非新闻通讯。不妨把这个参考集看成对新闻通讯筛选器的测试,其性能取决于它自动识别新闻通讯的准确率。
微软Hotmail团队使用了一种被称为机器学习的技术,建立了一个系统,对模型加以培训和调整,直到它能够可靠地检测参考其中的绝大部分新闻通讯。由于参考集是建立在完全随机抽样的基础上,用它进行测试所得出的筛选器性能将非常近似于筛选器在真实世界中的表现。微软Hotmail团队完成了对参考集中绝大部分新闻通讯的监测测试后,于2011年9月开始了一项内部试点”。
内部测试
内部测试
在试验过程中,微软Hotmail团队的成员用自己的真实电子邮件帐户来测试新软件,这对于筛选器问题的发现和修正至关重要。我们为测试用户提供了一个用于报告漏判或错判新闻通讯情况的渠道——对于那些偶尔逃过筛选器的垃圾邮件,Hotmail也是这样做的。
例如,早前微软Hotmail团队发现的一个主要问题是,金融服务企业往往会从同一个域名发送邮件,虽然它们可能不是新闻通讯,却常常大量使用与新闻通讯非常相似的刻板语言。微软Hotmail团队决定训练新闻通讯筛选器忽略掉这些邮件——最好别碰它们,以免错误地过滤掉重要的银行账单。
实效如何?
一般情况下,垃圾邮件发送者喜欢不分青红皂白,从来不会费脑子想想是否应该向用户发送成堆的邮件,推销劳力士手表、低息贷款或各种药品。每个人都会收到这些大同小异的垃圾邮件。至于灰色邮件,有意思的是,它们具备“日积月累”的特点,灰色邮件的多少几乎完全取决于用户的管理活动,所以每个收件箱的情况都是不同的。
微软Hotmail团队所设计的新闻通讯筛选器对一般用户的收件箱都是行之有效的:它能在大多数情况下正确自动识别新闻通讯。但这并不意味着我们制定的目标不高,让我们来看看数据:大多数新闻通讯是在工作日发出的,每天大约发送15亿封新闻通讯;送达Hotmail服务器的所有电子邮件中,新闻通讯占了一半左右,意味着一般用户的收件箱中73%的邮件都是新闻通讯(占全部电子邮件中的36%),如果我们的筛选器认定一封邮件属于新闻通讯,其正确概率为97%。
这个过滤步骤正确与否,决定了您能否快速过滤或扫描灰色邮件,成功的过滤意味着您可以花更多时间阅读和回复电子邮件,而不是重新整理它们。
此外,您还可以使用Hotmail的分类工具来更改邮件分类,例如将邮件标记为新闻通讯,或取消上述标记,新闻通讯筛选器也会从反馈信息中加以学习,这样就能避免过去的错误,并且始终跟踪新出现的新闻通讯。这意味着为处理新闻通讯而制定的规则不仅适用于原有新闻通讯,而且还适用于重新定义新闻通讯处理规则之后才出现的新闻通讯。这正是SmartScreen筛选器的绝妙之处——能够从用户处置新闻通讯的做法中学习。随着筛选器越变越聪明,每个用户都将从中受益!
下一步怎么办?
随着所有的用户都用上了新闻通讯筛选器,微软Hotmail团队也将继续添加新的类别和功能,让您最大限度地受益于此。微软Hotmail团队还在研究如何更有效地呈现和管理通过电子邮件发送的银钱收据、银行对账单等。希望未来可以谈谈如何让人们收件箱内的灰色邮件比例达到新的历史低点!再次感谢您选择Hotmail!