编者按:惠普实验室之前的几项研究显示出,通过对于历史记录的观察,可以预测Twitter上热点话题的兴衰曲线。在一项新的研究中,研究团队将这一预测能力更推进了一步,即在新闻发布前即可通过一项新技术预测它在Twitter上的受欢迎程度,准确率最高达到84%。

在一篇由Sitaram Asur、Roja Bandari和Bernardo
Huberman发表的《社交媒体的新闻脉搏:欢迎度预测》论文中,研究者们分析了2011年8月的其中9天内收集的超过4万篇新闻。
惠普实验室的研究进一步证实了一项发现,即新闻的来源是决定相关微博出现的最关键因素。但是随着社会化媒体的重要性不断增强,另外关键性的问题包括,用户在按下“转发”之前,是如何被影响到的,以及140字新闻的实质到底是什么。
系统如何运作
研究者们假定新闻的受欢迎度是由以下4个因素决定的:
·
创建及发布新闻的源头
·
新闻所处的类别(比如,商业、健康、体育等等)
·
新闻所使用的语言是感性的还是客观的
·
是否提及名人、知名品牌或其他知名机构
研究团队使用商业化工具在按照这四个方面为每篇新闻打分。例如,使用了Stanford Named Entity
Recognizer来识别文字中的人名及公司名,以及个人及公司在Twitter上的表现来决定分值。
最后,对于每篇新闻所获得的微博发布数量,使用了标准统计模型进行计算。
(关于研究方法论的具体细节,请阅读研究全文)
研究结果、局限及未来研究方向
模型对于一篇新闻能否被在微博上发布多次的预测准确性相当高。在很多地方,该模型都验证了一些编辑常识,例如提及名人的文章、从可信来源发布的文章以及属于比较热门类别的文章(比如:科技),更容易在微博上得到发布。HP软件自动化预测的准确程度是研究者们所没有预计到的。
有趣的是,文章所使用的是感性或是客观的语言,对于该文章在Twitter上的传播所起到的影响是非常小的。也就是说,“标题党”或是偏激的文字并不会获得比客观的报道获得更多的Twitter传播。
惠普高级研究人员、该研究的共同作者Bernardo
Huberman说:“我们创建的工具对于希望在Twitter上增加新闻传播率的新闻机构很有用,但不仅限于此,比如活动家或者政治家正在加大对于社会化媒体的使用来影响公众意见。通过使用我们的算法来测试他们要发布的信息,他们也许可以提高他们所发布信息的可视度。”
Huberman还谈到说,记者可能会用一项算法分析来取代编辑,但是这样做仅仅能提升微博的转播量而放弃了其他的方便,他说:“社交媒体在大众中的重要性正在不断增加,但是这不是唯一的信息载体。”
实际上,惠普实验室过去的研究曾经证明在Twitter上,影响力与受关注程度并不是一回事。希望惠普实验室的这些出色想法在未来能够整合进影响力算法,从而更准确地评估注意力经济学。
论文原文地址:http://www.slideshare.net/hewlettpackard/the-pulse-of
原文地址:http://h30507.www3.hp.com/t5/Data-Central/HP-Labs-study-forecasts-the-popularity-of-news-articles-on/ba-p/106789
加载中,请稍候......