加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

奥斯卡奖的Twitter数据挖掘展示惠普的实时分析工具

(2012-05-18 10:50:25)
标签:

奥斯卡奖

进行

惠普实验室

结构化数据

微博

meichun

hsu

惠普

it

分类: 科技创新
    编者按:从数量惊人社交化网络中发掘出人们究竟正在对某一特定主题讨论些什么,这绝对不是一件容易的事。在上次奥斯卡颁奖进行的过程中,惠普实验室的研究者们同来自惠普企业服务以及惠普数据分析公司,Vertica,的工程师们合作,进行了一次实时的项目演示,证明了这实际上是可行的。    

                               奥斯卡奖的Twitter数据挖掘展示惠普的实时分析工具  

    通常,如果企业想知道公众是怎么看待自己的,就需要进行昂贵的问卷调查,而且还要花上好几周的时间。
今天的人们在Facebook和Twitter之类的社会化网络上日以继夜地谈论各种事情,当然,也包括品牌。但是要想从数量惊人的内容中发掘出人们究竟正在对某一特定主题讨论些什么,这绝对不是一件容易的事,尤其是你又想根据这些去进行推理的话。
    然而,在上次奥斯卡颁奖进行的过程中,惠普实验室的研究者们同来自惠普企业服务以及惠普数据分析公司,Vertica,的工程师们合作,进行了一次实时的项目演示,证明了这实际上是可行的。惠普同一家领先的全球市场推广企业Organic一起合作开发了“奖项计数器”。其中还使用了惠普实验室开发的语言处理软件以分析微博内容。
    在奥斯卡奖颁奖典礼进行过程中,“奖项计数器”这个专门为奥斯卡奖设计的项目在Twitter上进行了关于获奖者的分析。 结果显示,奥斯卡奖评审委员会的决定和公众意见在八个主要奖项中有五个是相同的:最佳影片、最佳女演员、最佳男配角、最佳女配角以及最佳原创剧本,但是大众并不认同委员会选出的最佳导演、最佳男演员以及最佳动画片。
    在惠普信息分析实验室负责实时分析项目的 研究员Meichun Hsu认为,这个项目有趣的一点是对海量非结构数据进行了分析。 

                          奥斯卡奖的Twitter数据挖掘展示惠普的实时分析工具

    在这个项目中,最大的挑战源自每秒要分析数千条微博,并将其转化为清晰的数据点:每个数据点都精确地记录了不同微博所表达的不同意见,而这一切都必须实时完成。类似“我喜欢#最佳演员”这样的微博会被记录为支持意见,而另外一条微博所说的“最佳演员:我不喜欢”则会被翻译为反对意见。
    Hsu说,就传统而言,企业级数据分析关心的只是有控制的、高度结构化的数据,例如销售订单、发货信息以及经销商报告等。她说:“但是,有大量的非结构化的数据我们想进行量化,从微博到在线点评,到照片、传感器数据、博客、搜索引擎的返回结果以及移动应用等等。我们想在它们发布的同时就进行分析。”
通过类似“奖项计数器”这类应用对于顾客感受进行评估,可以为企业带来珍贵的额外几周或几个月的反应时间来处理市场事宜。Hsu说, 从各个方面来说,企业都需要把实时反馈纳入考虑范畴。
她说:“我们很感兴趣的是,在例如资源业、银行业、卫生行业以及零售业的各种不同行业中,如何对于这类数据进行收集、存储以及实时分析。”
    她的团队有一个远期目标,也是另外一个对于奥斯卡相关微博进行分析的主要推理,在于能够将从社会化媒体、博客、传感器等地方收集到的非结构化数据,与企业内部的结构化数据进行融合(即“奖项计数器”对于奥斯卡奖评审委员会的投票分析)。
    Hsu说:“我们的研究包括两个方面,一是这些新的数据集能够帮助我们发现什么东西,二是需要什么样的基础架构来完成这些事情。”
    Hsu和她的同事们预计,如果能够融合这两类数据类型,将改变我们管理企业资源、环境及产出的方式。
Hsu补充道:“我们所感兴趣的数据非常大,它产生的速度非常快,而且涵盖所有方面。它同时于企业内部及外部产生。我们希望能够找到在数据产生的同时就进行分析的机会,这样就可以以非常有用的方式提醒人们。”


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有