| 标签: 惠普数据分析it | 
由科学分析社交媒体网站用户生成的数据,具有改变世界的潜力。通过了解活动模式,不论是商业活动还是教育发展,对于社交网站用户的分析能够影响并改善社会活动的方方面面。
但因为社交网络用户数据并不对外公开,因此同行互审这样的科学流程将有可能中断,这样可能导致令人困扰的后果。
在著名科学刊物《自然》载文讨论这个问题时,惠普实验室社交计算研究组主任伯纳多•休伯曼 (Bernardo
Huberman)对这一现状发表评论并表示,“对于正在发表的许多基于海量数据结果的研究员并不能像来自项目内的研究人员一样对海量数据进行访问”
他表示,“更糟糕的是,在一些情况下,数据源本身保持隐藏状态,不仅引起核实问题,还将影响由数据所得到结果的广泛接受程度。”
(值得注意的是,休伯曼提及的“专有”应解读为“某公司所有”,而非“私人的个人信息”。关键是,一些理论坚实的、能够使用的数据通过聚合以及匿名的方式出现,而不是通过单一形式由具体个人提供。)
休伯曼博士还表示:
更重要的是,我们必须认识到,,因为许多其他数据也能起到相同的作用,因此只有当一些结果具有被广泛认同时它们才真正有意义。实际上,这揭示更深层次的问题:如果另一数据集不能验证是从专有数据中获得的结果,我们如何知道结果具有普遍性或者是作者得到的错误结果?
基于从不同服务类型的社交网站(例如
Twitter、YouTube、Digg、Wikipedia 和
Gnutella)获得的公开数据,休伯曼和惠普实验室社交计算研究组已发表数十篇科研实验论文。
阅读全文:
很多社会科学、信息科学研究学者通过本刊已经重点报道和讨论过网络所具有互动的特性,“互动”为他们提供了很多研究机会。当研究人员和商业人士访问大型服务(例如
Twitter、Facebook 和 Google)收集的庞大数据库时,操作有限数据集时难以识别的模式变得清晰起来。
但是,这些研究大多存在严重问题。正如莱文兹 (Ravetz)
最近在本刊反复重申(《自然》第 481 卷第 25  页(2012
年)),科学具有其独特之处,同行评审、出版和复制对科学进步至关重要。然而,对于正在发表的许多基于海量数据结果的研究员并不能像来自项目内的研究人员一样对海量数据进行访问。甚至更糟糕的是,在一些情况下,数据源本身保持隐藏状态,不仅引起核实问题,还影响结果的普遍性。在理想状态下,人们希望作者共享数据,至少其他人可以访问这些数据源、核实研究结果。数据分享以及开源地允许研究数据被他人研究及核查的方式在物理和生物学科学研究领域都已成为是普遍认同的惯例。 
更重要的是,我们必须认识到,因为许多其他数据也能起到相同的作用,因此只有当一些结论数据被广泛认同时它们才真正有意义。实际上,这揭示更深层次的问题。如果另一数据集不能验证从专有数据中获得的结果,我们如何知道结果具有普遍性或者是作者得到的错误结果?此外,正如许多社交网络研究人员开始发现,许多研究结果正变成“奇幻百宝箱”的一部分,不但研究结果缺乏普遍性并且其难以论证。
除可能存在欺骗之外,如果该趋势继续延续下去,那么我们将看到,可访问专有数据库的一小群科学家在学术圈内享受不公平的成就,而代价是同样杰出的研究人员,他们的唯一缺陷是缺乏合适的专有数据“连接”(关系)。
伯纳多•A•休伯曼 (Bernardo A.
Huberman)
社交计算研究组主任
惠普实验室
编者注:若要了解新主题的其他分析,请访问读写网 (Read/Write
Web) 阅读马歇尔•柯克帕特里克 (Marshall Kirkpatrick) 的“为什么 Facebook 的数据共享很重要”。

 加载中…
加载中…