标签:
杂谈 |
http://ww3/large/54eb5d52jw1f1g9az0dgwj20hs0qogry.jpg
近日,数说故事发布了国内第一款互联网大数据API:数说聚合,为企业提供统一的互联网数据源获取接口。
http://ww3/large/54eb5d52jw1f1g9bc2ryjj210q0gkdjl.jpg
大数据时代企业要想从数据中获得价值,就需要通过海量的数据挖掘,分析出隐藏在背后的用户行为习惯以及偏好,设计更符合用户需求的产品和服务。海量的数据获取是赢得价值的第一关键步骤。
伴随移动互联网的发展,消费者在“随时、随地、随心”的与网络的人机交互中产生了巨量数据,互联网数据具有丰富性、自发性、实时性、未知性、低成本等优势,为企业提供了丰富的资源。与此同时,互联网数据的获取具备一定的门槛:1)互联网以非结构化数据居多,每个数据源的内容、结构、格式都不相同,需要繁重的数据解析工作;2)网络存在大量无关的、无用的、干扰的“脏”数据,需要大量的数据清洗工作;3)成功的互联网爬虫还需要具备各项“黑科技”,包括代理IP、模拟登陆、验证码识别等;4)互联网面临快速的更新,需要持续投入保证数据获取系统的稳定性和可靠性。想要获取外部数据,企业需要拥有一支专业的爬虫工程师团队。
在数据产业链条上,企业应该将更多的精力放在数据的应用,以及内部数据的积累、沉淀和二次开发。对于大部分企业来说,建立并维护一支爬虫团队,是一件耗时、耗力、耗钱的事情。为此,数说故事推出国内首款互联网数据API——数说聚合,通过提供统一标准格式的数据接口,让企业快速拥有一站式的外部数据获取能力。
http://ww3/large/54eb5d52jw1f1g9bpw8r8j20fd0fddjx.jpg
数说聚合追求数据的实时性、全面性和一致性,提供以互联网上频繁更新的文本数据为主,特别是消费者留下的各种日记、留言、评论、回复。这部分数据的结构复杂、更新频率高、数据量大,获取的难度也是最大的。
实时性:数说聚合的底层是一个强大的分布式爬虫引擎,对不同的数据源可配置不同的抓取频率,最快实现分钟级的更新速度,以支持实时数据的需求。同时,系统也支持对特定时间段的历史数据回溯。目前,每日更新的数据量已经达PB级别。
全面性:数说聚合覆盖全网数据源,包括国内主流的新闻门户、社交、电商、点评、视频等类型的各大网站。为了保证多样化的分析需求,数说聚合提供了最细颗粒度的数据维度,包括内容、时间、热度等信息属性,也包括地区、年龄、性别等用户属性。
一致性:数说聚合制定了统一的数据规范,不同网站、平台与应用的数据将被输出为统一的格式,企业无需再进行繁复的数据解析工作。系统也配备语义分析支撑的垃圾过滤算法,自动过滤水军、僵尸等干扰数据,减轻企业的数据清洗工作。
据数说故事的负责人介绍,”数说聚合的口号是‘让爬虫工程师下岗’,而实际上我们产品的背后却是一支强大的爬虫团队,个个身怀绝技,不但熟悉各种分布式架构、数据清洗技术、NLP,还懂得各种各样的‘黑科技’,‘被下岗’的爬虫工程师,可以到DataStory来(笑)。”
“我们未来的方式是数据代理,而不是爬虫。”在数据链条和模式相对成熟的国外,有类似DataSift、GNIP的数据代理公司,为企业提供一站式的数据解决方案;而国内数据的拥有者和使用者之间的联系并未建立,数说聚合一方面解决企业端用数据的问题,另一方面也在帮助推动数据源的商业化。
目前,数说聚合1.0版本已经开放,用户只需登录数说聚合官网(http://api.datastory.com.cn/?dskid=aaa003)便可进行自助体验。如有数据服务需求的用户可直接联系数说故事(Tel 020-38468476,QQ 1722054484)。
除了“数说聚合“外,DataStory还有另外两款重量级的全流程数据产品:“数说立方“和”数说雷达“。数说立方是一款面向数据分析师的在线商业智能数据分析产品,为数据分析师提供全新的文本分析体验。数说雷达网罗互联网上关于一个企业、品牌的所有可见数据,帮助企业快速搭建外部大数据平台。这三款产品,从数据源、数据分析、到数据展示形成完整的闭环将为企业提供一站式的互联网数据快速解决方案。
http://ww2/large/54eb5d52jw1f1g9c1ieg5j20p00dw433.jpg
数说聚合体验tips:
点击阅读原文或扫描并识别图中二维码。
http://ww3/large/54eb5d52jw1f1g9cnd48lj20dw0dwt9t.jpg
数说故事是互联网 数据应用和服务提供商。拥有数说舆情、数说传播、数说口碑、数说风云等数据工具。
更多数据产品,数说聚合、数说立方、数说雷达等你来体验。
精彩数据报告,可视化、数据化、精彩度不定期放送。
长按二维码关注数说勾搭小编,等你关注。
http://ww2/large/54eb5d52jw1f1g9df7jbbj2076076aad.jpg
数说故事(微信号DataStory2015)