加载中…
个人资料
eBay
eBay 新浪机构认证
  • 博客等级:
  • 博客积分:0
  • 博客访问:14,292
  • 关注人气:238
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

应对大数据,eBay构建三层数据业务平台

(2014-08-28 15:49:16)
标签:

ebay

应对大数据,eBay构建三层数据业务平台

作为全球最大电子商务平台之一,为了提供各种交易数据以及用户行为分析,eBay数据库系统每天需要处理100PB的数据(其中包括50TB的机器数据),进行5千多项商业分析。如何储存和分析巨量数据,并使之转化为企业的有效信息和盈利能力,是eBay面临的挑战。对此,eBay已做好准备。

 

作为交易市场,eBay的首要任务就是让用户,无论是销售商还是消费者,都能获得满意的体验。这也是大数据技术应用的目标。通过传统企业数据仓库(EDW)、被称为Singularity的客户数据仓库以及分布式系统基础架构Hadoop集群三层数据业务平台,eBay实现了对网站信息的情感分析、网络分析和图片分析功能。以此为基础,eBay得以持续提升用户体验,促进网站交易。

 

致力于提升用户体验

 

eBay拥有1.45亿活跃用户、数以百万计的在线商品以及每秒钟上万美元的交易额,每天都会产生巨量交易数据。但是,与网站分析数据相比,这只是冰山一角。

 

eBay的网站分析无所不至,就像在每个顾客前面安装了摄像头一般,整个网站平均每月产生1亿小时的录像。 eBay全球业务分析负责人David Stephenson将其称之为“客户的足迹”。它可以鲜明地告诉工作人员谁来过他们的网站,都做了些什么。

 

细致的网站分析为数据管理带来挑战。Stephenson坦言:“谁也没有办法每月处理1亿小时的数据。”因此,明确处理数据的核心目标是有效管理海量数据的先决条件。

 

日前在伦敦举行的Gartner CRM高峰论坛上,Stephenson做了演讲,他表示,“我们做网站的目的很简单,就是要让交易成功。”这意味着,eBay进行数据分析与管理的核心目标在于,通过持续提升用户体验,使销售商与消费者更安全、简便、快捷地实现在线交易。

 

更好地理解客户是持续提升用户体验的关键。Stephenson希望能够将小商铺的个性化推荐成功运用到面向全球的eBay网站上。他表示:“在小商店,理解客户很重要。店主需要提供个性化的推荐、了解客户偏好、从客户身上不断学习。”

 

对网站信息进行情感分析、网络分析和图片分析能够有效了解客户偏好与潜在需求、把握用户的行为模式,是理解客户的最佳方式之一。因此,在构建大数据处理系统时,除了传统交易性数据库,eBay同时注重网站用户行为分析数据库以及原始用户行为数据库的建设。

 

三层平台,全方位分析用户行为

 

目前,eBay已经形成由传统企业数据仓库(下称EDW)、客户数据仓库Singularity、分布式系统基础架构Hadoop集群三个数据业务平台组成的大数据处理系统。EDW用来存储结构化交易数据;Singularity用来存储半结构化数据(如网站用户行为分析);Hadoop则用来处理非结构化数据,其中包括原始用户行为数据、其他形式的机器生成信息和文本数据等。

 

其中,Teradata公司提供的EDW是大数据系统有效运行的基础。Stephenson表示:“核心交易系统必须具有极高的稳定性。我们每天要处理50TB的数据,系统绝对不能停机。”

 

eBay2002年搭建了13TBTeradata企业数据仓库,提供高效的大规模并行关系型数据库。截止到目前,该数据库系统构建在上千个节点上,数据量已经增长到14PB

 

关于用户行为数据,有限的数据处理能力使eBay曾经只能够保留1%的样本,其余全部扔掉。这其实是企业面临的一个困境:究竟应该扔掉一部分数据,还是把所有数据都保存。Stephenson表示:“对于客户行为数据,我们希望能够通过大数据方法将其保留。”

 

为了解决这个问题,eBay开始搭建第二层平台——客户数据仓库Singularity

 

七年前,eBay Teradata合作,开发出一款有几百个用户定义功能的客户应用。该系统能够廉价存储并有效处理所有客户数据,只需要5个人就能维护、并且分析师可以轻松访问。这就是著名的客户数据仓库Singularity

 

Stephenson表示Singularity在网站的“A/B测试”中发挥了重要作用,可以比较出不同的产品组合中,哪种组合最受欢迎。eBay已经用它进行了众多测试,比如测试网站消费者是否喜欢网站显示商品大图。

 

这项技术还可以用于搜索提示,Stephenson称之为“搜索栏里的经济学家”。eBay可以根据用户已选择的话题或者已提出的问题,提供搜索查询建议。“因为在整个系统中,几乎每一个问题都曾经被问过了。”Stephenson解释。通过这样的查询,eBay销售者就可以了解到是否需要降价、包邮或提供其他优惠。

 

除了企业数据仓库和SingularityeBay还使用了Hadoop,这就是它的第三层平台。

 

eBay是早在2007年就率先开始试用Hadoop集群。首次尝试的是一个用来处理机器学习和搜索相关性方面问题小型集群。随着数据日益增加、用户活动日益频繁,eBay希望充分利用几个部门和整个用户群当中的数据。于是eBay第一个大型Hadoop集群诞生了:由500个节点组成的Athena。这个专门建造的生产型平台可以满足eBay内部几个部门的要求。该集群只用了不到三个月就建成了,开始高速处理预测模型、解决实时问题;后来不断扩大规模,以满足其他要求。如今,eBay部署了两个2万节点的Hadoop集群,能处理80PB的数据。

 

这三层平台,使eBay能够实现对所有用户行为数据的存储与分析,进而使不断提升用户体验成为可能。Stephenson表示:“有了有效运行的大数据系统,网站能够提供和实体店购物同样的体验,客户可以比较不同的商品。我们也能够了解到客户的意图。”这些都在慢慢改变着eBay


 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有