加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

读数据中台03(200304)

(2020-03-04 07:55:09)
标签:

数据中台

分类: 微服务架构
读数据中台03(200304)

备注:图片来源于网络。

今天整理本书的第7章数据体系建设部分的内容,首先再说下数据中台这本书,整体虽然偏技术化,但是框架体系相当完善,完全符合我们常说的金字塔逻辑结构,整个书籍的章节目录展开也是围绕数据中台的整体架构图展开的逐个描述。唯一稍微欠缺的个人理解为分完以后内容的进一步合并和串接稍微少了点。

在谈数据中台的时候,我们一般会谈两个方面的关键内容,一个是数据中台的技术架构,你可以看到前面谈到的数据汇聚和数据开发更多是偏围绕Hadoop体系的中台技术架构;第二个关键内容就是数据本身的内容架构,数据在存储的时候整个数据内容,数据模型,数据标准究竟应该是如何的?

因此数据中台数据体系是在全域原始数据的基础上,进行标准定义和分层建模,数据体系建设最终呈现的结果是一套完整,规范,准确的数据体系,可以方便支持数据应用。

中台的数据体系建设应该具备如下特征

1. 覆盖全域数据(覆盖所有的业务过程域)
2. 结构层次清晰(数据应该是分层的)
3. 数据准确一致(命名,粒度,计算口径,模型等)
4. 性能提升和降低成本

在数据中台的数据体系架构里面,书里面将整个数据体系从下到上分为了四层。

1. 贴源数据ODS层
2. 统一数据仓库DW层
3. 标签数据TDM层
4. 应用数据ADS层

我们对这个分层再做一下理解和解释。首先你可以看到从下到上是即是从系统->业务域-》跨越的一个层层聚合和整合的一个过程;其次就是在整个数据聚合和整合的过程中,数据来源的业务域的边界本身会越来越模糊,同时数据由于不断的汇聚和聚合,数据本身粒度会越来越粗。

这个粗粒度如何理解?比如我们对客户做分析,最终到顶层你可能只得到一个长期优质VIP客户的结论。但是支撑这个结论,我们在底层采集了大量的数据,经过维度分析,标签计算分析做了大量的工作才完成。

在我们传统的BI和数据仓库设计里面,我们经常说的只有三个内容,即ODS库,DW库,维度建模的数据模型,而在整个数据中台的数据体系里面增加了标签数据层和应用数据层,也可以更好的看到这两个层次的增加更多的都是为了业务应用提供服务的。

对于标签数据层,我们再来看下解释,即是面向对象建模,对跨业务板块,跨数据域的特定对象数据进行整合,通过ID-Mapping把各个业务板块,各个业务过程中的同一对象数据的数据打通,形成对象的全域标签体系。

举个例子来说你要建立客户的标签体系,客户的标签会来源于客户的静态属性信息,同时更多的是来源于动态的行为数据信息,而这些行为包括了注册登录,商品挑选,实际采购发生,支付,商品评价等诸多的业务域和业务模块,要建立完整的客户标签,那么这些业务域数据必须打通并建立关联映射。

对于贴源数据层理解

对于书里面谈到的贴源数据层你直接理解为传统的ODS库本身是没有问题的。贴源数据层重点就是将企业已有各个业务系统中的数据抽取何集成到一起,形成全量的业务数据。面对业务中台架构模式下,就是需要对所有业务中台对应的业务数据库进行数据采集和集成。

注意当前主流的方式已经从ETL变化为ELT,即只负责最简单的数据抽取和装载,没有复杂的数据映射和转换动作,当我们看类似DataX这种工具的时候你也可以看到这个特点,变得更加轻量同时性能也更高。

如果要说贴源数据层和传统ODS库的区别,那么贴源数据层仅仅做数据的汇聚和整合,并不具备传统意义上的ODS的如下功能,即数据交换,实时性,报表等功能。

对应标签数据层的理解

对应数据仓库层这篇文章不详细展开,只谈下标签数据层。首先我们能够看到就是标签数据层是围绕一个关键对象进行的分析和建模,而且这个动作是完全跨越进行的,数据粒度更粗更抽象,但是能够发挥的数据价值往往却越大。因为标签层真正整合了跨域的数据,包括静态数据和动态数据,同时在数据之间建立了关联,同时通过各种算法对数据进一步加工和聚合。

标签数据层是面向对象建模,把一个对象各种标识打通归一,把跨业务板块数据域的对象数据在同一个粒度基础上,组织起来打到对象上。标签数据层建设,一方面让数据变得可阅读与理解方便业务使用,另一方面通过标签类目体系将标签组织排布,以一种适用性更好的组织方式来比配未来变化的业务场景需求。

对于标签对象,实际上我们看到主要分为三类,即人,物,关系。对于关系本身又可能是人和人,人和物,物和物都有可能。当然也可以从静态和动态层面来理解,有静态属性类标签,有动态行为类标签,比如采购,支付等就是动态行为类标签。而实际上你可以看到很多关系信息的产生往往也来源于动态行为标签。

对于标签本身的分类,又可以分为基础属性类标签,统计类标签和用户画像。还有一种说法个人感觉更好,就是基础属性类标签,统计类标签,算法类标签。我们拿一个客户相关的标签来举例。

1. 基础属性类:年龄段,区域,性别,婚姻状况,年收入段
2. 统计类标签:活跃度,客单价,最常购买商品类别,复购率
3. 算法类标签:消费偏好,消费价值,用户画像类特征(类似潮流达人,宅家一族等)

从这个也可以看到,统计类标签往往都来源于动态的关系类数据的分析,但是这些关系类数据分析最终又会关联到具体商品的类目属性上面。

标签和用户画像

当从标签谈到用户画像的时候,原来又一个概念我一直没太理解清楚,今天重新进行了下理解。首先我们看下用户画像,实际上你可以看到两种场景的用户画像。

场景一:对用户张三进行用户画像 (结果可能是潮流一族,爱尝鲜,数码玩家等)
场景二:对晚上购买啤酒类商品的用户群画像  (结果可能是单身男,IT,加班族等)

人物群体 - 人 - 关系 - 物 - 物群体

在前面讲的三个关键对象基础上,我们做下扩展就变成了五大对象,即增加了人物群体和物品群体两个群体对象。有了群体对象我们就有了基于标签设计进行数据聚合的基础。

我前面为啥聚两个场景,实际上你可以看到刚好是聚合的两个端,当我们对单个特定用户画像的时候你可以看到往往对对商品群体进行聚合分析和处理,是在物品这端。当对物品的购买意向进行用户群画像的时候可以看到是在用户群体这段进行聚合,最终得到一个抽象的结果。

那么在场景一我们能否给出用户维度的画像,比如得出张三是单身的画像。而这个就是我们说的大数据里面的关联类分析,比如晚上购买啤酒行为和用户的单身属性之间往往具有强关联,当具备这种强关联的时候,我们可以给张三打一个单身的标签。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有