加载中…
个人资料
杨静-新智元
杨静-新智元
  • 博客等级:
  • 博客积分:0
  • 博客访问:107,839
  • 关注人气:127
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

AdMaster 大数据商业化的智能应用  (19页PPT及Q&A互动)

(2015-05-21 10:38:18)
标签:

杂谈

【静.沙龙主题分享】围绕大数据、人工智能、前沿科技与人文等主题进行微信群的在线交流与探讨。

【静.沙龙主题分享】5月13日 2015年第6期

主讲嘉宾:卢亿雷

主持人:中国经济网经营顾问 杨静

嘉宾介绍:

AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)【卢亿雷】AdMaster技术副总裁,资深大数据技术专家。关注高可靠、高可用、高扩展、高性能系统服务,关注Hadoop/HBase/Storm/Spark等离线、流式及实时分布式计算技术。曾在联想研究院、百度基础架构部、Carbonite China工作;拥有超过10年云存储、云计算开发及架构工作经验,多年Hadoop实战经验,专注于分布式存储、分布式计算、大数据分析等方向,有多个发明专利,《一种分布式文件系统及其数据访问方法》和《一种数据备份的版本管理方法及装置》等。曾多次被51CTOCSDNInfoQ、阿里技术邀请为嘉宾分享Hadoop大数据在互联网的应用。


5月13日静沙龙在线分享主题精彩回放


【卢亿雷】 内容提纲:介绍由于广告数据的多样化,包括有曝光、点击等被动获取的请求;微博、新闻、博客、论坛、行业网站等主动抓取的请求;问卷调查数据的补充;第三方数据的输入等形成的混合异构数据。使得对数据的清洗(ETL)、存储(Data Storage)、挖掘(Data Mining)都提出非常高的要求。将会介绍每天近100亿请求的性能是如何优化的,以及每天近1000亿数据的数据分析是如何实现的,还有数据从多IDC采集到同步中心机房如何实现分钟级的计算。还会重点介绍人群管理与人工智能是怎么样很好的融合,最后会通过AdMaster的可口可乐案例"昵称瓶"(如:“高富帅”、“白富美”、“月光族”、“喵星人”)来说明二者的结合。

大数据商业化:千亿量级混合异构数据平台

【杨静lillian】今晚的【静沙龙在线分享】即将开始,这也是新智能时代论坛后的第一个在线沙龙,时间是晚9点到10点半。

【卢亿雷】大家好,我是AdMaster(精硕科技)技术副总裁卢亿雷。AdMaster是中国领先的数据解决方案提供商,主要专注数据挖掘、分析和管理。AdMaster通过尖端的专业技术,完成了海量数据中的价值挖掘,以软件即服务(SAAS)的商业模式,帮助企业创造价值。业务主要覆盖:第三方数字广告审计和社会化媒体、电商及跨多屏整合领域的大数据分析、管理、应用及综合解决方案,终端涵盖个人电脑及移动设备。


AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


大家看到我给异构数据进行了一个简单分类,中间是用虚线分开,意思是说他们没有严格意义的划分。接下来我们看一下混合异构数据的最重要的部分-采集。

AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


数字、字符等称为格式化数据;文本、图形、图像、声音、视频等称为非格式化数据;


AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


融合分析这些数据的第一步是数据的预处理,传统企业信息系统中ETL是群内各位最熟悉的一种预处理过程。当我们进入大数据之后,仅仅进行数据的抽取、转换和加载往往会带来灾难,我们必须花费很大的努力去做数据清洗,确保宝贵的大数据算力和存储资源用在了有价值的分析计算之上。对于数据清洗,以前我们是采取的是不断发现问题,持续优化模型。由于以前建好了模型,所以现基本已经没有人工介入了。

接下来我们看混合异构数据最具有技术含量的数据分析。这里我以AdMaster的场景给大家分析。


AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


最主要是把模型里字段定义清晰,另外增加若干个自定义的字段,方便后面扩展。像我们由于数据采集的源多种多样,所以需要建立各种模型。举个例子来说,通过爬虫获取数据时,需要对各种网站进行适应。

例如公众号发的文章是可以获取的。只需要知道你公众号就可以获取了,另外根据文章内容也可以搜索到,目前搜狗就提供这样的服务。

AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


AdMaster混合异构数据平台架构分为6:数据采集,分布式计算,数据挖掘,API 服务,应用服务,数据可视化。做大数据大家可能都听过Hadoop,但是对整个生态系统可能了解的稍少一些。



这里重点说两个系统一个是Flink,一个Elasticsearch


Flink是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于JavaScalaAPI


ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。

【杨静lillian】这里面Pig是什么意思?

【卢亿雷】杨老师看的很仔细 Pig是一种编程语言。你可以理解成用Pig语言可以比较简单对Hadoop进行查询等各种操作。用Pig的话,你就不用去写复杂的MapReduce程序了。

【卢亿雷】在讲实际分析前,我先介绍一下我们基于Hadoop做了哪些优化。ADH(Advertising Distribution Hadoop)AdMaster根据累积了超过7年的实际广告主和品牌的网络营销数千个实际案例的经验,自身研发的专门针对广告来做的分析系统。


AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


由于我们每天超过100亿的采集请求,每天需要对1000亿数据上1000个维度的分析和计算,所以系统结构会显得比较复杂。




下面是在线数据分析,里面就有用到情感分析,NLP等各种算法。


AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


广告也智能:人群管理与人工智能的融合

AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


人群管理主要通过打标签、标准化、多维细分,最后通过Lookalike辐射到更多受众。

接下来让我们看一下AdMaster常见的应用场景。这是一个我们将文本自然语言数据和广告和站点访问日志结合的应用,用于提取匿名用户的访问浏览兴趣,并针对页面的内容进行关键词的抽取。


在提取了大量用户的访问浏览兴趣之后,并配合调研、社交和电商等基础数据,我们可以通过聚类的方法,将类似的访问者进行多个维度的切分,并且预估用户潜在的兴趣爱好和需求。一些广告主已经逐渐意识到受众细分的重要性,他们也提供一些脱敏的CRM数据,在和AdMaster采集的数据进行连接后,更好地优化受众的分类模型。

AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


我们可以通过页面浏览行为,网站浏览行为,社交网络行为,调研问卷结果,网上购买行为等分析用户的人群属性。人群识别里用了机器学习各种模型。因为我们需要由已知的预测出未知。

AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)

引用王飞跃老师的平行理论,与广告数据智能化分析是一致的。

接下来我们来看看我们会用到哪些核心算法。核心算法主要用到有SVM,自然语言处理,聚类分析,回归分析,时间序列分析。具体每个算法我就不详细介绍了,这里我主要介绍一下时间序列分析,这可能跟王飞跃老师的平行理论又类似了。

AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)

同一个人在不同的时间段具有不同的角色,举例子一个男人在上班的时候是职员,回家后就是父亲的角色了。如果在上班的时候你给他推荐儿童用品,他一般不会购买的,但回家后你再推荐他就可能会购买了。

【陈文光】请问每个分析的数据规模有多大?都是1000亿*1000维度吗?最大数据量有多大?

【卢亿雷】分各种场景,主要是看时间维度,是一个月的还是一周的,一天的维度是都要执行的。我们现在大概几十P的数据量。

【张文强】移动终端和PC端的数据采集,行为分析是否采用不同方式和方法?移动端的用户反馈在数据训练和测试阶段有使用吗?

【卢亿雷】我发您一张图,移动与PC是不一样的,网络也是不一样的。PC端主要是通过APIJS采集的。移动端目前我们虽然提供API方式,但最主要的是SDK。像爱奇艺就跟我们对接了SDK的。我们是MMA协会的成员。移动端的在数据训练和测试阶段有使用的,目前现在我们是根据我们自己的数据源与一些外部数据源做结合分析。结合点就是通过各种设备的Device ID,像IOS IDFAAndroidAndroid ID, IMEI, MAC等。


AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


【卢亿雷】每次提到大数据,我们都会想到隐私的问题。这里我们给出一个方案,大家可能更容易理解一些。

大家可能都了解在2013年,可口可乐出过一批带各式昵称的可乐。像“高富帅”、“白富美”、“月光族”、“喵星人”等。

AdMaster主要通过捕捉社交媒体过亿数据,提取最频繁使用的热词,然后从多个维度进行定量比较(例如声量、互动性以及发帖率),初步选出300个热词。

AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)

AdMaster当时帮助可口可乐全程监测了”昵称瓶”在社交媒体上的表现,分析数据显示,在这次的夏季活动中,社交元素由始至终进行了完整的贯穿。归功于社会化媒体的“滚雪球式”传播,广告宣传达到了近20亿次,吸引了超过100万个关键意见领袖自发代表品牌传播这些热词。在参与本次活动的人群中,仅新浪微博上,36.9%的人觉得可乐非常亲民可爱,更有25%的人直接表达了自己购买可乐的意愿。相比普通的活动,这种比例是非常高的。


通过全面追踪活动分享传播情况,用人工智能深挖评估其营销价值,最后用通过各种终端精准推送广告。以后有可能是机器人直接送东西到家,然后由用户决定是否购买。

关于广告智能化趋势的预测与展望我先直接都发完了,大家看有什么问题吧。

社交图谱与用户画像:广告智能化趋势的预测与展望

【杨静lillian】也就是说,你们提供的不仅是在线广告监测服务,也包括大数据分析和智能广告服务?

【卢亿雷】AdMaster是全球领先的营销数据技术公司主要专注数据挖掘、分析和管理。AdMaster通过尖端的专业技术,完成了海量数据中的价值挖掘,以软件即服务(SAAS)的商业模式,帮助企业创造价值。业务主要覆盖:第三方数字广告审计和社会化媒体、电商及跨多屏整合领域的大数据分析、管理、应用及综合解决方案,终端涵盖个人电脑及移动设备。

【杨静lillian】我想知道华扬联众和好耶这类公司是否也有这类大数据分析系统?蓝色光标这种公司呢?他们的技术实力如何?

【卢亿雷】华扬联众是广告投放和代理公司,好耶主要是SSP。蓝色光标投的公司太多了,包括有DSPDMP等很多营销类的技术公司,去年的C轮他就投了我们。技术实力都不错的。


AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


可视化不仅仅是前端呈现,在大数据时代,用户使用数据可视化工具,展现多源、多维度、多指标数据的动态趋势,并进行拖拽式交互查询。因此如何将数据的呈现和业务逻辑解偶是重点。

AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


通过全面追踪活动分享传播情况,用人工智能深挖评估其营销价值,最后用通过各种终端精准推送广告。以后有可能是机器人直接送东西到家,然后由用户决定是否购买

【袁勇-中科院自动化所】卢总好,admaster现在对接其他dsp吗?还是我们本身也做dsp

【卢亿雷】我们不做DSP,但我们会监测DSP投放的效果。

【思彤】我前几天在上海参加第三届中国调查学术研讨会,听一位网络公司的CEO说,现在微博上活跃着很多水军,其中有70受雇于各类公司。你们在抓取原始数据时会考虑水军的帖子吗?有没有比较好的办法进行清洗?

【卢亿雷】有考虑的,我们跟新浪是高级合作伙伴,主要是通过他们的API给我们供数的。另外在数据建模的时候,我们自己建了语义库,会将相关性、相似度等各种因素考虑,同时我们还有一些人工过滤的方法。

【杨静lillian】您再详细谈谈有关智能广告精准人群投放的案例?

【卢亿雷】智能广告精准投放很不错的案例购买汽车的案例,具体就是指通过用户访问的行为,通过机器学习的方法来判断用户的年龄、性别、收入、职业、爱好等一系列标签,最终给用户推荐对应的车的品牌和车型。

【王健宗】卢总,精准营销广告投放这块如何将来用Deep Learning

【袁勇-中科院自动化所】人群管理这方面,现在许多dsp(如品友)有自己预定义的人群分类体系,我看咱们的人群标签是根据热词由算法生成的,在监控dsp投放效果时是否会出现人群标签不匹配?

【卢亿雷】您说的确实存在这样的问题,目前业界还没有统一起来,AdMaster自己做了一个非常完善的标签库,大概分为五级,后面我们会发布出来,然后跟各家看用什么进行对比。

【王健宗】在用户画像问题上,从不同源获取的数据,比如微博和微信还有自己收集的其他,如何去判断这是同一个人,然后对其用户画像,一个用户画像的维度多少?目前大约分几个类别的人?还是每次依据产品不同聚类?

【卢亿雷】我们有自己的样本库,还有就是我们对GPU也有用,像前段时间提的社交图谱我们就是用GPU来计算的。我们用户画像的维度最多达到了3000个。不是根据产品聚类的,我们目前做了一个OLAPSSD集群,可以快速统计出你所需要的结果。

【王健宗】卢总,GPU这块是如何用的,Hadoop或者Spark利用GPU,还是用其他的一些DL TOOLS

【卢亿雷】GPU这块我们目前还没有用在Hadoop上,还是只是用到模型的训练上。

【杨静lillian】请问社交图谱现在都有些什么内容?有哪些特色?

【卢亿雷】社交图谱是主要基于社交关系分析的产品。例如微博中的关系和账号组成了一张巨大的网络。而社交图谱就是在此网络上的计算,从而为客户提供更多insight。社交图谱的原理基于“图”的一系列算法。图指包含一组节点和它们之间的边的集合。而微博微信本质上都是图的一种形式。

【袁勇-中科院自动化所】期待您的标签库,希望在用户画像方面交流合作计算广告是非常适合做平行的,我们团队也一直在做,有小成,利用用户画像技术做人工人,但离飞跃教授的要求还有距离,期待合作

【卢亿雷】这个标签库我们花了很多心思,集合了很多家的共同点,也抽象出了很多特点。应该有很多合作点的。目前我们数据这块还是很丰富,现在理论这块我们需要加强

【王健宗】卢总 SSD这块是怎么用的?我看你们用户3000多个维度数据组织是HBASE?有进行一些优化吗?冷热之间的Cache机制是怎么做的?

【卢亿雷】用SSD是由于我们需要在几千个维度里实时统计和过滤,我们要做到的是秒级查询。HBase存的是全量数据,用SSD建的集群存的是热数据。冷热之间数据的区分,目前我们主要是以时间维度区分的。


AdMaster <wbr>大数据商业化的智能应用 <wbr> <wbr>(19页PPT及Q&A互动)


【静点评】非常感谢卢亿雷的分享,原来现在广告监测也进入了高科技的时代。首先,面对每天超过100亿的采集请求,每天需要针对1000亿数据上1000个维度的分析和计算,面对多屏异构数据,必须建设智能化的混合异构数据平台;其次,人工智能技术,自然语言处理,大数据商业化平台,都在给广告客户的精准投放和高效传播提供新的手段与工具;最后,社交图谱、用户画像等商业化智能广告系统的架构,让广告也科学、广告也智能的新时代掀开崭新一幕。多谢卢亿雷的专业分享,也感谢各位群友的积极参与和互动。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有