加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

从amplab的技术报告说开

(2013-03-12 23:08:09)
    今天,amplab的教授来我校做技术报告,内容很全面,其中谈到了他们的目标:Next Generation of open source data analytics stack for industry & academia: 

    这个方向我一直思考很久,我们从两个极端,来看数据处理,搜索引擎和企业管理软件。

    搜索引擎的数据逻辑并不复杂,一个key-value过程,得到doclist,然后进行一些复杂的排序,结果呈现。搜索引擎的数据量巨大,排序过程复杂,用户意图的揣测复杂。
 
    再看企业管理软件,数据量小,用户意图简单,表达也直接。但数据逻辑复杂,各种table,各种join,各种报表。一般是采用关系数据库来支持,提供柔性的SQL来做复杂的数据逻辑,最后包装好呈现给软件使用人。

    现在问题来了,是否能够有一种东西,是介于搜索引擎和企业管理软件之间的,也就是支持一些稍微复杂的查询,但又不会太复杂。支持一些数据统计工作,但数据量又不会太小。举个几个例子:
    我想知道:
    1)微博中转发李开复的帖子中,含有XX词的,粉丝在1万人以上的微博号?
    2)微博中关注我超过100天的粉丝?
    3)和我互动最多的前10个粉丝?
    4)谁是AT我最多的人?
    5)我的粉丝中奶粉品牌的提及情况?

    等等,但这就有一个问题,能够有能力,有需求提交这种查询语句的群众有多少?大众只会框计算,一个框搞定。企业用户应为花了钱,再复杂的逻辑,每个管理员只需掌握一部分,且ERP实施人员辅导。介于这种之间的计算会是什么形态的?会更接近搜索引擎的感觉,还是ERP的感觉呢?

    我一直想做一个信息共享平台,类似这种感觉的东西,作为对搜索引擎的补充,提供一些更加可靠,更加智能的,接近企业级服务的查询。消除信息不对称带来的不公平。伯克利大学那边很多人在做,也有企业,政府经费,我很羡慕他们。
 
    补充一下:他们这个数据平台上,研发了Spark这种可以做复杂机器学习任务的东东,这属于高阶玩法,SQL查询是低阶玩法,总之就是一种介于搜索引擎和ERP系统之间的,打开interface,直刺数据的感觉。
    
     

从amplab的技术报告说开


报告全部拍照
http://pan.baidu.com/share/link?shareid=322795&uk=1510319874
如有版权,隐私等问题,请相关人员与我联系

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有