从amplab的技术报告说开_梁斌

个人资料

微博

正文字体大小：大中小

从amplab的技术报告说开

(2013-03-12 23:08:09)

今天，amplab的教授来我校做技术报告，内容很全面，其中谈到了他们的目标：Next Generation of open source data analytics stack for industry & academia:

这个方向我一直思考很久，我们从两个极端，来看数据处理，搜索引擎和企业管理软件。

搜索引擎的数据逻辑并不复杂，一个key-value过程，得到doclist，然后进行一些复杂的排序，结果呈现。搜索引擎的数据量巨大，排序过程复杂，用户意图的揣测复杂。

再看企业管理软件，数据量小，用户意图简单，表达也直接。但数据逻辑复杂，各种table，各种join，各种报表。一般是采用关系数据库来支持，提供柔性的SQL来做复杂的数据逻辑，最后包装好呈现给软件使用人。

现在问题来了，是否能够有一种东西，是介于搜索引擎和企业管理软件之间的，也就是支持一些稍微复杂的查询，但又不会太复杂。支持一些数据统计工作，但数据量又不会太小。举个几个例子：

我想知道：

1）微博中转发李开复的帖子中，含有XX词的，粉丝在1万人以上的微博号？

2）微博中关注我超过100天的粉丝？

3）和我互动最多的前10个粉丝？

4）谁是AT我最多的人？

5）我的粉丝中奶粉品牌的提及情况？

等等，但这就有一个问题，能够有能力，有需求提交这种查询语句的群众有多少？大众只会框计算，一个框搞定。企业用户应为花了钱，再复杂的逻辑，每个管理员只需掌握一部分，且ERP实施人员辅导。介于这种之间的计算会是什么形态的？会更接近搜索引擎的感觉，还是ERP的感觉呢？

我一直想做一个信息共享平台，类似这种感觉的东西，作为对搜索引擎的补充，提供一些更加可靠，更加智能的，接近企业级服务的查询。消除信息不对称带来的不公平。伯克利大学那边很多人在做，也有企业，政府经费，我很羡慕他们。

补充一下：他们这个数据平台上，研发了Spark这种可以做复杂机器学习任务的东东，这属于高阶玩法，SQL查询是低阶玩法，总之就是一种介于搜索引擎和ERP系统之间的，打开interface，直刺数据的感觉。

报告全部拍照

如有版权，隐私等问题，请相关人员与我联系

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

后一篇：cookie