加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Hadoop简介

(2012-06-23 19:36:31)
标签:

it

分类: 技术类原创
Hadoop是Apache的开源项目,目的是为可靠的、可扩展的分布式计算提供开源软件。

Apache Hadoop 提供了:参考[1] 

  • Hadoop Common:common工具提供了其他Hadoop子项目的支持。
  • HDFS:提供高速访问应用数据的分布式文件系统。
  • MapReduce:基于计算集群的分布式大数据集处理的软件框架.
  • Avro:一个数据序列化系统.
  • Chukwa:为管理大型分布式系统的数据集合系统.
  • HBase:一个可扩展、分布式支持结构化数据存储的数据库.(HBase官方文档
  • Hive:一个数据仓库基础,提供了数据汇总和任意查询.
  • Mahout:一个可扩展的机器学习和数据仓库库.
  • Pig:并行计算的高层的数据流语言和执行框框.
  • ZooKeeper:分布式应用的高性能协调服务

Hadoop框架核心的设计就是MapReduce和HDFS(Hadoop distributed file system).

MapReduce是google的一篇论文提及的,如上所述,它是一个“分布式数据处理框架”,显然Map就是分解任务的过程,而Reduce指的就是将分解任务的处理结果汇总起来得到最终结果。
HDFS则是分布式计算的基石。

一些参考资料:

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有