Hadoop简介
(2012-06-23 19:36:31)
标签:
it |
分类: 技术类原创 |
Hadoop是Apache的开源项目,目的是为可靠的、可扩展的分布式计算提供开源软件。
Apache
-
Hadoop
Common: common工具提供了其他Hadoop子项目的支持。 - HDFS:提供高速访问应用数据的分布式文件系统。
- MapReduce:基于计算集群的分布式大数据集处理的软件框架.
- Avro:一个数据序列化系统.
- Chukwa:为管理大型分布式系统的数据集合系统.
- HBase:一个可扩展、分布式支持结构化数据存储的数据库.(HBase官方文档)
- Hive:一个数据仓库基础,提供了数据汇总和任意查询.
- Mahout:一个可扩展的机器学习和数据仓库库.
- Pig:并行计算的高层的数据流语言和执行框框.
- ZooKeeper:分布式应用的高性能协调服务
Hadoop框架核心的设计就是MapReduce和HDFS(Hadoop
distributed file system).
MapReduce是google的一篇论文提及的,如上所述,它是一个“分布式数据处理框架”,显然Map就是分解任务的过程,而Reduce指的就是将分解任务的处理结果汇总起来得到最终结果。
HDFS则是分布式计算的基石。
一些参考资料:
后一篇:[转]IO的五分钟法则

加载中…