加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

hadoop output 生成 part-r-00000.deflate 用-text  查看数据

(2015-05-06 17:10:06)
标签:

压缩文件

解码器

分割性

格式

文件扩展名

分类: hadoop
其中 打开方式 可用 
hadoop dfs -text output5/part-r-00000.deflate
hdfs dfs -text output5/part-r-00000.deflate

用 -text 可以查看数据

我们可以把数据文件压缩后再存入HDFS,以节省存储空间。但是,在使用MapReduce处理压缩文件时,必须考虑压缩文件的可分割性。目前,Hadoop支持以下几种压缩格式

 

压缩格式 UNIX工具 算       文件扩展名 支持多文件 可分割
DEFLATE DEFLATE .deflate No No
gzip gzip DEFLATE .gz No No
zip zip DEFLATE .zip YES YES
bzip bzip2 bzip2 .bz2 No YES
LZO lzop LZO .lzo No No

 



为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示
压缩格式 对应的编码/解码器
DEFLATE org.apache.hadoop.io.compress.DefaultCodec
gzip org.apache.hadoop.io.compress.GzipCodec
bzip org.apache.hadoop.io.compress.BZipCodec
Snappy org.apache.hadoop.io.compress.SnappyCodec

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有