hadoop output 生成 part-r-00000.deflate 用-text 查看数据
(2015-05-06 17:10:06)
标签:
压缩文件解码器分割性格式文件扩展名 |
分类: hadoop |
其中 打开方式 可用
hadoop dfs -text
output5/part-r-00000.deflate
hdfs dfs -text output5/part-r-00000.deflate
用 -text 可以查看数据
我们可以把数据文件压缩后再存入HDFS,以节省存储空间。但是,在使用MapReduce处理压缩文件时,必须考虑压缩文件的可分割性。目前,Hadoop支持以下几种压缩格式
压缩格式 | UNIX工具 | 算 |
文件扩展名 | 支持多文件 | 可分割 |
DEFLATE | 无 | DEFLATE | .deflate | No | No |
gzip | gzip | DEFLATE | .gz | No | No |
zip | zip | DEFLATE | .zip | YES | YES |
bzip | bzip2 | bzip2 | .bz2 | No | YES |
LZO | lzop | LZO | .lzo | No | No |
为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示
压缩格式 | 对应的编码/解码器 |
DEFLATE | org.apache.hadoop.io.compress.DefaultCodec |
gzip | org.apache.hadoop.io.compress.GzipCodec |
bzip | org.apache.hadoop.io.compress.BZipCodec |
Snappy | org.apache.hadoop.io.compress.SnappyCodec |