加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

跨版本distcp报Check-sum错误

(2014-04-16 19:36:50)
标签:

it

分类: ERROR

场景:

在cdh4.3上复制chd3u3上hdfs数据

堆栈信息:

Caused by: java.io.IOException: Check-sum mismatch between hftp://X.X.X.X:50070/user/dd_edw/warehouse/gdm_online_log/dt=2014-04-10/000252_0.lzo and hdfs://X.X.X.X:8021/user/impala/warehouse/1/.distcp.tmp.attempt_1397555917215_0006_m_000018_0
        at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.compareCheckSums(RetriableFileCopyCommand.java:159)
        at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doCopy(RetriableFileCopyCommand.java:123)
        at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doExecute(RetriableFileCopyCommand.java:96)
        at org.apache.hadoop.tools.util.RetriableCommand.execute(RetriableCommand.java:87)
        ... 11 more

 

网上解决方法:

hdfs-site.xml将dfs.checksum.type属性设置为CRC32

经测试,问题依然同上。

 

解决方法:

 迁移到的hadoop集群版本比较高, 最好设置-skipcrccheck选项也-update选项, skipcrccheck忽略FileChecksum校验, 因为版本的升级可能带来Checksum值不一样, cdh4与cdh3就是这样.

命令为:

hadoop distcp -update -skipcrccheck hftp://X.X.X.X:50070/user/dd_edw/warehouse/X/dt=2014-04-10 /user/impala/warehouse/1

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有