加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

在上了新算法后,速度大幅度提升,以下是100亿数据量的初步实验结果

(2011-05-25 09:46:30)
标签:

杂谈

在和马老师讨论后,上了新算法,完全颠覆了我的认知。大家请看:
因为机器还有其他程序运行,这个数据仅作参考:

最新改动版100亿入库和和查询实验:
CPU16核,内存76G,(实验室机器上另外有一个实验占了40G内存,一个核)
100亿条入库耗时 2h07m14s(不计语料预处理时间)
key:8-15字节变长
value:2-3字节变长
语料大小:160G
数据文件大小:168G
索引大小:1.2G,约合每条记录1比特
任取1万条随机搜索:无遗漏且正确

100万key均存在的情况
冷启动,15核并发,随机搜100万key,耗时326.2s QPS:3065
热启动,15核并发,随机搜100万key,耗时3.77s QPS:26.5万

100万均不存在的情况
冷启动,15核并发,随机搜100万key,耗时1303.22s QPS:767
热启动,15核并发,随机搜100万key,耗时6.15s QPS:16.3万 (搜了一遍再搜一遍,算热启动)

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有