加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

来实验室看结果

(2011-05-23 09:03:37)
标签:

杂谈

    接上一次的博客:http://blog.sina.com.cn/s/blog_593af2a70100ss35.html

    今天一大早来到实验室看结果,第一眼发现磁盘满了,数据文件是预分配,预计分配260G,但只分配了240G空间不够,退出了,但不影响做库,但心生忐忑。

    大约半小时后做库完成了,结果非常好,记录如下:

    语料数量:100亿

        大小:250G(250G的原因是语料之前还增加了一个key的签名,如果去掉这个签名语料为150G:160000305775)

        key:8-15字节变长的随机串(a-z,0-9)

        value:2-3字节变长的随机串(a-z,0-9)

    做库

        耗时:271m16.623s(预处理未计时大约10小时左右)

        索引文件大小:2.5G(2607139264字节)

        数据文件大小:109G(116748152607字节)

        每记录索引量:2.08bit(2607139264(字节)*8(bit)/10000000000(条数据))

        索引+数据文件和原语料的比例:74.3%((2.5+109)/150)

    查询

        冷启动(echo 3 > /proc/sys/vm/drop_caches)         

        随机查询1万次,耗时1m28.051s, QPS:113(达到1次读盘的量级)

 

    正确性

        1万次查询正确

        100亿数据扫库,数据全部正确无遗漏。【扫无遗漏】耗时1小时20分钟53秒

        100亿key搜索,正在进行中【查无遗漏】(正在进行中)

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有