接上一次的博客:http://blog.sina.com.cn/s/blog_593af2a70100ss35.html
今天一大早来到实验室看结果,第一眼发现磁盘满了,数据文件是预分配,预计分配260G,但只分配了240G空间不够,退出了,但不影响做库,但心生忐忑。
大约半小时后做库完成了,结果非常好,记录如下:
语料数量:100亿
大小:250G(250G的原因是语料之前还增加了一个key的签名,如果去掉这个签名语料为150G:160000305775)
key:8-15字节变长的随机串(a-z,0-9)
value:2-3字节变长的随机串(a-z,0-9)
做库
耗时:271m16.623s(预处理未计时大约10小时左右)
索引文件大小:2.5G(2607139264字节)
数据文件大小:109G(116748152607字节)
每记录索引量:2.08bit(2607139264(字节)*8(bit)/10000000000(条数据))
索引+数据文件和原语料的比例:74.3%((2.5+109)/150)
查询
冷启动(echo 3 >
/proc/sys/vm/drop_caches)
随机查询1万次,耗时1m28.051s,
QPS:113(达到1次读盘的量级)
正确性
1万次查询正确
100亿数据扫库,数据全部正确无遗漏。【扫无遗漏】耗时1小时20分钟53秒
100亿key搜索,正在进行中【查无遗漏】(正在进行中)
加载中,请稍候......