在上了新算法后，速度大幅度提升，以下是100亿数据量的初步实验结果_梁斌

http://blog.sina.com.cn/u/1497035431

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

在上了新算法后，速度大幅度提升，以下是100亿数据量的初步实验结果

(2011-05-25 09:46:30)

标签：

杂谈

在和马老师讨论后，上了新算法，完全颠覆了我的认知。大家请看：
因为机器还有其他程序运行，这个数据仅作参考：

最新改动版100亿入库和和查询实验：
CPU16核，内存76G，（实验室机器上另外有一个实验占了40G内存，一个核）
100亿条入库耗时 2h07m14s（不计语料预处理时间）
key：8-15字节变长
value：2-3字节变长
语料大小：160G
数据文件大小：168G
索引大小：1.2G，约合每条记录1比特
任取1万条随机搜索：无遗漏且正确

100万key均存在的情况
冷启动，15核并发，随机搜100万key，耗时326.2s QPS:3065
热启动，15核并发，随机搜100万key，耗时3.77s QPS:26.5万

100万均不存在的情况
冷启动，15核并发，随机搜100万key，耗时1303.22s QPS:767
热启动，15核并发，随机搜100万key，耗时6.15s QPS:16.3万（搜了一遍再搜一遍，算热启动）

新

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：来实验室看结果

后一篇：为什么微软不会招聘向李逵，许褚，吴用，樊哙这类人

新浪BLOG意见反馈留言板　欢迎批评指正