加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

刚刚做的关于google ngram语料的入库和随机查询的测试

(2011-04-04 10:39:37)
标签:

杂谈

入库测试文件2.2G,格式:gram\tvalue,例如[good afternoon 1590102]
入库测试文件条数,1.22亿条

 

索引文件(keyfile)大小73M
数据文件(datafile)大小1.3G

结果文件(keyfile+datafile)是原始语料的约60%。

 

入库耗费时间4分12秒,合计每秒入库48万条数据。


查100w个随机2gram的计数器值,例如查good afternoon的计数器值:1590102
查,且输出结果到文件,耗时56s,每秒17857次随机查询,每次查询56微妙
查,不输出结果到文件,耗时34s,每秒29411次随机查询,每次查询34个微妙

注:因为100w个随机2gram是从文件中顺序读出,这部分时间并未扣除,另,这只是单进程查询。

4核并发查询

查,且输出结果到文件,耗时47s,每秒21276次随机查询,每次查询47微妙

 

查,不输出结果到文件,耗时9.3s,每秒107526次随机查询,每次查询9.3个微妙


 

服务器档次【普通服务器】
4G内存
4核CPU:Intel(R) Xeon(R),2.4GHZ
硬盘最大带宽:400MB/sec(hdparm命令测得)

目前尚有巨大优化空间,预计在目前的基础上,将随机查询的性能优化在每次查询10微妙是有可能的。相当于每秒10万次随机查询。

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有