刚刚做的关于google ngram语料的入库和随机查询的测试
(2011-04-04 10:39:37)
标签:
杂谈 |
入库测试文件2.2G,格式:gram\tvalue,例如[good
afternoon
入库测试文件条数,1.22亿条
索引文件(keyfile)大小73M
数据文件(datafile)大小1.3G
结果文件(keyfile+datafile)是原始语料的约60%。
入库耗费时间4分12秒,合计每秒入库48万条数据。
查100w个随机2gram的计数器值,例如查good afternoon的计数器值:1590102
查,且输出结果到文件,耗时56s,每秒17857次随机查询,每次查询56微妙
查,不输出结果到文件,耗时34s,每秒29411次随机查询,每次查询34个微妙
注:因为100w个随机2gram是从文件中顺序读出,这部分时间并未扣除,另,这只是单进程查询。
4核并发查询
查,且输出结果到文件,耗时47s,每秒21276次随机查询,每次查询47微妙
查,不输出结果到文件,耗时9.3s,每秒107526次随机查询,每次查询9.3个微妙
服务器档次【普通服务器】
4G内存
4核CPU:Intel(R) Xeon(R),2.4GHZ
硬盘最大带宽:400MB/sec(hdparm命令测得)
目前尚有巨大优化空间,预计在目前的基础上,将随机查询的性能优化在每次查询10微妙是有可能的。相当于每秒10万次随机查询。