刚刚做的关于google ngram语料的入库和随机查询的测试_梁斌

个人资料

微博

正文字体大小：大中小

刚刚做的关于google ngram语料的入库和随机查询的测试

(2011-04-04 10:39:37)

标签：

入库测试文件2.2G，格式：gram\tvalue,例如[good afternoon 1590102]
入库测试文件条数，1.22亿条

索引文件(keyfile)大小73M
数据文件(datafile)大小1.3G

结果文件(keyfile+datafile)是原始语料的约60%。

入库耗费时间4分12秒，合计每秒入库48万条数据。

查100w个随机2gram的计数器值，例如查good afternoon的计数器值：1590102
查，且输出结果到文件，耗时56s，每秒17857次随机查询，每次查询56微妙
查，不输出结果到文件，耗时34s，每秒29411次随机查询，每次查询34个微妙

注：因为100w个随机2gram是从文件中顺序读出，这部分时间并未扣除，另，这只是单进程查询。

4核并发查询

查，且输出结果到文件，耗时47s，每秒21276次随机查询，每次查询47微妙

查，不输出结果到文件，耗时9.3s，每秒107526次随机查询，每次查询9.3个微妙

服务器档次【普通服务器】
4G内存
4核CPU：Intel(R) Xeon(R)，2.4GHZ
硬盘最大带宽：400MB/sec（hdparm命令测得)

目前尚有巨大优化空间，预计在目前的基础上，将随机查询的性能优化在每次查询10微妙是有可能的。相当于每秒10万次随机查询。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report