加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

今天对索引空间继续优化了压缩算法

(2011-04-07 23:17:39)
标签:

杂谈

   此前困扰我的问题刚刚解决了。

   依旧用1.2亿条2gram语料做测试。

   整个记录的条数为:122886114,索引占用内存为:39814084(byte)[合318512672bit。

   优化前为55MB

  按照目前优化的状况,相当于每个key-value队,产生的内存为2.59bit。

   可以看作key占用1个bit内存,value占用1个bit,而结构摊薄下来0.59个bit,而且还有可压缩的空间,虽然已经不大了,索引压缩的工作暂时不是最重要的了。

   按照目前的状况,如果一个4G内存的机器,理论上可以支持100亿个key-value对的插入,且保证索引均load进内存。

  

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有