加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

今天对高阶语言模型的数据做针对性优化

(2011-06-04 15:25:32)
标签:

杂谈

    今天重点改造了索引结构,因为现在索引已经足够小了,压缩力度没必要那么大,在小规模数据上会吃亏,因此这次优化主要在索引上,主要体现还是在失败查询上。以为暑期有一个课题组要讲google的全部语言模型预计过百亿的数据做进库中,因此目前的优化都在为这个做准备。

    另外增加一个新功能,支持value为有类型的数据,而不是此前字符串型,这样可以将结构体作为value,便于query出来后的使用,否则每次query出来都需要从字符串构造一个类型,耗时太多。

 

    未来的优化计划是做一个支持多值的接口:即

    thuirdb penny 

    tsinghua university

    thuirdb good

    ...

    这样的语料入库后,在查询thuirdb时,返回penny和good两个结果,简称为支持多值的功能。

    在目前的结构中实现起来很容易。

 

       

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有