今天对高阶语言模型的数据做针对性优化_梁斌

个人资料

微博

正文字体大小：大中小

今天对高阶语言模型的数据做针对性优化

(2011-06-04 15:25:32)

标签：

今天重点改造了索引结构，因为现在索引已经足够小了，压缩力度没必要那么大，在小规模数据上会吃亏，因此这次优化主要在索引上，主要体现还是在失败查询上。以为暑期有一个课题组要讲google的全部语言模型预计过百亿的数据做进库中，因此目前的优化都在为这个做准备。

另外增加一个新功能，支持value为有类型的数据，而不是此前字符串型，这样可以将结构体作为value，便于query出来后的使用，否则每次query出来都需要从字符串构造一个类型，耗时太多。

未来的优化计划是做一个支持多值的接口：即

thuirdb penny

tsinghua university

thuirdb good

...

这样的语料入库后，在查询thuirdb时，返回penny和good两个结果，简称为支持多值的功能。

在目前的结构中实现起来很容易。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report