发博文
正文 字体大小:

砖石,还是露水

(2010-02-09 21:55:53)
标签:

科研方法

成果

创新

it

分类: 技术视野

    我们一天忙到晚,自己耗费了很多精力不说,也消耗着国家的财力物力。我们除了培养了一批学生外,是否为学术进步或技术发展做出了点滴贡献,我们的工作成果是科学技术大厦里的梁柱、砖石,坚固而持久地发挥着作用,还是墙角的露水、楼顶的轻烟,转瞬间就蒸发消散了。

 

    要想作出有价值的工作,是需要有一些清晰而坚定的理念支撑的,否则很容易匆匆忙忙地迷失在短期的压力里。我心中好的研究成果是什么样的呢?我想应该具备一下几个特征: 

    1、创新性:与以往的方法有本质的不同

    2、高性能:解决了旧方法无法解决的问题,导致性能指标有显著性提高

    3、简单:同行一听就能明白,并认同该方法在原理上的长处,纷纷感叹自己为什么没有想到

    4、换代:新方法一出,业内大部分产品都纷纷抛弃旧方法,采用这种新方法

    5、足够的影响面:能够抽象到一定高度,不局限于某个产品的细节

 

    举两个例子:

    1、算法:薛念文基于字标注的汉语分词方法

    未登录词识别是最影响汉语分词精度的问题,它的影响超过分词歧义处理。以往的方法先用词表把已登录的词先识别出来,然后在“散串”中去找未登录词。这样做的缺陷在于两方面,一是“分词歧义”和“未登录词识别”这两个问题的参数权重估价标准无法统一,二是未登录词中有时候会包含已登录词,或者未登录词和已登录词的交界处有歧义。由于这些不足无法克服,汉语分词的精度一直徘徊不前,方法上没有实质性创新,大多是修修补补。

    薛念文2002年提出了“基于字标注的汉语分词方法”,这种方法把以往用于短语识别的BIES标注方法(B-短语开头词,I-短语中间词,E-短语末尾词,S-单独成为短语的词)用到了分词上,对汉字进行标注(B-词中开头字,I-词中中间字,E-词中末尾字,S-单独成词的字),汉字得到标注,分词结果立现。对已登录词和未登录词中的字标注形式是一样的,这样就建立了统一的分词模型,而且不需要词表,只要有足够大的经过人工校对的分词语料即可。实验效果明显提高,凡是自然语言处理领域的人都知道BIES,一听就懂了,几年下来,多数商用的汉语分词系统都在采用基于字标注的方法了,分词是中文处理的基础问题,影响面足够大。

    这种方法的创新路线是“移植”,它把分词问题从匹配切分问题转换为标注问题,把紧邻“短语识别”中的方法移植过来,取得了成功。

 

    2、产品:搜狗拼音输入法

    在搜狗拼音以前,拼音输入法已经有很多种,如智能ABC,微软拼音等。2000年前后昙花一现的“智能狂拼”用大规模语料提高音字转换的精度,但提高是有限的,并没有产生换代的效果。拼音输入法似乎已经做到了极致,尽管不能让人很满意,但似乎也就只能停留在这个水平上了。

    2006年,搜狗拼音横空出世了,它利用网络收集广大输入法用户贡献的新词,什么“李宇春”、“张靓颖”,什么“蜗居”、“蚁族”,当你想输入时,早有网友贡献过该词,输入速度大幅度提升。拼音输入法最头疼的未登录词输入的准确性被大幅度提高了。

    原理如此简单,效果如此明显,谷歌立即效仿,还惹上了侵权的麻烦,腾讯不甘落后,输入法在绝顶上又攀上了天梯,技术真的没有止境。搜狗由于率先创新,以先发优势横扫输入法市场,输入法是比较有粘性的产品,但也挡不住输入速度和体验大幅度提升的诱惑,在较短的时间内,搜狗输入法的市场占有率超过了70%。这是典型的由于技术创新带来的市场狂澜,好产品会说话。输入是计算机最基本的功能,搜狗通过输入法抢占客户端,影响颇大,为未来的产品拓展勾勒出广阔的空间。

    有的研究者喜欢开创新领域,找出新方向,用20%的力气作出80%的效果,然后又去开拓别的方向,因为最后20%的路程要用80%的努力才能完成,费力不讨好。搜狗输入法的成功告诉我们,最后5-10%的技术门槛里照样孕育这无穷的商机,只要方法得当,密切观察环境的变化,原来在单机条件下的确做不动的技术,在网络环境下有可能获得突破性的进展。跨越式的发展,不能靠补丁落补丁的量变积累,要有更纯净的一揽子解决问题的革命性方案。

   

    衷心期盼80后、90后的青年学者们,不满足于小的改良,不满足于使用机器学习领域最新研制的“秘密武器”,而是满怀颠覆式的技术梦想,抓住根本性问题,洞悉技术环境的变化,移植嫁接,化繁为简,做出让人眼前一亮、拍案叫绝的创新成果来。

阅读 评论 收藏 转载 打印举报
已投稿到:
前一篇:调心算法
  • 评论加载中,请稍候...

       

    验证码: 请点击后输入验证码 收听验证码

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

    < 前一篇调心算法
      

    新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有