http://blog.sina.com.cn/tliu7221[订阅][手机订阅]
字体大小: 正文
必经之路上的碉堡(2009-11-01 19:56:47)

1995年,我开始攻读博士学位,导师帮我选择的博士课题是自动文摘,他说尽管目前自动文摘还没有被应用,但是等到将来网络上的信息太多了,就会用起来了。14年过去了,互联网上的信息极大丰富,简直泛滥得要把人们淹没,但自动文摘仍然没有被应用。现如今,搜索结果页面中每个超链接下方都有2-3行文字,这些文字是原文中包含了查询词的一些不成句的片段,英文叫“snippet”,人们看了snippet就能够断定自己是否有兴趣阅读全文了。Snippet完全起到了文摘的“指示性”作用,但生成snippet是如此的简单,不需要分析全文,也不需要保证文摘语句的完整与连贯,活活要把多年从事自动文摘研究的人气死。

 

再说问答系统,我从2001年开始做全自动的问答系统,也有8年的时间了,还没有找到合适的应用。而百度知道式的社区问答平台却发展得如火如荼,也不知道哪儿来那么多志愿者、好心人,不厌其烦地回答着各种各样的问题。

 

还有一个例子是“验证码”。聪明人发明类似垃圾邮件识别的论坛清洗系统,动用自然语言处理技术对论坛中每个帖子的内容进行分析,找出垃圾帖来予以删除。笨人们发明了“验证码”,用户只有输入“验证码”才能发帖,验证码是随机生成的形状不规则的字母或数字,人能够辨认,灌水机器人无法识别,这样一个小考题把人类用户和机器人有效地区别开来,也把灌水帖挡在了门外。

 

学术界和工业界仿佛是一支联合远征军,学术界是前面的小股部队,是开路先锋,工业界是后面的大部队,是主力。上述的几个例子仿佛是:先头部队对眼前的碉堡发起了猛烈的进攻,但久攻不克,无法根本性地消灭拦路之敌,主力赶到现场一看,发现碉堡旁有条小路,主力讲求实用,他的目标是前进,没有兴趣恋战,也不一定非要摧毁碉堡,于是主力绕过碉堡快速地奔向下一个目标,而先头部队留了下来,带着对熟悉的碉堡的眷恋,带着对伤亡战友的不舍,带着对主力部队有可能回头的期盼,一直留下来继续进攻。

 

我并不完全否定自动文摘的价值,甚至对问答系统仍充满期待,对论坛清洗系统在某些场合的应用也认可。我想说的是,科研选题充满了风险,特别是对于应用类的课题来说,如何选择一个有价值的课题,一个工业界“必经之路上的碉堡”,实在值得我们深思。如果能让工业界在学术界选择的碉堡面前不得不停下脚步,别无他途,从而给学术界更多的弹药供应,敦促着鼓励着学术界去攻占碉堡,待学术界取得突破后踏着硝烟笼罩的断壁残垣冲过去,这才能证明学者的价值,研究的意义。

 

 

 

 

 

 

加载中,请稍候...
  • 评论加载中,请稍候...

验证码:请点击后输入验证码  收听验证码

发评论

以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

相关博文
读取中...
推荐博文
读取中...