加载中…
个人资料
孤猴
孤猴
  • 博客等级:
  • 博客积分:0
  • 博客访问:43,164
  • 关注人气:57
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

语音识别热中的冷思考(1)

(2006-03-20 19:05:07)

  当今,由于计算机技术的飞速进步,语音识别技术的物质条件已经具备,计算机界的乐观情绪溢于言表。似乎语音技术唾手可得。在这语音识别热中,我们是否应该冷静下来思考一番呢?

 

语音识别,离成功还有多远?

  今天,世界上众多的从事信息产业的公司都展示了各自的语音识别技术,尽管实现方式各不相同,但有一点却是大家相同的,那就是全都是基于言语产生模型(Speech Generation Model)的。如各种模板匹配(LPC,复倒谱等),多模板聚类,隐含马尔可夫链,神经网络模型等等。但恰恰正是基于言语产生模型的语音识别技术,囿于模型本身的缺陷,而没有可能取得最终的成功。因为,既然是基于言语产生模型,那么每个人的语音就必然具有各自独特的声学特征和参数,甚至在不同语境下同一人的话音,其声学特征也会产生明显的变化。因此,基于言语产生模型的语音识别技术天生是“认人的”,食用前的训练必不可少,而且仍不能保证有很高的正确识别率。这语音识别技术“不认人”的要求相去甚远。不过,在目前尚没有揭示言语模式感知模型(Speech Patter Perception Model)的机制之前,运用言语产生模型亦实属权宜之计和无奈之举。可以肯定的是,目前的,基于言语产生模型的语音识别技术在语音识别进化树上只能是一个分支和断点。

  几十年来,语音学、实验心理学、神经生理学等等领域的科学家一直在艰苦探索,但至今仍未揭示出言语听觉感知的奥秘。由此看来,语音识别技术例成功仍很遥远,不容乐观。

 

语音识别的理论基础

  语音识别技术就是让计算机“长”有能听懂语音的仿生耳,该仿生耳能准确地模仿人的听觉系统对言语感知的机理。自然,语音识别技术应建立在言语听觉感知研究的基础上。

  人类的听觉历经了千百万年的进化,具有优异的声频信息处理能力。其最重要的能力之一就是声频模式(其中包括言语模式)感知。模式感知可以定义为:人或动物所具有的,将周围环境中的无数声频信息按某种确定的声学特征加以分类,以抽取出对自己有用信息的能力。为了从千变万化的声频信息中抽取出有用的信息,听觉系统就必须对某些声频信息所共有的某些参量做出响应,而对其它的参量不敏感,不响应。这就意味着声频感知能力使得人或动物对声频信息(如言语信息)的多样性和变化性不敏感。例如,人的听觉系统可以把许许多多人发出的,声学特征千差万别的元音[o]归结为[o]音位(模式);可以把千百把小提琴演奏的,音色各不相同的乐声归结为小提琴的声音模式等等。心理学实验也证实,人的言语模式感知能力是天生的,无须后天训练。

  可以认为,只有能够模拟人的言语模式感知机理的语音识别系统,才是最理想的。

 

难点与突破方向

  万丈高楼平地起,应用技术必须有坚实的基础理论研究的支撑才能成功。语音识别技术数十年来一直未能有突破性的进展,问题的根源就在于它的基础 --- 听觉感知上的研究长期来处于停滞状态。听觉系统的模式感知(Auditory Patter Perception)能力就是听觉系统对复杂的声频信号进行实时分类的能力。这是一项被认为是“比登月球还难”的研究课题。被众多的科学家,学者视为畏途。致使该领域的研究仍是一片空白。世界上尚没有一位科学家能够回答:人如何从音乐声中辨别出不同种类的乐器。言语模式感知涉及到众多的音位模式(Phoneme Pattern)、音位间的音渡、以及协同发音时相邻音位之间的相互影响,其难度可想而知。数十年来,虽然语音学家们在听觉感知上作过大量的研究工作,但仍然未有肯定的结论。要回答的关键问题是:

1.          听觉上可感知的最小单位是什么?是区别特征(Distinctive Feature)?音位?双音?音节?或是词?

          不同的学者用各自的听觉感知实验结果得出不同的结论,有的认为是区别特征;有的认为是音位;有的认为是音节;甚至有人认为应以句子为单位。争论不休,未有定论。

2.          对于最小的可感知的语音单元,听觉是以哪些具体的声学参量的集合对语音单位进行分类?

       至今没有人能回答这个问题。如有答案,不认人的孤立词语音识别势必取得突破。

3.          连续的语音流中,哪些是感知变量,哪些是感知不变量?听觉系统如何从连续的语音流中提取言语代码序列?

该领域至今未见有论文发表。如有答案,不认人的连续语音识别必将取得突破。

  笔者从上世纪80年代初开始用数字处理技术着手语音识别的研究。逐步深入后发现突破点似应在语音学研究的领域,遂转向语音学研究的方向。更进一步深入后,最终发现突破点应在言语听觉感知研究的领域。于是又一次地转向言语听觉感知的研究,在区别特征以及音位模式感知层面艰苦求索。经历无数次的失败,走过无数次的弯路,终于逐步揭示出听觉对具有准平稳频谱的音位模式感知机理。尽管距目标还很遥远,但最重要的是,找到了正确的突破方向,目标已明确。

  综上所述,试图在语音死别上急功近利,打速决战是不现实的。不管你愿不愿意,听觉感知研究仍是语音识别成功道路上不可逾越的障碍,不克服这个障碍,语音识别技术就没有成功的可能。多年前,日本第五代计算机计划中的自然语言接口的失败,咎其原因就是缺乏言语听觉感知基础理论的支持。今天,新一代计算机的语音识别技术面临和多年前日本第五代计算机计划同样的困境,如果至今我们仍然无视言语听觉感知的基础研究,我们仍会重蹈覆辙,这决不是危言耸听!

  然而,遗憾的是,言语听觉感知的研究在我国一直未引起应有的重视。笔者至今尚不知道言语听觉感知的基础理论研究是否已列入国家重点科研计划中,不知道国内是否有单位正在进行系统的研究。至今也未看到有关言语听觉感知研究的论文发表。

  有鉴于语音识别的重要性,笔者认为,言语听觉感知的研究迫在眉睫,特在此文中提出呼吁,希望得到国家科技决策者们的重视。

 

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有