标签:
声纹识别语音识别技术声控语音技术语音合成财经 |
分类: PE投资 |
一、行业简单描述
声纹识别:是根据语音波形中反映说话人生理和行为特征的语音参数自动识别说话人身份的一门技术。声纹识别的作用主要有两个方面:一是说话人辨认(Speaker
Identification),主要用于判断某一语音材料是由若干发音者中哪一人所说,属于“多选一”的识别;二是说话人确认(Speaker
Verification),主要用于确认某一语音材料是否由指定的某个人所说的,属于“一对一”识别。声纹识别赖以实现的基础是蕴含于语音信号中的说话人发音特征,这一技术强调说话人的个性,而不考虑以语音为物质外壳的话语意义。从本质上说,声纹识别技术属于“生物因子”认证范畴。声纹同指纹有着类似的属性。每个人的指纹都是唯一的,而声纹也是人的个性特征,很难找到两个声纹完全相同的人。
语意识别:是对语音材料所承载的实际意义的识别。它有别于声纹识别,声纹识别主要着眼于语音的物理属性和生理属性,以辨认或确认说话人为目的;而语意识别则着眼于语音的社会属性,以识别语音信号所承载的话语内容为目的。语意识别比声纹识别要困难得多。说话人的语音通常会受到母语、方言、发音器官和发音状态等诸多因素的影响,正是因为说话人语音特征各异,才为声纹识别提供了可能性。但是,要将具有个性的声纹与具有共性的语法和语义模型相匹配,要通过词语切分、词性标注、结构分析和语境理解等程序,达到正确识别话语内容,则是一个相当复杂的处理过程。
二、语音识别市场分析
语音识别技术根据其属性,基本功能可归为两大类,一类是根据人本身的声纹特征来进行身份认证,另一类是根据人发出特定的语音指令来进行命令控制。由此引出的应用市场基本可以包括这几个方面:桌面应用、嵌入式应用、电话系统、Web应用以及特殊应用领域等。
1. 桌面应用
即语音识别技术集成在PC机上的应用,不仅可以用语音识别来进行身份认证和编辑文本,而且可以通过听取和响应用户讲述的命令来运行程序并与操作系统实现交互。但是跨国IT巨头如微软、IBM等已介入该领域,且可以充分利用其成熟产品的协同性来进行市场渗透,如Windows
XP、Vista及Office 2007等都内嵌了语音识别功能,具有垄断优势。
2. 嵌入式应用
嵌入式应用的范畴很广,需要根据市场需求考虑不同的嵌入式硬件平台,如手持或移动通讯设备及家用电器的语音控制和内容输入。从目前的市场来看,嵌入式语音识别系统最大的市场主要是针对玩具、手机、车载GPS、MP3/MP4等。
3. 电话系统应用
语音识别技术应用于企业自动语音服务,可以为企业提供一种智能化的并且相对安全的自动服务方式。主要包括,企业的用户服务中心(Call-Center),电话银行,股票交易,电子商务等应用领域,用户可以在电话中进行身份认证及菜单流程的快捷选择。
4.Web应用
Web应用是把语音技术与Web应用结合,例如语音浏览器、语音搜索引擎、网上语音聊天室及语音网游等。
5. 行业特殊应用领域
语音识别技术可以为有关部门提供应用方案,帮助它们通过电话采集的语音进行自动的身份辨认,节省大量的人力,并大大提高工作效率和识别的成功率。
三、已开始处于商用化的市场
1、特殊行业市场
指国家安全、侦破等特殊领域,由于该市场专业性强,进入壁垒非常高,同业竞争者非常少。
2、民用市场
手机市场:中国近两年在通讯业发展迅猛,工业和信息化部2009年1季度发布的统计显示,截至2月底,全国手机用户已逼近6.6亿,这意味着国内平均每2人就拥有1部手机。手机行业日趋成熟,而愈演愈烈的同质化竞争必然促使商家在手机所提供的附加价值上翻花样、做文章,以此来提高身价。随着功能越来越强大的智能手机走红市场,语音识别技术更有了发展的空间。研究表明,智能手机市场将在今后的数年里继续保持增长势头,全球出货量将从去年的1460万部增长到2009年的1.25亿部,2009年全球智能手机将增长至占全球手机市场的16%,而据预测中国智能手机2010年销售量将达5190万台。按此数据,以语音识别技术开发包应用平均收入为7元/台计算,相关市场规模可达3.5亿元/年。
车载导航市场:在国内市场当中,截止到2006年,中国汽车数量已经超过3300万辆,其中10万元以下轿车占40%,10至30万元之间的轿车占40%,30万元以上的轿车大约占20%,但是车载GPS的安装率却仅为2%,远远低于日本59%、韩国40%、欧美25%的水平。根据计世资讯(CCW
Research)最新研究报告《2007-2008年中国汽车电子市场发展趋势研究报告》研究表明,
2007-2008年中国汽车GPS导航系统市场年增长率将超过80%。在不考虑车辆市场中每年新增量的前提下,以此潜在市场规模预测,GPS市场普及达到三者的平均水平41.3%,其中约70%的加装语音识别人机交互系统。按此数据,以嵌入式语音识别芯片平均收入为40元/套计算,相关市场规模可达3.8亿元。
MP3/MP4:中国的MP3/MP4市场已趋成熟,整体产销的增长量也逐渐下滑,但是语音识别技术在此领域的渗透率却微乎其微,仍有很大的增长空间。据赛迪顾问预计,2009年中国MP3/MP4播放机市场销售量将达到596.7万台,同比增长4.9%,到2011年MP3/MP4播放机市场销售量将达到650.2万台,2009-2011年中国MP3/MP4播放机市场销量年均复合增长率达到4.6%。以此为计算依据。按此数据,以语音识别技术开发包应用平均收入为7元/台计算,相关市场规模可达0.46亿元/年。
玩具市场:中国是世界重要的玩具生产及出口地,75%的世界玩具产量均来自国内,仅2006年,玩具生产的产值便达到770亿元,出口达到70.55亿美元。中国有13亿人口,自身又是玩具消费的大市场,据有关部门预测,到2010年中国的玩具消费额有望超过千亿元人民币。近来智能玩具发展势头看好,每年以40%左右的速度递增,估计未来几年间将占到整个玩具市场1/5左右的市场份额,这是一个数百亿产值的市场,语音识别智能玩具即便只占这个市场份额的1/3,每年也会有数十亿到上百亿的产值。由于玩具本身的生产成本较低,附加值不高,因此语音识别智能芯片将至少占到其中一半甚至3/4的市值。
行业应用市场:除了以上个人消费品市场以外,利用我们的核心软件,生产出语音平台销售给二次开发商,最终产品可以进入电信、银行、网络等客户,具有不可估量的扩展市场容量。
四、行业主要品牌
国际品牌
Nuance:世界上最大的专业的语音识别软件提供商,提供语音识别、语言理解和声纹鉴定等一系列软件,其产品被应用于旅行预定、股票交易和企业门户等众多领域。公司在世界各地都设有分部或者合作伙伴,亚太总部设在香港,中国大陆地区的代理商为科大讯飞公司。Nuance的具体产品包括语音识别引擎,声纹鉴定软件,TTS引擎,SpeechObject组件(用于VXML以增强其功能),语音浏览器等等。
IBM:IBM公司在语音识别领域有很长的研究历史,其著名的产品是ViaVoice。如今,IBM公司在这个领域中的努力主要体现在Voice
Server及其SDK上,该服务器建立在VXML基础上以帮助开发商建立广泛的电话语音应用。由于拥有多元化的产业和雄厚的资金实力,它作为语音识别市场的先驱,通过花费大量资金培育市场,让人们知道了什么是语音识别技术。
Microsoft:微软作为世界上最大的软件提供商,一直视语音识别技术为其优先研究项目,也适时地推出过许多产品,近年推出的Windows
Vista系统已经内嵌了语音控制软件。微软强大的品牌效应、庞大的研究机构、优秀的市场整合能力使得它成为业界强有力的竞争对手。
国内品牌有科大讯飞(以语音合成技术为主,当初的战略投资者获得了数十倍的回报)等少数几家。
五、项目公司的优势:
项目公司技术优势与特色:
1、仿生性——模拟人对语音和说话人的听辨功能,而不是使用统计的方法。
2、可学习性——与人相类似,识别能力和准确性随着样本量的增加而提高。
3、实时性——对瞬间语音信号的感知,而不是对固定长度的语音信号进行处理。
4、强鲁棒性〔robustness〕——在充分训练的情况下,识别能力具有极强的稳定性和可靠性。
5、识别速度快——识别过程是一种快速的并行过程,实际上是一种输入到输出的映射,不需要在一个庞大的语音库中进行搜索。
6、强分辨能力——神经网络的非线性映射,比概率方法有更强的分辨能力;平均识别分辨度已接近或超过人耳分辨度。
7、开集识别——建立在高识别分辨度及无关性训练基础上。