浅谈语音识别技术对期刊编辑出版工作现代化的作用_张诚1

http://blog.sina.com.cn/u/1496944847

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

浅谈语音识别技术对期刊编辑出版工作现代化的作用

(2012-10-08 16:01:35)

标签：

语音识别

编辑出版

应用

it

分类：编辑出版

张诚，张睛睛

在信息化社会里，采用先进的技术与手段进行信息的采集、处理、传播是出版业发展的必然, 也是信息化社会对编辑工作者的要求。随着现代科技的迅速发展，编辑出版工作的运行方式正在发生变化，表现为管理的现代化和手段的现代化。作为期刊编辑工作者必须适应这个变化，将科学的方法和先进的技术手段有机地结合起来，紧跟时代潮流，促进期刊编辑工作向现代化转变。

语音识别技术是机器通过对语音信号的识别和理解过程将语音信号转变为相应的文本或命令的技术，是信息技术领域十大重要的科技发展技术之一，其应用已经成为一个具有竞争性的新兴高技术产业.

科技期刊的编辑出版对语音识别技术的运用，主要是指采用先进的语音识别应用设备、软件和操作平台，对期刊信息进行采集、处理、存储和传播，实现便捷、高效的期刊编辑出版。语音识别技术的应用可使编辑工作者甩掉键盘，通过语音命令对机器进行操作，让编辑记者从事务性劳动中解放出来，将更多的时间精力用于创造性劳动中，更好地从事编辑活动，更好地完成编辑工作所要达到的目标。

一、语音识别技术在编辑检索中的应用

在网络时代，作为一个期刊编辑，他需要随时了解行业动态，把关出版内容，审核信息真实性，根据编辑规范对文章进行加工制作，这一切都离不开对信息、资料、标准的查询检索。互联网搜索引擎，如百度、谷歌等，是目前人们最为常用的一种网络检索工具，也是编辑记者几乎无时无刻不在使用的检索手段。通过手写或键盘输入关键字的检索方式，虽然比传统的纸质书报刊查阅有了质的飞跃，但也非尽善尽美：一是，不能满足国际上通行的“普遍服务”要求，例如文盲、肢体残障人和老年人无法使用；二是，搜索服务精准率不高，搜索引擎提供的结果众多，包含大量广告和无用信息，要找出所需要的知识还需要一条一条打开链接再搜寻。三是，音视频搜索存在有许多盲点无法检索，例如在数字出版中要搜索电视剧某一片段仍很困难。通过语音识别技术，可以有效解决这些问题。

苹果公司推出的iphone4S智能手机搭载了一项语音识别功能Siri，用户只要动动嘴，手机会从“知识问答引擎”中寻找答案，跳过谷歌、百度的所有步骤，直接完成任务，答案精准，免去了打开链接再收寻的烦恼，而且回答以自然语言的形式呈现，可帮助编辑人员提高搜索效率。在数字编辑出版中，需要一段王楠比赛的视频，利用中科院声学所开发的“中文电视广播新闻节目识别系统”，编辑人员只要动嘴说出“侧身抢拉”、“前三板”等词，系统就可以找到精确到秒的视频片段。如果想找一部电影里的精彩片段，只需记得其中的经典台词即可精准搜索。喜爱音乐的编辑常有这种情况：反复哼唱某段旋律，希望能想起这是哪首歌，却一直想不起来。如果使用哼唱搜索引擎——Midomi，对着麦克风哼唱几秒钟，便可容易找到想要的歌曲，它甚至可以自动纠正曲调的错误。在哼唱搜索技术方面，百度、谷歌、微软、中科院等研发机构近年推出了许多产品，其中 “KTV 语音点歌解决方案”早已应用于卡拉OK 包房内的点歌系统。

　语音识别技术应用于搜索引擎中，可为期刊编辑提供精准、方便、快捷的技术手段，并为所有能发音说话的人提供互联网服务。对下一代搜索引擎来说，语音搜索是未来发展方向。有专家指出，具有 “智能搜索引擎”潜力的语音识别技术将对谷歌、百度形成重要威胁。语音搜索一旦得到进一步普及，用户们会习惯于利用语音搜索来寻找他们想要查找的信息，如此一来，靠广告和流量生存的谷歌还有什么价值呢？因此，语音识别技术有可能成为目前搜索引擎的终结者。

二、语音识别技术在记者采访中的应用

采访是记者同采访对象进行语言交流的动态过程。目前，媒体的采访有两大问题困扰记者：一是，访谈采用笔录、摄影及录音、录像等形式记录，记者在采访结束后，还需要对录音翻译成文字，这是一个费时费力的苦差事；二是，许多采访活动会涉及到与非母语的外国人士交谈，由于语言的不通，不利于交流，影响采访的展开。为解除这两大困扰，科研人员经过长期的努力，提出了许多有效的解决方案，其研究成果也已应用于实际。

利用谷歌开发的在线文本翻译器，记者在采访过程中，可以使用母语对设备讲话，设备随后将记者的声音转化成被采访者所希望的语言，并以人造合成声音的方式输出。受访者也可以使用母语与记者对话，该设备会将受访者的语言转化成记者的母语，保证了记者与外国人员的交流畅通。苹果公司发布的iphone4S智能手机，由于新增语音控制功能——Siri，使手机更像是一个自然语言翻译机器人。在手机iPhone 4S上运行一种名为Lingual的应用后， Siri就会将用户的讲话显示在iPhone屏幕上，可供选择的语言达30种。由BBN公司开发的翻译设备TransTalk，也是一项可以允许使用不同语言的人进行双向对话的有效翻译手段。

我们大可以设想一下这一 “语音控制时代 ”的采访和写作，一旦采访者与被采访者的灵思闪现，只需要拿出自己的智能设备，对其发出指令，随意念出所思所想，这将是新时代的口述文学。对于国际旅游者来说，如果语音识别技术能完美地应用于智能机中，这将是一大福音,只会汉语也能走天下的日子已经不远了。

三、语音识别技术在文件输入中的应用

电脑的诞生给传统的纸笔书写带来了新的技术革命，较之传统的手写方式，电脑书写拥有不可比拟的优势。但是，要掌握一种输入法并熟练操作不是一件容易的事，电脑打字也并非适合所有人群；而且长时间坐在电脑面前操作，容易造成眼睛的伤害，电磁辐射也在时刻威胁着人们的健康；工作的繁忙与灵感的转瞬即逝，也对文字输入效率提出了更高要求。语言是人类最简单、最快捷、最方便、最自然的思想表达方式，也是人类思维的工具，人们一直都企盼着通过语音操控机器为人类服务的时代到来，实事上，这个时代已经来到了我们身边。

微软开发的Windows7的语音识别系统，可以通过编辑人员的字词朗读听写文本，打出常用格式的文字用以编辑写作；可以创建文本文档，也可在文档中进行修改或更正错误。如果计算机识别有误，可以说“更正”，接着说出错误的字词，系统会及时作出修正。除了打字外，在Windows的语音识别程序中，还包括16个常用命令，9项常用控件命令，31项文本处理命令，15项窗口命令，5个点击屏幕任意位置命令，以及另外的几组键盘命令，编辑人员可以用口语对计算机下达命令，让Windows按照人们的语音命令进行操作。讯飞口讯是一款基于“云计算”方式实现的手机听写软件, 开口说话就能够实现文字的输入，还可以将语音转换为文字后通过短信、邮件进行发送,或者分享到新浪微博、腾讯微博和开心网。讯飞口讯、讯飞语音输入法还能根据用户的断句自动添加标点符号，极大提升编辑人员的文字输入效率。中科院语言声学与内容理解重点实验室开发的“中文电视广播新闻节目识别系统”，也具有打字功能，只需要让系统“收听”一段广播电视节目，例如“新闻联播”节目，系统会自动将节目内容生成文字。现在市场上有一种翻译摘录笔也非常适合编辑记者要求，它是一款采用图像识别技术而研发的文字输入工具。通过翻译摘录笔，可快速将书刊中的内容扫入“笔”中，可随时查阅、修改，能存储300万汉字，并可以快速传输到电脑、手机、掌上电脑等设备中，比手写快几十倍。

作为编辑，常常为打字慢而烦脑．利用语音识别和图像识别技术，能够高效快捷地输入输出文字，可以提高电脑的使用效率，把编辑从简单劳动中解放出来，将更多的时间放在编辑策划等有创造性的工作上，这也是提高期刊编辑质量的一个有效方法。

四、语音识别技术在文字校对中的应用

校对是期刊编辑出版过程中的一个重要环节，其任务是根据原稿订正排印或缮写的错误。我们常说的编校质量，很大程度上指的是校对质量，它决定着刊物的内在质量。编辑加工除改错外还有补漏、删繁、润色、升华等内容，编辑质量的高低体现在原稿上留错的多少，而校对工作的质量则体现在出版物上留错的多少。编辑工作的疏漏，由校对工作来弥补和完善，校对工作的失检则无可挽回地成为出版物中的差错 .

文字的人工校对工作辛苦且枯燥，稍不注意就会出现漏校和错校，即使经过三校也难免不犯错误。采用语音识别技术，稿子校对就省事多了，不必两眼昏花，一边看稿子一边看屏幕，可极大提高工作效率，减少错误率。即时语音校对软件 InsTalk 是面向 Windows的工具软件。软件安装后，显示屏右上角出现三个开关按钮。如果你要在一个打开的Word文档中输入汉字、数字和英文字母，电脑附带的喇叭可以跟随录入的字符即时发出相应的汉语普通话语音，通过语音的提示，便可知道字符是否输错，这对用五笔或其它形码的用户而言更显得意义重大，很多常犯的和稀奇古怪、莫名其妙的错误都可以在汉字输入过程中避免。文档输入完后，你还可以让电脑朗读全文帮助校对文字，方法是将要校对的内容选中，再点击朗读按钮，电脑喇叭就从前到后依次朗读所要校对的内容。之前需要两个人校对的工作，现在只需要一个人就可以完成。此外，你还可以把看书变成“听书”。比如，你从网上下载一部小说，然后让计算机用普通话给你朗读，你就可以闭上眼睛“看书”了。这项功能也为盲人学习使用电脑键盘提供了保障。虽然InsTalk软件提供了快捷的校对手段，但智能化程度不高，例如语法、句子结构、词语搭配、专业术语、政治问题、领导人职务及排序、涉台问题以及目录、序号、科技计量、标点等错误，还不能有效检测校对，而黑马校对系统却在以上问题上有专攻。黑马校对软件主要是采用图像文字识别技术而研发出的校对系统，它包含七十多个专业库，支持各种排版软件。系统安装到电脑后，打开一个要校对的文档，电脑将对整篇文件进行扫描，将错误的地方标上红色，疑似错误标为蓝色，点击“修改”键，光标落在了第一个错误处，修改后再点下一个，直到全部修订完成。目前国内已有95%以上的出版社、近万家的报刊、印刷企业、文化公司和机关办公等单位和个人正在使用黑马校对平台。

将InsTalk与黑马软件相配合不仅可以提高文章的文字质量，严防差错，还大大提高了工作效率，减少了人工劳动强度，校对速度快质量高。

五、语音识别技术在刊社管理中的应用

语音识别技术在刊社管理中也大有用武之地。

首先，过期期刊收藏检索。过期期刊记载着刊社发展历史，是刊社宝贵的内容资源，也是编辑经常查阅信息的数据库。使过期期刊的收藏与管理逐步向标准化、现代化方向发展，这是过期期刊管理工作的基本要求和发展趋势。微软的SAPI是Windows操作系统下的语音识别开发平台，通过此系统，用户只需说出想检索的内容，系统会自动识别用户的语音，返回检索结果，显示馆藏书目、借阅情况等信息，为用户提供更加方便快捷的服务。

第二，办公设备遥控。利用手机或其它手持电子终端，通过语音可以远程控制办公室的电器设备，如电脑、空调、电视机、VCD、电扇、窗帘的操作。而且一个遥控器就可以把办公室的电器皆用语音控起来，这样，可以让令人头疼的各种电器的操作变得简单易行。

第三，外语培训。思必驰公司开发的口语在线学习平台——声动之芯，可以测试语言发音、音调、节拍、音量等的标准程度，非常适合刊社人员的语音培训。编辑对着麦克风读出需要练习的字、词、句，系统就会自动打分并实时地把得分、发音纠正等评测信息反馈出来。整个学习过程摆脱了老师和课堂的限制，只要有电脑和网络，学习者就能随时进行口语练习评测，练就一口地道的英语发音。

第四，分机呼叫。中科信利智能总机系统TIDS(即“电脑接线员”)，可以提供电话自动转接服务。它可以取代人工接线员，当用户拨打电话到该系统, 在听到简短的提示音之后说出所要找的人名, 该系统就会用语音识别技术识别出用户想要找的人，将电话转接到相应的电话分机，它特别适合于装有集团电话的期刊、图书出版社。

除以上所列之外，运用语音识别技术还可以代替会议活动的速录，管理刊社车辆的使用，单位的防火防盗，员工上下班考勤等诸多方面．

语音识别技术发展到今天，其应用系统对中小词汇量非特定人语音识别精度已经大于98%，对特定人语音识别精度就更高。但是对连续、大词汇量和非特定人的语音识别要达到高精度，还有较长的一段路要走；在任何环境下都能实现人机自由对话，其难度会更大，这不仅需要基础理论的突破，更需要大量真实用户数据积累后的系统自动学习和演进。

本文所介绍的各类应用系统，已经能够满足期刊编辑通常的应用要求，但也有不足：一是，对不同的人，因为普通话水平有差别（即口音的差别），其识别率高低会不同，因此需要对某些用户做一定的自适应训练后才能更准确识别；二是，识别系统的环境适应性尚不尽人意，在噪音环境下语音识别性能还不够理想；三是，由于知识表达等的问题，听写机系统还不能完全取代键盘的输入；四是，语音识别系统在实验室演示效果很好，但转化为商品应用于实际，还有许多具体问题需要解决，比如，识别速度、识别的准确度和人性化等，因此还需要有一个不断提高和升级的过程。

随着技术的不断发展、进步，语音识别技术必将广泛应用于期刊工作的方方面面，实现人机的完美交互，从根本上改变传统工作方式，将编辑的手从键盘中解放出来，以高效、快捷的手段，带动期刊编辑质量的提升。为适应新技术对编辑工作的要求，科技期刊编辑人员不仅要从专业上不断充实自己，还要不断拓展自己的知识领域，掌握现代技术手段，不断推进我国期刊向现代化和国际化方向发展。（发表于《中国编辑》2012年第5期，页码：39-42）

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：ZC同志的主要先进事迹

后一篇：重庆园博园菊花展

新浪BLOG意见反馈留言板　欢迎批评指正