仿真语音代理人
时间:2006年4月13日19:00
地点:广州大学城
英国总领事馆文化教育处
主持人:首先大家欢迎来到英国总领事馆文化教育处在广州大学城举办的首次科技咖啡馆沙龙活动,希望大家给一点掌声来自远方的客人们。
大家来到现场都可以看到大家玩的游戏也是很明显,“科技咖啡馆”这5个字是非常重要的,其实科技咖啡馆是一个怎么样的东西,其实从字面上大家了解了,大学生都明白,为什么在咖啡里面聊科技?咖啡馆给人的感觉就是轻松,悠闲一点,今天的活动也非常有新意,平时在咖啡厅都是聊天聊地,今天在咖啡馆聊科技的东西,平时科技离我们比较远,今天是离得比较近。其实说真的,我们通常聊科技的地方都是在学校,在课堂,我们今天来到轻松的地方,科技咖啡馆里面,在场每一位朋友都是非常幸运的,因为咖啡馆也不是经常有,而且都是免费的,在咖啡馆的活动中,会把全新的信息带给大家。这个科技咖啡馆开办了两年,比如我们有聊过机器人和人、绿色地球等等的话题,今天是“仿真语音代理人”,这是怎么样的东西呢?我一开始也不是很了解,举一个例子,我们每天很辛苦,如果想喝咖啡,就跟机器人说想喝咖啡,然后这个机器人就会把咖啡送来给你,说不定哪一天我们也下岗了。
我们刚才聊的是科技咖啡馆之前的活动,可能大家有一点陌生,我们看一下MV,是最近两年活动的片断,大家也可以了解一下细节,因为待会也会有一些关于细节方面的问题,当然也有礼品送给你们的。大家在画面中可以看到一些提问的环节,待会我们活动也有相类似的环节。
2006年4月13日,今天我们的活动是仿真语音代理人。非常感谢,我们刚才也说了,在看片子也要注意一下,因为看完之后,有几个问题问大家,大家在看之余可以回想一下刚才在画面中出现的小小细节,刚才在画面中看到有很多提问的环节,在接下来的活动中,我们也是安排很多提问的环节,其中跟大家说一下,在今天的活动里,我们安排了手机短信的提问方式,如果你听讲座的同时有什么疑问可以发到13242847912,待会儿有专门的环节为大家解答,你们发送问题,今天晚上有一个评选问题的环节。
先到我们两个问问题,大家解答一下我们的问题,这时先问一下,刚才大家看到画面当中,今天的活动沙龙究竟叫什么名字呢?我见到一位女生举手的,很快,但是玩这个游戏也不是很快,让她回答一下,究竟今天晚上活动的沙龙叫什么?
现场观众:科技咖啡馆仿真语音代理人。
主持人:希望大家有一点掌声,可能她的想象力也想到后面的环节,她看得非常认真。
这个时候,就是第二条问题,究竟今天晚上的活动主题是什么呢?抢答。
现场观众:仿真语音代理人。
主持人:这个答案是正确的,奖品送给你。第三个问题,刚才我们在播放MV过程中,出现了很多主题,第三个问题是能不能说出刚才一个播出活动的主题。
现场观众:一个是05年的零碳城市。
主持人:希望给她一点掌声。
现场观众:03年的运动与科技,04年的太空猎奇。
主持人:你是什么学校的,记忆力那么好?
现场观众:我也是广大的,我只是用笔记下来而已。
主持人:刚才大家有没有关注在4月13日的仿真语音代理人下面有一个名字,他是谁呢?这个问题不用答,待会还有问题可以回答。欢迎今天来自于我们英国纽卡斯尔大学的Patrick Olivier博士,现场给一点掌声欢迎一下他,以下的时间交给他。
Patrick Olivier:大家晚上好,我的名字叫Patrick Olivier,首先很感谢大家今天晚上来到这里和我们一起探讨科学问题,交流思想。我想说今天我来到这里,当车驶入大学城的时候,我看到这里的校舍规模和校园是这么多,我有生以来,从来没有看到过这种现象,我受到了感染。
首先我想给大家介绍一下所谓的ECA,也就是仿真语音代理人是什么意思。那么,我们看一下需ECA这三个字是什么意思,E的意思就是仿真,也就是说有一个身体的形象存在于电脑的界面上,C就是可以利用语音的手段跟人类进行沟通,第三个词A就是具有独立的意志和表达欲望的个体。
我想首先谈一谈电脑的一些问题,今天我们使用的电脑有什么问题呢?首先就是它使用起来不太方便,要用Windows系统来使用电脑,而Windows本身也是比较复杂的操作程序。电脑使用的困难不仅仅是针对老年人或是不熟悉电脑技术的人而言,即便对于我这样的人来说,也并不是很容易,我本身取得电脑技术的学士学位,两个电脑技术的硕士学位和一个电脑技术的博士学位,并且我从事了10年的电脑工作,像我这样子有丰富经验的人,也只能使用Windows的部分功能。因此我们需要比Windows更加好的沟通方式,我们要突破传统的界面来实现沟通,我们要看一下人际关系和人与技术的关系怎么体现。所以我们首先要在这方面做了一下实验,我想接下来给大家介绍一下,在这几年时间内,我们在人使用电脑行为方面所做的观察和分析,这里我会用斯坦福大学的研究结果,他们的第一个研究结果就是人对电脑是非常有礼貌的,斯坦福大学的研究人员对受访的对象给一个电脑上进行操作的学习程序,在完成学习程序之后去访问受访者这个程序怎么样。因此,他们的研究方法就是首先把人分成不同的组,要去访问第一组人在某一台电脑上使用学习程序的感觉怎么样,然后再去访问另外一组人,这一组人是在另外一间房里面使用另外一部电脑的学术操作,再访问他们的感觉怎么样。他们调查的结果是一旦这种学习程序在计算机上运行,人们对这种学术的程序就是大幅度提升,所以第一组人给的是一种积极的反馈,而另外一组人给的是另外的学习程序系统,他们就认为这种学习的效果不是太好。不仅仅是人们对电脑很礼貌,而且人们通常会比较喜欢那些能够讨好他们的电脑,也就是说人们希望电脑能具有一定的性格,而这种性格跟电脑使用者的人性相称。所以看起来问题就找到了解决的方法,因为人们喜欢把电脑当成人来对待,所以似乎我们应该要进行人与人之间的沟通,而不是人与传统的Windows界面的沟通。
但是这个问题又接踵而至了,如果我们要像与人交流一样跟电脑交流,其前提是电脑要懂得人类的语言,电脑首先要会识别人类语言的话语成分。所以,由于我们没有办法让电脑理解人类的语言,而这种基于语言理解所造成的障碍,就令科学家和语言学家多年来未能探索,而且多年来这方面还没有取得实质的进展,我们还需要很多年才可以解决这个问题,这里我给大家介绍几个图示就是从话语的传达方式到理解到给出反应,这是一个很复杂的过程。假设我们现在已经解决了电脑识别人类语言的年难题,我想10年之内还无法解决这个问题,可能还需要20年或是50年,甚至更长的时间,我假设已经解决了这个问题,另外需要考虑的就是我们还需要什么,才可以实现人与电脑有效的沟通。所以,我们下来要解决的问题,也许人们并不希望跟一个空洞的声音进行交流,也许人们是希望声音来自一个形象的,左边的照片就是电视屏幕上人的形象进行交流,右边就是使用虚拟的形象进行交流的场景。但是为什么我们希望电脑具有人的身体,难道电脑懂得人的语言不已经足够了吗?难道电脑可以听得懂理解人的话,就已经够了吗?为什么在这个基础上,我们还需要电脑具备人类的形象呢?我们下面要看一下我们身体是怎么构成的,并且我们身体每一个部分可以发挥什么样的交际功能。
我们先来看一看头,我们的头这个部分对于我们进行有效的沟通起到什么样的作用或者说在电脑上一个虚拟的头部可以怎么样帮助我们进行沟通呢?我们知道,人的头部是有嘴的,因为电脑这个虚拟形象上,如果有嘴的存在,当电脑跟我们进行对话时,嘴部会有动作,而且嘴唇也会相应的移动,很多实验证明,如果我们可以看到嘴部在行动时,就可以更好地理解话语。当然头部上还有眼睛,眼睛也能帮助我们进行有效的沟通,因为一旦我们和别人四目相对,我们就知道这一轮交际将轮到谁进行发言了。
当然头部还有面,面部可以帮助我们了解话语之后人的思维在想些什么,所以当电脑的虚拟人听不懂你说的话,就会露出很困惑的表情,或是需要深思的时候,就开始把头转向其他的地方。
如果说电脑上的虚拟人需要头部的话,那为什么还需要身体部分呢?身体的部分怎么样可以帮助我们和电脑虚拟人进行沟通的呢?当我们交谈时,我们会做出各种姿态,当然这些姿态并不是随意而为的,我们不是在交谈时随便地挥动我们的手臂。我们用的第一组这种姿态就是我们称之为象征性的姿态,比如说竖起大拇指是表示好的,而挥动手表示再见等等。同时,我们还可以有一些指点的姿态,比如我们的手指指向某一个对象或是物体时,也代表某一个意义,比如该你发言了等等。我们还可以摆动我们的手,我们会上下去挥动手,一旦挥动手,意思就是在强调。如果你问我一个问题,比如谁去了市场,我的回答是约翰去了市场,然后你又问我一个问题,约翰去了哪里,当我说“市场”这个词时,我的手就会挥动,也就是说,我在强调市场这个信息点。我们还有很多类似这样的例子,就是我们的手式可以超越言语本身给我们额外的信息。我们可说一句话,说他反着把这根棍子拗弯了,可能我用不同的身体语言,意思会不同,所以,这些动作往往都是我们在现实生活中动态的表达,比如棍子的存在,还有拗弯棍子的行为等等,当然事物并不总是这样真实的存在,有一些事物是比较抽象的。我可能会说,我有一个很好的点子,我手所指的东西就是我的点子。
所以,我们在生活中有一系列的表达方式来表达我们的各种情感,因此我们不单需要头,也需要身体的语言,如果我们想和电脑进行像和人一样的沟通,我们也需要电脑具有和人一样的表达能力。
下面,我们给大家看几个例子,就一些仿真语音代理人的例子,他们长得什么样子,他们做一些什么样的事情。刚才是一个例子,就是一个仿真语音代理人扮演的是天气预报员的角色。
这个是我们在英国设计制造的一个仿真语音代理人,她是为一个银行的购房系统服务,也就是给人家一些建议,怎么样做分期付款。当然这种仿真语音代理人不仅能够应用在电视上面,我们还可以在家居生活中应用他们,这就是英国设计的智能电冰箱,电冰箱就有一个仿真语音代理人,你可以跟你的冰箱讲话。所以大家可能会同意,也就是说,如果我们可以跟电脑进行沟通,也许更好的一种方式就是能够和一种仿真语音代理人进行沟通。当然,我们首先还需要更深入了解人们使用面部、使用身体进行交流的种种方式,在这个方面,我们还需要一些科学的解释。所以,我们就有一种新兴的学科,叫做身体姿态学,就是研究人们在沟通时面部表情的变化,身体语言的使用等等,因此我们使用了一种在电子游戏中经常会使用的动作捕捉设备,通过它可以捕捉到人身体的一些细微动作。我们在进行研究时就发现人和人是有很多的不同,而使用这种身体语言的差异,不仅体现在不同的个体之间,也体现在不同的文化之间。
下面,我给大家出一道题,我会在电脑上演示一个仿真语音代理人,他所有的身体语言都是按照一个真人的身体语言移植过去的,我希望大家看了之后回答我一个问题,就是这个人是一个西方人,还是一个中国人,还是一个欧洲人?大家觉得怎么样,是欧洲人,还是中国人?这个人是一个欧洲人,他是我,所有的动作都是我的动作。
我下面很快总结一下,就是现存的电脑都非常难以使用,但是我们能够知道的就是人们对待电脑的态度往往就是相当于人的态度,他们对待电脑是非常礼貌,非常好的。所以人们也希望可以像真人一样和电脑进行交谈。为了实现这种人和电脑之间的交谈,我们就需要一个界面,而界面存在的三个因素就是话语、头、身体,所以,我们就需要虚拟的人出现,而这个虚拟的人也可以叫做ECA,就是仿真语音代理人。
谢谢大家。
加载中,请稍候......